تمكّن Deepmark AI من بناة الذكاء الاصطناعي من اتخاذ قرارات مستنيرة عند الاختيار بين نماذج اللغة الكبيرة (LLM) ، مما يتيح تقييمًا سلسًا لمختلف LLM على بياناتك الخاصة ، وبالتالي فإن تطبيقات الذكاء الاصطناعى لديك يمكن التنبؤ بها وموثوقة.
من المتوقع أن تساهم الذكاء الاصطناعي (AI) بحوالي 15.7 تريليون دولار في الاقتصاد العالمي بحلول عام 2030 ، وفقًا لدراسة أجريت أجريت على PwC. مع استمرار منظمة العفو الدولية في لعب دور حاسم في مختلف المجالات ، ظهرت الذكاء الاصطناعي ونماذج اللغات الكبيرة (LLM) كفكرة بناء قوية في إنشاء تطبيقات تعمل بالطاقة الذكاء الاصطناعى القادرة على توليد قيمة عمل هائلة و AI التوليدي هي العنصر الرئيسي في هذه الأنواع من التطبيقات.
أشعلت الذكاء الاصطناعى ثورة في العقد الماضي والآن خبراء موضوع الذكاء الاصطناعى في معهد ماساتشوستس للتكنولوجيا (https://horizon.mit.edu/about-us) يعتقدون أن الذكاء الاصطناعى التوليدي ستحول العديد من المجالات مثل تطوير التعليمات البرمجية ، و chatbots ، والصوت/الفيديو من بين العديد من الآخرين. مع تقدم شركات الذكاء الاصطناعى التوليدي مثل Openai ومنتجاتها مثل ChatGPT ، هناك قضايا قانونية وأخلاقية وثقة مع Gen AI. تتوسل هذه التحديات إلى الحاجة إلى تقييم جيد للمنتجات بما في ذلك المقاييس التي تحتاج إلى تهدف إلى تحسين أو تصنيف هذه النماذج المختلفة التي تدفع التكنولوجيا الكلية. هذا هو أيضا حاجز لتكييف Genai في العديد من الشركات اليوم.
وفقًا لتقرير HBR الأخير: لا يمكن أن تعمل الذكاء الاصطناعى التوليدي على أساس مجموعة وإهانة-تحتاج الأدوات إلى إشراف ثابت.
على الرغم من أن مقاييس التقييم محددة بوضوح ، وعادة ما يتم تقييم المقاييس الجوهرية على الفور تقريبًا عند إصدار نموذج LLM ، لا توجد أدوات متاحة (مفتوحة المصدر أو الملكية) التي تمكن المطورين من إجراء تقييمات خاصة بالمهمة (الجوهرية) على بياناتهم الفريدة. الحل الوحيد القريب منه هو Langchain Langsmith ، الذي لا يزال في بيتا مغلقة ولا ينضج بما يكفي لتوفير مقاييس خارجية شاملة ضرورية للتبني.
باختصار ، تحتاج المؤسسات إلى أن تكون قادرة على تقييم نماذج LLM على بياناتها الخاصة لتقديم نتائج يمكن التحقق منها التي توازن الدقة ، والدقة ، والاستدعاء (قدرة النموذج على تحديد الحالات الإيجابية بشكل صحيح داخل مجموعة بيانات معينة) ، والموثوقية ، حيث يمكن للموثوقية أن تنتج إجابات مختلفة على المطالبات نفسها ، مما يعيق قدرة المستخدم على تقييم الدقة في المخرجات.
لمواجهة هذا التحدي المتمثل في الموثوقية ، قمنا (Ingestai Labs) بتطوير Deepmark AI - وهي أداة قياس تتيح تقييم نماذج اللغة الكبيرة (LLM) على مقاييس خارجية (خاصة بالمهمة) على بياناتك الخاصة. إنه يحتوي على تكامل مسبقًا مع واجهات برمجة التطبيقات AI الرائدة مثل GPT-4 ، والأنثروبولوجيا ، و GPT-3.5 Turbo ، و Cohere ، و AI21 ، وغيرها.
مقاييس تقييم Genai (LLM) الحالية
عندما يتعلق الأمر بتقييم أداء LLMS ، هناك نوعان رئيسيان من المقاييس التي يمكن استخدامها: جوهري وخارجية.
تشمل أمثلة المقاييس الجوهرية ، لكنها لا تقتصر على
قد تشمل المقاييس الخارجية ، أو تسمى أيضًا المقاييس الخاصة بالمهمة:
مقاييس التقييم هذه ليست شاملة ، وقد يكون للتطبيقات المحددة مقاييس إضافية أو بديلة اعتمادًا على السياق والمتطلبات ، ولكن يمكن اعتبار بعض المقاييس الخاصة بالمهمة مثل الكمون أو الدقة أو التكلفة الأكثر استخدامًا.
تتيح Deepmark AI بيئة اختبار فريدة لنماذج اللغة (LLM) ، مما يسمح لمطوري GENAI بتشخيص عدم الدقة وقضايا الأداء بسهولة في غضون ثوانٍ. باستخدام Deepmark AI ، يمكن لمطوري تطبيقات الذكاء الاصطناعي تشغيل نماذج متعددة LLM على مئات أو الآلاف من التكرارات على مهام محددة (إجابة الأسئلة ، تحليل المشاعر ، NER ، إلخ) والحصول على نتائج تقييم دقيقة في ثوان.
Deepmark AI هي أداة مصممة خصيصًا لبناة الذكاء الاصطناعى التوليدي. يركز هذا الحل على التقييم التكراري للمقاييس الخارجية (الخاصة بالمهمة) لتحديد نماذج الذكاء الاصطناعي القابلة للتنبؤ بها وموثوقة وفعالة من حيث التكلفة استنادًا إلى الاحتياجات الفريدة لحالة استخدام معينة. يقدم Deepmark AI إمكانات للتقييم الشامل لمختلف مقاييس أداء Genai المهمة ، مثل:
تمكن Deepmark AI من المطورين والمؤسسات من اتخاذ قرارات مستنيرة عند التنقل في أهم مقاييس الأداء في نماذج اللغة الكبيرة.
اعتماد المستخدم:
منذ إطلاقه في فبراير 2023 ، اكتسبت Ingestai Labs Plantorm (Playground ، AI Agregator ، App Builder) شعبية كمنصة تعتمد على المجتمع للاستكشاف السريع والتجريب والنماذج الأولية السريعة لمختلف حالات استخدام الذكاء الاصطناعي.
اكتسبت المنصة اعترافًا كبيرًا في الصناعة:
في أقل من عام واحد ، جمع Incestai قاعدة مستخدمين مثيرة للإعجاب تضم أكثر من 40،000 فرد ، مع ما يقرب من 15000 مستخدم نشط على أساس شهري وعدد قليل من الشركات المتداولة في بورصة ناسداك بين العملاء وفي خط الأنابيب. يتحدث هذا المستوى من الجر إلى قدرة النظام الأساسي على جذب المستخدمين وإشراكهم وتوليد قيمة العمل.
الموثوقية هي عامل حاسم في تحديد فعالية نماذج الذكاء الاصطناعي. يقدم Deepmark.ai.ai تقييمات شاملة للموثوقية من خلال تقييم الأداء النموذجية في ظل ظروف مختلفة والتقاط نقاط فشل محتملة. وهذا يمكّن المطورين من تحديد مجالات تحسين وتعزيز الموثوقية الشاملة لتطبيقات الذكاء الاصطناعي.
ضمان دقة نماذج الذكاء الاصطناعى التوليدي أمر ضروري لتوليد مخرجات عالية الجودة. يوفر Deepmark.ai.ai للمطورين أدوات لتقييم دقة نماذجهم بدقة من خلال إجراءات الاختبار والتحقق من الصحة الشاملة. من خلال الاستفادة من التقنيات الإحصائية المتقدمة ومنهجيات المقارنة ، يمكن للمطورين استخلاص رؤى ذات مغزى في دقة تطبيقات الذكاء الاصطناعي.
يعد فهم الآثار المترتبة على التكلفة قبل نشر نماذج الذكاء الاصطناعى التوليدي أمرًا حيويًا لتحسين تخصيص الموارد وزيادة العائد على الاستثمار. يشتمل Deepmark.ai على تحليل التكاليف ، مما يمكّن المطورين من تقديم تقديرات دقيقة للمتطلبات المالية المرتبطة بتشغيل تطبيقات الذكاء الاصطناعى على نماذج Genai المختلفة. من خلال توفير توقعات التكلفة ، يساعد Deepmark.ai للمطورين على اتخاذ قرارات مستنيرة لتحقيق حلول فعالة من حيث التكلفة.
ضمان أهمية المخرجات التي تم إنشاؤها أمر بالغ الأهمية ، لا سيما في التطبيقات التي يتم فيها استخدام الذكاء الاصطناعي التوليدي لمعالجة حالات الاستخدام المحددة. Deepmark.ai.ai يسهل تقييم الأهمية من خلال تزويد المطورين بأدوات لمقارنة المخرجات التي تم إنشاؤها مقابل المعايير المطلوبة. يتيح ذلك للمطورين ضبط نماذجهم وضمان مواءمة المحتوى الذي تم إنشاؤه مع الأهداف والمتطلبات المقصودة.
يعد تقييم الكمون في واجهات برمجة التطبيقات لنماذج الذكاء الاصطناعى التوليدي ذا أهمية حاسمة لتقديم تطبيقات عالية الجودة وفعالة تعمل بالنيابة. يشير الكمون إلى الوقت المستغرق للحصول على استجابة بعد تقديم الطلب وهو مؤشر محتمل للأداء. من خلال تقييم الكمون ، يمكن لمطوري الذكاء الاصطناعى تحديد عدم الكفاءة والتأكد من أن تطبيقات الذكاء الاصطناعى تؤدي بسرعة مثالية. هذا يساهم في رضا المستخدم بشكل عام ويؤثر على موثوقية ومصداقية تطبيقات الذكاء الاصطناعي.
يعد تقييم معدلات الفشل ومراقبة المئات أو الآلاف من الطلبات جانبًا أساسيًا لتقييم متانة تطبيقات الذكاء الاصطناعي. يقدم Deepmark.ai قدرات تقييم معدلات الفشل ، مما يسمح للمطورين بتتبع معدلات الفشل بسلاسة على مقاييس مختلفة ، من مئات إلى آلاف الطلبات في الثانية. من خلال توفير نظرة ثاقبة على أنماط الفشل المحتملة ، تمكن Deepmark.ai المطورين من معالجة المشكلات بشكل استباقي والحفاظ على الأداء الأمثل.
إن دمج تقنية Deepmark.ai التي طورتها Ingestai Labs ضمن تطوير الذكاء الاصطناعي يمكن أن تسفر عن العديد من المزايا ، بما في ذلك:
يعطي Deepmark.ai الأولوية القدرة على التنبؤ وفعالية التكلفة من خلال تزويد المطورين بمقاييس تقييم موثوقة وتقديرات التكلفة وتوصيات التحسين. هذا يمكّن المطورين من اتخاذ قرارات مستنيرة ، مما يقلل من المخاطر المرتبطة بتصميم ونشر تطبيقات الذكاء الاصطناعي.
من خلال الاستفادة من البيانات والدقة ، يمكّن Deepmark.ai المؤسسات من الابتعاد عن الاعتماد فقط على الحدس عند تقييم نماذج الذكاء الاصطناعي. هذا النهج القائم على البيانات يغرس الثقة في عملية صنع القرار ، مما يسمح بدقة ودقة أكبر في تطوير تطبيقات الذكاء الاصطناعي.
تساهم قدرة Deepmark.ai على تقييم الموثوقية والدقة والأهمية وكفاءة التكلفة بشكل شامل في تعزيز الجودة الشاملة لتطبيقات الذكاء الاصطناعي. من خلال المراقبة المستمرة أو التقييم الدوري ، يمكن للمطورين تحسين أداء نماذجهم بشكل تكراري (على سبيل المثال عن طريق تحسين metapromts أو ضبط الأداء) ، وضمان الأداء الأمثل ورضا المستخدم.
تعمل Ingestai على بناء نموذج اكتشاف التحيز الخاص استنادًا إلى مجموعة بيانات مقارنة خاصة تتكون من 7،5،5 ملايين الطلبات المتنوعة والاستجابات لنماذج اللغة الكبيرة المختلفة ، والتي يتم تسميتها واستخدامها في التدريب والاختبار وتحسين تحديد السياقات المتعلقة بالتحيز ، والكشف عن الوقت الفعلي وحلها في التحالفات أو الإجابات. Deepmark AI هي أداة مبنية على نماذج ML الملكية لمطوري تطبيقات الذكاء الاصطناعى والتي توفر تقييمات موثوقة لقدرة التنبؤ ، والدقة ، وكفاءة التكلفة ، وغيرها من المقاييس القياسية. من خلال تحديد أولويات السلامة ، والصدق ، والقدرة على التنبؤ ، وفعالية التكلفة ، مع الاستفادة من البيانات والدقة ، فإن Deepmark AI يمكّن المطورين من بناء تطبيقات توليدية عالية الجودة موثوقة. بفضل ميزاتها وفوائدها الشاملة ، تفتح Deepmark AI إمكانيات جديدة للمؤسسات التي تسعى إلى تسخير الإمكانات الحقيقية للذكاء الاصطناعى.
Docker Image: https://hub.docker.com/r/embedditor/deepmark
يمكنك العثور على إرشادات مفصلة على صفحة Web Docker.
تثبيت Laravel
تخزين PHP الحرفي: الرابط
قائمة انتظار PHP الحرفي: الجدول
هجرة PHP الحرفي
تعيين Bearer_Token في .env
استخدم الرمز المميز من P.5 كرأس HTTP "X-Bearer-Token"
تثبيت الواجهة الأمامية
npm inpm run dev أو npm run build لإصدار الإنتاج