مجال رهيبة LLM
منذ ظهور نموذج اللغة الكبير الذي يمثله ChatGPT ، انطلقت جولة جديدة من البحث والتطبيق ، وظهرت العديد من النماذج العامة بما في ذلك LAMA و ChatGLM و Baichuan و Qwen ، إلخ. بعد ذلك ، يطبق الممارسون من مختلف الحقول على الحقل العمودي من خلال صقل الاستمرار قبل التدريب/التعليمات استنادًا إلى نموذج عام.

يهدف هذا المشروع إلى جمع وفرز نماذج المصادر المفتوحة ومجموعات البيانات ومعايير التقييم في الحقول العمودية. الجميع مرحب بهم للمساهمة في نماذج المصادر المفتوحة ومجموعات البيانات ومعايير التقييم والمحتوى الآخر غير المدرجة في هذا المشروع ، وتعزيز مشترك تمكين النماذج الكبيرة في جميع مناحي الحياة!
؟ تجديد
- [2023/11/26] تعزيز نموذج أمن الشبكة الكبير SECGPT ، طراز Medical Big Model-GPT ، النموذج المالي الكبير Tongyi-Finance-14B ، Financy FinanceBench و CFBenchmark.
- [2023/11/01] أضف حقل DevOps نموذج DevOps-Model وقياس التقييم DevOps-eval الذي تم إصداره بواسطة مجموعة ANT وجامعة بكين.
- [2023/10/28] أضاف نموذج مالي DISC-FINLLM و Medical Model Alpacare و Marine Model Marinegpt.
- [2023/10/19] إضافة نموذج نفسي Mentalllamama ، نموذج الطب الحيوي ثنائي اللغة Taiyi (Taiyi) ، ونموذج المحيط Oceangpt.
- [2023/10/10] أضاف البومة النموذجية الكبيرة وتقييم البومة البومة لحقل التشغيل والصيانة التي تم تطويرها بشكل مشترك من قبل معهد Yunzhi الذكي للأبحاث و Beihang. وأضاف المعيار LAIW لتقييم النموذج القانوني الصيني.
- [2023/10/05] أضاف الطبيب النفسي النموذج النفسي ، النموذج المالي Investlm ، النموذج الزراعي Agrigpt و Medical Model Wingpt2.
- [2023/10/03] تتم إضافة معايير التقييم القانونية ، وهما Lawbench للنظام القانوني الصيني و LegalBench للنظام القانوني الأمريكي.
- [2023/10/01] يهدف Disc-Lawllm المضافة ، وهو نموذج كبير للمجال القانوني المفتوح من قبل جامعة فودان إلى تزويد المستخدمين بخدمات قانونية مهنية وذكية وشاملة. أضف Finglm لإنشاء مشروع نماذج مالية مفتوحة ، ورفاهية عامة ، واستخدام المصدر المفتوح للترويج "AI+Finance".
- [2023/9/25] تحديث QWEN ، وأضف نماذج QWEN-14B و QWEN-14B-Chat ، وقم بتحديث نماذج QWEN-7B و QWEN-7B-Chat. بالمقارنة مع QWEN-7B الأصلي ، يستخدم الإصدار الجديد المزيد من بيانات التدريب (الرمز المميز 2.4T) ، وتم توسيع طول التسلسل من 2048 إلى 8192. تم تحسين القدرة الصينية والقدرة الكود بشكل عام.
- [2023/9/22] أضف Internlm (الباحث Puyu) ، ومختبر شنغهاي AI وتكنولوجيا الحواس بالاشتراك مع جامعة هونغ كونغ الصينية وجامعة فودان مفتوحة المصدر متعدد اللغات.
- [2023/9/15] أضاف Zhongjing-Llama (Zhongjing) ، وهو نموذج للطب الصيني مع عملية تدريب كاملة خاضعة للإشراف و RLHF.
- [2023/9/14] أضف Weaverbird للوصول إلى نموذج الحوار الميداني المالي مع المعرفة المحلية وقدرات البحث عبر الإنترنت.
- [2023/9/13] أضف ماجستير مينغزا ، النموذج القضائي الذي طورته جامعة شاندونغ ، وجامعة Inspur Cloud وجامعة العلوم السياسية والقانون الصينية.
جدول المحتويات
- ؟ نموذج
- النموذج العام
- ؟ نموذج المجال
- ؟ طبي
- ⚖ قانوني
- ؟ تمويل
- ؟ تثقيف
- ➕ الآخرين
- مجموعة البيانات
- ؟ معيار التقييم
- ؟ زائدة
؟ نموذج
النموذج العام
عادةً ما يتم الحصول على نماذج المجال عن طريق التدريب المسبق أو ضبط التعليمات المستمرة على النماذج العامة. نحن هنا ننظم النماذج العامة مفتوحة المصدر شائعة الاستخدام.
| نموذج | مقاس | آلية | ورق |
|---|
| Llama2 | 7B/7B-Chat 13B/13B-Chat 70B/70B-Chat | ميتا | ورق |
| ChatGlm3-6b | 6b-base/6b/6b-32k | جامعة تسينغهوا | ورق |
| Qwen | 1.8b/1.8b-Chat 7B/7B-Chat 14B/14B-Chat 72B/72B-Chat | سحابة علي بابا | ورق |
| Baichuan2 | 7B/7B-Chat 13B/13B-Chat | بايتشوان ذكي | ورق |
| Internlm | 7B/7B-Chat 20B/20B-Chat | مختبر شنغهاي AI | ورق |
؟ نموذج المجال
؟ طبي
جيش الراديو [ورقة]
- CHIMED-GPT هو نموذج طبي صيني يعتمد على ZIYA-V2. استنادًا إلى Ziya-V2 ، تم تنفيذ التدريب المسبق ، والضوء الخاضع للإشراف (SFT) وتعلم التعزيز (RLHF) من التعليقات البشرية بطريقة شاملة.
الألباكير [ورقة]
- يفتح المشروع الألباكير الطبي ، الذي تم ضبطه على لاما.
تايي (تايي) [ورقة]
- يهدف المصدر المفتوح للمشروع من النماذج الطبية الحيوية ذات اللغة الحيوية الصينية والإنجليز ، إلى استكشاف قدرة معالجة اللغة الطبيعية ثنائية اللغة في مجال الطب الحيوي.
Mentalllama [ورقة]
- المشروع المفتوح المصدر المصدر العقلي Mentalllama ، والتي يمكن استخدامها لتحليل الصحة العقلية القابلة للتفسير على وسائل التواصل الاجتماعي.
Wingpt2
- Wingpt هو نموذج عمودي طبي يعتمد على GPT ، يهدف إلى دمج المعرفة الطبية المهنية والمعلومات الطبية والبيانات ، وتوفير خدمات معلومات ذكية مثل الأسئلة والأجوبة الطبية والدعم التشخيصي والمعرفة الطبية لتحسين التشخيص وكفاءة العلاج وجودة الخدمة الطبية.
الطبيب النفسي [ورقة]
- يمكن لطبيب chatpsychiathiatiative ، وهو نموذج نفسي يعتمد على صقل LLAMA-7B ، تحديد المشكلات النفسية بسرعة وتقديم توصيات علاجية مصممة خصيصًا.
Zhongjing-llama (Zhongjing) [ورقة]
- يفتح المشروع أول نموذج كبير للطب الصيني الذي يتضمن عملية التدريب المسبقة للإشراف وعملية التدريب الكاملة الخاضعة للإشراف و RLHF ، مما يدل على قدرة على التعميم الجيد وحتى الاقتراب من المستوى المهني للأطباء المحترفين في بعض سيناريوهات الحوار. بالإضافة إلى ذلك ، كانت مجموعة بيانات محادثة متعددة الدورات تحتوي على 70،000 بالكامل من محادثات حقيقية من الطبيب والمريض مفتوحًا. تحتوي مجموعة البيانات هذه على عدد كبير من جمل الاستجواب الاستباقية للأطباء ، مما يساعد على تحسين قدرات الاستقصاء الطبية الاستباقية للنموذج.
DoctorGlm [ورقة]
- استنادًا إلى نموذج التشاور الصيني لـ ChatGlm-6B ، يتم تحقيق صقل ونشر مجموعات بيانات الحوار الطبية الصينية من خلال صياغة Lora و P-TuningV2 ، إلخ ، إلخ.
Bentsao (مواد العشبية) [ورقة]
- يفتح المشروع مصدر مجموعة لغوية كبيرة تم ضبطها بدقة من خلال التعليمات الطبية الصينية ، بما في ذلك Llama و Alpaca-Chinese و Bloom و Type Type Model ، وما إلى ذلك ، استنادًا إلى الرسم البياني للمعرفة الطبية والأدب الطبي ، إلى جانب طرازات chatgpt لإنشاء النماذج الطبية في النماذج الطبية المتمثلة في أن تكون النماذج الطبية في النماذج الطبية.
Med-Chatglm
- نموذج chatglm-6b من المشروع المصدر ، تم ضبطه بشكل جيد من خلال التعليمات الطبية الصينية ، وبيانات التثبيت هي نفسها Bentsao.
بيانك (بيانك) [ورقة]
- يفتح المشروع مصدر نموذج كبير لصحة مساحة المعيشة. جنبا إلى جنب مع مجموعات بيانات أسئلة وأجوبة طبية مفتوحة المصدر (Meddialog-CN ، IMCS-V2 ، Chip-MDCFNPC ، Meddg ، CmedQA2 ، صينية--ديالوج-ديالوج-data) ، تم تحليل الخصائص ذات الصحة ذات الجولة الواحدة/متعددة الجولة وخصائص استفسار الدكتور ، ومجموعة مع حوار "صحة" ذات صحة ذات صحة كبيرة من الجولة ذات الجولة العالية من الجولة العالية من الجولة ذات الجولة الكبيرة من الجولة المجدية. تم بناء ملايين المستويات. استنادًا إلى Bianque Health Big Data Bianquecorpus ، تم اختيار ChatGLM-6B كنموذج للتهيئة ، وتم الحصول على بيانك من خلال التدريب على صياغة المعلمات الكاملة.
Huatuogpt (Hua Tuo) [ورقة]
- يفتح المشروع أن نموذج Huatuogpt الكبير الطبي ، بما في ذلك Huatuogpt-7B المدربين على أساس Baichuan-7B و Huatuogpt-13B المدربين على أساس Ziya-Llama-13B-Pretrain-V1.
Qizhengpt
- يستخدم هذا المشروع مجموعة بيانات التعليمات الطبية الصينية التي تم إنشاؤها بواسطة قاعدة المعرفة الطبية لـ Qizhen ، واستنادًا إلى ذلك ، يتم ضبط التعليمات على طرازات الصينية بلاما-7 ب ، و CAMA-13B ، و ChatGLM-6B ، مما يؤدي إلى تحسين تأثير النموذج في السيناريوهات الطبية الصينية.
chatmed
- يفتح المشروع مصادر الطراز الطبي الصيني الكبير chatmed-consult ، الذي يستخدم استشارة 50W + عبر الإنترنت + رد ChatGPT لمجموعة بيانات الاستشارة الطبية الصينية عبر الإنترنت chatmed_consult_dataset كمجموعة تدريب ، ويتم الحصول عليها باستخدام Lora Fine Tuning على أساس LAMA-7B.
Shennong-TCM-LLM (Shennong)
- المشروع مفتوح المصدر الصيني الصيني الطب الصينية الطراز كبير Shennong-TCM-LLM. استنادًا إلى الرسم البياني المعرفة في الطب الصيني التقليدي المفتوح المصدر ، فإنه يتبنى طريقة الإقرار الذاتي المتمحور حول الكيان ، وتدعو ChatGpt للحصول على 2.6W+ Traditions Traditive Chinese Medicine DataSty chatmed_tcm_dataset. استنادًا إلى مجموعة البيانات ، فهي تستند إلى LLAMA وضبطها باستخدام LORA.
الأشعة السينية
- يفتح المشروع مجموعات ونماذج طبية صينية متعددة الوسائط من مصادر ، والتي تظهر إمكانات غير عادية في تشخيص التصوير الطبي وجولات متعددة من الحوار التفاعلي.
medicalgpt
- النموذج الطبي المفتوح المصدر للمشروع ، والذي يتضمن تدريبات تدريبية متزايدة ، وضغط خاضع للإشراف ، و RLHF (نمذجة المكافآت ، والتدريب على التعلم التعزيز) و DPO (تحسين التفضيل المباشر).
Sunsimiao (Sun Simiao)
- النموذج الطبي المفتوح المصدر الصيني الصيني Sunsimiao ، الذي تم ضبطه بشكل جيد على أساس نماذج قاعدة Baichuan-7B و ChatGlm-6B في البيانات الطبية الصينية عالية الجودة البالغة 100000.
الرعاية
- يقوم Project Open Source Medical Model Caregpt (Crawppt) ، الذي يجمع أيضًا عشرات من مجموعات بيانات الضبط الطبية المتاحة للجمهور ونماذج لغة طبية كبيرة متوفرة ، بما في ذلك تدريب LLM ، والتقييم ، والنشر ، وما إلى ذلك لتعزيز التطور السريع لـ Medical LLM.
قرص medllm [ورقة]
- هذا المشروع عبارة عن نموذج كبير للحقل الطبي ومجموعة البيانات المصممة لسيناريوهات الحوار الطبي والصحي الذي أصدرته جامعة فودان. يتم الحصول على النموذج عن طريق ضبط مجموعة بيانات القرص المتطرف على أساس تعليمات Baichuan-13B ، ومحاذاة التفضيلات البشرية بشكل فعال في السيناريوهات الطبية وسد الفجوة بين ناتج نموذج اللغة المشتركة والحوار الطبي في العالم الحقيقي.
PMC-llama [ورقة]
- المشروع المفتوح المصدر الطبي Mockup PMC-Llama ، بما في ذلك نسخة مدربة مسبقًا من Medllama_13b وإصدار تم ضبطه من PMC_LLAMA_13B.
Chatdoctor [ورقة]
- المشروع المفتوح المصدر الطبي Medical Chatdoctor ، الذي يتم تدريبه على Llama.
مينغ (مينغ الطبي)
- Ming Medical Medical Medical Medical Medical ، الذي يعتمد على صقل تعليمات Bloomz-7B للحصول على Ming-7B ، ويدعم أسئلة وأجوبة طبية ، والتشاور الذكي وغيرها من الوظائف.
اللبلاب
- المشروع المفتوح المصدر Medical Mockup Ivygpt ، الذي يشرف على صقله على بيانات أسئلة وأجوبة طبية عالية الجودة وتدريبه باستخدام التعلم التعزيز من التعليقات البشرية.
نبض
- Project مفتوح المصدر النموذج الطبي الصيني النبض ، الذي يستخدم حوالي 4،000،000 بيانات التوجيه الدقيقة من الطب الصيني والمجالات العامة لدعم مجموعة متنوعة من مهام معالجة اللغة الطبيعية في المجال الطبي ، بما في ذلك التثقيف الصحي ، وأسئلة فحص الطبيب ، وتفسير التقارير ، والسجلات الطبية المنظمة ، والتشخيص والعلاج المحاكاة.
هوانغدي (إمبراطور)
- يفتح المشروع مصدر الطب الصيني Big Model Huangdi (الإمبراطور). يضيف النموذج أولاً الكتب المدرسية للطب الصيني ، وبيانات موقع الطب الصيني وغيرها من الجسم على أساس نموذج قاعدة Ziya-Llama-13B-V1 لتدريب نموذج ما قبل التدريب مع فهم المعرفة بالطب الصيني. بعد ذلك ، على هذا الأساس ، يتم الإشراف عليها وضبطها من خلال كمية كبيرة من بيانات الحوار تعليمات الطب الصينية وبيانات التعليمات العامة ، بحيث يتمتع النموذج بالقدرة على الإجابة على المعرفة القديم للطب الصيني.
Zhongjing (Zhongjing)
- يفتح المشروع نموذج الطب الصيني Zhongjing (Zhongjing) ، الذي يهدف إلى توضيح المعرفة العميقة للطب الصيني التقليدي ، والحكمة القديمة والابتكار التكنولوجي الحديث ، وفي النهاية توفر أدوات جديرة بالثقة والمهنية للمجال الطبي.
TCMLLM
- يخطط المشروع لتحقيق مهام التشخيص الإكلينيكي للمساعد وعلاج الطب الصيني التقليدي (تشخيص الأمراض ، توصية وصفة طبية ، وما إلى ذلك) وغيرها من أسئلة المعرفة في الطب الصيني التقليدي من خلال نموذج كبير ، وتعزيز التطور السريع لأسئلة وأجوبة المعرفة في الطب الصيني التقليدي ، ومجالات التشخيص السريري وعلاج العلاج. في الوقت الحاضر ، استجابة لمهمة التوصية الموصوفة في التشخيص الذكي السريري وعلاج الطب الصيني التقليدي ، تم إصدار TCMLLM-PR لنموذج التوصية الطبية للطب الصيني التقليدي. من خلال دمج السجلات السريرية في العالم الحقيقي والكلاسيكيات الطبية والكتب المدرسية للطب الصيني التقليدي والبيانات الأخرى ، تم إنشاء مجموعة بيانات توصية وصفة طبية تم بناء مجموعة بيانات صياغة تحتوي على 68 كيلو بايت ، وتم الحصول على صقله على نموذج ChatGLM الكبير.
Mechat [ورقة]
- يفتح المشروع مصدر حوار ودعم الصحة العقلية الصينية ومجموعة البيانات. يتم ضبط النموذج بشكل جيد من خلال تعليمات chatglm-6b Lora 16 بت. تستخدم مجموعة البيانات chatgpt لإعادة كتابة المعونة النفسية المتبادلة الحقيقية لدعم جولات متعددة من الحوارات لجولات متعددة من الصحة العقلية. تحتوي مجموعة البيانات على 56 كيلو متر متعدد الجولات ، ومواضيع الحوار الخاصة بها ، ومفردات ودلالات الفصل أكثر ثراءً وأكثر تنوعًا ، والتي تتماشى أكثر مع سيناريوهات التطبيق للحوارات متعددة الدورات على المدى الطويل.
Soulchat (القلب الروحي) [ورقة]
- يفتح المشروع مصادر نموذج الصحة العقلية Soulchat (القلب الروحي) ، الذي يستخدم chatglm-6b كنموذج للتهيئة ويتم ضبطه بشكل جيد من خلال التعليمات المشتركة للنص الطويل باللغة الصينية في مجال الاستشارة النفسية على نطاق مليون وجولات متعددة من بيانات حوار التعاطف.
Mindchat (أرشيف)
- المصدر المفتوح للمشروع للنموذج النفسي Mindchat (ANIME TALK) ، الذي يستخدم حوالي 200000 بيانات حوار نفسية متعددة الجودة عالية الجودة يدويًا للتدريب ، وتغطية العمل ، والأسرة ، والدراسة ، والحياة ، والاجتماعية ، والسلامة والجوانب الأخرى. من المتوقع أن يساعد الناس على تخفيف التوتر النفسي وحل الخلط النفسي من أربعة أبعاد: الاستشارة النفسية ، والتقييم النفسي ، والتشخيص النفسي ، والعلاج النفسي ، وتحسين مستوى صحتهم العقلية.
Qiaoban (王子)
- المشروع مفتوح المصدر للحوار العاطفي للأطفال النموذج الكبير Qiaoban. يعتمد على النموذج العام المفتوح المصدر ، باستخدام حوار الحاسوب البشري العام ، وبيانات تعليم العجلات الواحدة ، وبيانات الحوار المصاحب العاطفي للأطفال لضبط التعليمات ، وتطوير نموذج كبير مناسب للرفقة العاطفية للأطفال.
⚖ قانوني
قرص lawllm [ورقة]
- يعد Disc-Lawllm نموذجًا كبيرًا للمجال القانوني المصمم لتزويد المستخدمين بخدمات قانونية مهنية وذكية وشاملة. تم تطويره وفتح من مصادره من قبل مختبر ذكاء البيانات والحوسبة الاجتماعية بجامعة فودان (FUDAN-DISC) ، بما في ذلك نموذج DISC-LAWLLM-13B ومجموعة بيانات DISC-LAW-SFT.
lawgpt_zh (xiefeng)
- يتم الحصول على النموذج العام للقانون الصيني المفتوح لهذا المشروع عن طريق ضبط تعليمات chatglm-6b Lora 16 بت. تتضمن مجموعة البيانات مجموعات بيانات أسئلة وأجوبة قانونية حالية ونص قانوني عالي الجودة Q&A تم إنشاؤها استنادًا إلى البنية الذاتية التي تسترشد بها القانون والقضية الحقيقية ، وتحسين أداء النماذج الكبيرة اللغوية في المجال القانوني وتحسين موثوقية الإجابات النموذجية والاحترافية.
Lawgpt
- استنادًا إلى نماذج التمثال الصينية العامة (مثل الصينية الملحة ، ChatGlm ، وما إلى ذلك) ، توسع هذه السلسلة من النماذج قائمة المفردات الملكية في المجال القانوني والتدريب على نطاق واسع قبل التدريب القانوني الصيني ، مما يعزز الفهم الدلالي الأساسي للنموذج الكبير في المجال القانوني. على هذا الأساس ، تم إنشاء مجموعة بيانات Q&A للحوار القانوني ومجموعة بيانات الفحص القضائي الصيني لضبط التعليمات ، مما أدى إلى تحسين فهم النموذج وقدرته على المحتوى القانوني.
ليكلاو
- يعد Lexilaw نموذجًا قانونيًا صينيًا تم ضبطه على أساس بنية ChatGLM-6B ، والذي يسمح لها بتوفير أداء أعلى ومهنية في تقديم المشورة القانونية والدعم من خلال صياغة مجموعات البيانات في المجال القانوني. تم تصميم النموذج لتوفير خدمات استشارية قانونية دقيقة وموثوقة للممارسين القانونيين والطلاب والمستخدمين العاديين. سواء كان من الضروري استشارة قضايا قانونية محددة ، أو استفسارات وفقًا للشروط القانونية ، وتحليل الحالة ، وتفسير اللوائح ، يمكن أن يقدم Lexilaw مشورة وتوجيهات مفيدة.
المحامي لاما [ورقة]
- توجيهي المفتوح المصدر المفتوح لبيانات الضبط الدقيقة في المجال القانوني ومحامي النسيج القانوني الصيني LLAMA على أساس تدريب LLAMA. تم تدريب المحامي Llama أولاً على مجموعة قانونية واسعة النطاق للسماح لها بتعلم نظام المعرفة القانوني الصيني بشكل منهجي. على هذا الأساس ، تم استخدام ChatGPT لجمع مجموعة من التحليل للأسئلة الموضوعية لفحص المؤهلات المهنية الوطنية الموحدة في الصين وإجابات للتشاور القانوني ، واستخدمت البيانات التي تم جمعها لضبط النموذج للسماح للنموذج باكتساب القدرة على تطبيق المعرفة القانونية على سيناريوهات محددة.
هانفي (هان فاي)
- Hanfei-1.0 (Han Fei) هو أول نموذج قانوني لتدريب المعلمات الكاملة في الصين. لديها كمية معلمة 7 ب. تشمل وظائفها الرئيسية: سؤال وجواب قانوني ، جولات متعددة من الحوار ، وكتابة المقالات ، البحث ، إلخ.
شاتلاو [ورقة]
- تستخدم سلسلة من النماذج القانونية المفتوحة من قبل جامعة بكين عددًا كبيرًا من النصوص الأصلية مثل الأخبار القانونية ، والمنتديات القانونية ، والقوانين ، والتفسيرات القضائية ، والتشاور القانوني ، وأسئلة الفحص القانونية ، ووثائق الحكم ، وما إلى ذلك ، بما في ذلك Chatlaw-13B و Chatlaw-33b المدربة من قبل Jiang Ziya-13B و Anima-33b. بالإضافة إلى ذلك ، فإن Chatlaw-Text2Vec مفتوح أيضًا ، ويتم تدريب نموذج مطابقة التشابه على أساس BERT ، والذي يمكنه مطابقة معلومات سؤال المستخدم مع القوانين المقابلة.
ليتشي (لو زهي)
- المجال القضائي الصيني Big Model Law-GLM-10B مفتوح من مصادر ، استنادًا إلى نموذج GLM-10B ، ويتم الحصول على تعليمات صقل على 30 جيجابايت من البيانات القانونية الصينية.
الحكمة (Zhihai-Luwen)
- استند نموذج قانوني مصمم وتصميمه من قبل جامعة تشجيانغ ، وأكاديمية علي بابا دامو وأكاديمية الصين للحوسبة ، على Baichuan-7B ، وتم تنفيذ التدريب الثانوي قبل التدريب والتعب في البيانات القانونية ، وتم تصميم عملية تفكير محسنة للمعرفة.
jurislms
- يدرب المشروع سلسلة من نماذج اللغة القائمة على مجموعة قانونية صينية ، بما في ذلك: 1) قاضي تنبؤ الحكم القانوني القابل للتفسير ، والذي يتم تدريبه مسبقًا من قبل GPT2 على المجموعة القانونية وضبطه بواسطة نموذج طلب قانوني (مصنف يعتمد على BERT). لا يمكن أن تعطي فقط نتيجة الحكم ، ولكن أيضًا إعطاء وجهة نظر المحكمة المقابلة ؛ 2) يستخدم محامي الذكاء الذاتي الذكي من طراز AI التعلم النشط لضبطه على كمية صغيرة من البيانات ، ويمكنه الإجابة على الأسئلة بناءً على استشارة المستخدم.
ماجستير مينغشا
- النموذج القضائي للسيد مينغشا هو نموذج قضائي صيني تم تطويره بشكل مشترك من قبل جامعة شاندونغ ، وملبيور كلاود ، وجامعة الصين للعلوم السياسية والقانون. ويستند إلى عدد كبير من المجموعة القضائية الصينية غير الخاضعة للإشراف (بما في ذلك وثائق الحكم المختلفة والقوانين واللوائح ، وما إلى ذلك) وبيانات الضبط القضائي الخاضع للإشراف (بما في ذلك الأسئلة والأجوبة القانونية ، عمليات البحث عن القضايا). يدعم هذا النموذج الاسترجاع القانوني ، وتحليل الحالة ، والمنطق المنطقي والحكم ، والحوار القضائي ، ويهدف إلى تزويد المستخدمين بالاستشارة القانونية الشاملة والدقيقة للرد والرد.
؟ تمويل
Tongyi-Finance-14B
- Tongyi Finance-14B (Tongyi-Finance-14B) هو نموذج لغوي كبير تم إطلاقه للصناعة المالية. يعتمد ذلك على نموذج Tongyi Qianwen الأساسي لإجراء التعلم المتزايد لمجموعة الصناعة ، ويعزز القدرة على تطبيق المعرفة والسيناريوهات في المجال المالي ، ويغطي أرباع القدرات مثل أسئلة وأجوبة المعرفة المالية ، وتصنيف النص ، واستخراج المعلومات ، وإنشاء النص ، وفهم القراءة ، والمنطق المنطقي ، والتعدد ، والترميز.
القرص فينلم [ورقة]
- Disc-Finllm هو نموذج لغة كبير في المجال المالي. إنه نظام مالي ذكي متعدد الخبرة يتكون من أربع وحدات لسيناريوهات مالية مختلفة: الاستشارات المالية ، وتحليل النص المالي ، والحوسبة المالية ، واستعادة المعرفة المالية Q&A. تُظهر هذه الوحدات مزايا واضحة في أربع تقييمات ، بما في ذلك مهام NLP المالية وأسئلة الاختبار البشري وتحليل البيانات وتحليل الشؤون الجارية ، مما يثبت أن Finllm DISC يمكن أن توفر دعمًا قويًا لمجموعة واسعة من الحقول المالية.
investlm [ورقة]
- يفتح المشروع نموذجًا ماليًا باللغة الإنجليزية يعتمد على صقل LLAMA-65B.
Finglm
- نحن ملتزمون ببناء مشروع نماذج مالية مفتوحة ورفاهية ودائمة ، واستخدام المصدر المفتوح والانفتاح للترويج "AI+Financial".
Weaverbird (Weaverbird) [ورقة]
- يعد المصدر المفتوح للمشروع نموذجًا كبيرًا للحوار في المجال المالي استنادًا إلى صقل مجموعة المجال المالي اللغوي الصيني والإنجليزي ، ويمكن أيضًا الوصول إلى قواعد المعرفة المحلية ومحركات البحث عبر الإنترنت.
BBT-Fincuge-Applications [ورقة]
- يفتح المشروع من مصادر المجال المالي الصيني Corpus BBT-Fincorpus ، ونموذج BBT-Fint5 المعزز المعروف المعرفة ، و CFLEB المعياري.
فورنيو (حركية من القنوات)
- يقوم المشروع بإنشاء مجموعة بيانات تعليمات تستند إلى بيانات سؤال وجواب في المجال المالي العام والزحف ، وعلى هذا الأساس ، قم بضبط التعليمات على نموذج نظام LLAMA ، مما يحسن من تأثير الإجابة على أسئلة لما في المجال المالي.
Xuanyuan (Xuanyuan) [ورقة]
- Xuanyuan هو أول نموذج حوار صيني مفتوح المصدر مع نموذج حوار صيني على مستوى مليار في الصين ، وهو أيضًا أول نموذج حوار صيني مفتوح المصدر محسن للمجال المالي الصيني. استنادًا إلى Bloom-176b ، قامت Xuanyuan بتنفيذ التدريب المسبق وضوءها للمجال العام الصيني والمجال المالي. لا يمكن أن تتعامل مع المشكلات في المجال العام فحسب ، بل يمكنها أيضًا الإجابة على العديد من الأسئلة ذات الصلة المالية ، مما يوفر للمستخدمين معلومات واقتراحات مالية دقيقة وشاملة.
pixiu (pixiu) [ورقة]
- المصدر المفتوح للمشروع لمجموعة بيانات بيانات التعليمات المالية المالية ملائمة ، ونموذج كبير فينما وقياس التقييم.
Fingpt [paper1] [paper2]
- يفتح المشروع العديد من النماذج المالية ، بما في ذلك ChatGlm2-6b+Lora و Llama2-7b+Lora ، وجمع بيانات التدريب الصينية والإنجليزية بما في ذلك الأخبار المالية ، وسائل التواصل الاجتماعي ، التقارير المالية ، إلخ.
فلانج [ورقة]
- يفتح المشروع مصادر النموذج المالي المداخن وتقييم المداخن.
؟ تثقيف
تولي (تاولي)
- يفتح المشروع مصدر نموذج كبير مناسب لمجال التعليم الصيني الدولي. استنادًا إلى أكثر من 500 كتب تعليمية صينية دولية وأدوات تعليمية ، وأسئلة اختبار الكفاءة الصينية ، وقاموس المتعلم الصيني ، وما إلى ذلك ، تم تداولها حاليًا في مجال التعليم الصيني الدولي ، وقد تم إنشاء مكتبة دولية لموارد التعليم الصينية. تم إنشاء ما مجموعه 88000 مجموعة بيانات وبيانات تعليمية صينية عالمية عالية الجودة من خلال أشكال مختلفة من التعليمات ، وتم استخدام البيانات التي تم جمعها لضبط التعليمات للسماح للنموذج باكتساب القدرة على تطبيق المعرفة التعليمية الصينية الدولية على سيناريوهات محددة.
educhat [ورقة]
- يفتح المشروع مصدر نماذج الحوار للمجال العمودي للتعليم ، وخاصة دراسة التقنيات المتعلقة بنماذج الحوار التعليمية القائمة على النماذج التي تم تدريبها مسبقًا ، ودمج بيانات الميدان الرأسي التعليمي المتنوعة ، والاستملاء أساليب مثل التعليمات ، والتشاور مع المركز الدراسي ، وتوفير الوظائف ، وتوفير وظائف غنية مثل "تصحيح الأسئلة التلقائي ،" المعلمون والطلاب وأولياء الأمور ، والمساعدة في تحقيق تعليم ذكي يتوافق مع الكفاءة ، العادلة ، العادلة ، والدفء.
➕ الآخرين
مجموعة البيانات
؟ معيار التقييم
C-Eval [ورقة]
- C-Eval هو معيار لتقييم النموذج الأساسي الصيني الذي أصدرته جامعة Shanghai Jiaotong. يحتوي على 13،948 سؤالًا متعدد الخيارات ، تغطي أربعة اتجاهات رئيسية: العلوم الإنسانية والعلوم الاجتماعية والعلوم والهندسة وغيرها من الشركات الكبرى ، 52 موضوعًا ، من المدارس المتوسطة إلى طلاب الدراسات العليا الجامعية والامتحانات المهنية.
Agieval [ورقة]
- Agieval هو معيار تقييم أصدرته Microsoft لتقييم أداء النماذج الكبيرة في المهام المعرفية البشرية. ويشمل 20 امتحانات رسمية ومفتوحة وعالية المستوى للقبول والتأهيل للمرشحين العاديين ، بما في ذلك امتحانات القبول الجامعي العادي (امتحانات القبول في الكلية الصينية والامتحانات في الولايات المتحدة SAT) ، والامتحانات القبول في كلية الحقوق ، ومسابقات الرياضيات ، وامتحانات مؤهلات البار ، والامتحانات الوطنية للخدمة المدنية ، وما إلى ذلك ، إلخ.
Xiezhi (Xiezhi) [ورقة]
- Xiezhi هو معيار شامل ومتعدد التخصصات ، ويتم تحديثه تلقائيًا لتقييم المعرفة الميدانية التي أصدرتها جامعة فودان ، بما في ذلك 13 تخصصًا: الفلسفة ، والاقتصاد ، والقانون ، والأدب ، والتاريخ ، والعلوم الطبيعية ، والهندسة ، والزراعة ، والطب ، والعسكرية ، والإدارة ، و 516 تخصصات محددة ، وأسئلة 249،587.
CMMLU [ورقة]
- CMMLU هو معيار شامل للتقييم الصيني ، يستخدم على وجه التحديد لتقييم المعرفة وقدرة النماذج اللغوية في السياق الصيني. يغطي CMMLU 67 موضوعًا من التخصصات الأساسية إلى المستويات المهنية المتقدمة. ويشمل: العلوم الطبيعية التي تتطلب الحساب والتفكير ، والعلوم الإنسانية والعلوم الاجتماعية التي تتطلب المعرفة ، وقواعد القيادة الصينية التي تتطلب الحس السليم في الحياة. علاوة على ذلك ، فإن العديد من المهام في CMMLU لها إجابات خاصة بالصينية وقد لا تكون قابلة للتطبيق عالميًا في المناطق أو اللغات الأخرى. لذلك ، فهو معيار اختبار صيني تماما.
MMCU [paper]
- MMCU是一个综合性的中文评测基准,包括来自医学、法律、心理学和教育等四大领域的测试。
CG-Eval [paper]
- CG-Eval是一个由甲骨易AI研究院与LanguageX AI Lab联合发布的针对中文大模型生成能力的评测基准。包含了科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等六个大科目类别下的55个子科目的11000道不同类型问题。CG-Eval包含一套复合的打分系统:对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和;对于计算题目,会提取最终计算结果和解题过程,然后综合打分。
CBLUE [paper]
- CBLUE是一个中文医学语言理解评测基准,包含8个中文医疗语言理解任务。
PromptCBLUE [paper]
- PromptCBLUE是一个面向中文医疗场景的评测基准,通过对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。
LAiW [paper]
- LAiW 是一个中文法律大模型评测基准,针对3大能力设计13个基础任务:1)法律NLP 基础能力:评测法律基础任务、 NLP 基础任务和法律信息抽取的能力,包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别5 个基础任务;2)法律基础应用能力:评测大模型对法律领域知识的基础应用能力,包括争议焦点挖掘、类案匹配、刑事裁判预测、民事裁判预测和法律问答5 个基础任务;3)法律复杂应用能力:评测大模型对法律领域知识的复杂应用能力,包括司法说理生成、案情理解和法律咨询3 个基础任务。
LawBench [paper]
- LawBench 是一个面向中国法律体系的法律评测基准。LawBench 模拟了司法认知的三个维度,并选择了20个任务来评估大模型的能力。与一些仅有多项选择题的现有基准相比,LawBench 包含了更多与现实世界应用密切相关的任务类型,如法律实体识别、阅读理解、犯罪金额计算和咨询等。
LegalBench [paper]
- LegalBench 是一个面向美国法律体系的法律评测基准,包含162个法律推理任务。
LEXTREME [paper]
- LEXTREME是一个多语言的法律评测基准,包含了24种语言11个评测数据集。
LexGLUE [paper]
CFBenchmark [paper]
- CFBenchmark是一个旨在评估大语言模型在中文金融场景下辅助工作的评测基准。CFBenchmark的基础版本包括3917个金融文本涵盖三个方面和八个任务,从金融识别、金融分类、金融生成三个方面进行组织。
FinanceBench [paper]
- FinanceBench是一个用于评估开放式金融问题问答的评测基准,包含10,231 个有关上市公司的问题,以及相应的答案。
FinEval [paper]
- FinEval是一个金融知识评测基准,包含了4,661个高质量的多项选择题,涵盖金融、经济、会计和证书等领域,34个不同的学术科目。
FLARE [paper]
- FLARE是一个金融评测基准,包含了金融知识理解和预测等任务。
CFLEB [paper]
- CFLEB是一个中文金融评测基准,包含两项语言生成任务和四项语言理解任务。
FLUE [paper]
- FLUE是一个金融评测基准,包含5个金融领域数据集。
GeoGLUE [paper]
- GeoGLUE是一个由阿里巴巴达摩院与高德联合发布的地理语义理解能力评测基准,旨在推动地理相关文本处理技术和社区的发展。本榜单提炼了其中多个典型场景:地图搜索、电商物流、政府登记、金融交通,并设计了六个核心任务:门址地址要素解析、地理实体对齐、Query-POI库召回、Query-POI相关性排序、地址Query成分分析、WhereWhat切分。
OWL-Bench [paper]
- OWL-Bench 是一个面向运维领域的双语评测基准。它包含317 个问答题和1000 个多选题,涵盖了该领域的众多现实工业场景,包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。以确保OWL-Bench 能够展现出多样性。
DevOps-Eval
- DevOps-Eval是由蚂蚁集团联合北京大学发布的面向DevOps领域的大语言模型评测基准。
؟ زائدة
点赞历史
؟ روابط ودية
- Awesome Code LLM
- 该项目收集了代码大模型相关论文,并整理出一篇综述。
- CodeFuse-ChatBot
- CodeFuse-ChatBot是由蚂蚁CodeFuse团队开发的开源AI智能助手,致力于简化和优化软件开发生命周期中的各个环节。
- Awesome AIGC Tutorials
- 该项目收集了关于AIGC的各种精选教程和资源,既适合初学者也适合进阶AI爱好者。
- Awesome Tool Learning
- 该项目收集了关于工具学习的资源,包括论文、框架和应用。
- Awesome LLM reasoning
- 该项目收集了关于大语言模型推理方面的资源,包括论文、数据集等。