Awesome Domain LLM
Seit dem Aufkommen des von ChatGPT dargestellten Großsprachmodells sind eine neue Forschung und Anwendung ausgelöst, und viele allgemeine Modelle, darunter Lama, Chatglm, Baichuan, Qwen usw. Anschließend wenden es Praktiker aus verschiedenen Feldern auf das vertikale Feld durch kontinuierliche Voraussetzungs-/Anweisungen auf der Grundlage eines allgemeinen Modells an.

Dieses Projekt zielt darauf ab, Open -Source -Modelle , Datensätze und Bewertungsbenchmarks in vertikalen Feldern zu erfassen und zu sortieren. Jeder ist herzlich eingeladen, Open -Source -Modelle, Datensätze, Bewertungsbenchmarks und andere Inhalte beizutragen, die nicht in diesem Projekt enthalten sind, und die Stärkung großer Modelle in allen Lebensbereichen gemeinsam fördern!
? erneuern
- [2023/11/26] Verbesserte Netzwerksicherheit Big Model SECGPT, medizinisches großes Modell Chimed-GPT, Financial Big Model Tongyi-Finance-14b, Financial Evaluation Benchmark FinanceBench und CFBbenchmark.
- [2023/11/01] Fügen Sie DevOps Field Big Model DevOps-Model und Evaluation Benchmark DevOps-Eval hinzu, die von Ant Group und Peking University veröffentlicht wurden.
- [2023/10/28] Finanzmodell-Disc-Finllm, medizinisches Modell Alpacare und Marine Model Marinegpt hinzugefügt.
- [2023/10/19] fügte psychologisches Modell Mentalllama, zweisprachiger biomedizinisches Modell Taiyi (Taiyi) und Ocean Model Oceangpt hinzu.
- [2023/10/10] fügte die Big Model Owl und Evaluation Benchmark Owl-Bench für das von Yunzhi Intelligent Research Institute und Beihang gemeinsam entwickelte Betriebs- und Wartungsfeld hinzu. Die Benchmark Laiw für die chinesische Rechtsmodellbewertung fügte hinzu.
- [2023/10/05] fügte psychologisches Modell Chatpsychiatrist, Financial Model Investlm, Agricultural Model Agrigpt und medizinisches Modell Wingpt2 hinzu.
- [2023/10/03] Es werden zwei rechtliche Bewertungsbenchmarks hinzugefügt, nämlich Lawbench für das chinesische Rechtssystem und das LegalBench für das US -Rechtssystem.
- [2023/10/01] fügte Disc-Lawllm hinzu, ein großes Modell des von der Fudan University offenen gesetzlichen Bereichs, das den Nutzern professionelle, intelligente und umfassende juristische Dienstleistungen zur Verfügung stellen soll. Fügen Sie Finglm hinzu, um ein offenes, öffentliches Wohlergehen und dauerhaftes Finanzmodellprojekt zu erstellen, und verwenden Sie Open Source, um "AI+Finance" zu fördern.
- [2023/9/25] Aktualisieren Sie Qwen, fügen Sie QWEN-14B- und QWEN-14B-CHAT-Modelle hinzu und aktualisieren Sie die Modelle QWEN-7B und QWEN-7B-CHAT. Im Vergleich zum ursprünglichen QWEN-7B verwendet die neue Version mehr Trainingsdaten (2,4T-Token), und die Sequenzlänge wurde von 2048 auf 8192 erweitert. Die Gesamtfähigkeit der chinesischen Fähigkeiten und Code-Fähigkeiten wurde stark verbessert.
- [2023/9/22] Fügen Sie Internlm (Scholar Puyu), Shanghai AI Laboratory und Sensetime Technology zusammen mit dem Open -Source -Modell der chinesischen Universität von Hongkong und der Fudan University hinzu.
- [2023/9/15] fügte Zhongjing-Llama (Zhongjing) hinzu, ein chinesisches Medizinmodell mit Vorausbildung, beaufsichtigter Feinabstimmung und RLHF vollständiger Trainingsprozess.
- [2023/9/14] Fügen Sie Weaverbird hinzu, um auf das Finanzfelddialogmodell mit lokalem Wissen und Online -Suchfunktionen zuzugreifen.
- [2023/9/13] Fügen Sie Master Mingzha hinzu, ein Justizmodell, das gemeinsam von der Shandong University, Inspirur Cloud und der China University of Political Science and Law entwickelt wurde.
Inhaltsverzeichnis
- ? Modell
- Allgemeines Modell
- ? Domänenmodell
- ? Medizinisch
- ⚖ legal
- ? Finanzen
- ? erziehen
- ➕ Andere
- Datensatz
- ? Bewertungsbenchmark
- ? Anhang
- Wie Geschichte
- ? Freundliche Links
? Modell
Allgemeines Modell
Domänenmodelle werden normalerweise durch kontinuierliche Vorausbildung oder Feinabstimmung von Anweisungen auf der Grundlage allgemeiner Modelle erhalten. Hier organisieren wir die häufig verwendeten Open -Source -allgemeinen Modelle.
| Modell | Größe | Mechanismus | Papier |
|---|
| LAMA22 | 7b/7b-chat 13b/13b-chat 70B/70B-CHAT | Meta | Papier |
| Chatglm3-6b | 6b-Base/6b/6b-32k | Tsinghua Universität | Papier |
| Qwen | 1,8b/1,8b-chat 7b/7b-chat 14b/14b-chat 72B/72B-CHAT | Alibaba Cloud | Papier |
| Baichuan2 | 7b/7b-chat 13b/13b-chat | Baichuan intelligent | Papier |
| Internlm | 7b/7b-chat 20b/20b-Chat | Shanghai AI Laboratory | Papier |
? Domänenmodell
? Medizinisch
Schenkel-GPT [Papier]
- Chimed-GPT ist ein chinesisches medizinisches Modell, das auf Ziya-V2 basiert. Basierend auf Ziya-V2 wurden vor dem Training, beaufsichtigte Feinabstimmung (SFT) und Verstärkungslernen (RLHF) aus menschlichem Feedback umfassend durchgeführt.
Alpacare [Papier]
- Das Projekt öffnete das medizinische Modell Alpacare, das in Lama fein abgestimmt war.
Taiyi (Taiyi) [Papier]
- Das Projekt Open Source des chinesisch-englischen zweisprachigen biomedizinischen Modells Taiyi (Taiyi) zielt darauf ab, die Fähigkeit der zweisprachigen Sprachverarbeitung multitasking auf dem Gebiet der Biomedizin zu untersuchen.
Mentalllama [Papier]
- Das Projekt Open Source Mental Mockup Mentalllama, das für die interpretierbare Analyse der psychischen Gesundheit in den sozialen Medien verwendet werden kann.
Wingpt2
- WingPT ist ein medizinisches medizinisches medizinisches vertikales Modell, das darauf abzielt, professionelle medizinische Kenntnisse, medizinische Informationen und Daten zu integrieren, intelligente Informationsdienste wie medizinische Fragen und Antworten, diagnostische Unterstützung und medizinisches Wissen zur Verbesserung der Diagnose und der Behandlungseffizienz und der Qualität des medizinischen Dienstes anzubieten.
Chatpsychiatrist [Papier]
- Das Projekt Open Source Chatpsychiatrist, ein psychologisches Modell basierend auf der Feinabstimmung von LLAMA-7B, kann schnell psychologische Probleme identifizieren und maßgeschneiderte Behandlungsempfehlungen liefern.
Zhongjing-Llama (Zhongjing) [Papier]
- Das Projekt Open Source Das erste große Modell der chinesischen Medizin, das vor der Ausbildung, der Überwachung der Feinabstimmung und des RLHF-vollständigen Schulungsprozesses, die gute Generalisierungsfähigkeit und die Annäherung an die professionelle Ebene der professionellen Ärzte in einigen Dialogszenarien umfasst. Darüber hinaus war ein Mehrrund-Konversationsdatensatz mit 70.000 vollständig aus echten Gesprächen zwischen Arzt und Patienten offen. Dieser Datensatz enthält eine große Anzahl von proaktiven fragenden Sätzen der Ärzte, die dazu beitragen, die proaktiven medizinischen Anfragemöglichkeiten des Modells zu verbessern.
Doktorglm [Papier]
- Basierend auf dem chinesischen Konsultationsmodell von Chatglm-6b werden Feinabstimmungen und Bereitstellungen chinesischer Datensätze für medizinische Dialoge durch Feinabstimmung und Bereitstellung von Lora, P-Tuningv2 usw. erreicht.
Bentsao (materielles Kräuter) [Papier]
- Das Projekt eröffnet die Quelle eines großen Sprachmodellsatzes, das durch chinesische medizinische Anweisungen, einschließlich Lama, Alpaca-Chinese, Blom, Moving Type Model usw., fein abgestimmt wurde, basierend auf dem medizinischen Wissensgrafik und der medizinischen Literatur.
Med-chatglm
- Das Projekt Open Source Chatglm-6b-Modell, das durch chinesische medizinische Anweisungen abgestimmt ist, und die Feinabstimmungsdaten sind die gleichen wie Bentsao.
Bianque (Bianque) [Papier]
- Das Projekt eröffnet die Quelle eines großen Modells der Gesundheit des Lebensraums. Combined with the current open source Chinese medical Q&A data sets (MedDialog-CN, IMCS-V2, CHIP-MDCFNPC, MedDG, cMedQA2, Chinese-medical-dialogue-data), the single-round/multi-round characteristics and doctor inquiry characteristics were analyzed, and combined with the self-built living space health dialogue big data, BianQue Health Big Data BianQueCorpus of tens of Millionen von Ebenen wurden konstruiert. Basierend auf Bianque Health Big Data Bianquecorpus wurde Chatglm-6b als Initialisierungsmodell ausgewählt, und Bianque wurde durch das Feinabstimmungstraining vollständiger Parameter in Anweisungen erhalten.
Huatuogpt (Hua Tuo) [Papier]
- Das Projekt öffnete das medizinische Big Model Huatuogpt, einschließlich Huatuogpt-7b-Training basierend auf Baichuan-7b- und Huatuogpt-13b-Training basierend auf dem Ziya-Llama-13b-Pretrain-V1-Training.
Qizhengpt
- Dieses Projekt verwendet den von Qizhen Medical Knowledge Base erstellten chinesischen medizinischen Unterrichtsdatensatz, und basierend darauf sind die Anweisungen auf den Modellen Chinesen-Llama-Plus-7b-, CAMA-13b- und Chatglm-6b-Modelle fein abgestimmt und verbessert die Wirkung des Modells in chinesischen medizinischen Szenarien erheblich.
ChatMed
- Das Projekt Open Source The Chinese Medical Big Model ChatMed-Consult, das die 50-W + -Ponatation + CHATGPT-Antwort des chinesischen medizinischen Online-Beratungsdatensatzes Chatmed_Consult_dataset als Trainingssatz verwendet und unter Verwendung von LORA-Feinabstimmungen auf der Grundlage von LLAMA-7B erhalten wird.
Shennong-TCM-Llm (Shennong)
- Das Projekt Open Source Chinese Traditionelle chinesische Medizin Big Model Shennong-TCM-Llm. Basierend auf dem Open-Source-Wissensgraphen für das traditionelle chinesische Medizin werden die entitätszentrierten Selbstinstruktionsmethode angewendet und Chatgpt aufgerufen, um den Datensatz von 2.6W+ traditionellem chinesischem Medizin-Anweisungen zu erhalten. Basierend auf dem Datensatz basiert es auf Lama und Feinabstimmung mit LORA.
Xrayglm
- Das Projekt Open Source Chinese Multimodal Medical Data Sets und Modelle, die ein außergewöhnliches Potenzial für die Diagnose der medizinischen Bildgebung und mehrere Runden des interaktiven Dialogs aufweisen.
MedicalGpt
- Das Projekt Open Source Medical Model MedicalGPT, das inkrementelle Vorausbildung, beaufsichtigte Feinabstimmung, RLHF (Belohnungsmodellierung, Verstärkungslernen-Training) und DPO (Direktpräferenzoptimierung) umfasst.
Sunsimiao (Sun Simiao)
- Das Projekt Open Source Chinese Medical Model Sunsimiao, das auf der Grundlage von Baichuan-7b- und Chatglm-6b-Basismodellen in hochwertigen chinesischen medizinischen Daten von 100.000 fein abgestimmt ist.
Pflege
- Das Projekt Open Source Medical Model CareGPT (CAREGPT), das auch Dutzende von öffentlich verfügbaren medizinischen Feinabstimmungsdatensätzen und offen verfügbaren medizinischen Großsprachenmodellen zusammenbringt, einschließlich LLM-Schulungen, Bewertung, Einsatz usw., um die schnelle Entwicklung medizinischer LLM zu fördern.
Disc-Medllm [Papier]
- Dieses Projekt ist ein medizinisches Feld großes Modell und Datensatz für medizinische und gesundheitliche Dialogszenarien, die von der Fudan University veröffentlicht wurden. Das Modell wird durch Feinabstimmung des Datensatzes für Disc-Med-SFT-Daten auf der Grundlage von Baichuan-13b-Base-Anweisungen erhalten, wodurch die menschlichen Präferenzen in medizinischen Szenarien effektiv ausgerichtet werden und die Lücke zwischen der Ausgabe des gemeinsamen Sprachmodells und dem realen medizinischen Dialog übertragen werden.
PMC-Llama [Papier]
- Das Projekt Open Source Medical Mockup PMC-Llama, einschließlich einer vorgebildeten Version von Medllama_13b und einer fein abgestimmten Version von PMC_LLAMA_13B.
ChatDoctor [Papier]
- Das Projekt Open Source Medical Model Chatdoctor, das auf Lama ausgebildet ist.
Ming (Ming Medical)
- Das Projekt Open Source Medical Big Model Ming, das auf der Feinabstimmung der Bloomz-7b-Anweisung zur Erlangung von MING-7B basiert, unterstützt medizinische Q & A, intelligente Beratung und andere Funktionen.
Ivygpt
- Das Projekt Open Source Medical Mockup Ivygpt, das die Feinabstimmung in hochwertigen medizinischen Q & A-Daten beaufsichtigt und mithilfe von Verstärkungslernen aus menschlichem Feedback trainiert wird.
IMPULS
- Das Projekt Open Source Chinese Medical Model Pulse, das etwa 4.000.000 Richtlinienfeineinstellungsdaten aus der chinesischen Medizin und allgemeinen Bereichen verwendet, um eine Vielzahl von Aufgaben der natürlichen Sprachverarbeitung im medizinischen Bereich zu unterstützen, einschließlich Gesundheitserziehung, Fragen der Arztuntersuchung, der Auslegung der Auslegung, strukturierten medizinischen Unterlagen und der simulierten Diagnose und Behandlung.
Huangdi (Kaiser)
- Das Projekt eröffnet die Quelle des chinesischen Medizinmodells Huangdi (Kaiser). Das Modell fügt zuerst Lehrbücher für die chinesische Medizin, Daten zur chinesischen Medizin und andere Korpus auf der Grundlage des Basismodells Ziya-Llama-13b-V1 hinzu, um ein Vorbildungsmodell mit Verständnis für das Wissen der chinesischen Medizin zu schulen. Auf dieser Grundlage wird es dann durch eine große Menge chinesischer Mediziner-Dialogdaten und allgemeine Unterrichtsdaten beaufsichtigt und fein abgestimmt, damit das Modell die Fähigkeit zur Beantwortung des alten Buchkenntnisses der chinesischen Medizin beantworten kann.
Zhongjing (Zhongjing)
- Das Projekt eröffnet das chinesische Medizinmodell Zhongjing (Zhongjing), das das tiefgreifende Wissen über die traditionelle chinesische Medizin, die alte Weisheit und die moderne technologische Innovation erben und letztendlich vertrauenswürdige und professionelle Instrumente für das medizinische Bereich erben.
Tcmllm
- Das Projekt plant, die Aufgaben der klinischen Hilfsdiagnose und Behandlung der traditionellen chinesischen Medizin (Krankheitsdiagnose, verschreibungspflichtige Empfehlung usw.) und anderen traditionellen kenntnissen und Antworten durch ein großes Modell und die schnelle Entwicklung traditioneller Kenntnisse und Antworten für chinesische Medizin, klinische Hilfsdiagnose und Behandlungsbereiche zu fördern. Gegenwärtig wurde als Reaktion auf die Aufgabe der verschreibungspflichtigen Empfehlungen bei der klinischen intelligenten Diagnose und Behandlung der traditionellen chinesischen Medizin die TCMLLM-PR für das Modell der traditionellen Empfehlungsempfehlung für die chinesische Medizin veröffentlicht. Durch die Integration von klinischen Aufzeichnungen, medizinischen Klassikern und traditionellen Lehrbüchern für chinesische Medizin und anderer Daten und anderer Daten wurde ein feineinstellungsfeiner Datensatz für die Empfehlungsempfehlung konstruiert, und das Chatglm-Big-Modell wurde eine Feinabstimmung erhalten.
Mechat [Papier]
- Das Projekt Open Source ein chinesisches Dialogmodell und Datensatz für psychische Gesundheit. Das Modell wird von der 16-Bit-Anweisung von Chatglm-6b Lora abgestimmt. Der Datensatz verwendet ChatGPT, um die echte psychologische Mutual Aid -QA umzuschreiben, um mehrere Dialoge für mehrere Runden der psychischen Gesundheit zu unterstützen. Der Datensatz enthält 56K-Multi-Runden-Dialoge, und seine Dialog-Themen, Vokabeln und Kapitelsemantik sind reichhaltiger und vielfältiger, was eher den Anwendungsszenarien der langfristigen Multi-Runden-Dialoge entspricht.
Soulchat (spirituelles Herz) [Papier]
- Das Projekt offenbarte das mentale Gesundheitsmodell Soulchat (Spiritual Heart), das Chatglm-6b als Initialisierungsmodell verwendet und durch die gemeinsamen Anweisungen des langen Textes auf Chinesisch auf dem Gebiet der psychologischen Beratung in einer Million Skala und mehreren Runden von Empathie-Dialogdaten fein abgestimmt ist.
Mindchat (Archiv)
- Das Projekt Open Source des psychologischen Modells Mindchat (Anime Talk), bei dem etwa 200.000 hochwertige multi-rund-psychologische Dialogdaten manuell für Schulungen, Arbeiten, Familie, Studium, Leben, soziale, Sicherheit und andere Aspekte verwendet werden. Es wird erwartet, dass Menschen hilft, psychischen Stress zu lindern und psychische Verwirrung aus vier Dimensionen zu lösen: psychologische Beratung, psychologische Bewertung, psychologische Diagnose und psychische Behandlung sowie die Verbesserung ihres psychischen Gesundheitsniveaus.
Qiaoban (王子)
- Das Projekt Open Source des emotionalen Dialogs der Kinder Big Model Qiaoban. Es basiert auf dem Open-Source-Generalmodell, wobei der allgemeine Dialog mit allgemeinem Domänen, Daten mit Einzelradunterricht und die emotionalen Dialogdialogdaten von Kindern zu Feinabstiegsanweisungen verwendet wird, und entwickelt ein großes Modell, das für die emotionale Kameradschaft von Kindern geeignet ist.
⚖ legal
? Finanzen
Tongyi-Finance-14b
- Tongyi Finance-14b (Tongyi-Finance-14b) ist ein großes Sprachmodell, das für die Finanzindustrie eingeführt wurde. Es basiert auf dem grundlegenden Modell von Tontongyi Qianwen, um ein inkrementelles Lernen des Industriekorpus durchzuführen, die Fähigkeit zu stärken, Wissen und Szenarien im Finanzbereich anzuwenden, und deckt die Fähigkeitsqualzern wie Fragen und Antworten für finanzielle Kenntnisse, Textklassifizierung, Informationsextraktion, Textzug, Leseverständnis, logisches Denken, Multimodal und Codierung ab.
Disc-Finllm [Papier]
- Disc-Finllm ist ein großes Sprachmodell im Finanzbereich. Es handelt sich um ein Multi-Expert-Smart-Finanzsystem, das aus vier Modulen für unterschiedliche Finanzszenarien besteht: Finanzberatung, Finanztextanalyse, Finanzcomputer und Q & A-A-A-A-A-A-Abruf. Diese Module zeigen offensichtliche Vorteile in vier Bewertungen, einschließlich finanzieller NLP-Aufgaben, Fragen des menschlichen Tests, Datenanalyse und aktuellen Angelegenheiten, die belegen, dass Disc-Finllm eine breite Palette von Finanzfeldern stark unterstützt.
Investlm [Papier]
- Das Projekt Open Source Ein englisches Finanzmodell, das auf LLAMA-65B-Feinabstimmungen basiert.
Finglm
- Wir sind bestrebt, ein offenes, öffentliches Wohlergehen und dauerhaftes Finanzmodellprojekt aufzubauen und Open Source und Offenheit zu nutzen, um "AI+Financial" zu fördern.
Weaverbird (Weaverbird) [Papier]
- Das Projekt Open Source ist ein großes Dialogmodell im Finanzbereich, basierend auf der Feinabstimmung des chinesisch-englischen zweisprachigen Finanzfeldkorpus und kann auch auf lokale Wissensbasis und Online-Suchmaschinen zugreifen.
BBT-Fincuge-Anwendung [Papier]
- Das Projekt Open Source The Chinese Financial Field Corpus BBT-Fincorpus, das von Wissen verstärkte große Modell BBT-FINT5 und der Bewertungsbenchmark CFLEB.
Füllhorn (Eckzahn der Füllhorn)
- Das Projekt erstellt einen Anweisungsdatensatz, der auf öffentlichen und krabbelenden Fragen und Antworten auf dem chinesischen Finanzfeld basiert und auf dieser Grundlage die Anweisungen zum Lama-Systemmodell fein, wodurch der Frage-Antworteneffekt von Lama im Finanzfeld verbessert wird.
Xuanyuan (Xuanyuan) [Papier]
- Xuanyuan ist das erste open-Source-chinesische Dialogmodell mit einem milliardenkörnigen chinesischen Dialogmodell in China und auch das erste für das chinesische Finanzfeld optimierte Open-Source-Dialogmodell. Basierend auf Bloom-176b hat Xuanyuan gezielte Vorausbildung und Feinabstimmung für das chinesische allgemeine Feld und das finanzielle Bereich durchgeführt. Es kann sich nicht nur mit Problemen im allgemeinen Bereich befassen, sondern auch verschiedene finanzielle Fragen beantworten und den Nutzern genaue und umfassende finanzielle Informationen und Vorschläge zur Verfügung stellen.
Pixiu (pixiu) [Papier]
- Das Projekt Open Source des Finanzfeldunterrichts Feinabstimmungsanpassung, großer Modell Finma und Bewertungsbenchmark Flare.
Fingpt [paper1] [paper2]
- Das Projekt öffnete mehrere Finanzmodelle, darunter Chatglm2-6b+Lora und LLAMA2-7B+LORA, und sammelten chinesische und englische Schulungsdaten, einschließlich Finanznachrichten, Social Media, Finanzberichte usw.
Flang [Papier]
- Das Projekt öffnete den Finanzmodell Flang und Evaluation Benchmark -Abfluss.
? erziehen
Taoli (Taoli)
- Das Projekt eröffnet die Quelle eines großen Modells, das für den internationalen chinesischen Bildungsbereich geeignet ist. Basierend auf mehr als 500 internationalen chinesischen Bildungslehrbüchern und Lehrhilfen, Fragen der chinesischen Förderungstests und dem chinesischen Wörterbuch usw. Es wurde derzeit im Bereich der internationalen chinesischen Bildung eine internationale chinesische Bildungsressourcenbibliothek errichtet. Insgesamt 88.000 qualitativ hochwertige internationale chinesische Bildungs- und Beantwortungsdatensätze wurden durch verschiedene Anweisungsformen erstellt, und die gesammelten Daten wurden verwendet, um die Anweisungen zu optimieren, damit das Modell die Fähigkeit erfasst, internationales chinesisches Bildungswissen auf bestimmte Szenarien anzuwenden.
Educhat [Papier]
- The project opens the source of dialogue models for the vertical field of education, mainly studying technologies related to education dialogue models based on pre-trained models, integrating diverse educational vertical field data, supplemented by methods such as instruction fine-tuning and value alignment, and providing rich functions such as automatic question setting, homework correction, emotional support, course tutoring, and college entrance examination consultation in educational scenarios, serving the vast number of teachers, Schüler und Eltern und helfen bei der Erreichung einer intelligenten Bildung, die der Eignung, fair, gerecht und warm entspricht.
➕ Andere
Datensatz
? Bewertungsbenchmark
C-Eval [Papier]
- C-Eval ist ein chinesischer Benchmark für die Basismodellbewertung, das von der Shanghai Jiaotong University veröffentlicht wurde. Es enthält 13.948 Multiple-Choice-Fragen, die vier Hauptanweisungen abdecken: Geisteswissenschaften, Sozialwissenschaften, Wissenschaft und Ingenieurwesen sowie andere Majors, 52 Fächer, von der Mittelschule bis zu Universitätsabsolventen und beruflichen Prüfungen.
Agieval [Papier]
- Agieval ist ein von Microsoft veröffentlichter Bewertungsbenchmark, um die Leistung großer Modelle bei menschlichen kognitiven Aufgaben zu bewerten. Es umfasst 20 offizielle, offene und qualifizierte Prüfungen für normale Kandidaten, einschließlich der ordentlichen Aufnahmeprüfungen der Universität (chinesische College-Aufnahmeprüfungen und US-SAT-Prüfungen), Aufnahmeprüfungen der juristischen Fakultät, Mathematikwettbewerbe und Prüfungen des nationalen öffentlichen Dienstes usw.
Xiezhi (Xiezhi) [Papier]
- Xiezhi ist ein umfassender, multidisziplinärer und automatisch aktualisierter Benchmark der Fudan -Universität, einschließlich 13 Disziplinen: Philosophie, Wirtschaft, Recht, Bildung, Literatur, Geschichte, Naturwissenschaften, Ingenieurwesen, Landwirtschaft, Medizin, Militär, Management und Art, 516 spezifische Disziplinen und 249.587.
CMMLU [Papier]
- CMMLU ist ein umfassender chinesischer Bewertungsbenchmark, der speziell zur Bewertung der Wissens- und Argumentationsfähigkeit von Sprachmodellen im chinesischen Kontext verwendet wird. CMMLU behandelt 67 Themen, von grundlegenden Disziplinen bis hin zu fortgeschrittenen professionellen Ebenen. Es umfasst: Naturwissenschaften, die Berechnung und Argumentation, Geisteswissenschaften und Sozialwissenschaften erfordern, die Wissen erfordern, sowie chinesische Fahrregeln, die im Leben gesunden Menschenverstand erfordern. Darüber hinaus haben viele Aufgaben in CMMLU chinesischspezifische Antworten und sind möglicherweise nicht allgemein in anderen Regionen oder Sprachen anwendbar. Therefore, it is a completely Chinese test benchmark.
MMCU [paper]
- MMCU是一个综合性的中文评测基准,包括来自医学、法律、心理学和教育等四大领域的测试。
CG-Eval [paper]
- CG-Eval是一个由甲骨易AI研究院与LanguageX AI Lab联合发布的针对中文大模型生成能力的评测基准。包含了科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等六个大科目类别下的55个子科目的11000道不同类型问题。CG-Eval包含一套复合的打分系统:对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和;对于计算题目,会提取最终计算结果和解题过程,然后综合打分。
CBLUE [paper]
- CBLUE是一个中文医学语言理解评测基准,包含8个中文医疗语言理解任务。
PromptCBLUE [paper]
- PromptCBLUE是一个面向中文医疗场景的评测基准,通过对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。
LAiW [paper]
- LAiW 是一个中文法律大模型评测基准,针对3大能力设计13个基础任务:1)法律NLP 基础能力:评测法律基础任务、 NLP 基础任务和法律信息抽取的能力,包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别5 个基础任务;2)法律基础应用能力:评测大模型对法律领域知识的基础应用能力,包括争议焦点挖掘、类案匹配、刑事裁判预测、民事裁判预测和法律问答5 个基础任务;3)法律复杂应用能力:评测大模型对法律领域知识的复杂应用能力,包括司法说理生成、案情理解和法律咨询3 个基础任务。
LawBench [paper]
- LawBench 是一个面向中国法律体系的法律评测基准。LawBench 模拟了司法认知的三个维度,并选择了20个任务来评估大模型的能力。与一些仅有多项选择题的现有基准相比,LawBench 包含了更多与现实世界应用密切相关的任务类型,如法律实体识别、阅读理解、犯罪金额计算和咨询等。
LegalBench [paper]
- LegalBench 是一个面向美国法律体系的法律评测基准,包含162个法律推理任务。
LEXTREME [paper]
- LEXTREME是一个多语言的法律评测基准,包含了24种语言11个评测数据集。
LexGLUE [paper]
CFBenchmark [paper]
- CFBenchmark是一个旨在评估大语言模型在中文金融场景下辅助工作的评测基准。CFBenchmark的基础版本包括3917个金融文本涵盖三个方面和八个任务,从金融识别、金融分类、金融生成三个方面进行组织。
FinanceBench [paper]
- FinanceBench是一个用于评估开放式金融问题问答的评测基准,包含10,231 个有关上市公司的问题,以及相应的答案。
FinEval [paper]
- FinEval是一个金融知识评测基准,包含了4,661个高质量的多项选择题,涵盖金融、经济、会计和证书等领域,34个不同的学术科目。
FLARE [paper]
- FLARE是一个金融评测基准,包含了金融知识理解和预测等任务。
CFLEB [paper]
- CFLEB是一个中文金融评测基准,包含两项语言生成任务和四项语言理解任务。
FLUE [paper]
- FLUE是一个金融评测基准,包含5个金融领域数据集。
GeoGLUE [paper]
- GeoGLUE是一个由阿里巴巴达摩院与高德联合发布的地理语义理解能力评测基准,旨在推动地理相关文本处理技术和社区的发展。本榜单提炼了其中多个典型场景:地图搜索、电商物流、政府登记、金融交通,并设计了六个核心任务:门址地址要素解析、地理实体对齐、Query-POI库召回、Query-POI相关性排序、地址Query成分分析、WhereWhat切分。
OWL-Bench [paper]
- OWL-Bench 是一个面向运维领域的双语评测基准。它包含317 个问答题和1000 个多选题,涵盖了该领域的众多现实工业场景,包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。以确保OWL-Bench 能够展现出多样性。
DevOps-Eval
- DevOps-Eval是由蚂蚁集团联合北京大学发布的面向DevOps领域的大语言模型评测基准。
? Anhang
点赞历史
? Friendly links
- Awesome Code LLM
- 该项目收集了代码大模型相关论文,并整理出一篇综述。
- CodeFuse-ChatBot
- CodeFuse-ChatBot是由蚂蚁CodeFuse团队开发的开源AI智能助手,致力于简化和优化软件开发生命周期中的各个环节。
- Awesome AIGC Tutorials
- 该项目收集了关于AIGC的各种精选教程和资源,既适合初学者也适合进阶AI爱好者。
- Awesome Tool Learning
- 该项目收集了关于工具学习的资源,包括论文、框架和应用。
- Awesome LLM reasoning
- 该项目收集了关于大语言模型推理方面的资源,包括论文、数据集等。