Fördern Sie die Arsenal -Suche
Autor: Yang XI
NLP -Papierstudie Notizen: https://github.com/km1994/nlp_paper_study
Persönliche Einführung: Hallo, große Leute, mein Name ist Yang XI.
NLP Vielseitige und vielseitige Adresse: https://github.com/km1994/nlp-interview-notes
Empfohlenes System mit allen Seiten und allen Arten von Adressen: https://github.com/km1994/res-interview-notes
Promotion und Suche nach der Waffenbibliothek : https://github.com/km1994/recommendation_advertisement_search
Folgen Sie dem offiziellen Account [Dinge, die Sie nicht über NLP wissen] und schließen Sie sich [NLP && empfohlene Lerngruppe] zusammen, um gemeinsam zu studieren! ! !
1. Projekt
1.1 Einige große Modelle, die derzeit in der Branche heruntergeladen werden können
- Chatgpt:
- https://openai.com/blog/chatgpt
- Erfahrung Adresse: https://chat.openai.com/
- GLM-10B/130B
- Einführung: Zweisprachiger (chinesischer und englischer) bidirektionales dichtes Modell
- OPT-2,7B/13B/30B/66B:
- Einführung: Meta Open Source PreAnted Sprachmodell
- Github: https://github.com/facebookResearch/metaseq
- Papier: https://arxiv.org/pdf/2205.01068.pdf
- Lama-7b/13b/30b/65b:
- Einführung: Das grundlegende Großsprachmodell von Meta Open Source
- Github: https://github.com/facebookresearch/llama
- Papier: https://arxiv.org/pdf/2302.13971v1.pdf
- Alpaka (Lama-7b):
- Einführung: Stanford schlug ein leistungsstarkes Nachbeobachtungsmodell vor.
- Github: https://github.com/tatsu-lab/stanford_alpaca
- Chinese-Llama-alpaca Github: https://github.com/ymcui/chinese-lama-alpaca
- Belle (Bloomz-7b/Lama-7b):
- Einführung: Dieses Projekt basiert auf Stanford Alpaka und ist für Chinesisch optimiert.
- Chatglm-6b:
- Einführung: Zweisprachige chinesische und englische Dialogsprachmodell
- GitHub: https://github.com/thudm/chatglm-6b/
- Bloom-7b/13b/176b:
- Einführung: Kann mit 46 Sprachen umgehen, darunter Französisch, Chinesisch, Vietnamesisch, Indonesisch, Katalanisch, 13 indische Sprachen (wie Hindi) und 20 afrikanische Sprachen. Unter ihnen ist das Modell der Bloomz-Serie basierend auf dem XP3-Datensatz fein abgestimmt. Empfohlen für englische Eingabeaufforderungen (Aufforderung); Empfohlen für nicht englische Aufforderungen (Aufforderung)
- Github: https://huggingface.co/bigscience/bloom
- Papier: https://arxiv.org/pdf/2211.05100.pdf
- Vicuna (7b/13b):
- Einführung: Vicuna-13b, die von Forschern an der UC Berkeley, CMU, Stanford und UC San Diego erstellt wurde, wurde durch Feinabstimmung von Lama in von Sharegpt erfassten Konversationsdaten mit Nutzern erhalten. Unter ihnen wurde GPT-4 zur Bewertung verwendet und stellte fest, dass die Leistung von Vicuna-13b in mehr als 90% der Fälle mit ChatGPT und Barden vergleichbar war. Die Ausbildung für Vicuna-13B kostet etwa 300 US-Dollar. Darüber hinaus bietet es auch eine offene Plattform zum Training, Servieren und Bewertung von Chatbots auf der Grundlage von großsprachigen Modellen: Fastchat.
- Fries:
- Einführung: Bai Ze wurde auf Lama ausgebildet. Derzeit sind vier englische Modelle enthalten: BAI ZE-7B, 13B, 30B (Allgemeines Dialogmodell) und ein vertikales Feld BAI ZE-Medical-Modell für Forschung/Nichtkommerzusatz und plant, in Zukunft chinesisches BAI-ZE-Modell freizugeben. Alle Codes wie die Datenverarbeitung von Bai Ze, die Schulungsmodelle und die Demo wurden offen.
- Llmzoo:
- EINLEITUNG: Eine Reihe von Big -Models, die von der chinesischen Universität von Hongkong und dem Team von Shenzhen Big Data Research Institute wie Phoenix und Chimera usw. ins Leben gerufen wurden - MOSS: Das vom Fudan NLP -Team gestartete Moss -Großsprachmodell.
- Alpaka Fastchat
- Github: https://github.com/lm-sys/fastchat
- Minigpt-4
- Github: https://github.com/vision-cair/minigpt-4
1.2 [LLMS Einführung in die praktische Sequenzreihe]
Tsinghua University Open Source Chinese Version ChatGLM-6B Model Learning and Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical P Modelllernen und praktischer Kampf [LLMS -Anfänger Praktischer Kampf - 8] Minigpt -4 Modelllernen und praktischer Kampf
1.3 NLP -Projekt Arsenallernen
- 【Knowledge Graph Construction Deepkg】 https://github.com/powercy/deepkg
- Einführung: Dieses Projekt ist für die Konstruktion von Wissensgraphen verpflichtet und baut derzeit seine Methoden auf, und ich hoffe, mehr Menschen zu helfen.
1.4 Empfohlenes System Projekt Arsenallernen
- 【Fun-REC】 https://github.com/datawhalechina/fun-rec
- Einführung: Es richtet sich hauptsächlich um Studenten, die über eine grundlegende Stiftung für maschinelles Lernen verfügen und eine empfohlene Algorithmusposition finden möchten.
- 【Recsys】 https://github.com/qcymkxyc/recsys
- Einführung: Die Code -Implementierung von "empfohlener Systempraxis" von Xiang Liang von Xiang Liang ""
1.5 Suchmaschinenprojekt Arsenal -Lernen
- [Suchmaschinenprojekt Open Source] https://github.com/zuo369301826/search_project
- Projekteinführung: Simulieren Sie die Suchmaschine der Site -Suchmaschine.
- Projektfunktionen: Open Source-Frameworks wie Protobuf, GFLAG und GLOG, die von Google bereitgestellt werden, um die Entwicklung zu vervollständigen TTP Server ruft den Suchclient in CGI auf, um die Suchfunktion zu vervollständigen
- 【Elastic】 https://www.elastic.co/cn/
- Einführung: Elasticsearch ist eine verteilte Such- und Datenanalyse-Engine im Ruhestand, die die Entstehung verschiedener Anwendungsfälle lösen kann. Im Zentrum des elastischen Stapels speichert es Ihre Daten zentral und hilft Ihnen, unerwartete und unerwartete Situationen zu entdecken.
- 【Nutch】 http://nutch.sourceforge.net/docs/zh/about.html
- Einführung: Nutch ist eine Web-Suchmaschine, die gerade Open-Source geboren hat. Es gibt detaillierte chinesische Anweisungen auf der Homepage.
- 【Lucene】 http://jakarta.apache.org/lucene/docs/index.html
- Einführung: Apache Lucene ist eine Open-Source-Programm-Crawler-Engine, die Java-Software problemlos Volltext-Suchfunktionen hinzufügen kann. Die Hauptaufgabe von Lucene besteht darin, jedes Wort der Datei zu indizieren.
- 【Egothor】 http://www.egothor.org/
- Einführung: Egothor ist eine Open Source und eine effiziente Volltext -Suchmaschine, die in Java geschrieben wurde. Mit den plattformübergreifenden Funktionen von Java kann Egothor sowohl als separate Suchmaschine als auch für Ihre Anwendung als Volltext-Suche auf Anwendungen in jeder Umgebung angewendet werden.
- 【Oxyus】 http://oxyus.sourceforge.net/
- Einführung: Es ist eine reine Java-geschriebene Web-Suchmaschine.
- 【Bddbot】 http://www.twmacinta.com/bddbot/
- EINLEITUNG: BDDBOT ist eine einfache und leicht verständliche und Verwendung von Suchmaschinen. Derzeit kriecht es in einer URL, die in einer Textdatei (URLs.txt) aufgeführt ist, und speichert die Ergebnisse in einer Datenbank. Es unterstützt auch einen einfachen Webserver, der Abfragen aus dem Browser akzeptiert und die Antwortergebnisse zurückgibt. Es kann leicht in Ihre Website integriert werden.
1.6 Berechnen Sie das Werbeprojekt Arsenal Learning
- [Meituan DSP-Werbestrategiepraxis] https://tech.meituan.com/2017/05/05/mt-dsp.html
- [Einführung in Internet -Werbung und Computerwerbung] http://web.stanford.edu/class/msande239/
2. AI Artefakt
- Chatgpt AI Artefakt
- 【AI -Artefakt】 Dialog AI - Chatgpt https://999.weny66.cn/chat?bd_vid=11997231054327469370
- 【AI-Artefakt】 GPT-4 Online-Erlebnis Website chatmindai.cn
- 【AI -Artefakt】 CHATGPT3.5 kann sich in China anmelden. Https://chat23.yqcloud.top/
- Vorderfront -Chat -Chat.forefront.ai
- Poe poe.com/gpt-4
- 3D -AI -Artefakt
- Masterpiece Studio: https://xiaobot.net/p/superindividual
- Masterpiece Studio: https://masterpiecestudio.com
- G3dai {jedi}: https://g3d.ai
- Ponzu: https://www.ponzu.gg
- Prometheanai: https://www.prometheanai.com
- Leonardo.ai: https://leonardo.ai
- Kunst -AI -Artefakt
- Träumen Sie sich (abweichende Kunst): https://www.dreamup.com
- Nightcafe Studio: https://creator.nightcafe.studio
- Midjourney: https://www.midjourney.com/home/
- Artbreeder: https://www.artbreeder.com
- Wombo: https://www.wombo.art
- Audio -Bearbeitung AI -Artefakt
- Podcastle: Bearbeitung https://podcastle.ai
- CleanVoice: Audio -Bearbeitung https://cleanvoice.ai
- Code Assistent AI Artefakt
- Codesquire https://codesquire.ai
- Buildt -Code -Assistent https://www.buildt.ai
- Hey, Github!
- Kontinuierliches Update
3. Einführung in Xiaobai AI
3.1 Einführung in maschinelles Lernen
- [Wu Wanda Machine Learning Series Courses] https://www.bilibili.com/video/BV164411b7dx?from=search&seid=18138466354258018449&spm_id_from=333.337.0.0
3.2 Erste Schritte mit NLP
- [2021 Ng Deep Learning - NLP Sequence Model] https://www.bilibili.com/video/BV1Co4y1279R?from=search&seid=17563746002586971760&spm_id_from=333.337.0.0
- 【Einführung in den Wissensgrafik】】
- Zhejiang University Map Lecture Notes | Vorlesung 1 - Einführung in Wissensgrafiken - Abschnitt 1 - Sprache und Wissen
- Zhejiang University Map Lecture Notes |
- Graph Lecture Notes | Vorlesung 1 - Abschnitt 3 - Wert des Wissensdiagramms
- Graph Lecture Notes | Vorlesung 1 - Abschnitt 4 - technische Konnotation von Wissensgraphen
- Graph Lecture Notes | Vorlesung 2 - Abschnitt 1 - Was ist Wissensdarstellung
3.3 Erste Schritte mit Computerwerbung
- [Einführung in Internet -Werbung und Computerwerbung] http://web.stanford.edu/class/msande239/
- Vorlesung 1: Einführung, ergänzende Notizen
- Vortrag 2: Marktplatzdesign, in der Klassenpräsentation, ergänzende Notizen
- Vortrag 3: gesponserte Suche 1 in der Klassenpräsentation
- Vortrag 4: gesponserte Suche 2 in der Klassenpräsentation
- Vorlesung 5: Anzeigewerbung 1 in der Klassenpräsentation
- Vortrag 6: Anzeigewerbung 2 in der Klassenpräsentation
- Vortrag 7: Targeting, in der Klassenpräsentation
- Vorlesung 8: Empfehlungssysteme in der Klassenpräsentation 1 in der Klassenpräsentation 2
- Vortrag 9: Mobile, Video und andere aufstrebende Formate in der Klassenpräsentation 1 in der Klassenpräsentation 2
- [Liu Peng - Computational Advertising (empfohlen)] http://study.163.com/course/inTroduction.htm?courseId=321007
- Einführung: Lehrer Liu Peng ist derzeit der Hauptarchitekten von kommerziellen Produkten in 360 und verfügt über eine reichhaltige praktische Erfahrung im Bereich Internetwerbung. Der Inhalt seines Kurs "Computerwerbung" ist leicht zu verstehen, vom Werbegeschichtsmodell bis hin zur jüngsten Technologie, die für Freunde, die neu auf dem Gebiet sind, sehr geeignet ist.
- Grundkenntnisse der Werbung
- Vertragswerbesystem
- Zielgruppe Targeting
- Bieter -Werbesystem
- Suchen Sie nach Werbe- und Werbenetzwerk -Nachfrage -Technologie
- Werbemarkt
- 【Baidu - Computerwerbung】 http://openresearch.baidu.com/courses/1231.jhtml
- Überblick über die Computerwerbung
- Suchmaschinenwerbung Prinzipien, Technologie und technische Praktiken
- Inhaltsübereinstimmende Werbeprinzipien, Techniken und Praktiken
- [Wang Yongrui - Internetwerbung Algorithmen und Systempraxis] http://yuedu.baidu.com/ebook/3e31c551964bcf84b9d57bc0.html
- Einführung: Lehrer Wang ist die Person, die für den gezielten Werbealgorithmus von Taobao zuständig ist. Sein Kurs kombiniert Taobaos Werbepraxiserfahrung, von der Werbetheorie bis zur systematischen technischen Praxis, und ist sehr wert, von Technikern zu lernen.
- Einführung in die Internetwerbung
- Suchen Sie Anzeigen
- Gezielte Werbung
- Echtzeit-Werbeeinrichtungen
- Werbesystemarchitektur und Herausforderungen
- 【UCS - Einführung in die Computerwerbung】 http://classes.soe.ucsc.edu/ism293/spring09/index_archivos/page456.html
- Einführung und Übersicht
- Informationsabruf (IR) für Computeration
- Marktdesign
- Techniken für maschinelles Lernen
- Gesponserte Suche i
- Gesponserte Suche ii
- Grafische Anzeigen und garantierte Lieferung
- Kontextwerbung i
- Kontextwerbung ii
- Verhaltensziel (BT)
V.
- 【NLP -Studie Notizen】】
- 【Transformator】
- 【Über effiziente Transformatoren: Eine Umfrage】 Dinge, die Sie nicht wissen
- 【Bert -Modellkompression】
- 【Über Selbsttraining + Vorausbildung = besseres natürliches Sprachverständnis Modell】 Dinge, die Sie nicht wissen
- 【Über Bert zu textcnn】 Dinge, die Sie nicht wissen
- 【Genannte Entitätserkennung】
- 【BIAFFIN über eine verschachtelte Entitätserkennung】 Dinge, die Sie nicht kennen
- PapersShape von Biaffin
- Papershapes Inventar der genannten Entitätserkennung in den letzten Jahren
- 【Über das kontinuierliche Lernen für Ner】 Dinge, die Sie nicht wissen
- 【Beziehungsextraktion】
- 【Über HBT -Beziehungsextraktion】 Dinge, die Sie nicht wissen
- Von Anfang an die Beziehungsextraktion
- Von Anfang an, Beziehungsextraktion - Remote -Überwachung Angriff
- [Beziehungsextraktion auf Dokumentenebene]
- 【Über Atlop】 Dinge, die Sie nicht wissen
- Papierzusammenfassung |.
- Papierzusammenfassung |.
- 【Text übereinstimmen】】
- 【Über Satzbert】 Dinge, die Sie nicht wissen
- Facebook: FAISS -Prinzip + Anwendung der Suchbibliothek für Millionen von Vektorähnlichkeit
- Neue Satzvektorlösung Cosent Practical Record
- 【Statuskette Referenz】
- 【Über General】 Dinge, die Sie nicht wissen
- 【Textfehlerkorrektur】
- 【Über Geektor】 Dinge, die Sie nicht wissen
- 【Q & A -Roboter】
- TopicShare Sharing Scene-basierte und searchbasierte Q & A-Roboter
- 【Dialogsystem】】
- "【Community sagt】 Lass uns über Rasa 3.0 sprechen" unvollständige Notizen
- (I) Überblick über Dialogroboter
- (Ii) Einführung in die Rasa Open Source Engine
- (Iii) Rasa -NLU -Sprachmodell
- (Iv) Rasa -NLU -Wortsegmentierer
- (V) Rasa NLU -Feature -Generator
- (Vi) Rasa nlu Intent -Klassifikator
- (Vii) Rasa nlu Entity -Extraktor
- (9) RASA -benutzerdefinierte Pipeline -Komponenten
- (10) Rasa -Kernpolitik
- (11) Rasa Core -Aktion
- (12) Rasa -Domain
- (13) RASA -Trainingsdaten
- (14) Rasa -Geschichte
- (15) RASA -Regeln
- (16) Rasa Best Practices
- (17) Starten Sie den chinesischen Roboter auf der Grundlage von Rasa
- (18) Starten Sie den chinesischen Roboter -Implementierungsmechanismus basierend auf Rasa
- (19) Frage und Antwortsystem basierend auf Knowledge Graph (KBQA)
- (20) ein Q & A -System, das auf dem Leseverständnis basiert
- Diät: Doppelte Absicht und Entitätstransformator - Rasa Paper -Übersetzung
- (21) FAQs bei der RASA -Anwendung
- (22) Hyperparameteroptimierung von Rasa
- (23) Robotertests und Bewertung
- (24) Erstellen Sie einen Kontextdialogassistenten mit RASA -Formularen
- 【Kbqa】
- 【Über komplexe KBQA】 Dinge, die Sie nicht kennen (Teil 1)
- 【Über komplexe KBQA】 Dinge, die Sie nicht kennen (Chinesisch)
- 【Über komplexe KBQA】 Dinge, die Sie nicht kennen (Teil 2)
- 【Ereignisextraktion】
- 【Über Mlbinet】 Dinge, die Sie nicht wissen
- 【Sofortiges Tuning】】
- 【Neue Wortentdeckung】
- Bauen Sie Ihre eigene PTM! Neues Wort Mining + Vorabbildung
- 【Text zu SQL】
- Text an SQL? Hier ist eine Basisanalyse
- 【Empfohlene Systemstudiennotizen】
- Empfohlener Trend zur Entwicklung der Systemtechnologie: Rückruf
- Empfohlener Trend für Systemtechnologie Evolution: Sortierung
- Empfohlener Systementechnologie -Evolutionstrend: Neuordnung
- Wie findet das Empfehlungssystem ähnliche Benutzer?
- Ein langer Artikel mit zehntausend Wörtern beschreibt die Logik und Entwicklung des Dialogempfehlungssystems
- Zusammenfassung der verwandten Technologien der Modellanpassung im empfohlenen System
- 【GCN -Studie Notizen】】
- 【Über GCN in NLP】 Dinge, die Sie nicht wissen
- [Berechnen Sie Werbepapiere und Datenliste Github Repo]
- Drei große Perspektiven, sprechen Sie über das Werbesystem in meinen Augen
- [Empfohlene Systempapiere und Datenliste Github Repo]
- 【Suchmaschine】
- 【Über PLM für das Abrufen von Webmaßern in der Baidu-Suche】 Dinge, die Sie nicht wissen
- EMNLP 2021 |.
5. Fördert den Suchartikel
- 【NLP -vielseitig und vielseitig】
- 【Maschinelles Lernen】
- 【Über Regularisierung】 Dinge, die Sie nicht wissen
- 【Über den Optimierungsalgorithmus】 Dinge, die Sie nicht wissen
- 【Über Batchnorm gegen Layernorm】 Dinge, die Sie nicht wissen
- 【Über Normalisierung】 Dinge, die Sie nicht wissen
- 【Über Überanpassung und Unteranpassung】 Dinge, die Sie nicht kennen
- 【Tiefes Lernen】
- 【Über CNN】 Dinge, die Sie nicht wissen
- 【Über Aufmerksamkeit】 Dinge, die Sie nicht wissen
- 【Über Transformator】 Dinge, die Sie nicht kennen (Teil 1)
- 【Über Transformator】 Dinge, die Sie nicht kennen (Chinesisch)
- 【Über Transformator】 Dinge, die Sie nicht kennen (Teil 2)
- 【NLP -Aufgaben】
- 【Vorbereitete Modell】】
- 【Über tf-idf】 Dinge, die Sie nicht kennen
- 【Über Word2Vec】 Dinge, die Sie nicht wissen
- 【Über FastText】 Dinge, die Sie nicht wissen
- 【Über Elmo】 Dinge, die Sie nicht wissen
- 【Über Bert】 Dinge, die Sie nicht kennen (Teil 1)
- 【Über Bert】 Dinge, die Sie nicht kennen (Teil 2)
- 【Über die Bert -Quellcode -Analyse Is Hauptkörper】 Dinge, die Sie nicht wissen
- 【Über die Bert-Quellcode-Analyse II vor dem Training Kapitel】 Dinge, die Sie nicht wissen
- 【Über Bert Source Code Analysis III Feinabstimmung Kapitel】 Dinge, die Sie nicht wissen
- [Über den Artikel über Bert -Quellcode -Analyse IV -Satz Vektorgenerierung] Dinge, die Sie nicht wissen
- 【Über Berts größere, desto raffiniertere Sequenz】 Dinge, die Sie nicht wissen (ich)
- 【Über Berts größere, die raffiniertere Sequenz】 Dinge, die Sie nicht wissen (ii)
- 【Über Berts größere, die raffiniertere Sequenz】 Dinge, die Sie nicht wissen (III)
- 【Neue Wortentdeckung】
- 【Über neue Wortentdeckung】 Dinge, die Sie nicht wissen
- 【Keyword -Extraktion】
- 【Über die Keyword -Extraktion】 Dinge, die Sie nicht wissen
- 【Über Keybert】 Dinge, die Sie nicht wissen
- 【Empfohlenes System mit allen Seiten】
- fortgesetzt werden
6. Framework
6.1 Pytorch -Lernen
- 【Pytorch English Version Offizielles Handbuch】 https://pytorch.org/tutorials/
- Einführung: Pytorch English Version Offizielles Handbuch: https://pytorch.org/tutorials/. Für Studenten mit gutem Englisch ist dieses offizielle Dokument von Pytorch sehr zu empfehlen, das Sie Schritt für Schritt von der Mastering erfordern. In diesem Dokument werden die Grundlagen zum Erstellen von tiefen neuronalen Netzwerken mit Pytorch sowie Pytorch-Syntax und einigen hochwertigen Fällen beschrieben.
- [Pytorch Chinese Official Dokument] https://pytorch-cn.readthedocs.io/zh/latest/
- Einführung: Pytorch Chinese Official Dokument: https://pytorch-cn.readthedocs.io/zh/latest/. Es spielt keine Rolle, ob Sie Schwierigkeiten haben, die oben genannten englischen Dokumente zu lesen.
- [Pytorch Code-Tutorial für praktische Algorithmen] https://github.com/yunjey/pytorch-tutorial
- Einführung: Dies ist ein Pytorch-Code-Tutorial, das für Algorithmen praktischer ist. Es wird empfohlen, die oben genannten zwei grundlegenden Pytorch -Tutorials zu lernen, bevor Sie dieses Dokument lesen.
- 【Pytorch Open Source-Bücher】 https://github.com/zergtant/pytorch-handbuch
- Einführung: Einführung in ein Open-Source-Buch: https://github.com/zergtant/pytorch-handbuch. Dies ist ein Open -Source -Buch mit dem Ziel, denjenigen zu helfen, die Pytorch für die Entwicklung von Deep -Learning -Entwicklung und Forschung schnell helfen und sie verwenden. Dieses Dokument ist jedoch nicht sehr vollständig und wird immer noch aktualisiert.
- ["Hand-on Deep Learning" Pytorch] http://tangshusen.me/dive-into-dl-pytorch/#/
- 【Praktisches Tutorial zum Pytorch -Modelltraining】 https://github.com/km1994/pytorch_tutorial
- 【Pytorch Advanced NLP Praktische Praxis】 https://github.com/km1994/nlp_pytorch_project
- 【Ark-NLP NLP Tool Library】 https://github.com/xiangking/ark-nlp
- Einführung: Das Open -Source -Arsenal von Wang Xiang wird hauptsächlich zum Sammeln und Reproduzieren der häufig verwendeten NLP -Modelle in Akademikern und Arbeiten verwendet.
6.2 Tensorflow -Lernen
- 【TensorFlow Offizielle Website】 https://www.tensorflow.org/tutorials
- Einführung: Das offizielle Website -Tutorial ist definitiv das duftendste Lernmaterial
- 【TensorFlow-Beispiele】 https://github.com/aymericdamien/tensorflow-xamples
- Einführung: TensorFlow-Tutorials und Code Beispiele für Anfänger: https://github.com/aymericdamien/tensorflow-xamples. Dieses Tutorial bietet nicht nur einige klassische Datensätze, sondern beginnt auch mit der Implementierung der einfachsten "Hello World" bis hin zu klassischen Algorithmen für maschinelles Lernen und für häufig verwendete Modelle für neuronale Netze.
- 【TensorFlow Tutorials】 https://github.com/pkmital/tensorflow_tutorials
- Einführung: Von den Grundlagen des Tensorflows bis hin zu interessanten Projektanwendungen: https://github.com/pkmital/tensorflow_tutorials. Es ist auch ein Tutorial für Anfänger, von der Installation bis zur Projektpraxis, um Ihnen beizubringen, Ihr eigenes neuronales Netzwerk aufzubauen.
- 【TensorFlow-Tutorials mit Jupyter Notebook】 https://github.com/sjchoi86/tensorflow-101
- Einführung: TensorFlow-Tutorial in Python mit Jupyter Notebook: https://github.com/sjchoi86/tensorflow-101. Dieses Tutorial ist ein Tensorflow -Tutorial, das auf der Jupyter -Notebook -Umgebung basiert.
- 【TensorFlow_exercises】 https://github.com/terryum/tensorflow_exercises
- Einführung: TensorFlow Code Übung: https://github.com/terryum/tensorflow_exercises. Ein TensorFlow -Code -Übungshandbuch von einfach zu schwierig. Sehr geeignet für Freunde, die Tensorflow studieren.
- 【Anwendung von Bert und Albert in nachgeschalteten Aufgaben】 https://github.com/km1994/bert-for-pask
- Einführung: Berts Implementierung in NLP -Aufgaben
6.3 Keras lernen
- 【Bert4keras】 https://github.com/bojone/bert4keras
- Einführung: Sushens Open-Source-Arsenal, eine neu implementierte Keras-Version der Transformer Model Library, setzt sich dafür ein, Transformator und Keras mit dem erfrischenden Code zu kombinieren.
6.4 Lernen des Verteilten Trainingsrahmens
- Die erste Kategorie: Verteilte Trainingsfunktionen, die mit Deep Learning -Frameworks ausgestattet sind. Wie: Tensorflow, Pytorch, Mindspore, Oneflow, Paddlepaddle usw.
- Die zweite Kategorie: Skalierung und Optimierung basierend auf vorhandenen Deep -Learning -Frameworks (wie Pytorch, Flax) zur Durchführung eines verteilten Trainings. Wie: Megatron-lm (Tensor-Parallel), DeepSpeed (Zero-DP), Colossal-AI (Hochdimensionalmodellparallelität wie 2D, 2,5D, 3D), ALPA (automatische Parallelität), usw.
7. Wettbewerb
5.1 Innenwettbewerb
- [Iflytek -Entwicklerwettbewerb] http://chalenge.xfyun.cn/
- 【Ali Tianchi】 https://tianchi.aliyun.com/
- 【Biendata】 https://www.biendata.xyz/
- 【DataFountain】 https://www.datafountain.cn/
- 【Baidu Paddle Paddle】 https://aistudio.baidu.com/
5.2 Wettbewerbsbetriebskonto
- 【MAPO TOFU AI】】
- Einführung: Wird einige aktuelle Veranstaltungen einführen, an denen Sie teilnehmen können
5.3 NLP -Wettbewerb Arsenal
- [NLP Arsenal Tool Library] https://github.com/tingfree/nlper-arsenal
- Einführung: NLP Arsenal, das hauptsächlich die Implementierung der NLP -Wettbewerbsstrategie, verschiedene Aufgaben -Tutorials, Erfahrungsbeiträge, Lernmaterialien und Besprechungszeit umfasst.
- 【Chip2021-TASK3-Open-Quelllösung für standardisierte Aufgaben in klinischer Hinsicht】
- GitHub -Quellcode
- Evaluierungswebsite: http://cips-chip.org.cn/2021/eval3
- Der gesamte Code basiert auf unserer Open-Source-Ark-NLP-Implementierung. Es gibt keine Liste für die klinische Begriffs -Standardisierungsaufgabe von ChIP2021, sodass das Code -Debugging in der klinischen Begriffsstandardisierungsaufgabe von CBLUE, dem Datensatz der chinesischen medizinischen Informationsverarbeitungsdaten von Tianchi, abgeschlossen ist.
- ARK-NLP-Adresse: https://github.com/xiangking/ark-nlp
- Chinesische Datensatz für medizinische Informationsverarbeitung CBLUE: https://tianchi.aliyun.com/dataset/datadetail?dataid=95414
- [ChIP2021 Medizinischer Dialog Klinische Discovery Yin-Yang Diskriminierungsaufgabe Open-Source-Plan]
- GitHub -Quellcode
- Name: CBLUE: Eine chinesische biomedizinische Sprachverständnis -Bewertung Benchmark
- Evaluierungsaufgabe: CBLUE 1.0 besteht aus dem Datensatz früherer akademischer Bewertungswettbewerbe der ChIP-Konferenz und des Ali Quark Medical Search-Unternehmens, einschließlich der Extraktion des medizinischen Textinformationen (Entitätserkennung, Beziehungsextraktion), medizinischer Begriffnormalisierung, Klassifizierung medizinischer Text, medizinischer Satzbeziehung und medizinischer QA insgesamt 8 Unteraufgaben.
- Aufgabentypen: Textklassifizierung, Textzug, genannte Entitätserkennung, Beziehungsextraktion und Terminologie -Standardisierung (kann als Entitätsverbinden ohne Kontext angesehen werden)
- Evaluierungslink: https://tianchi.aliyun.com/dataset/datadetail?dataid=95414
- 【CBLUE-ALI Tianchi Chinese Medical NLP Ranking Baseline】 https://github.com/dataark/cblue-baseline
- [Shandong Big Data Competition-Grid Event Intelligent Klassifizierung Grundlinie] https://github.com/xiangking/Sandongdatacompetition2021-grid-event-classification-baseline
- Evaluierungsaufgabe: Basierend auf Grid -Ereignisdaten, extrahieren und analysieren Sie den Ereignisinhalt im Netz, teilen Sie die Kategorien der Ereignisse und teilen Sie die Regierungsangelegenheiten, zu denen das Ereignis gehört, auf.
- Aufgabentyp: Textklassifizierung
- Evaluierungsverbindung: http://data.sd.gov.cn/cmpt/cmptdetail.html?id=67
8. Corpus
8.1 NLP -Material
- 【Nlp_chinese_corpus】 https://github.com/brightmart/nlp_chinese_corpus
- Einführung: Großer chinesischer Corpus für NLP
8.2 Empfohlenes Systemzitat
- 【Movielens】 https://groppens.org/datasets/movielens/
- Einführung: Der Movielens -Datensatz wurde von der Groppens Research Group in der Universität von Minnesota (nicht mit unserer Verwendung des Datensatzes) organisiert. Movielens ist eine Sammlung von Filmbewertungen, die in verschiedenen Größen erhältlich sind. Die Datensätze werden mit 1 m, 10 m und 20 m bezeichnet, da sie 1, 10 und 200.000 Bewertungen enthalten. Der größte Datensatz verwendet Daten von rund 140.000 Benutzern und deckt 27.000 Filme ab. Zusätzlich zu Bewertungen enthält die Movielens -Daten auch Genreinformationen, die "Western" und Tags für Benutzeranwendungen wie "Over top" und "Arnold Schwarzenegger" ähnlich sind. Diese Genre -Tags und -bezeichnungen sind nützlich beim Aufbau von Inhaltsvektoren. Inhaltsvektoren codieren die Informationen eines Elements wie Farbe, Form, Genre oder ein anderes Attribut - was eine beliebige Form eines Empfehlungsalgorithmus für inhaltsbasiert sein kann.
- 【Buchkreuzungen】
- Einführung: Book-Crossings ist ein Buchbewertungsdatensatz von Cai-Nicolas Ziegler, das auf den Daten von http://bookcrossing.com basiert. Es enthält 1,1 Millionen Bewertungen für 270.000 Bücher von 90.000 Benutzern. Die Punktzahl reicht von 1 bis 10 und umfasst auch implizite Punktzahlen.
- 【Last.fm】 http://www2.informatik.uni-freiburg.de/~cziegler/bx/
- Einführung: Last.fm bietet einen Datensatz für Musikempfehlungen. Fügen Sie für jeden Benutzer im Datensatz eine Liste seiner beliebtesten Künstler und die Anzahl der Stücke hinzu. Es enthält auch Benutzeranwendungs -Tags, mit denen Inhaltsvektoren erstellt werden können.
- 【Dating Agency】 (http://www2.informatik.uni-freiburg.de/~cziegler/bx/)
- Einführung: Dieser Datensatz enthält 17.359.346 anonyme Bewertungen für 168.791 Konfigurationsdateien von 135.359 Libimseti -Benutzern, die am 4. April 2006 exportiert wurden.
- Andere: https://zhuanlan.zhihu.com/p/258566760
8.3 Beschriftungstools
- Sind Sie immer noch besorgt, den Annotator für Entity -Beziehung nicht zu finden?
- https://labelstud.io/
- Doccano
9. offizielles Konto Kapitel
- Dinge, die Sie über NLP nicht wissen
- Einführung: Dinge, die Sie über NLP nicht wissen
- CS 'bescheidener Raum
- Einführung: Ein Beitrag zum Teilen von Erfahrungen des Chars SIU -Chefs.
- Dataark
- EINLEITUNG: Dataark ist datengesteuert und freizügig ausgerichtet und verpflichtet sich für Data Mining, Algorithmus Innovation und die Entwicklung praktischer Tools.
- Intelligente Empfehlungssystem
- Einführung: Konzentration auf intelligente Empfehlungssysteme sind die neuesten und umfassendsten personalisierten Empfehlungsalgorithmen und Branchenanwendungen, die Sie mit Ihnen in den Ozean der Empfehlungen befriedigen und die unbekannte neue Welt gemeinsam erkunden.
- DataFuntalk
- Einführung: Konzentration auf das Austausch und die Kommunikation von Big Data und künstlichen Intelligenz -Technologieanwendungen. Verpflichtet, Millionen von Datenwissenschaftlern zu erreichen.定期组织技术分享直播,并整理大数据、推荐/搜索算法、广告算法、NLP自然语言处理算法、智能风控、自动驾驶、机器学习/深度学习等技术应用文章。
- RUC Al Box
- 介绍:本公众号主要关注使用人工智能技术来解决自然语言处理与社交媒体数据挖掘的研究内容。分享Al前沿,解读热点论文。
- NewBeeNLP
- 开放知识图谱
- WeData365
- 介绍:学习【搜索引擎】 的小伙伴一定要关注,因为有很多【搜索引擎】 干货分享
- 科学空间
- 介绍:苏神的公众号,每周四苏神都会开源他的研究笔记。
- 老刘说NLP
- 介绍:360人工智能研究院大佬刘焕勇刘大佬的公众号,定期发布语言资源、工程实践、技术总结等内容。
- 数据拾光者
- 介绍:学习【广告】 的小伙伴一定要关注,因为有很多【广告】 干货分享
- 泛函的范
- 计算广告那些事
- 介绍:学习【广告】 的小伙伴一定要关注,因为有很多【广告】 干货分享
- 药老算法
- 介绍:学习【搜索引擎】 的小伙伴一定要关注,因为有很多【搜索引擎】 干货分享
- 机器学习算法与自然语言处理
- 介绍:一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
- 王喆的机器学习笔记
- AINLP
- 介绍:关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试自动对联、作诗机、藏头诗生成器,调戏夸夸机器人、彩虹屁生成器,使用中英翻译,查询相似词,测试NLP相关工具包。
- 李rumor
- 夕小瑶的卖萌屋
- 介绍:自然语言处理、计算机视觉、信息检索、推荐系统、机器学习
十、学习笔记
- 科学空间:
- 地址:https://spaces.ac.cn/
- 介绍:苏神经验学习笔记分享
- 魔法学院的Chilia
- 地址:https://www.zhihu.com/people/wang-zi-han-81-18/posts
- 方向:推荐系统| 广告| 搜索| NLP
- 水哥
- 地址:https://www.zhihu.com/people/shui-ge-99
- 方向:推荐系统
- JayJay
- 地址:https://www.zhihu.com/people/lou-jie-9
- 我想了很多事
- 地址:https://www.zhihu.com/people/yuan-chao-yi-83
十一、部署笔记
- Bert与TensorRT部署手册,享受丝滑的顺畅
参考
- 关于大模型实践的一些总结