Wenn Sie zu diesem Open -Source -Projekt beitragen müssen, kontaktieren Sie mich bitte.
- Tiefes Lernen für Wissensgraph
- Ressource External Link
- Das Vergangenheit und gegenwärtige Leben des Wissensgrafiks
- Forschungszusammenfassungsliste
- Besondere Forschung
- Analyse der verwandten Theorie von KG & QA
- Analyse von NLP -verwandten Papieren
- Erforschung der Struktur chinesischer Finanzdokumente
- Konferenzen im Zusammenhang mit Wissensgrafik
- Analogie der Tatsachen
- Dialogsystemtechnologie
- Im Zusammenhang mit der Kommerzialisierung von NLP/Dialogue/kg (nur für Kommunikation und Lernen)
- Liste der Mainstream Open Source Q & A & Conversation Systems
- Liste der semantischen Mainstream -Plattformen
- Liste der chinesischen und englischen Textvorbereitungswerkzeuge
- Graphspeicher- und Abfragewerkzeuge
- Visualisierungstools
- Liste der Datensätze für chinesische und englische Wissensgrafiken
- Wettbewerb
- denken
- Sterngeschichte
- veranschaulichen
- Kontakt
Tiefes Lernen für Wissensgraph
Erforschen Sie die Serie Kognitiver Intelligenz --- Trends: 1. Datenfusionswissen; 2. Alles in LLM. Einschließlich Wissenserwerb, Wissensbasiskonstruktion und einer Reihe technischer Forschung und Anwendung von Q & A -Systemen auf der Grundlage der Wissensbasis. Es beinhaltet hochmoderne Technologien und Papiere auf dem Gebiet von NLP.
Ressource External Link
NLP-Prozess
Repository zur Verfolgung der Fortschritte in der natürlichen Sprachverarbeitung (NLP), einschließlich der Datensätze und der aktuellen Stand der Technik für die häufigsten NLP-Aufgaben.
Papiere withCode
Papiere und Codes werden bereitgestellt.
Technologie online
Persönliche tägliche Technologie- und Chat -Websites.
Das Vergangenheit und gegenwärtige Leben des Wissensgrafiks
| Seriennummer | Artikel |
|---|
| 1 | Warum geht das "Knowledge Graph" auf 1956 zurück? |
Forschungszusammenfassungsliste
Besondere Forschung
- Ein Dialogsystem basierend auf Wissensgrafik
Analyse der verwandten Theorie von KG & QA
- Eine Zusammenfassung der Wissensgrafiken
- Die Herausforderung des Wissensgrafiks
- Deep -Lern- und Wissensgrafik
- CN-dbpedia: Ein unendliches chinesisches Wissensextraktionssystem
- KBQA
- Zhao Tingyang: Wie ist das Selbstbewusstsein der künstlichen Intelligenz möglich? 1-3
- NLP University Eröffnung von Daji-Lehrer Li Wei, Simon Fraser University, Ph.D.
- ACL 2019 Eine umfassende Zusammenfassung des Wissensgraphen
Analyse von NLP -verwandten Papieren
- Der illustrierte Transformator
- Eine aufmerksame Übersicht über Aufmerksamkeitsmodelle
- Bert: Bidirektionale Encoder -Darstellungen aus Transformatoren
- Ernie: Verbesserte Darstellung durch Wissensintegration
- Ernie: Verbesserte Sprachdarstellung mit informativen Einheiten
- Google T5: Text-to-Text-Transfertransformator
Erforschung der Struktur chinesischer Finanzdokumente
- Doc2edag
Konferenzen im Zusammenhang mit Wissensgrafik
| Seriennummer | Name | Grad | Typ | Feld |
|---|
| 1 | ACL | Klasse a | Akademische Konferenz | Ai |
| 2 | CVPR | Klasse a | Akademische Konferenz | Ai |
| 3 | ICML | Klasse a | Akademische Konferenz | Ai |
| 4 | Ijcai | Klasse a | Akademische Konferenz | Ai |
| 5 | EMNLP | Klasse b | Akademische Konferenz | Ai |
| 6 | Cikm | Klasse b | Akademische Konferenz | Datenbank/Data Mining/Inhaltsabnahme |
| 7 | Aaai | Klasse a | Akademische Konferenz | Ai |
| 8 | Sigkdd | Klasse a | Akademische Konferenz | Datenbank/Data Mining/Inhaltsabnahme |
| 9 | Tkde | Klasse a | Akademische Zeitschriften | (Datenbank/Data Mining/Inhaltsabnahme) |
| 10 | Sigir | Klasse a | Akademische Konferenz | Datenbank/Data Mining/Inhaltsabnahme |
Analogie der Tatsachen
- Zusammenfassung der Materiekarte
- Bai Shuo: Sechs Fragen und sechs Antworten auf der Karte der Dinge
Dialogsystemtechnologie
- CSDN | Open -Class -Anmerkungen: Eine detaillierte Erklärung des Wissensmanagements in heuristischen Dialogen_Aispeech
- Eine systematische Überprüfung des Dialogs
- Gesprochene Verständnisstechnologie (SLU) in Dialogsystemen
Im Zusammenhang mit der Kommerzialisierung von NLP/Dialogue/kg (nur für Kommunikation und Lernen)
- Technologie für natürliche Sprache Verarbeitung in der Sprachinteraktion-Xiaomi
- Lean Knowledge Graph Methodology-Wenyin Internet
- Forschung und Fortschritt von Xiaoi Roboter auf chinesischer semantischer offener Plattform-Xiaoi Roboter
- Iflytek aussehend zum Wert und den Herausforderungen der Wissensgrafik aus Anwendungsperspektive-Iflytek
Liste der Mainstream Open Source Q & A & Conversation Systems
| Seriennummer | Name | Adresse |
|---|
| 1 | FRAGEANSWERINGSYSTEM | FRAGEANSWERINGSYSTEM ist ein Java-implementiertes Human-Computer-Frage- und Antwortsystem, mit dem automatisch Fragen analysiert und Kandidatenantworten geben können. |
| 2 | QabasedonMedicaknowledgegraph | Von Grund auf erstellen wir ein bestimmtes krankheitszentriertes medizinisches Feld Wissensgrafik und verwenden dieses Wissensgraphen, um automatische Fragen und Antworten und Analysedienste zu vervollständigen. Python |
| 3 | Deeppavlov | Eine Open-Source-Bibliothek für Deep Learning End-to-End-Dialogsysteme und Chatbots. Python |
Liste der semantischen Mainstream -Plattformen
| Seriennummer | Name |
|---|
| 1 | Tencent Wenzhi Chinesische semantische Plattform |
| 2 | Iflytek Open Semantic Platform |
| 3 | Bosen chinesische Semantik offene Plattform |
| 4 | Harbin Institute of Technology Language Cloud |
Liste der chinesischen und englischen Textvorbereitungswerkzeuge
| Seriennummer | Name | Hauptfunktionen |
|---|
| 1 | Thulac | Chinesisches lesxikaler Analyse -Tool, unterstützt C ++/Java/Python von Tsinghua |
| 2 | LTP | Sprachtechnologie -Plattform PyLYP LTP Python -Verpackung von Harbin Institute of Technology |
| 3 | Hanlp | Unterstützen Sie Java |
| 4 | Stotternpartizip | Chinesisches Wort Partizip (nur Wort Partizip Partizip), Java, Python, C ++ |
| 5 | Jiagu | Bietet gemeinsame Verarbeitungsfunktionen für natürliche Sprache wie chinesische Wortsegmentierung, Annotation der Speech, Benennung der Entitätserkennung, Keyword-Extraktion, Textzusammenfassung und neuer Word-Entdeckung. Python |
| 6 | Fudannlp | Chinesisches Wort Partizip (Wortpartizip, Annotation der Sprache, Benennungserkennung), unterstützt Java |
| 7 | Deepdive Deepdive | Das Open -Source -Wissensextraktionstool der Stanford University (Triple Extraction) unterstützt Python |
| 8 | Fudandnn-nlp3.0 | Wird zur chinesischen Wortsegmentierung, Namenserkennung, Annotation, Satzklassifizierung, semantische Analyse, Wissenszugriff, Dialogfrage und Antwort und unterstützt Java --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| 9 | Stanford Corenlp | Mehrsprachiger Teil des Speech-Markers, Benennungsentitätserkenner, Parser (Satz und grammatikalische Struktur), Referenzendigester (dh die Frage der Bestimmung, auf welchen Substantiv die Pronomen im Kapitel verweist), Sentiment Analyzer, geführter Modus-Lerner der Open Information Extractor, Java/Python. |
Graphspeicher- und Abfragewerkzeuge
| Seriennummer | Name | Hauptfunktionen |
|---|
| 1 | Neo4j | Open Source Graph -Datenbank, entwickelt von Java. |
| 2 | Orientdb | Open Source NoSQL -Datenbank, die Dokumente, Grafiken und herkömmliche Datenbankkomponenten verarbeiten kann. Geschrieben von Java, schneller Speicher. |
| 3 | Virtuose | Unterstützt RDF- und Sparql -Abfragen. |
| 4 | Titan | Es kann in Gremlin/HBASE integriert werden, um verteilte Speicher- und Rechendiagrammdatenverarbeitung zu aktivieren. |
| 5 | Apache Jena-Idb | Betreiben Sie RDF unter Java. Unter ihnen nutzt TDB das Triple Store, um persistentes Geschäft für RDF -Daten bereitzustellen. TDB ist schneller und skalierbar als RDB und SDB. |
| 6 | Chiffre | Deklarative Graph -Abfragesprache, effiziente Abfrage und Aktualisierung der Diagrammdatenbank. |
| 7 | Gremlin | Eine funktionale Datenflusssprache, die es Benutzern ermöglicht, auf prägnante Weise Traversal oder Abfrage komplexer Eigenschaftsgraphen auszudrücken. |
| 8 | Sparql | Für RDF entwickeltes Protokoll für Abfragen und Datenerfassung. |
| 9 | RDFLIB | Ein Parser und ein Serializer, das basierend auf Python, RDF/XML, N3, NTriples, N-Quads, Turtle, Trix, RDFA und MicroData geschrieben wurde, unterstützt SPARQL 1.1-Abfrage- und Update-Statements. |
Visualisierungstools
| Seriennummer | Name | Hauptfunktionen |
|---|
| 1 | Echarts | Baidu Open Source -Tool, vollständige API -Kapselung, einfach und einfach zu bedienen und einfach zu bedienen, unterstützt jedoch keine Ereignisverarbeitung. |
| 2 | Cytoscape.js | Für Grafik und Netzwerk ist die Interaktivität der Ereignisse gut und einfach zu bedienen. |
| 3 | D3.js | Die Nutzungsschwelle ist hoch, unterstützt jedoch Ereignisverarbeiter. D3 hat einen extrem kleinen Overhead, unterstützt dynamisches Verhalten großer Datensätze und interaktiver Animationen und unterstützt reichhaltige Grafiken. |
Liste der Datensätze für chinesische und englische Wissensgrafiken
| Seriennummer | Name | Anwendungsaufgaben |
|---|
| 1 | OpenKG | Offene Wissensgrafik |
| 2 | CN-Probase | Große chinesische Konzeptkarte |
| 3 | Sentibridge | Chinesische Entität emotionaler Wissensbasis und zeigt, wie Menschen eine Einheit beschreiben, einschließlich Nachrichten, Tourismus und Catering, insgesamt 300.000 Paare |
| 4 | Musikwissengrafik | Chinesische Musikwissengrafik, Sänger, Songs und andere Informationen |
| 5 | Charakter RDF -Wissen | Gesammelte Charakterwissen von der Encyclopedia -Website, insgesamt 650.000 RDF -Dreier |
| 6 | Wissensgrafik der chinesischen Tourismusattraktionen | Die chinesische Wissenskarte der chinesischen Tourismusattraktionen ist Teil der Casia-KB-Wissenskarte. Extrahiert aus Baidu Encyclopedia und interaktiver Enzyklopädie. Die Wissenskarte von Touristenattraktionen kann in Geographie, Leben, Unterhaltung und anderen Anwendungen verwendet werden. |
| 7 | 2 Millionen Produktporträtdaten | Diese Daten sind eine Zusammenfassung der von Bai Dan in den sieben Betriebsjahren angesammelten Produktporträtdaten. Bai Dan hat ein reichhaltiges E-Commerce-Klassifizierungssystem und ein Medienklassifizierungssystem aufgebaut. |
| 8 | Chinesische Symptombank | Dies ist ein Datensatz, der Symptome und symptombedingte Tripletts enthält. Die Daten der chinesischen Symptomdatenbank stammen von 8 Websites für die Gesundheitsberatung von Mainstream, 3 chinesische Enzyklopädie -Websites und elektronische medizinische Unterlagen. |
| 9 | CNSCHEMA -Wissensdiagramm -Diagramm | Das auf CNSchema basierende Flughafenwissengrafik kann die Eigenschaften von Flughäfen auf der ganzen Welt abfragen, einschließlich Name, Zeitzone, Flughafencode, geografischer Standort (Breite und Längengrad) usw. |
| 10 | Generalkenntnisgrafik mit siebencharakterer Verse | Diese Daten enthält insgesamt 80 Millionen Enzyklopädie-Tripletts, die Teil der Untergruppe der Sieben-Zeichen-Gedichte sind und in Zukunft weiterhin offener sein werden. Qiluo-7Lore ist ein Enzyklopädie-Wissensgrafik, das sorgfältig durch Dogtail-Gras-Technologie erstellt wurde. Es ist eine Sammlung von massivem Wissen in der menschlichen Welt. Es enthält Dinge, Fakten, Konzepte, Regeln usw. |
Wettbewerb
- ATEC ANT-Entwickler-Wettbewerb Lernwettbewerb-NLP-Problem-Ähnlichkeitsberechnung-2019-3
- Baidu 2019 Sprach- und Intelligent-Technologie-Wettbewerb zweiter Track-Wissensgetriebene Dialog-2019-4
- SMP2019 Chinesische Human-Computer-Dialog-Technologie-Evaluierung (ECDT), Subtask: Domänenklassifizierung, Absichtserkennung und semantische Slot-Füllung -Task1: Verständnis für natürliche Sprache-Verständnis-2019-5
denken
- Die Konstruktion von Wissensgraphen ist ein systematisches Ingenieurprojekt. Derzeit hat die Kombination von Deep -Learning -Technologien und Kenntnissen der natürlichen Sprachverarbeitung die Effizienz der Konstruktion in gewissem Maße verbessert und die Kosten gesenkt. Der Status des Wissensgrafiks ist in dem Sinne, dass kognitive Intelligenz eine grundlegende Ressourcenfunktion ist, die darauf basiert, auf der sie in Frage und Antworten, Dialog und Empfehlungssystemen verwendet werden kann und die Interpretierbarkeit verbessert.
- Gegenwärtig besteht eine große Nachfrage nach Wissensgrafikkonstruktion in vertikalen Bereichen. In Bezug auf die Anwendung ist die Praxis intelligenter Fragen und Antworten und aktive Dialogsysteme ein relativ heißes Thema.
- Ich persönlich denke, dass ein Crawler -System eine dynamisch aktualisierte Wissensquelle für die Wissensbasis bieten kann.
- Ein Dialogsystem, das Wissen/gesunden Menschenverstand mit mehr Genauigkeit und Vielfalt kombiniert, ist eine Richtung, die es wert ist, zu studieren, und es Maschinen ermöglicht, die Benutzer dazu zu führen, Themen zu kommunizieren. Zum Beispiel ist das obige Spiel 2 die Anwendung in diese Richtung.
- Der Schwellenwert für die Verarbeitung/Verständnis für natürliche Sprache wurde auf Bert angehoben, was im Grunde genommen ein Muss in den großen Zahl auf Aufgaben ist, die auf Transformator als Encoder basieren! Wie man Wissen (multimodal) in das Modelltraining integriert, ist zu einem heißen Thema in der Forschung geworden. Zum Beispiel hat Baidu kürzlich vorgeschlagen, dass das Ernie -Repräsentationsmodell diese Idee einführt, die auch gute Ergebnisse bei nachgeschalteten Aufgaben erzielt hat.
- Knowledge Graph Embedding (KGE) ist ein aktueller Forschungs -Hotspot.
- Die Integration von multimodalem Datenwissen sollte eine wichtige Erkundungsstufe für Domain Machine Intelligence sein, um sich in Richtung allgemeiner Wissensintelligenz zu bewegen. Erstens ist die Struktur aufgrund der Eigenschaften multimodaler Daten selbst sehr wichtig. Nach der Struktur kann es die Wissenszusammensetzung des Wissensgraphen stark bereichern und den Ausdruck bereichern. Zweitens fühlt es sich interessanter an, wenn die CV- und NLP -Komponenten miteinander verbunden und zusammenarbeiten können, z.
-
<strong> für die Struktur von Textdaten, zusätzlich zur Verwendung maschineller Lernmethoden können regelmäßige Ausdrücke auch für die Datenextraktion, die Zwischenverarbeitungsverbindungen bei der Modellierung usw. verwendet werden </strong> - 20230226: Die Entwicklung von NLP ist ein weiterer Paradigmenwechsel von der zweiten Hälfte von 2022 bis 2023. Mit dem Aufkommen von ChatGPT ist jeder innerhalb und außerhalb des Feldes bekannt, was in allen Lebensbereichen eine heiße Diskussion geführt hat, und große inländische und ausländische Unternehmen wurden folgt. Zum Beispiel sind LLM (großes Sprachmodell), AIGC (AI generierte Inhalte) und einige Unterteilungsaufgaben von NLP aufgrund der LLM einheitlich geworden, und LLM ist in verschiedenen Branchen zu einem Infrastrukturthema geworden. Das Aufkommen von Chatgpt ist es, den Menschen eine Überraschung zu geben, Menschen neue Erkundungsmöglichkeiten zu bieten und KI zu populär.
- Aus der Sicht des Erlebens von ChatGPT habe ich im Grunde alle vorherigen Gedanken, einschließlich Informationsextraktion, Dialog, Meinungsgenerierung, Denkkette, abgedeckt-es gibt Argumentation, neue Kenntnisse können zum Aktualisieren und Code hinzugefügt werden. Das überraschendste ist, dass ich ernsthaft sprechen und die Schritte für logische Probleme auflisten kann.
- Erfahren Sie mehr über die Prinzipien aus dem Papier. Verstehen Sie für die Entwicklung von GPT-1 zu GPT3 die Transformatorinfrastruktur.
- 20230521: Die Nachbeobachtungsgeschwindigkeit in der LLM ist sehr schnell, und es wurden selbst entwickelte Großsprachenmodelle veröffentlicht, und es gibt auch Open Source-Modelle wie Tsinghuas Chatglm-6/130b. Das Ökosystem um LLM entwickelt sich ebenfalls rasant. Verschiedene Anwendungen wie Chatpdf, Plug-Ins usw. Kürzlich haben OpenAI die ChatGPT iOS-Version veröffentlicht, die die Implementierung von LLM einen großen Schritt gemacht hat. Es kann sich vorstellen, dass viele Anwendungen in Zukunft auf den Fähigkeiten von LLM beruhen werden. In Bezug auf den Bau einiger Anwendungen auf der Grundlage von LLM iteriert das Open -Source -Framework Langchain sehr schnell. Mit einigen Codezeilen können Sie schnell auf persönlichen Dokumenten, Vektorberechnung, Speicher usw., die bequem und schnell sind, schnell erleben. Es wird empfohlen, dass jeder es lernt und benutzt. Für Text ist der meiste Text tatsächlich unstrukturiert, z. B. PDF, Word, HTML usw. müssen basierend auf anderen Tools strukturiert werden, und Langchain bietet auch eine Open -Source -Methode. Die Fähigkeit der privatisierten LLM-Bereitstellung + lokalisierter Wissenszugriff + Plug-in-Erweiterung von LLM ist die aktuelle Entwicklungsrichtung.
Sterngeschichte
veranschaulichen
- Der obige Inhalt bezieht sich alle mit dem Lernprozess des Einzelnen (einschließlich Internetinhalte, persönlichen Notizen usw.). Ich hoffe, es wird für Freunde im Bereich der studierenden kognitiven Intelligenz hilfreich sein.
Kontakt
- CSDN
- Persönliche Website
- Wiki-technische Zusammenfassung
- E -Mail: [email protected]
- Aktualisierungszeit: 2023.5.21
- Li Hanghang