Si vous devez contribuer à ce projet open source, veuillez me contacter.
- Apprentissage en profondeur pour les connaissances-graphes
- Lien de ressources externes
- La vie passée et présente du graphique de connaissances
- Liste de résumé de la recherche
- Recherche spéciale
- Analyse de la théorie connexe de KG & QA
- Analyse des articles liés aux PNL
- Recherche sur la structure des documents financiers chinois
- Conférences liées au graphique de connaissances
- Analogie des faits
- Technologie du système de dialogue
- Lié à la commercialisation de la PNL / dialogue / kg (pour la communication et l'apprentissage uniquement)
- Liste des systèmes de questions et de conversations open source et de conversation grand public
- Liste des plateformes sémantiques grand public
- Liste des outils de prétraitement de texte chinois et anglais
- Outils de stockage et de requête graphiques
- Outils de visualisation
- Liste des ensembles de données de graphiques de connaissance chinoise et anglais
- Concours
- pense
- Histoire des étoiles
- illustrer
- Contact
Apprentissage en profondeur pour les connaissances-graphes
Explorez la série de renseignements cognitifs --- Tendances: 1. Données Fusion Knowledge; 2. Tout dans LLM. Y compris l'acquisition de connaissances, la construction de la base de connaissances et une série de recherches techniques et d'application de systèmes de questions-réponses basés sur la base de connaissances. Il s'agit de technologies et d'articles de pointe dans le domaine de la PNL.
Lien de ressources externes
PNL-Progress
Référentiel pour suivre les progrès dans le traitement du langage naturel (NLP), y compris les ensembles de données et l'état actuel de l'art pour les tâches NLP les plus courantes.
papiers avec code
Des articles et des codes sont fournis.
Technologie en ligne
Technologie quotidienne personnelle et sites Web de chat.
La vie passée et présente du graphique de connaissances
| Numéro de série | article |
|---|
| 1 | Pourquoi le «graphique de connaissances» revient-il à 1956? |
Liste de résumé de la recherche
Recherche spéciale
- Un système de dialogue basé sur le graphique de connaissances
Analyse de la théorie connexe de KG & QA
- Un résumé des graphiques de connaissances
- Le défi du graphique de connaissances
- Graphique en profondeur et connaissances
- CN-DBPEDIA: Un système d'extraction de connaissances chinoises sans fin
- Kbqa
- Zhao Tingyang: Comment la conscience de soi de l'intelligence artificielle est-elle possible? 1-3
- Université NLP OUVERTISSE DAJI-DESCEUR LI WEI, SIMON FRASER UNIVERSITY, Ph.D.
- ACL 2019 Un résumé complet du graphique de connaissances
Analyse des articles liés aux PNL
- Le transformateur illustré
- Une étude attentive des modèles d'attention
- Bert: représentations de l'encodeur bidirectionnelles de Transformers
- Ernie: Représentation améliorée par l'intégration des connaissances
- Ernie: Représentation linguistique améliorée avec des entités informatives
- Google T5: transformateur de transfert de texte à texte
Recherche sur la structure des documents financiers chinois
- Doc2edag
Conférences liées au graphique de connaissances
| numéro de série | nom | grade | taper | champ |
|---|
| 1 | ACL | Classe A | Conférence académique | IA |
| 2 | CVPR | Classe A | Conférence académique | IA |
| 3 | ICML | Classe A | Conférence académique | IA |
| 4 | Ijcai | Classe A | Conférence académique | IA |
| 5 | EMNLP | Classe B | Conférence académique | IA |
| 6 | Cikm | Classe B | Conférence académique | Base de données / Rétraction de données / contenu |
| 7 | Aaai | Classe A | Conférence académique | IA |
| 8 | Sigkdd | Classe A | Conférence académique | Base de données / Rétraction de données / contenu |
| 9 | Tkde | Classe A | Revues universitaires | (Base de données / Mining de données / Retriel de contenu) |
| 10 | Sigir | Classe A | Conférence académique | Base de données / Rétraction de données / contenu |
Analogie des faits
- Résumé de la carte de la matière
- Bai Shuo: six questions et six réponses à la carte des choses
Technologie du système de dialogue
- CSDN | Remarques en classe ouverte: Une explication détaillée de la gestion des connaissances dans les dialogues heuristiques_aissenech
- Un examen systématique du dialogue
- Technologie de compréhension parlée (SLU) dans les systèmes de dialogue
Lié à la commercialisation de la PNL / dialogue / kg (pour la communication et l'apprentissage uniquement)
- Technologie de traitement du langage naturel dans l'interaction vocale-Xiaomi
- Méthodologie du graphique de connaissances Lean-wenyin Internet
- Recherche et progrès du robot Xiaoi dans la plate-forme ouverte sémantique chinoise - Robot Xiaoi
- Iflytek à l'aspect à la valeur et aux défis du graphique de connaissances d'un point de vue de l'application - Iflytek
Liste des systèmes de questions et de conversations open source et de conversation grand public
| numéro de série | nom | adresse |
|---|
| 1 | questionnaliment | QuesketanSweringSystem est un système de questions et réponses de l'ordinateur humain implémenté par Java qui peut analyser automatiquement les questions et donner des réponses aux candidats. |
| 2 | Qabasedonmedicaknowledgegraph | À partir de zéro, nous construisons un certain graphique de connaissances sur le terrain médical centré sur la maladie et utilisons ce graphique de connaissances pour compléter les services automatiques de questions et réponses et d'analyse. python |
| 3 | Deeppavlov | Une bibliothèque open source pour les systèmes de dialogue de bout en bout en profondeur et les chatbots. python |
Liste des plateformes sémantiques grand public
| numéro de série | nom |
|---|
| 1 | Tencent Wenzhi Plateforme sémantique chinoise |
| 2 | Plateforme sémantique ouverte d'Iflytek |
| 3 | Plate-forme ouverte de sémantique chinoise. |
| 4 | Cloud de langage de l'Institut Harbin de la technologie |
Liste des outils de prétraitement de texte chinois et anglais
| numéro de série | nom | Fonctions principales |
|---|
| 1 | Thulac | Outil d'analyse lexicale chinoise, prend en charge C ++ / Java / Python par Tsinghua |
| 2 | LTP | Plateforme de technologie linguistique Pylyp LTP Python Packaging par Harbin Institute of Technology |
| 3 | Hanlp | Soutenez Java |
| 4 | Participe bégaiement | Participation de mot chinois (seul participe de mot participe), Java, Python, C ++ |
| 5 | jiagu | Fournit des fonctions de traitement du langage naturel communes telles que la segmentation chinoise des mots, l'annotation d'une partie du discours, la reconnaissance des entités de dénomination, l'extraction des mots clés, le résumé du texte et la découverte de mots nouveaux. Python |
| 6 | fudannlp | Participation de mot chinois (participe de mots, annotation de dispositive, reconnaissance de l'entité de dénomination), soutient Java |
| 7 | Deepdive Deepdive | L'outil d'extraction des connaissances open source de l'Université de Stanford (Triple Extraction), prend en charge Python |
| 8 | Fudandnn-nlp3.0 | Used for Chinese word segmentation, naming recognition, part-of-speech annotation, sentence classification, semantic analysis, knowledge base access, dialogue question and answer, and supports Java------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| 9 | Stanford Corenlp | Marqueur multilingue de la partie de la parole, reconnaissance de l'entité de dénomination, analyseur (phrase et structure grammaticale), référentiel digesteur (c'est-à-dire la question de déterminer quelle phrase nominale le pronom pointe dans le chapitre), Sentiment Analyzer, Guided Mode Learner, Open Information Extracteur, Java / Python ----- STANFORD CORENLP IST STANFORD UNIVERSITÉ DE L'Université Natural Traitement du langage naturel |
Outils de stockage et de requête graphiques
| numéro de série | nom | Fonctions principales |
|---|
| 1 | Néo4j | Base de données de graphiques open source développée par Java. |
| 2 | Orientdb | Base de données Open source NoSQL qui peut gérer les documents, les graphiques et les composants de base de données traditionnels. Écrit par Java, Storage rapide. |
| 3 | Virtuose | Prend en charge les requêtes RDF et SPARQL. |
| 4 | Titan | Il peut être intégré à Gremlin / HBASE pour permettre le traitement des données de stockage et de calcul distribué. |
| 5 | Apache jena-idb | Opérez RDF sous Java. Parmi eux, TDB utilise le Triple Store pour fournir un magasin persistant pour les données RDF. TDB est plus rapide et évolutif que RDB et SDB. |
| 6 | Zéro | Langue de requête graphique déclarative, exprimer une requête efficace et mettre à jour la base de données de graphiques. |
| 7 | Diablotin | Un langage de flux de données fonctionnel qui permet aux utilisateurs d'exprimer une traversée ou une requête de graphiques de propriétés complexes de manière concise. |
| 8 | Sparql | Un protocole de langue et d'acquisition de données de requête développé pour RDF. |
| 9 | rdflib | Un analyseur et sérialiseur écrit basé sur Python, RDF / XML, N3, Ntriples, N-Quads, Turtle, Trix, RDFA et Microdata, prend en charge les instructions de requête SPARQL 1.1 et de mise à jour. |
Outils de visualisation
| numéro de série | nom | Fonctions principales |
|---|
| 1 | Échartes | Outil Open Source Baidu, encapsulation complète de l'API, simple et facile à utiliser, et facile à utiliser, mais ne prend pas en charge le traitement des événements. |
| 2 | Cytoscape.js | Pour les graphiques et le réseau, l'interactivité des événements est bonne et facile à utiliser. |
| 3 | D3.js | Le seuil d'utilisation est élevé, mais il prend en charge les processeurs d'événements. D3 a des frais généraux extrêmement faibles, prend en charge le comportement dynamique des grands ensembles de données et des animations interactives et prend en charge des graphiques riches. |
Liste des ensembles de données de graphiques de connaissance chinoise et anglais
| numéro de série | nom | Tâches d'application |
|---|
| 1 | Openkg | Graphique de connaissances ouverts |
| 2 | CN-ProBase | Carte conceptuelle chinoise à grande échelle |
| 3 | Sentibridge | Base de connaissances émotionnelles de l'entité chinoise, représentant comment les gens décrivent une entité, y compris les nouvelles, le tourisme et la restauration, un total de 300 000 paires |
| 4 | Graphique de connaissances musicales | Graphique de connaissances musicales chinoises, chanteurs, chansons et autres informations |
| 5 | Connaissance du caractère RDF | Connaissance des personnages collectés sur le site Web Encyclopedia, un total de 650 000 triplets RDF |
| 6 | Graphique de connaissance des attractions touristiques chinoises | La carte des connaissances chinoises des attractions touristiques chinoises fait partie de la carte des connaissances Casia-KB. Extrait de l'encyclopédie Baidu et de l'encyclopédie interactive. La carte des connaissances des attractions touristiques peut être utilisée dans la géographie, la vie, le divertissement et d'autres applications. |
| 7 | 2 millions de données de portrait produit | Ces données sont un résumé des données de portrait de produit accumulées par Bai Dan au cours des sept années de fonctionnement. Bai Dan a construit un riche système de classification du commerce électronique et un système de classification des médias. |
| 8 | Banque de symptômes chinois | Il s'agit d'un ensemble de données qui contient des entités de symptômes et des triplets liés aux symptômes. Les données de la base de données chinoises des symptômes proviennent de 8 sites Web de consultation de santé traditionnels, de 3 sites Web chinois d'encyclopédie et de dossiers médicaux électroniques. |
| 9 | Graphique de connaissances de l'aéroport de CNSChema | Le graphique de connaissances de l'aéroport basé sur CNSchema peut interroger les propriétés des aéroports du monde entier, y compris le nom, le fuseau horaire, le code de l'aéroport, l'emplacement géographique (latitude et la longitude), etc. |
| 10 | Graphique de connaissances générales de versets à sept caractères | Ces données contient un total de 80 millions de triplets d'encyclopédie, qui font partie du sous-ensemble des poèmes à sept caractères, et continueront d'être plus ouverts à l'avenir. Qiluo-7Lore est un graphique de connaissances encyclopédie soigneusement créé par la technologie des herbes Dogtail. Il s'agit d'une collection de connaissances massives dans le monde humain. Il contient des choses, des faits, des concepts, des règles, etc. |
Concours
- Concours d'apprentissage des développeurs ATEC ANT - Calcul de similitude des problèmes de NLP-2019-3
- Baidu 2019 Langue et compétition de technologie intelligente Deuxième morceau - Dialogue axé sur la connaissance - 2019-4
- SMP2019 Évaluation chinoise de la technologie des dialogues Human-Computer Technology (ECDT), Sous-tâche: classification du domaine, reconnaissance de l'intention et remplissage de créneaux sémantiques -Task1: Compréhension du langage naturel-évaluation-2019-5
pense
- La construction de Knowledge Graph est un projet d'ingénierie systématique. Actuellement, la combinaison des connaissances en matière d'apprentissage en profondeur et de traitement du langage naturel a amélioré l'efficacité de la construction dans une certaine mesure et réduit les coûts. Le statut du graphique de connaissances est dans le sens où l'intelligence cognitive est une installation de ressources de base, sur la base desquelles il peut être utilisé dans les systèmes de questions-réponses, de dialogue, de recommandation et d'améliorer l'interprétabilité.
- À l'heure actuelle, il y a beaucoup de demande de construction de graphiques de connaissances dans les champs verticaux. En termes d'application, la pratique des systèmes intelligents de questions-réponses et de dialogues actifs est un sujet relativement chaud.
- Je pense personnellement qu'un système de robottes peut fournir une source de connaissances à jour dynamiquement pour la base de connaissances.
- Un système de dialogue qui combine les connaissances / bon sens, avec plus de précision et de diversité, est une direction qui mérite d'être étudiée, permettant aux machines de guider les utilisateurs à communiquer des sujets. Par exemple, le jeu 2 ci-dessus est l'application dans cette direction.
- Le seuil de traitement / compréhension du langage naturel a été élevé à Bert, ce qui est essentiellement un incontournable dans les tâches du nombre vastes, basées sur le transformateur en tant qu'encodeur! Comment intégrer les connaissances (peut être multimodale) dans la formation modèle est devenue un sujet brûlant dans la recherche. Par exemple, Baidu a récemment proposé que le modèle de représentation Ernie introduit cette idée, qui a également obtenu de bons résultats dans les tâches en aval.
- L'intégration du graphique de connaissances (KGE) est un hotspot de recherche actuel.
- L'intégration de la connaissance des données multimodales devrait être une étape d'exploration importante pour que l'intelligence des machines de domaine se déplace vers l'intelligence générale des connaissances. Premièrement, en raison des caractéristiques des données multimodales elle-même, la structure est très importante. Après la structure, il peut enrichir considérablement la composition des connaissances du graphique de connaissances et enrichir l'expression. Deuxièmement, il est plus intéressant si les composants CV et NLP peuvent être connectés et travailler ensemble, tels que le contenu de réponse du scénario de questions-réponses est une communication plus riche et plus naturelle avec les gens.
-
<strong> Pour la structure des données de texte, en plus d'utiliser des méthodes d'apprentissage automatique, des expressions régulières peuvent également être utilisées pour l'extraction des données, les liens de traitement intermédiaire dans la modélisation, etc. Par exemple: Expression régulière combinée à l'apprentissage en profondeur </strong> - 20230226: Le développement de la PNL est un autre changement de paradigme de la seconde moitié de 2022 à 2023. Avec l'avènement de Chatgpt, tout le monde à l'intérieur et à l'extérieur du terrain a été connu, ce qui a provoqué une discussion chaude dans tous les domaines de la vie, et les grandes entreprises nationales et étrangères ont emboîté le pas. Par exemple, LLM (modèle de grande langue), AIGC (contenu généré par l'IA) et certaines tâches de subdivision de la PNL sont devenues unifiées en raison du LLM, et LLM est devenu un sujet d'infrastructure dans diverses industries. L'émergence de Chatgpt est de donner une surprise aux gens, de donner aux gens de nouvelles possibilités d'exploration et à l'IA, à populariser.
- Du point de vue de l'expérience de Chatgpt, j'ai essentiellement couvert toutes les pensées précédentes, y compris l'extraction d'informations, le dialogue, la génération d'opinions, la chaîne de réflexion - il y a le raisonnement, de nouvelles connaissances peuvent être ajoutées à la mise à jour et au code. La chose la plus surprenante est que je peux parler sérieusement et énumérer les étapes des problèmes logiques.
- En savoir plus sur les principes du journal. Pour le développement de GPT-1 à GPT3, comprenez l'infrastructure du transformateur.
- 20230521: La vitesse de suivi du LLM domestique est très rapide, et des modèles de grande langue auto-développés ont été publiés, et il y en a également des open source, tels que le chatGLM-6 / 130b de Tsinghua. L'écosystème autour de LLM se développe également rapidement. Diverses applications, telles que ChatPDF, les plug-ins, etc. Récemment, OpenAI a publié la version ChatGPT iOS, qui a fait de la mise en œuvre de LLM un grand pas. Il peut imaginer que de nombreuses applications à l'avenir seront basées sur les capacités de LLM. En ce qui concerne la création de certaines applications basées sur LLM, le framework open source Langchain itère très rapidement. Quelques lignes de code peuvent vous permettre d'expérimenter rapidement, telles que des questions et réponses, sur la base des documents personnels, du calcul des vecteurs, du stockage, etc., ce qui est pratique et rapide. Il est recommandé que tout le monde l'apprenne et l'utilise. Pour le texte, la plupart du texte n'est en fait pas structuré, tel que PDF, Word, HTML, etc., doivent être structurés en fonction d'autres outils, et Langchain fournit également une méthode open source. La capacité du déploiement privatisé LLM + l'accès aux connaissances localisés + l'expansion du plug-in de LLM est la direction de développement actuelle.
Histoire des étoiles
illustrer
- Le contenu ci-dessus est lié au processus d'apprentissage de l'individu (y compris le contenu Internet, les notes personnelles, etc.). J'espère que cela sera utile aux amis dans le domaine de l'étude de l'intelligence cognitive.
Contact
- CSDN
- Site Web personnel
- Résumé wiki-technique
- Courriel: [email protected]
- Heure de mise à jour: 2023.5.21
- Li Hanghang