Promouvoir la recherche Arsenal
Auteur: Yang XI
NLP Paper Study Notes: https://github.com/km1994/nlp_paper_study
Introduction personnelle: Bonjour, je m'appelle Yang Xi.
Adresse polyvalente et polyvalente NLP: https://github.com/km1994/nlp-interview-otes
Système recommandé avec toutes les côtés et toutes sortes d'adresses: https://github.com/km1994/res-interview-otes
Promotion et recherche de la bibliothèque d'armes : https://github.com/km1994/recommendation_advertisement_search
Suivez le compte officiel [des choses que vous ne savez pas sur NLP] et rejoignez [NLP && recommandé Learning Group] pour étudier ensemble! ! !
1. Projet
1.1 Quelques grands modèles qui peuvent être téléchargés dans l'industrie à l'heure actuelle
- Chatgpt:
- https://openai.com/blog/chatgpt
- Adresse d'expérience: https://chat.openai.com/
- GLM-10B / 130B
- INTRODUCTION: Modèle dense bidirectionnel bilingue (chinois et anglais)
- OPT-2.7B / 13B / 30B / 66B:
- INTRODUCTION: MÉTA META Open Source Pré-formation du modèle de langue
- github: https://github.com/facebookresearch/metaseq
- Papier: https://arxiv.org/pdf/2205.01068.pdf
- LLAMA-7B / 13B / 30B / 65B:
- INTRODUCTION: Le modèle de base de grande langue de Meta Open Source
- github: https://github.com/facebookresearch/llama
- Papier: https://arxiv.org/pdf/2302.13971v1.pdf
- Alpaga (Llama-7b):
- Introduction: Stanford a proposé un puissant modèle de suivi de l'instruction reproductible.
- github: https://github.com/tatsu-bab/stanford_alpaca
- Chinese-Llama-alpaca Github: https://github.com/ymcui/chinese-llama-alpaca
- Belle (Bloomz-7b / Llama-7b):
- Introduction: Ce projet est basé sur Stanford Alpaca et est optimisé pour le réglage chinois.
- ChatGLM-6B:
- Introduction: modèle de langue dialogue bilingue chinois et anglais chinois
- github: https://github.com/thudm/chatglm-6b/
- Bloom-7b / 13b / 176b:
- Introduction: Peut gérer 46 langues, y compris le français, le chinois, le vietnamien, l'Indonésien, le catalan, 13 langues indiennes (comme l'hindi) et 20 langues africaines. Parmi eux, le modèle de la série Bloomz est affiné sur la base de l'ensemble de données XP3. Recommandé pour les invites en anglais (invitation); Recommandé pour les invites non anglophones (invitation)
- github: https://huggingface.co/bigscience/bloom
- Papier: https://arxiv.org/pdf/2211.05100.pdf
- Vicuna (7b / 13b):
- Introduction: Vicuna-13b, créé par des chercheurs de UC Berkeley, CMU, Stanford et UC San Diego, a été obtenu par Fineding Llama dans les données de conversation partagée par l'utilisateur collectées par Sharegpt. Parmi eux, le GPT-4 a été utilisé pour l'évaluation et a constaté que les performances de Vicuna-13b ont atteint des capacités comparables à Chatgpt et Bard dans plus de 90% des cas; Et la formation pour Vicuna-13B coûte environ 300 $. Non seulement cela, il fournit également une plate-forme ouverte pour la formation, le service et l'évaluation des chatbots basés sur des modèles de grande langue: FastChat.
- Tapis:
- Introduction: Bai Ze s'est formé sur Llama. Actuellement, quatre modèles anglais sont inclus: Bai Ze-7B, 13B, 30B (modèle de dialogue général) et un modèle de Bai Ze-Medical de champ vertical pour la recherche / usage non commercial, et prévoit de publier un modèle bai ze chinois à l'avenir. Tous les codes tels que le traitement des données de Bai Ze, les modèles de formation et la démo ont été ouverts.
- Llmzoo:
- Introduction: Une série de grands modèles lancés par l'équipe de l'Institut de recherche de Big Data Institute de l'Université chinoise et de la Shenzhen Big Data Research Institute, comme Phoenix et Chimera, etc. - Moss: le modèle de grande langue Moss lancé par l'équipe FUDAN NLP.
- Alpaga fastchat
- github: https://github.com/lm-sys/fastchat
- Minigpt-4
- github: https://github.com/vision-cair/minigpt-4
1.2 [LLMS Introduction to Practical Sequence Series]
Tsinghua University Open source chinoise chatglm-6b apprentissage et pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique Pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique Pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique pratique P pratique Modèle d'apprentissage et de bataille pratique [LLMS Bataille pratique débutante - 8] MINIGPT-4 MODÈLE APPRENTISSAGE ET BATTLE PRATIQUE
1.3 Projet NLP Arsenal Learning
- 【Construction de graphiques de connaissance Deepkg】 https://github.com/powercy/deepkg
- Introduction: Ce projet est attaché à la construction de graphiques de connaissances et construit actuellement ses méthodes, et j'espère aider plus de personnes.
1.4 Projet système recommandé Arsenal Learning
- 【Fun-rec】 https://github.com/datawhalechina/fun-rec
- INTRODUCTION: Il s'adresse principalement aux étudiants qui ont une fondation de base d'apprentissage automatique et qui souhaitent trouver un poste d'algorithme recommandé.
- 【Recsys】 https://github.com/qcymkxyc/recsys
- Introduction: la mise en œuvre du code de Xiang Liang de la "pratique du système recommandée"
1.5 Projet de moteur de recherche Arsenal Apprentissage
- [Projet de moteur de recherche Open Source] https://github.com/zuo369301826/search_project
- Introduction du projet: Simuler Baidu Recherche pour implémenter le moteur de recherche de site.
- Caractéristiques du projet: 1. Utilisez des cadres open source tels que Protobuf, GFLAG et Glog fournis par Google pour terminer le développement; Le serveur HTTP appelle le client de recherche dans CGI pour terminer la fonction de recherche
- 【Élastique】 https://www.elastic.co/cn/
- INTRODUCTION: Elasticsearch est un moteur de recherche et d'analyse de données de style reposant distribué qui peut résoudre l'émergence de divers cas d'utilisation. Au cœur de la pile élastique, il stocke de vos données de manière centralisée et vous aide à découvrir des situations inattendues et inattendues.
- 【Nutch】 http://nutch.sourceforge.net/docs/zh/about.html
- Introduction: Nutch est un moteur de recherche Web qui vient de naître de l'ouverture. Il y a des instructions chinoises détaillées sur sa page d'accueil.
- 【Lucene】 http://jakarta.apache.org/lucene/docs/index.html
- Introduction: Apache Lucene est un moteur de robot de programme open source qui peut facilement ajouter des fonctions de recherche en texte intégral au logiciel Java. Le travail principal de Lucene est d'indexer chaque mot du fichier.
- 【Egothor】 http://www.egothor.org/
- Introduction: Egothor est un moteur de recherche de texte complet open source et efficace écrit en Java. Avec les fonctionnalités multiplateformes de Java, Egothor peut être appliqué aux applications dans n'importe quel environnement, à la fois en tant que moteur de recherche séparé et pour votre application en tant que recherche de texte intégral.
- 【Oxyus】 http://oxyus.sourceforge.net/
- INTRODUCTION: Il s'agit d'un moteur de recherche Web pur rédigé en Java.
- 【Bddbot】 http://www.twmacinta.com/bddbot/
- Introduction: BDDBOT est un moteur de recherche simple et facile à comprendre. Il rampe actuellement dans une URL répertoriée dans un fichier texte (URLS.TXT) et enregistre les résultats dans une base de données. Il prend également en charge un serveur Web simple qui accepte les requêtes du navigateur et renvoie les résultats de la réponse. Il peut être facilement intégré dans votre site Web.
1.6 Calculer le projet publicitaire Arsenal Learning
- [Meituan DSP Advertising Strategy Practice] https://tech.meituan.com/2017/05/05/mt-dsp.html
- [Introduction à la publicité sur Internet et à la publicité informatique] http://web.stanford.edu/class/msande239/
2. Ai artefact
- Chatppt ai artefact
- 【Ai Artefact】 Dialogue AI - Chatgpt https://999.weny66.cn/chat?bd_vid=11997231054327469370
- 【Artefact AI】 GPT-4 Expérience en ligne Site Web ChatMindai.cn
- 【AI Artefact】 ChatGpt3.5 est gratuit, disponible en Chine https://chat23.yqcloud.top/
- Forefront Chat Chat.ForeFront.ai
- Poe poe.com/gpt-4
- Artefact 3D AI
- Masterpiece Studio: https://xiaobot.net/p/superindividual
- Masterpiece Studio: https://masterpiecido.com
- G3dai {Jedi}: https://g3d.ai
- Ponzu: https://www.ponzu.gg
- PromEtheanai: https://www.prometheanai.com
- Leonardo.ai: https://leonardo.ai
- Artefact art ai
- Dream Up (Deviant Art): https://www.dreamup.com
- Nightcafe Studio: https://creator.nightcafe.studio
- MidJourney: https://www.midjourney.com/home/
- ArtBreeder: https://www.artbreeder.com
- Wombo: https://www.wombo.art
- Édition audio Artefact AI
- Podcastle: Édition https://podcastle.ai
- CleanVoice: Édition audio https://cleanvoice.ai
- Code Assistant AI Artefact
- Codesquire https://codesquire.ai
- Buildt Code Assistant https://www.buildt.ai
- Hé, GitHub!
- Mise à jour continue
3. Introduction à Xiaobai Ai
3.1 Introduction à l'apprentissage automatique
- [WU WANDA Machine Learning Series Cours] https://www.bilibili.com/video/bv164411b7dx?from=search&seid=18138466354258018449&spm_id_from=33337.0.0
3.2 En démarrage avec la PNL
- [2021 NG Deep Learning - Modèle de séquence NLP] https://www.bilibili.com/video/bv1co4y1279r?from=search&seid=17563746002586971760&spm_id_from=33337.0.0.0
- 【Introduction au Graphique de connaissances】
- Notes de cours de la carte de l'Université de Zhejiang |
- Notes de cours de la carte de l'Université de Zhejiang |
- Remarques de conférence Graphique | Conférence 1 - Section 3 - Valeur du graphique
- Notes de cours de graphique | Conférence 1 - Section 4 - Connotation technique du graphique
- Notes de cours graphique | Conférence 2 - Section 1 - Qu'est-ce que la représentation des connaissances
3.3 Début avec la publicité informatique
- [Introduction à la publicité sur Internet et à la publicité informatique] http://web.stanford.edu/class/msande239/
- Conférence 1: Introduction, notes supplémentaires
- Conférence 2: Conception du marché, présentation en classe, notes supplémentaires
- Conférence 3: Recherche parrainée 1, dans la présentation en classe
- Conférence 4: Recherche parrainée 2, en présentation en classe
- Conférence 5: Afficher la publicité 1, dans la présentation en classe
- Conférence 6: Afficher la publicité 2, dans la présentation en classe
- Conférence 7: Ciblage, dans la présentation en classe
- Conférence 8: Systèmes de recommandation, dans la présentation de classe 1, dans la présentation de classe 2
- Conférence 9: Mobile, vidéo et autres formats émergents, dans la présentation de classe 1, dans la présentation de classe 2
- [Liu Peng - Publicité informatique (recommandée)] http://study.163.com/course/introduction.htm?coursId=321007
- Introduction: l'enseignant Liu Peng est actuellement l'architecte en chef des produits commerciaux en 360 et possède une riche expérience pratique dans le domaine de la publicité sur Internet. Le contenu de son cours "Computational Advertising" est facile à comprendre, du modèle d'histoire de la publicité à la technologie récente, qui est très adapté aux amis nouveaux sur le terrain.
- Connaissance de base de la publicité
- Système de publicité contractuelle
- Ciblage du public
- Système publicitaire d'enchères
- Recherchez la technologie de la publicité et de la publicité
- Marché de la publicité
- 【Baidu - Publicité informatique】 http://openresearch.baidu.com/courses/1231.jhtml
- Aperçu de la publicité informatique
- Principes de publicité sur moteur, pratiques de technologie et d'ingénierie
- Contenu Principes, techniques et pratiques publicitaires du contenu
- [Wang Yongrui - Algorithmes de publicité sur Internet et pratique du système] http://yudu.baidu.com/ebook/3e31c551964bcf84b9d57bc0.html
- INTRODUCTION: Le professeur Wang est la personne en charge de l'algorithme publicitaire ciblé de Taobao. Son cours combine l'expérience de pratique publicitaire de Taobao, de la théorie de la publicité à la pratique technique systématique, et est très digne d'apprendre par les techniciens.
- Introduction à la publicité sur Internet
- RECHERCHER ADS
- Publicité ciblée
- Enchères publicitaires en temps réel
- Architecture et défis du système publicitaire
- 【UCS - Introduction à la publicité informatique】 http://classes.soe.ucsc.edu/ism293/spring09/index_archivos/page456.html
- Introduction et aperçu
- Recherche d'informations (IR) pour computation
- Conception du marché
- Techniques d'apprentissage automatique
- Recherche sponsorisée I
- Recherche parrainée II
- Annonces graphiques et livraison garantie
- Publicité contextuelle I
- Publicité contextuelle II
- Ciblage comportemental (BT)
4. Promouvoir des notes de recherche et d'étude de thèse
- 【Remarques de l'étude NLP】
- 【Transformateur】
- 【À propos des transformateurs efficaces: une enquête】 des choses que vous ne savez pas
- 【Compression du modèle Bert】
- 【À propos de l'auto-entraînement + pré-formation = meilleur modèle de compréhension du langage naturel】 Choses que vous ne savez pas
- 【Sur bert à textcnn】 choses que vous ne savez pas
- 【Reconnaissance de l'entité nommée】
- 【Biaffine à propos de la reconnaissance des entités imbriquées】 Ce que vous ne savez pas
- Papershape par la biaffine
- L'inventaire de Papershape de la reconnaissance des entités nommés ces dernières années
- 【À propos de l'apprentissage continu pour Ner】 Ce que vous ne savez pas
- 【Extraction de la relation】
- 【À propos de l'extraction de la relation HBT】 Choses que vous ne savez pas
- Dès le début, l'extraction relationnelle
- Dès le début, extraction relationnelle - attaque de supervision à distance
- [Extraction de la relation au niveau du document]
- 【À propos de Atlop】 Ce que vous ne savez pas
- Résumé du papier | Méthode d'extraction de la relation au niveau du document (partie 1)
- Résumé du papier | Méthode d'extraction de la relation au niveau du document (partie 2)
- 【Correspond à texte】
- 【À propos de la phrase-bert】 choses que vous ne savez pas
- Facebook: principe FAISS + application de la bibliothèque de recherche pour des millions de similitudes vectorielles
- Nouvelle phrase Vector Solution Cosent Practical Record
- 【Référence de la chaîne de statut】
- 【À propos de la génération】 choses que vous ne savez pas
- 【Correction d'erreur de texte】
- 【À propos de Gector】 Ce que vous ne savez pas
- 【Robot Q&R】
- SHARE TRAPAGNE ROBOT BASE BASE ET BASÉE DE RECHERCHE
- 【Système de dialogue】
- "【La communauté dit】 Parlons de Rasa 3.0" Notes incomplètes
- (I) Aperçu des robots de dialogue
- (Ii) Introduction au moteur open source RASA
- (Iii) modèle de langue Rasa NLU
- (Iv) segmenter de mots rasa nlu
- (V) générateur de fonctionnalités RASA NLU
- (Vi) classificateur d'intention Rasa NLU
- (Vii) Extracteur d'entité RASA NLU
- (9) Composants de pipeline personnalisés RASA
- (10) RASA Core Policy
- (11) Rasa Core Action
- (12) Domaine Rasa
- (13) Données de formation RASA
- (14) histoire Rasa
- (15) règles RASA
- (16) meilleures pratiques RASA
- (17) Démarrer le robot chinois basé sur Rasa
- (18) Démarrer le mécanisme de mise en œuvre du robot chinois basé sur Rasa
- (19) Système de questions et réponses basée sur le graphique de connaissances (KBQA)
- (20) Un système de questions / réponses basé sur la compréhension de la lecture
- Régime alimentaire: transformateur à double intention et entité - - traduction en papier Rasa
- (21) FAQ sur l'application RASA
- (22) Optimisation de l'hyperparamètre de Rasa
- (23) Test et évaluation des robots
- (24) Créer un assistant de dialogue de contexte en utilisant des formulaires RASA
- 【KBQA】
- 【À propos de KBQA complexe】 Choses que vous ne savez pas (partie 1)
- 【Sur le kbqa complexe】 les choses que vous ne savez pas (chinois)
- 【À propos de KBQA complexe】 Choses que vous ne savez pas (partie 2)
- 【Extraction d'événements】
- 【Sur mlbinet】 choses que vous ne savez pas
- 【Réglage rapide】
- Introduction du réglage rapide
- 【Nouveau mot découverte】
- Construisez votre propre PTM! NOUVEAU WORD MINING + PRE-TRAIS
- 【Texte à SQL】
- Texte à SQL? Voici une analyse de base
- 【Notes d'étude du système recommandées】
- Tendance d'évolution de la technologie du système recommandé: Rappel
- Tendance d'évolution de la technologie du système recommandé: tri
- Tendance d'évolution de la technologie du système recommandé: réarrangement
- Comment le système de recommandation trouve-t-il des utilisateurs similaires?
- Un long article avec dix mille mots détaille la logique et l'évolution du système de recommandation de dialogue
- Résumé des technologies connexes d'adaptation du modèle dans le système recommandé
- 【Notes d'étude GCN】
- 【Sur GCN dans la PNL】 choses que vous ne savez pas
- [Calculer les articles publicitaires et la liste des données GitHub Repo]
- Trois perspectives majeures, parlez du système publicitaire à mes yeux
- [Documents système recommandés et répertoire des données GitHub]
- 【Moteur de recherche】
- 【À propos de PLM pour la récupération de l'échelle Web dans la recherche de Baidu】 Choses que vous ne savez pas
- EMNLP 2021 |
5. Promouvoir l'article de recherche
- 【NLP polyvalent et polyvalent】
- 【Apprentissage automatique】
- 【À propos de la régularisation】 Les choses que vous ne savez pas
- 【À propos de l'algorithme d'optimisation】 Ce que vous ne savez pas
- 【À propos de Batchnorm vs Layernorm】 Ce que vous ne savez pas
- 【Sur la normalisation】 Les choses que vous ne savez pas
- 【Sur le sur-ajustement et le sous-instruction】 Les choses que vous ne savez pas
- 【Learning Learning】
- 【À propos de CNN】 Ce que vous ne savez pas
- 【À propos de l'attention】 Ce que vous ne savez pas
- 【Sur le transformateur】 Les choses que vous ne savez pas (partie 1)
- 【Sur le transformateur】 Les choses que vous ne savez pas (chinois)
- 【Sur le transformateur】 Les choses que vous ne savez pas (partie 2)
- 【Tâches NLP】
- 【Modèle pré-entraîné】
- 【Sur TF-IDF】 Choses que vous ne savez pas
- 【Sur word2vec】 choses que vous ne savez pas
- 【À propos de FastText】 Les choses que vous ne savez pas
- 【À propos d'Elmo】 Ce que vous ne savez pas
- 【À propos de Bert】 Ce que vous ne savez pas (partie 1)
- 【À propos de Bert】 Ce que vous ne savez pas (partie 2)
- 【À propos de l'analyse du code source de Bert
- 【À propos de Bert Source Code Analysis II Chapitre de pré-formation】 Choses que vous ne savez pas
- 【À propos de Bert Source Code Analysis III Chapitre de réglage fin】 Choses que vous ne savez pas
- [À propos de Bert Source Code Analysis IV Striment Vector Generation Article] Choses que vous ne savez pas
- 【À propos de la séquence plus grande et plus raffinée de Bert】 choses que vous ne savez pas (i)
- 【À propos de la séquence la plus grande et la plus raffinée de Bert】 Ce que vous ne savez pas (II)
- 【À propos de la séquence plus grande et plus raffinée de Bert】 Choses que vous ne savez pas (iii)
- 【Nouveau mot découverte】
- 【Sur la découverte de nouveaux mots】 les choses que vous ne savez pas
- 【Extraction de mots clés】
- 【À propos de l'extraction des mots clés】 Les choses que vous ne savez pas
- 【À propos de Keybert】 Ce que vous ne savez pas
- 【Système recommandé avec tous les côtés】
- à suivre
6. Framework
6.1 Apprentissage pytorch
- 【Pytorch Version anglaise Manuel officiel】 https://pytorch.org/tutorials/
- INTRODUCTION: PYTORCH Version anglaise Manuel officiel: https://pytorch.org/tutorials/. Pour les étudiants avec un bon anglais, ce document officiel de Pytorch est fortement recommandé, ce qui vous fera passer pas à pas de la maîtrise. Ce document détaille les bases de la façon de construire des réseaux de neurones profonds à l'aide de Pytorch, ainsi que de la syntaxe de Pytorch et de certains cas de haute qualité.
- [Document officiel chinois de Pytorch] https://pytorch-cn.readthedocs.io/zh/latest/
- Introduction: Pytorch Chinese Official Document: https://pytorch-cn.readthedocs.io/zh/latest/. Peu importe si vous avez des difficultés à lire les documents anglais mentionnés.
- [Pytorch Code Tutoriel pour les algorithmes pratiques] https://github.com/yunjey/pytorch-tutorial
- Introduction: Il s'agit d'un tutoriel de code Pytorch qui est plus pratique sur les algorithmes. Il est recommandé d'apprendre les deux tutoriels de base Pytorch de base avant de lire ce document.
- 【Pytorch Open Source Books】 https://github.com/zergtant/pytorch-handbook
- Introduction: Introduction à un livre open source: https://github.com/zergtant/pytorch-handbook. Il s'agit d'un livre open source dans le but d'aider ceux qui le souhaitent et utilisent rapidement Pytorch pour le développement et la recherche en profondeur. Cependant, ce document n'est pas très complet et est toujours mis à jour.
- ["Hand-on Deep Learning" Pytorch] http://tangshusen.me/dive-into-dl-pytorch/#/
- 【Tutoriel pratique sur la formation du modèle Pytorch】 https://github.com/km1994/pytorch_tutorial
- 【Pytorch Advanced NLP Practice Practice】 https://github.com/km1994/nlp_pytorch_project
- 【Bibliothèque d'outils NLP ARK-NP
- Introduction: L'arsenal open source de Wang Xiang est principalement utilisé pour collecter et reproduire les modèles PNL couramment utilisés dans les universitaires et le travail.
6.2 Apprentissage TensorFlow
- 【Site Web officiel de TensorFlow】 https://www.tensorflow.org/tutorials
- Introduction: Le tutoriel officiel du site Web est certainement le matériel d'apprentissage le plus parfumé
- 【Exemples de tensorflow】 https://github.com/aymericdamien/tensorflow-examples
- INTRODUCTION: TENSORFLOW Tutoriels et exemples de code pour les débutants: https://github.com/aymericdamien/tensorflow-examples. Ce didacticiel fournit non seulement des ensembles de données classiques, mais commence également à mettre en œuvre le "Hello World" le plus simple, aux algorithmes classiques pour l'apprentissage automatique, et à des modèles couramment utilisés pour les réseaux de neurones.
- TRUToriels Tensorflow】 https://github.com/pkmital/tensorflow_tutorials
- Introduction: Depuis les bases de TensorFlow aux applications de projet intéressantes: https://github.com/pkmital/tensorflow_tutorial. Il s'agit également d'un tutoriel pour les novices, de l'installation à la pratique du projet, pour vous apprendre à créer votre propre réseau de neurones.
- TRUToriels TensorFlow Utilisation du cahier Jupyter】 https://github.com/sjchoi86/tensorflow-101
- Introduction: didacticiel tensorflow écrit en python à l'aide de Jupyter Notebook: https://github.com/sjchoi86/tensorflow-101. Ce didacticiel est un didacticiel TensorFlow basé sur l'environnement de développement des cahiers Jupyter.
- 【Tensorflow_Exercisses】 https://github.com/terryum/tensorflow_execcises
- Introduction: TensorFlow Code Exercice: https://github.com/terryum/tensorflow_execcises. Un manuel d'exercice du code TensorFlow de facile à difficile. Très adapté aux amis qui étudient Tensorflow.
- 【Application de Bert et Albert dans les tâches en aval】 https://github.com/km1994/bert-for-task
- Introduction: implémentation de Bert dans les tâches NLP
6.3 Keras Apprentissage
- 【Bert4keras】 https://github.com/bojone/bert4keras
- Introduction: Arsenal Open Source de Sushen, une version Keras réimplémentée de la bibliothèque du modèle de transformateur, s'est engagée à combiner Transformer et Keras avec le code rafraîchissant possible.
6.4 Apprentissage du cadre de formation distribué
- La première catégorie: fonctions de formation distribuées fournies avec des cadres d'apprentissage en profondeur. Tels que: Tensorflow, Pytorch, Mindspore, Oneflow, Paddlepaddle, etc.
- La deuxième catégorie: mise à l'échelle et optimisation basée sur des cadres de profondeur existants (tels que Pytorch, Flax) pour effectuer une formation distribuée. Comme: Megatron-LM (Tensor Paralall), Deeppeed (Zero-DP), Colossal-AI (parallélisme de modèle à haute dimension, tels que 2D, 2.5D, 3D), Alpa (parallélisme automatique), etc.
7. Concours
5.1 Competition intérieure
- [Concours de développeurs Iflytek] http://challenge.xfyun.cn/
- 【Ali Tianchi】 https://tianchi.aliyun.com/
- 【Biendata】 https://www.biendata.xyz/
- 【Datafountain】 https://www.datafountain.cn/
- 【Baidu Paddle Paddle】 https://aistudio.baidu.com/
5.2 Compte officiel du concours
- 【Mapo Tofu Ai】
- Introduction: présentera des événements récents auxquels vous pouvez participer
5.3 Arsenal de compétition PNLP
- [NLP Arsenal Tool Library] https://github.com/tingfree/nlper-arsenal
- Introduction: Arsenal NLP, qui comprend principalement la mise en œuvre de la stratégie de compétition NLP, divers tutoriels de tâches, des publications, des postes d'apprentissage et du temps de réunion.
- 【Solution de source CHIP2021-TASK3-Open pour les tâches standardisées en termes cliniques】
- Code source GitHub
- Site Web d'évaluation: http://cips-chip.org.cn/2021/eval3
- Tout le code est basé sur notre implémentation Open Source ARK-NLP. Il n'y a pas de liste de liste pour la tâche de normalisation du terme clinique de ChIP2021, donc le débogage du code est terminé sur la tâche de normalisation du terme clinique de CBLUE, l'ensemble de données de traitement de l'information médicale chinoise de Tianchi.
- Adresse ARK-NLP: https://github.com/xiangking/ark-nlp
- Ensemble de données de traitement de l'information médicale chinoise CBLUE: https://tianchi.aliyun.com/dataset/datadetail?dataid=95414
- [Chip2021 Dialogue médical Discovery Clinical Yin-Yang Discrimination Task Champion Open Source Plan]
- Code source GitHub
- Nom: CBLUE: Un benchmark d'évaluation de la compréhension du langage biomédical chinois
- Tâche d'évaluation: CBLUE 1.0 est composé de l'ensemble de données des concours d'évaluation académique antérieurs de la conférence ChIP et de l'activité de recherche médicale Ali Quark, y compris l'extraction d'informations sur le texte médical (reconnaissance des entités, extraction relationnelle), normalisation des termes médicaux, classification du texte médical, jugement de la relation médicale et total d'assurance qualité médicale de 8 sous-tâches.
- Types de tâches: classification du texte, similitude du texte, reconnaissance des entités nommée, extraction relationnelle et normalisation de la terminologie (peut être considéré comme des tâches entièrement liant les tâches sans contexte)
- Lien d'évaluation: https://tianchi.aliyun.com/dataset/datadetail?dataid=95414
- 【CBLUE-ALI Tianchi Médical de classement médical chinois BASELINE】 https://github.com/dataark/cblue-baseline
- [Concours Shandong Big Data - Grid Event Intelligent Classification Baseline] https://github.com/xiangking/shandongdatacompetition2021-grid-events-classification-baseline
- Tâche d'évaluation: Sur la base des données des événements de la grille, extraire et analyser le contenu de l'événement dans la grille, diviser les catégories d'événements et diviser les types d'affaires gouvernementaux auxquels appartient l'événement.
- Type de tâche: classification du texte
- Lien d'évaluation: http://data.sd.gov.cn/cmppt/cmptdetail.html?id=67
8. Corpus
8.1 Matériel NLP
- 【Nlp_chinese_corpus】 https://github.com/brightmart/nlp_chinese_corpus
- Introduction: Corpus chinois à grande échelle pour PNL
8.2 Citation du système recommandé
- 【MOVIELENS】 https://grouplens.org/datasets/moviens/
- Introduction: L'ensemble de données Moviens a été organisé par le Grouplens Research Group de l'Université du Minnesota (non lié à notre utilisation de l'ensemble de données). Moviens est une collection de cotes de films, disponibles en différentes tailles. Les ensembles de données sont nommés 1m, 10m et 20m car ils contiennent 1, 10 et 200 000 notes. Le plus grand ensemble de données utilise des données d'environ 140 000 utilisateurs et couvre 27 000 films. En plus des notes, les données Moviens contient également des informations de genre similaires à "Western" et des balises pour les applications utilisateur telles que "Over the Top" et "Arnold Schwarzenegger". Ces étiquettes et étiquettes de genre sont utiles pour créer des vecteurs de contenu. Les vecteurs de contenu codent les informations d'un élément, telles que la couleur, la forme, le genre ou tout autre attribut, vraiment - qui peut être n'importe quelle forme d'un algorithme de recommandation pour le contenu basé sur le contenu.
- 【Book-Crossings】
- INTRODUCTION: Book-Crossings est un ensemble de données de note de livre écrit par Cai-Nicolas Ziegler basé sur les données de http://bookcrossing.com. Il contient 1,1 million de notations pour 270 000 livres de 90 000 utilisateurs. Le score varie de 1 à 10 et comprend également des scores implicites.
- 【Last.fm】 http://www2.informatik.uni-freiburg.de/~cziegler/bx/
- Introduction: Last.FM fournit un ensemble de données pour les recommandations musicales. Pour chaque utilisateur de l'ensemble de données, incluez une liste de ses artistes les plus populaires et le nombre de pièces. Il comprend également des balises d'application utilisateur qui peuvent être utilisées pour créer des vecteurs de contenu.
- 【Agence de rencontres】 (http://www2.informatik.uni-freiburg.de/~cziegler/bx/)
- Introduction: Cet ensemble de données contient 17 359 346 notes anonymes pour 168 791 fichiers de configuration par 135 359 utilisateurs de LibimSetti exportés le 4 avril 2006.
- Autres: https://zhuanlan.zhihu.com/p/258566760
8.3 outils d'étiquetage
- Êtes-vous toujours inquiet de ne pas trouver l'annotateur de la relation d'entité?
- https://labelstud.io/
- doccano
9. Chapitre de compte officiel
- Des choses que vous ne savez pas sur la PNL
- Introduction: des choses que vous ne savez pas sur NLP
- Humble chambre de CS
- INTRODUCTION: Un article sur le partage des expériences du patron de Char Siu.
- Dataar
- INTRODUCTION: Dataark est axé sur les données et orienté sur le partage, et s'engage dans l'exploration de données, l'innovation d'algorithme et le développement d'outils pratiques.
- Système de recommandation intelligent
- INTRODUCTION: Se concentrant sur les systèmes de recommandation intelligents, voici les algorithmes personnalisés les plus complets et les plus complets de recommandations et les applications de l'industrie.
- Datafuntalk
- Introduction: se concentrer sur le partage et la communication des Big Data et des applications de technologie de l'intelligence artificielle. Engagé à atteindre des millions de scientifiques des données.定期组织技术分享直播,并整理大数据、推荐/搜索算法、广告算法、NLP自然语言处理算法、智能风控、自动驾驶、机器学习/深度学习等技术应用文章。
- RUC Al Box
- 介绍:本公众号主要关注使用人工智能技术来解决自然语言处理与社交媒体数据挖掘的研究内容。分享Al前沿,解读热点论文。
- NewBeeNLP
- 开放知识图谱
- WeData365
- 介绍:学习【搜索引擎】 的小伙伴一定要关注,因为有很多【搜索引擎】 干货分享
- 科学空间
- 介绍:苏神的公众号,每周四苏神都会开源他的研究笔记。
- 老刘说NLP
- 介绍:360人工智能研究院大佬刘焕勇刘大佬的公众号,定期发布语言资源、工程实践、技术总结等内容。
- 数据拾光者
- 介绍:学习【广告】 的小伙伴一定要关注,因为有很多【广告】 干货分享
- 泛函的范
- 计算广告那些事
- 介绍:学习【广告】 的小伙伴一定要关注,因为有很多【广告】 干货分享
- 药老算法
- 介绍:学习【搜索引擎】 的小伙伴一定要关注,因为有很多【搜索引擎】 干货分享
- 机器学习算法与自然语言处理
- 介绍:一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
- 王喆的机器学习笔记
- AINLP
- 介绍:关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试自动对联、作诗机、藏头诗生成器,调戏夸夸机器人、彩虹屁生成器,使用中英翻译,查询相似词,测试NLP相关工具包。
- 李rumor
- 夕小瑶的卖萌屋
- 介绍:自然语言处理、计算机视觉、信息检索、推荐系统、机器学习
十、学习笔记
- 科学空间:
- 地址:https://spaces.ac.cn/
- 介绍:苏神经验学习笔记分享
- 魔法学院的Chilia
- 地址:https://www.zhihu.com/people/wang-zi-han-81-18/posts
- 方向:推荐系统| 广告| 搜索| NLP
- 水哥
- 地址:https://www.zhihu.com/people/shui-ge-99
- 方向:推荐系统
- JayJay
- 地址:https://www.zhihu.com/people/lou-jie-9
- 我想了很多事
- 地址:https://www.zhihu.com/people/yuan-chao-yi-83
十一、部署笔记
- Bert与TensorRT部署手册,享受丝滑的顺畅
参考
- 关于大模型实践的一些总结