Promova a pesquisa do Arsenal
Autor: Yang Xi
NOTAS DO ESTUDO DO PAPEL NLP: https://github.com/km1994/nlp_paper_study
Introdução pessoal: Olá, caras grandes, meu nome é Yang Xi.
Endereço versátil e versátil do NLP: https://github.com/km1994/nlp-interview-notes
Sistema recomendado com todos os lados e todos os tipos de endereços: https://github.com/km1994/res-rinterview-notes
Promoção e busca pela Biblioteca de Armas : https://github.com/km1994/recommendation_advertisement_search
Siga a conta oficial [coisas que você não conhece sobre o NLP] e junte -se ao Grupo de Aprendizagem Recomendado do [NLP &&] para estudar juntos! ! !
1. Projeto
1.1 Alguns modelos grandes que podem ser baixados na indústria atualmente
- chatgpt:
- https://openai.com/blog/chatgpt
- Endereço de experiência: https://chat.openai.com/
- GLM-10B/130B
- Introdução: Modelo dense bidirecional bilíngue (chinês e inglês)
- Opt-2.7b/13b/30b/66b:
- Introdução: Modelo de linguagem pré-treinada de meta de código aberto
- github: https://github.com/facebookresearch/metaseq
- Papel: https://arxiv.org/pdf/2205.01068.pdf
- Llama-7b/13b/30b/65b:
- Introdução: o modelo básico de grande linguagem do meta -código aberto
- Github: https://github.com/facebookresearch/llama
- Papel: https://arxiv.org/pdf/2302.13971v1.pdf
- Alpaca (llama-7b):
- Introdução: Stanford propôs um poderoso modelo de acompanhamento reprodutível.
- Github: https://github.com/tatsu-lab/stanford_alpaca
- Github chinês-llama-alpaca: https://github.com/ymcui/chinese-llama-alpaca
- BELLE (BLOOMZ-7B/LLAMA-7B):
- Introdução: Este projeto é baseado em Stanford Alpaca e é otimizado para o Tuning do Modelo.
- Chatglm-6b:
- Introdução: Modelo de Diálogo Bilíngue chinês e inglês
- Github: https://github.com/thudm/chatglm-6b/
- Bloom-7b/13b/176b:
- Introdução: Pode lidar com 46 idiomas, incluindo francês, chinês, vietnamita, indonésio, catalão, 13 idiomas indianos (como hindi) e 20 idiomas africanos. Entre eles, o modelo da série Bloomz é ajustado com base no conjunto de dados XP3. Recomendado para prompts em inglês (solicitação); Recomendado para prompts não ingleses (solicitando)
- github: https://huggingface.co/bigscience/bloom
- Papel: https://arxiv.org/pdf/2211.05100.pdf
- Vicuna (7b/13b):
- Introdução: Vicuna-13b, criada por pesquisadores da UC Berkeley, CMU, Stanford e UC San Diego, foi obtida por llama de ajuste fino em dados de conversação compartilhados pelo usuário coletados pela ShareGPT. Entre eles, o GPT-4 foi utilizado para avaliação e descobriu que o desempenho do Vicuna-13b alcançou recursos comparáveis ao ChatGPT e ao BARD em mais de 90% dos casos; E o treinamento para Vicuna-13b custa cerca de US $ 300. Além disso, ele também fornece uma plataforma aberta para treinamento, atendimento e avaliação de chatbots com base em grandes modelos de idiomas: fastchat.
- Baize:
- Introdução: Bai Ze treinado em lhama. Atualmente, quatro modelos em inglês estão incluídos: BAI ZE-7B, 13B, 30B (Modelo Geral de Diálogo) e um modelo vertical de campo ze-médico para pesquisa/uso não comercial e planeja lançar o modelo chinês BAI ZE no futuro. Todos os códigos como processamento de dados, modelos de treinamento e demonstração de Bai Ze foram de origem aberta.
- Llmzoo:
- INTRODUÇÃO: Uma série de grandes modelos lançados pela Universidade Chinesa de Hong Kong e pela equipe do Instituto de Pesquisa de Big Data Shenzhen, como Phoenix e Chimera, etc. - Moss: o modelo de idioma grande de musgo lançado pela equipe do Fudan PN.
- Alpaca FastChat
- Github: https://github.com/lm-sys/fastchat
- Minigpt-4
- Github: https://github.com/vision-cair/minigpt-4
1.2 [LLMS Introdução à série de seqüências práticas]
Tsinghua University Open Source Chinese Version ChatGLM-6B Model Learning and Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical P Modelo de aprendizado e batalha prática [Batalha prática iniciante no LLMS - 8] Minigpt -4 Model Learning and Practical Battle
1.3 Projeto PNL Aprendizagem do Arsenal
- 【Conhecimento gráfico de construção Deepkg】 https://github.com/powercy/deepkg
- Introdução: Este projeto está comprometido com a construção de gráficos de conhecimento e atualmente está construindo seus métodos pouco a pouco, e espero ajudar mais pessoas.
1.4 Projeto de sistema recomendado Aprendizagem do Arsenal
- 【FUN-REC】 https://github.com/datawhalechina/fun-rec
- Introdução: é destinado principalmente a estudantes que têm uma base básica de aprendizado de máquina e desejam encontrar uma posição recomendada de algoritmo.
- 【Recsys】 https://github.com/qcymkxyc/recsys
- Introdução: a implementação de código de Xiang Liang de "Prática do Sistema Recomendada"
1.5 Projeto de mecanismo de pesquisa Aprendizagem Arsenal
- [Projeto de busca do projeto de código aberto] https://github.com/zuo369301826/search_project
- Introdução ao projeto: simule a pesquisa do Baidu para implementar o mecanismo de pesquisa do site.
- Recursos de projeto: Use estruturas de código aberto, como Protobuf, GFLAG e GLOG, fornecidos pelo Google para concluir o desenvolvimento; O servidor HTTP chama o cliente de pesquisa no CGI para concluir a função de pesquisa
- 【Elástico】 https://www.elastic.co/cn/
- Introdução: Elasticsearch é um mecanismo de pesquisa e análise de dados distribuídos de estilo reprontado que pode resolver o surgimento de vários casos de uso. No coração da pilha elástica, ele armazena centralmente seus dados e ajuda a descobrir situações inesperadas e inesperadas.
- 【Nutch】 http://nutch.sourceforge.net/docs/zh/about.html
- Introdução: Nutch é um mecanismo de pesquisa na web que acaba de nascer de código aberto. Existem instruções chinesas detalhadas em sua página inicial.
- 【Lucene】 http://jakarta.apache.org/lucene/docs/index.html
- INTRODUÇÃO: O Apache Lucene é um mecanismo de crawler de programa de código aberto que pode facilmente adicionar funções de pesquisa de texto completo ao software Java. O trabalho principal do Lucene é indexar todas as palavras do arquivo.
- 【Egothor】 http://www.egothor.org/
- Introdução: Egothor é um mecanismo de pesquisa de texto completo e eficiente e eficiente escrito em Java. Com os recursos de plataforma cruzada do Java, o Egothor pode ser aplicado a aplicativos em qualquer ambiente, tanto como um mecanismo de pesquisa separado quanto para o seu aplicativo como uma pesquisa de texto completo.
- 【Oxyus】 http://oxyus.sourceforge.net/
- Introdução: É um mecanismo de pesquisa na web puro por Java.
- 【Bddbot】 http://www.twmacinta.com/bddbot/
- Introdução: o BDDBOT é um mecanismo de pesquisa simples e fácil de entender e usar. Atualmente, ele se arrasta em um URL listado em um arquivo de texto (URLs.txt) e salva os resultados em um banco de dados. Ele também suporta um servidor web simples que aceita consultas do navegador e retorna os resultados da resposta. Pode ser facilmente integrado ao seu site.
1.6 Calcule o Aprendizagem do Arsenal de Projeto de Publicidade
- [MEITUAN DSP PUBLICIDADE ESTRATÉGIA DE PUBLICIDADE PRÁTICA] https://tech.meituan.com/2017/05/05/mt-dsp.html
- [Introdução à publicidade na Internet e publicidade computacional] http://web.stanford.edu/class/msande239/
2. Artefato de Ai
- Artefato de chatgpt ai
- 【Ai Artifact】 Diálogo ai - Chatgpt https://999.weny66.cn/chat?bd_vid=11997231054327469370
- 【Ai Artifact】 GPT-4 Experiência on-line site chatmindai.cn
- 【Ai Artifact】 ChatGpt3.5 é gratuito para fazer login, disponível na China https://chat23.yqcloud.top/
- Chat do bate -papo de primeira linha. Forfront.ai
- Poe poe.com/gpt-4
- Artefato 3D AI
- Studio de obra -prima: https://xiaobot.net/p/superIndividual
- Studio da obra -prima: https://masterpiecestudio.com
- G3dai {jedi}: https://g3d.ai
- Ponzu: https://www.ponzu.gg
- Prometheanai: https://www.prometheanai.com
- Leonardo.ai: https://leonardo.ai
- Arte ai artefato
- Dream Up (Art Deviant): https://www.dreamup.com
- NightCafe Studio: https://creator.nightcafe.studio
- Midjourney: https://www.midjourney.com/home/
- Artbreeder: https://www.artbreeder.com
- Wombo: https://www.wombo.art
- Artefato de edição de áudio AI
- Podcastle: editando https://podcastle.ai
- CleanVoice: edição de áudio https://cleanvoice.ai
- Artefato de AI assistente de código
- Codesquire https://codesquire.ai
- Buildt Code Assistant https://www.buildt.ai
- Ei, github!
- Atualização contínua
3. Introdução ao Xiaobai Ai
3.1 Introdução ao aprendizado de máquina
- [Wu Wanda Machine Learning Cursos] https://www.bilibili.com/video/bv164411b7dx?from=search&seid=18138466354258018449&spm_id_from=3333.37.0.0.0.0
3.2 Introdução ao NLP
- [2021 ng de aprendizado profundo - modelo de sequência do NLP] https://www.bilibili.com/video/bv1co4y1279r?from=search&seid=17563746002586971760&spm_id_from=333337.
- 【Introdução ao gráfico de conhecimento】
- Zhejiang University Map Notes |
- Zhejiang University Map Notes |
- Notas de palestras gráficas |
- Notas de palestras gráficas |
- Notas de palestras gráficas |
3.3 Introdução à computação de publicidade
- [Introdução à publicidade na Internet e publicidade computacional] http://web.stanford.edu/class/msande239/
- Palestra 1: Introdução, Notas Suplementares
- Palestra 2: Design de mercado, em Apresentação de classe, Notas Suplementares
- Palestra 3: Pesquisa Patrocinada 1, na apresentação da classe
- Palestra 4: Pesquisa 2 Patrocinada, em Apresentação de Classe
- Palestra 5: Display Advertising 1, na apresentação da classe
- Palestra 6: Exibir publicidade 2, na apresentação da classe
- Palestra 7: direcionamento, na apresentação da aula
- Palestra 8: Sistemas de Recomendamento, na Apresentação 1 da classe, na Apresentação de Classe 2
- Palestra 9: Mobile, Vídeo e outros formatos emergentes, na apresentação de classe 1, na apresentação da classe 2
- [Liu Peng - Publicidade Computacional (recomendada)] http://study.163.com/course/introduction.htm?courseid=321007
- Introdução: A professora Liu Peng atualmente atua como arquiteto -chefe de produtos comerciais em 360 e tem uma rica experiência prática no campo da publicidade na Internet. O conteúdo de seu curso "publicidade computacional" é fácil de entender, desde o modelo de história da publicidade até a tecnologia recente, que é muito adequada para amigos que são novos no campo para aprender.
- Conhecimento básico de publicidade
- Sistema de publicidade contratada
- Segmentação do público
- Sistema de publicidade de lances
- Pesquisar publicidade e tecnologia de demanda de rede de publicidade
- Mercado de publicidade
- 【Baidu - Publicidade Computacional】 http://openresearch.baidu.com/courses/1231.jhtml
- Visão geral da publicidade computacional
- Princípios de publicidade de mecanismo de pesquisa, tecnologia e práticas de engenharia
- Princípios, técnicas e práticas de publicidade que correspondem conteúdo
- [Wang Yongrui - Algoritmos de publicidade na Internet e prática do sistema] http://yuedu.baidu.com/ebook/3e31c551964bcf84b9d57bc0.html
- Introdução: O professor Wang é a pessoa responsável pelo algoritmo de publicidade direcionado da Taobao. Seu curso combina a experiência de prática publicitária da Taobao, da teoria da publicidade à prática técnica sistemática e é muito digna de aprender por técnicos.
- Introdução à publicidade na Internet
- Pesquisar anúncios
- Publicidade direcionada
- Licitação de publicidade em tempo real
- Arquitetura e desafios do sistema de publicidade
- 【UCS - Introdução à publicidade computacional】 http://classes.soe.ucsc.edu/ism293/spring09/index_archivos/page456.html
- Introdução e visão geral
- Recuperação de informações (IR) para computacional
- Design de mercado
- Técnicas de aprendizado de máquina
- Pesquisa patrocinada i
- Pesquisa patrocinada II
- Anúncios gráficos e entrega garantida
- Publicidade contextual i
- Publicidade contextual II
- Direcionamento comportamental (BT)
4. Promova a pesquisa de tese e as notas de estudo
- 【Notas de estudo NLP】
- 【Transformador】
- 【Sobre transformadores eficientes: uma pesquisa】 Coisas que você não sabe
- 【Bert Modelo Compressão】
- 【Sobre auto-treinamento + pré-treinamento = melhor modelo de entendimento de linguagem natural】 coisas que você não sabe
- 【Sobre Bert para Textcnn】 Coisas que você não sabe
- 【Nomeado reconhecimento de entidade】
- 【Biaffine sobre reconhecimento de entidades aninhadas】 Coisas que você não conhece
- Papershape por biaffina
- Inventário de Pappershape de reconhecimento de entidade nomeado nos últimos anos
- 【Sobre o aprendizado contínuo para nerd】 coisas que você não conhece
- 【Extração de relacionamento】
- 【Sobre a extração de relacionamento HBT】 Coisas que você não sabe
- Desde o início, a extração de relacionamento
- Desde o início, extração de relacionamento - ataque de supervisão remota
- [Extração de relacionamento no nível de documentos]
- 【Sobre o Atlop】 Coisas que você não sabe
- Resumo do artigo |
- Resumo do artigo |
- 【MAIXA DE TEXTO】
- 【Sobre frase-bert】 coisas que você não sabe
- Facebook: Princípio do FAISS + Aplicação da Biblioteca de Pesquisa para obter milhões de similaridade vetorial
- New Solution Solution Solution Solution Registro prático
- 【Referência da cadeia de status】
- 【Sobre geração】 coisas que você não sabe
- 【Correção de erro de texto】
- 【Sobre o Gector】 Coisas que você não sabe
- 【Q&A Robot】
- TopicShare compartilhamento de perguntas e perguntas e respostas baseadas em pesquisa e robôs
- 【Sistema de diálogo】
- "Comunidade diz】 Vamos falar sobre Rasa 3.0" Notas incompletas
- (I) Visão geral dos robôs de diálogo
- (Ii) Introdução ao motor de código aberto RASA
- (Iii) modelo de linguagem Rasa NLU
- (Iv) segmento de palavras Rasa NLU
- (V) gerador de recursos Rasa NLU
- (Vi) Classificador de intenções Rasa NLU
- (Vii) extrator de entidade Rasa NLU
- (9) componentes de pipeline personalizados RASA
- (10) Política Rasa Core
- (11) Ação Rasa Core
- (12) domínio Rasa
- (13) Dados de treinamento Rasa
- (14) História de Rasa
- (15) Regras Rasa
- (16) práticas recomendadas da Rasa
- (17) Inicie o robô chinês baseado em rasa
- (18) Inicie o mecanismo de implementação de robôs chineses baseado em Rasa
- (19) Sistema de perguntas e respostas com base no gráfico de conhecimento (KBQA)
- (20) Um sistema de perguntas e respostas baseado na compreensão de leitura
- Dieta: Transformador de dupla intenção e entidade - Tradução de papel Rasa
- (21) Perguntas frequentes no aplicativo RASA
- (22) Otimização de hiperparâmetro da RASA
- (23) Teste e avaliação de robôs
- (24) Crie um assistente de diálogo de contexto usando formulários RASA
- 【KBQA】
- 【Sobre KBQA complexo】 Coisas que você não conhece (parte 1)
- 【Sobre KBQA complexo】 Coisas que você não conhece (chinês)
- 【Sobre o KBQA complexo】 Coisas que você não conhece (parte 2)
- 【Extração de eventos】
- 【Sobre mlbinet】 coisas que você não sabe
- 【Ajuste rápido】
- Introdução de ajuste imediato
- 【Novo descoberta de palavras】
- Construa seu próprio PTM! Novo mineração de palavras + pré-treinamento
- 【Texto para SQL】
- Texto para SQL? Aqui está uma análise de linha de base
- 【Notas de estudo do sistema recomendadas】
- Tendência recomendada de evolução da tecnologia do sistema: Recall
- Tecnologia do sistema recomendada Tendência de evolução: classificação
- Tecnologia do sistema recomendada Tendência de evolução: rearranjo
- Como o sistema de recomendação encontra usuários semelhantes?
- Um longo artigo com dez mil palavras detalha a lógica e a evolução do sistema de recomendação de diálogo
- Resumo das tecnologias relacionadas de adaptação ao modelo no sistema recomendado
- 【Notas de estudo GCN】
- 【Sobre o GCN no NLP】 Coisas que você não sabe
- [Calcule papéis publicitários e listas de dados Github Repo]
- Três perspectivas importantes, fale sobre o sistema de publicidade aos meus olhos
- [Documentos do sistema recomendados e listas de dados Github Repo]
- 【Motor de pesquisa】
- 【Sobre o PLM para recuperação em escala na Web na pesquisa de Baidu】 Coisas que você não sabe
- EMNLP 2021 |
5. Promova o artigo de pesquisa
- 【NLP Versátil e versátil】
- 【Aprendizado de máquina】
- 【Sobre a regularização】 Coisas que você não sabe
- 【Sobre o algoritmo de otimização】 Coisas que você não sabe
- 【Sobre BatchNorm vs Layernorm】 Coisas que você não sabe
- 【Sobre a normalização】 Coisas que você não sabe
- 【Sobre o excesso de ajuste e subjactar】 Coisas que você não sabe
- 【Aprendizagem profunda】
- 【Sobre CNN】 Coisas que você não sabe
- 【Sobre atenção】 Coisas que você não sabe
- 【Sobre o transformador】 Coisas que você não sabe (parte 1)
- 【Sobre o transformador】 Coisas que você não sabe (chinês)
- 【Sobre o transformador】 Coisas que você não sabe (parte 2)
- 【Tarefas NLP】
- 【Modelo pré -terenciado】
- 【Sobre tf-idf】 coisas que você não sabe
- 【Sobre o Word2vec】 Coisas que você não sabe
- 【Sobre o texto rápido】 Coisas que você não sabe
- 【Sobre Elmo】 Coisas que você não sabe
- 【Sobre Bert】 Coisas que você não sabe (parte 1)
- 【Sobre Bert】 Coisas que você não sabe (parte 2)
- 【Sobre a análise do código -fonte de Bert I PROPAL
- 【Sobre a análise do código-fonte Bert II Capítulo pré-treinamento】 Coisas que você não sabe
- 【Sobre a análise do código fonte de Bert
- [Sobre a análise do código fonte de Bert IV Artigo de geração de vetores de sentença] Coisas que você não sabe
- 【Sobre o Bert de Bert, a sequência mais refinada】 Coisas que você não sabe (i)
- 【Sobre o Bert de Bert, a sequência mais refinada】 Coisas que você não conhece (ii)
- 【Sobre o Bert de Bert, a sequência mais refinada】 Coisas que você não conhece (iii)
- 【Novo descoberta de palavras】
- 【Sobre a descoberta de novas palavras】 Coisas que você não sabe
- 【Extração de palavras -chave】
- 【Sobre a extração de palavras -chave】 Coisas que você não sabe
- 【Sobre Keybert】 Coisas que você não sabe
- 【Sistema recomendado com todos os lados】
- continua
6. estrutura
6.1 Aprendizagem Pytorch
- 【Manual oficial da versão em inglês pytorch】 https://pytorch.org/tutorials/
- Introdução: Pytorch Versão em inglês Manual oficial: https://pytorch.org/tutorials/. Para estudantes com bom inglês, é altamente recomendável este documento oficial do Pytorch, o que o levará a passo a passo do início do domínio. Este documento detalha o básico sobre como criar redes neurais profundas usando Pytorch, bem como a sintaxe da Pytorch e alguns casos de alta qualidade.
- [Documento oficial chinês de Pytorch] https://pytorch-cn.readthedocs.io/zh/latest/
- Introdução: Pytorch Chinese Oficial Documento: https://pytorch-cn.readthedocs.io/zh/latest/. Não importa se você tem dificuldade em ler os documentos em inglês acima.
- [Tutorial de código Pytorch para algoritmos práticos] https://github.com/yunjey/pytorch-tutorial
- Introdução: Este é um tutorial de código Pytorch que é mais prático em algoritmos. Recomenda -se que você aprenda os dois tutoriais básicos de Pytorch acima antes de ler este documento.
- 【Pytorch Livros de código aberto】 https://github.com/zergtant/pytorch-handbook
- Introdução: Introdução a um livro de código aberto: https://github.com/zergtant/pytorch-handbook. Este é um livro de código aberto com o objetivo de ajudar aqueles que desejam e usarem o Pytorch para o desenvolvimento e a pesquisa de aprendizado profundo rapidamente. No entanto, este documento não está muito completo e ainda está sendo atualizado.
- ["Hand-on Deep Learning" Pytorch] http://tangshusen.me/dive-into-dl-pytorch/#/
- 【Tutorial prático sobre treinamento de modelos Pytorch】 https://github.com/km1994/pytorch_tutorial
- 【Pytorch Prática prática de PNLP avançada】 https://github.com/km1994/nlp_pytorch_project
- 【Biblioteca de ferramentas do NLP ARK-NLP】 https://github.com/xianguking/ark-nlp
- Introdução: O arsenal de código aberto de Wang Xiang é usado principalmente para coletar e reproduzir os modelos de PNL comumente usados em acadêmicos e trabalhos.
6.2 Learning Tensorflow
- 【Site oficial do TensorFlow】 https://www.tensorflow.org/tutorials
- Introdução: O tutorial oficial do site é definitivamente o material de aprendizado mais perfumado
- 【Exemplos de tensorflow】 https://github.com/aymericdamien/tensorflow-examples
- Introdução: Tutoriais do TensorFlow e exemplos de código para iniciantes: https://github.com/aymericdamien/tensorflow-examples. Este tutorial não apenas fornece alguns conjuntos de dados clássicos, mas também começa com o mais simples "Hello World", para algoritmos clássicos para aprendizado de máquina e modelos comumente usados para redes neurais.
- 【Tutoriais do TensorFlow】 https://github.com/pkmital/tensorflow_tutorials
- Introdução: do básico do TensorFlow a aplicativos interessantes do projeto: https://github.com/pkmital/tensorflow_tutorials. É também um tutorial para iniciantes, da instalação à prática do projeto, para ensiná -lo a construir sua própria rede neural.
- 【Tutoriais do TensorFlow usando o Jupyter Notebook】 https://github.com/sjchoi86/tensorflow-101
- Introdução: Tutorial Tensorflow escrito em Python usando o Jupyter Notebook: https://github.com/sjchoi86/tensorflow-101. Este tutorial é um tutorial de tensorflow com base no ambiente de desenvolvimento de notebooks Jupyter.
- 【Tensorflow_exercises】 https://github.com/terryum/tensorflow_exercises
- Introdução: Exercício do Código do Tensorflow: https://github.com/terryum/tensorflow_exercises. Um manual de exercício de código de tensorflow, de fácil a difícil. Muito adequado para amigos que estudam Tensorflow.
- 【Aplicação de Bert e Albert em tarefas a jusante】 https://github.com/km1994/bert-for-task
- Introdução: a implementação de Bert em tarefas de PNL
6.3 Keras Learning
- 【Bert4keras】 https://github.com/bojone/bert4keras
- INTRODUÇÃO: O Arsenal de código aberto de Sushen, uma versão reimplementada de Keras da Biblioteca de Modelos Transformer, está comprometida em combinar transformadores e keras com o código refrescante possível.
6.4 Aprendizagem de estrutura de treinamento distribuída
- A primeira categoria: funções de treinamento distribuídas que acompanham as estruturas de aprendizado profundo. Como: Tensorflow, Pytorch, Mindspore, OneFlow, Paddlepaddle, etc.
- A segunda categoria: dimensionar e otimizar com base nas estruturas de aprendizado profundo existentes (como pytorch, linho) para realizar treinamento distribuído. Como: megatron-lm (paralelo tensor), velocidade profunda (zero-dp), colossal-AI (paralelismo do modelo de alta dimensão, como 2D, 2.5D, 3D), ALPA (paralelismo automático), etc.
7. Competição
5.1 Concorrência Doméstica
- [Concurso de desenvolvedor de iflytek] http://challenge.xfyun.cn/
- 【Ali Tianchi】 https://tianchi.aliyun.com/
- 【Leinse】 https://www.biendata.xyz/
- 【DataFountain】 https://www.datafountain.cn/
- 【Baidu Paddle Paddle】 https://aistudio.baidu.com/
5.2 Conta oficial da competição
- 【MAPO TOFU AI】
- Introdução: apresentará alguns eventos recentes em que você pode participar
5.3 Arsenal de competição de NLP
- [Biblioteca de ferramentas do Arsenal do NLP] https://github.com/tingfree/nlper-arsenalal
- INTRODUÇÃO: O Arsenal da PNL, que inclui principalmente a implementação da estratégia de competição de PNL, vários tutoriais de tarefas, postagens de experiência, materiais de aprendizagem e tempo de reunião.
- 【Chip2021-Task3-Open Solução para tarefas padronizadas em termos clínicos】
- Código fonte do Github
- Site de avaliação: http://cips-chip.org.cn/2021/eval3
- Todo o código é baseado em nossa implementação de Ark-NLP de código aberto. Não existe uma lista para a tarefa de padronização de termos clínicos do CHIP2021; portanto, a depuração do código é concluída na tarefa de padronização de termos clínicos do CBLUE, o conjunto de dados de processamento de informações médicas chinesas de Tianchi.
- Endereço ARK-NLP: https://github.com/xiangking/ark-nlp
- Conjunto de dados de processamento de informações médicas chinesas CBLUE: https://tianchi.aliyun.com/dataset/datadetail?dataid=95414
- [CHIP2021 Diálogo Médico Discovery Clinical Discovery Yin-Yang Tarefa de discriminação Plano de código aberto]
- Código fonte do Github
- Nome: CBLUE: Uma linguagem biomédica chinesa Refeição de avaliação de idiomas
- Tarefa de avaliação: CBLUE 1.0 é composta pelo conjunto de dados de competições anteriores de avaliação acadêmica da conferência de chip e do negócio de pesquisa médica Ali Quark, incluindo extração de informações de texto médico (reconhecimento de entidades, extração de relacionamento), normalização do termo médico, classificação de texto médico, julgamento de relação de sentença médica e total de controle de qualidade de 8 subtasks.
- Tipos de tarefas: classificação de texto, similaridade de texto, reconhecimento de entidade denominado, extração de relacionamento e padronização de terminologia (pode ser considerado como tarefas de vinculação de entidades sem contexto)
- Link de avaliação: https://tianchi.aliyun.com/dataset/datadetail?dataid=95414
- 【CBlue-Ali Tianchi Ranking Medical Ranking Ranking Baseling】 https://github.com/dataark/cblue-baseline
- [Concurso de Big Data de Shandong-linha de classificação inteligente de eventos de Grid] https://github.com/xianguking/shangdatacompetition2021-rrid-eventslatification-baseline
- Tarefa de avaliação: com base nos dados de eventos da grade, extraia e analise o conteúdo do evento na grade, divida as categorias de eventos e divida os tipos de assuntos do governo aos quais o evento pertence.
- Tipo de tarefa: classificação de texto
- Link de avaliação: http://data.sd.gov.cn/cmpt/cmptdetail.html?id=67
8. Corpus
8.1 Material de PNL
- 【Nlp_chinese_corpus】 https://github.com/brightmart/nlp_chinese_corpus
- Introdução: Corpus chinês em larga escala para PNL
8.2 Cotação recomendada do sistema
- 【MovieLENS】 https://grouplens.org/datasets/movielens/
- INTRODUÇÃO: O conjunto de dados do Movielens foi organizado pelo Grouplens Research Group na Universidade de Minnesota (não relacionado ao uso do conjunto de dados). Movielens é uma coleção de classificações de filmes, disponível em vários tamanhos. Os conjuntos de dados são denominados 1M, 10m e 20m porque contêm 1, 10 e 200.000 classificações. O maior conjunto de dados usa dados de cerca de 140.000 usuários e abrange 27.000 filmes. Além das classificações, os dados do MovieLENS também contêm informações de gênero semelhantes a "ocidentais" e tags para aplicativos de usuário como "sobre o topo" e "Arnold Schwarzenegger". Essas tags e etiquetas de gênero são úteis na construção de vetores de conteúdo. Os vetores de conteúdo codificam as informações de um item, como cor, forma, gênero ou qualquer outro atributo, na verdade - que pode ser qualquer forma de um algoritmo de recomendação para baseado em conteúdo.
- 【Cruzamentos de livros】
- Introdução: Cruzamentos de livros são um conjunto de dados de classificação de livros escrito por Cai-nicolas Ziegler com base nos dados de http://bookcrossing.com. Ele contém 1,1 milhão de classificações para 270.000 livros de 90.000 usuários. A pontuação varia de 1 a 10 e também inclui pontuações implícitas.
- 【Last.fm】 http://www2.informatik.uni-freiburg.de/~cziegler/bx/
- Introdução: Last.fm fornece um conjunto de dados para recomendações musicais. Para cada usuário do conjunto de dados, inclua uma lista de seus artistas mais populares e o número de peças. Ele também inclui tags de aplicativos de usuário que podem ser usados para criar vetores de conteúdo.
- 【Agência de namoro】 (http://www2.informatik.uni-freiburg.de/~cziegler/bx/)
- Introdução: Este conjunto de dados contém 17.359.346 classificações anônimas para 168.791 arquivos de configuração por 135.359 usuários de libimseti exportados em 4 de abril de 2006.
- Outros: https://zhuanlan.zhihu.com/p/258566760
8.3 Ferramentas de rotulagem
- Você ainda está preocupado em não encontrar o Anotador de Relacionamento da Entidade?
- https://labelstud.io/
- Doccano
9. Capítulo da conta oficial
- Coisas que você não sabe sobre NLP
- Introdução: coisas que você não sabe sobre a NLP
- Humilde sala de CS
- Introdução: Um post sobre o compartilhamento de experiências do chefe de Char Siu.
- Dataark
- INTRODUÇÃO: O Dataark é orientado a dados e de compartilhamento de código aberto, e está comprometido com a mineração de dados, a inovação de algoritmo e o desenvolvimento de ferramentas práticas.
- Sistema de recomendação inteligente
- Introdução: Focando em sistemas de recomendação inteligente, aqui estão os mais recentes e mais abrangentes algoritmos relacionados à recomendação e compartilhamento de aplicativos do setor.
- DataFuntalk
- Introdução: focando no compartilhamento e comunicação de aplicativos de tecnologia de big data e inteligência artificial. Comprometido em alcançar milhões de cientistas de dados.定期组织技术分享直播,并整理大数据、推荐/搜索算法、广告算法、NLP自然语言处理算法、智能风控、自动驾驶、机器学习/深度学习等技术应用文章。
- RUC Al Box
- 介绍:本公众号主要关注使用人工智能技术来解决自然语言处理与社交媒体数据挖掘的研究内容。分享Al前沿,解读热点论文。
- NewBeeNLP
- 开放知识图谱
- WeData365
- 介绍:学习【搜索引擎】 的小伙伴一定要关注,因为有很多【搜索引擎】 干货分享
- 科学空间
- 介绍:苏神的公众号,每周四苏神都会开源他的研究笔记。
- 老刘说NLP
- 介绍:360人工智能研究院大佬刘焕勇刘大佬的公众号,定期发布语言资源、工程实践、技术总结等内容。
- 数据拾光者
- 介绍:学习【广告】 的小伙伴一定要关注,因为有很多【广告】 干货分享
- 泛函的范
- 计算广告那些事
- 介绍:学习【广告】 的小伙伴一定要关注,因为有很多【广告】 干货分享
- 药老算法
- 介绍:学习【搜索引擎】 的小伙伴一定要关注,因为有很多【搜索引擎】 干货分享
- 机器学习算法与自然语言处理
- 介绍:一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
- 王喆的机器学习笔记
- AINLP
- 介绍:关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试自动对联、作诗机、藏头诗生成器,调戏夸夸机器人、彩虹屁生成器,使用中英翻译,查询相似词,测试NLP相关工具包。
- 李rumor
- 夕小瑶的卖萌屋
- 介绍:自然语言处理、计算机视觉、信息检索、推荐系统、机器学习
十、学习笔记
- 科学空间:
- 地址:https://spaces.ac.cn/
- 介绍:苏神经验学习笔记分享
- 魔法学院的Chilia
- 地址:https://www.zhihu.com/people/wang-zi-han-81-18/posts
- 方向:推荐系统| 广告| 搜索| NLP
- 水哥
- 地址:https://www.zhihu.com/people/shui-ge-99
- 方向:推荐系统
- JayJay
- 地址:https://www.zhihu.com/people/lou-jie-9
- 我想了很多事
- 地址:https://www.zhihu.com/people/yuan-chao-yi-83
十一、部署笔记
- Bert与TensorRT部署手册,享受丝滑的顺畅
参考
- 关于大模型实践的一些总结