Promover la búsqueda del arsenal
Autor: Yang XI
Notas de estudio en papel de la NLP: https://github.com/km1994/nlp_paper_study
Introducción personal: Hola, Big Guys, mi nombre es Yang XI.
NLP Versátil y versátil: https://github.com/km1994/nlp-interview-notes
Sistema recomendado con todos los lados y todo tipo de direcciones: https://github.com/km1994/res-interview-notes
Promoción y búsqueda de la biblioteca de armas : https://github.com/km1994/recommendation_advertisement_search
¡Siga la cuenta oficial [cosas que no sabe sobre NLP] y únase a [NLP && Recomended Learning Group] para estudiar juntos! ! !
1. Proyecto
1.1 Algunos modelos grandes que se pueden descargar en la industria actualmente
- chatgpt:
- https://openai.com/blog/chatgpt
- Dirección de experiencia: https://chat.openai.com/
- GLM-10B/130B
- Introducción: modelo bilingüe (chino e inglés) bidireccional denso
- OPT-2.7B/13B/30B/66B:
- Introducción: Modelo de lenguaje previamente capacitado de código abierto
- github: https://github.com/facebookresearch/metaseq
- Documento: https://arxiv.org/pdf/2205.01068.pdf
- LLAMA-7B/13B/30B/65B:
- Introducción: el modelo de lenguaje grande básico de código de meta abierta
- Github: https://github.com/facebookresearch/llama
- Documento: https://arxiv.org/pdf/2302.13971v1.pdf
- Alpaca (Llama-7b):
- Introducción: Stanford propuso un poderoso modelo de seguimiento de instrucción reproducible.
- Github: https://github.com/tatsu-lab/stanford_alpaca
- Chino-llama-alpaca Github: https://github.com/ymcui/chinese-llama-alpaca
- Belle (Bloomb-7B/Llama-7b):
- Introducción: este proyecto se basa en Stanford Alpaca y está optimizado para el ajuste del modelo.
- Chatglm-6b:
- Introducción: modelo de idioma de diálogo bilingüe chino e inglés
- Github: https://github.com/thudm/chatglm-6b/
- Bloom-7b/13b/176b:
- Introducción: puede manejar 46 idiomas, incluidos franceses, chinos, vietnamitas, indonesios, catalán, 13 idiomas indios (como hindi) y 20 idiomas africanos. Entre ellos, el modelo de la serie Bloomble está ajustado en función del conjunto de datos XP3. Recomendado para indicaciones en inglés (indicación); Recomendado para indicaciones no inglesas (indicación)
- github: https://huggingface.co/bigscience/bloom
- Documento: https://arxiv.org/pdf/2211.05100.pdf
- Vicuna (7b/13b):
- INTRODUCCIÓN: Vicuna-13b, creado por investigadores de UC Berkeley, CMU, Stanford y UC San Diego, se obtuvo mediante la llama de ajuste en los datos de conversación compartidos de usuarios recopilados por ShareGPT. Entre ellos, GPT-4 se usó para la evaluación y descubrió que el rendimiento de Vicuna-13b logró capacidades comparables a ChatGPT y Bard en más del 90% de los casos; Y la capacitación para Vicuna-13B cuesta alrededor de $ 300. No solo eso, también proporciona una plataforma abierta para capacitar, servir y evaluar los chatbots basados en modelos de idiomas grandes: FastChat.
- Bayeta:
- Introducción: Bai Ze entrenado en LLAMA. Actualmente, se incluyen cuatro modelos ingleses: Bai ZE-7B, 13B, 30B (modelo de diálogo general) y un modelo de campo de campo vertical BAI ZE-Medical para uso de investigación/no comercial, y planea lanzar el modelo Bai Ze chino en el futuro. Todos los códigos, como el procesamiento de datos de Bai Ze, los modelos de capacitación y la demostración, han sido abiertos.
- Llmzoo:
- Introducción: una serie de grandes modelos lanzados por la Universidad China de Hong Kong y el equipo del Instituto de Investigación de Big Data de Shenzhen, como Phoenix y Chimera, etc. - Moss: el modelo de lenguaje grande Moss lanzado por el equipo de NLP Fudan.
- Alpaca Fastchat
- Github: https://github.com/lm-sys/fastchat
- Minigt-4
- Github: https://github.com/visision-cair/minigpt-4
1.2 [LLMS Introducción a la serie de secuencias prácticas]
Tsinghua Universidad de origen abierto Versión china Chatglm-6B Aprendizaje y práctica Práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica práctica Aprendizaje modelo y batalla práctica [LLMS Battle práctica para principiantes - 8] Minigpt -4 Model Learning and Practical Battle
1.3 Proyecto de PNL Aprendizaje del Arsenal
- 【Conocimiento Construcción de gráficos Deepkg】 https://github.com/powercy/deepkg
- Introducción: Este proyecto está comprometido con la construcción de gráficos de conocimiento, y actualmente está construyendo sus métodos poco a poco, y espero ayudar a más personas.
1.4 Proyecto del sistema recomendado Aprendizaje del arsenal
- 【Fun-Rec】 https://github.com/datawhalechina/fun-reck
- Introducción: está dirigido principalmente a los estudiantes que tienen una base básica de aprendizaje automático y desean encontrar una posición de algoritmo recomendado.
- 【Recsys】 https://github.com/qcymkxyc/recsys
- Introducción: la implementación del código de Xiang Liang de la "práctica del sistema recomendado"
1.5 Proyecto de motor de búsqueda Aprendizaje del Arsenal
- [Proyecto de motor de búsqueda de código abierto] https://github.com/zuo369301826/search_project
- Introducción del proyecto: Simule Baidu Search para implementar el motor de búsqueda del sitio.
- Características del proyecto: 1. Utilice los marcos de código abierto como ProToBuf, GFLAG y GLOG proporcionado por Google para completar el desarrollo. .
- 【Elástico】 https://www.elastic.co/cn/
- Introducción: Elasticsearch es un motor distribuido de búsqueda de datos y análisis de estilo RESTFUL que puede resolver la aparición de varios casos de uso. En el corazón de la pila elástica, almacena centralmente sus datos y le ayuda a descubrir situaciones inesperadas e inesperadas.
- 【Nutch】 http://nutch.sourceforge.net/docs/zh/about.html
- Introducción: Nutch es un motor de búsqueda web que acaba de nacer de código abierto. Hay instrucciones chinas detalladas sobre su página de inicio.
- 【Lucene】 http://jakarta.apache.org/lucene/docs/index.html
- Introducción: Apache Lucene es un motor de rastreadores de programa de código abierto que puede agregar fácilmente funciones de búsqueda de texto completo al software Java. El trabajo principal de Lucene es indexar cada palabra del archivo.
- 【Egothor】 http://www.egothor.org/
- INTRODUCCIÓN: Egothor es un código de búsqueda de texto completo y eficiente escrito en Java. Con las características multiplataforma de Java, Egothor se puede aplicar a aplicaciones en cualquier entorno, tanto como un motor de búsqueda separado como para su aplicación como una búsqueda de texto completo.
- 【Oxyus】 http://oxyus.sourceforge.net/
- Introducción: es un motor de búsqueda web puro escrito por Java.
- 【Bddbot】 http://www.twmacinta.com/bddbot/
- Introducción: BDDBOT es un motor de búsqueda simple y fácil de entender y usar. Actualmente se arrastra en una URL que figura en un archivo de texto (urls.txt) y guarda los resultados en una base de datos. También admite un servidor web simple que acepta consultas del navegador y devuelve los resultados de respuesta. Se puede integrar fácilmente en su sitio web.
1.6 Calcule el Proyecto de Publicidad Aprendizaje del Arsenal
- [Práctica de estrategia publicitaria de Meituan DSP] https://tech.meituan.com/2017/05/05/mt-dsp.html
- [Introducción a la publicidad en Internet y la publicidad computacional] http://web.stanford.edu/class/msande239/
2. Artifacto de IA
- Chatgpt ai artefacto
- 【AI Artifact】 Diálogo AI - CHATGPT https://999.weny66.cn/chat?bd_vid=11997231054327469370
- 【Artefacto de IA】 GPT-4 Sitio web de experiencia en línea chatmindai.cn
- 【Artifacto de ai】 chatgpt3.5 es gratuito para iniciar sesión, disponible en China https://chat23.yqcloud.top/
- Chat de primer plano Chat.forefront.ai
- Poe Poe.com/gpt-4
- Artefacto 3d ai
- Masterpiece Studio: https://xiaobot.net/p/superindividual
- Masterpiece Studio: https://masterpiecestudio.com
- G3dai {Jedi}: https://g3d.ai
- Ponzu: https://www.ponzu.gg
- Prometheanai: https://www.prometheanai.com
- Leonardo.ai: https://leonardo.ai
- Artifacto de arte ai
- Dream Up (Arte Deviant): https://www.dreamup.com
- NightCafe Studio: https://creator.nightcafe.studio
- MidJourney: https://www.midjourney.com/home/
- Artbreeder: https://www.artbreeder.com
- Wombo: https://www.wombo.art
- Audio Edición de artefacto AI
- Podcastle: editando https://podcastle.ai
- CleanVoice: edición de audio https://cleanvoice.ai
- Código Asistente AI Artifacto
- Codesquire https://codesquire.ai
- Asistente de código Buildt https://www.buildt.ai
- ¡Hola, asistente de código!
- Actualización continua
3. Introducción a Xiaobai AI
3.1 Introducción al aprendizaje automático
- [Cursos de la Serie de aprendizaje automático de Wu Wanda] https://www.bilibili.com/video/bv164411b7dx?from=search&seid=181384663542580184499&spm_id_from=333337.0.0.0
3.2 Comenzando con PNL
- [2021 Ng Deep Learning - NLP Sequence Model] https://www.bilibili.com/video/BV1Co4y1279R?from=search&seid=17563746002586971760&spm_id_from=333.337.0.0
- 【Introducción al gráfico de conocimiento】
- Notas de conferencias del mapa de la Universidad de Zhejiang |
- Notas de conferencias de mapa de la Universidad de Zhejiang |
- Graph Lecture Notes |
- Notas de conferencia gráfica |
- Notas de conferencia gráfica |
3.3 Comenzando con la publicidad informática
- [Introducción a la publicidad en Internet y la publicidad computacional] http://web.stanford.edu/class/msande239/
- Conferencia 1: Introducción, notas complementarias
- Conferencia 2: Diseño del mercado, en la presentación de clase, notas complementarias
- Conferencia 3: Búsqueda patrocinada 1, en la presentación de clase
- Conferencia 4: Search 2 patrocinada, en la presentación de clase
- Conferencia 5: Publicidad de exhibición 1, en la presentación de clase
- Conferencia 6: Publicidad de exhibición 2, en la presentación de clase
- Conferencia 7: Dirección, en la presentación de clase
- Conferencia 8: Sistemas de recomendación, en la presentación de clase 1, en la presentación de clase 2
- Conferencia 9: Mobile, Video y otros formatos emergentes, en la presentación de clase 1, en la presentación de clase 2
- [Liu Peng - Publicidad computacional (recomendado)] http://study.163.com/course/introduction.htm?Courseid=321007
- Introducción: el maestro Liu Peng actualmente sirve como el arquitecto principal de los productos comerciales en 360 y tiene una rica experiencia práctica en el campo de la publicidad en Internet. El contenido de su curso de "publicidad computacional" es fácil de entender, desde el modelo de historia de publicidad hasta la tecnología reciente, que es muy adecuada para amigos que son nuevos en el campo para aprender.
- Conocimiento básico de la publicidad
- Sistema de publicidad por contrato
- Puntos de audiencia
- Sistema de publicidad de licitación
- Buscar tecnología de demanda de publicidad y publicidad de la red
- Mercado publicitario
- 【Baidu - Publicidad computacional】 http://openresearch.baidu.com/courses/1231.jhtml
- Descripción general de la publicidad computacional
- Principios de publicidad de motores de búsqueda, tecnología e prácticas de ingeniería
- Contenido que coincide con los principios, técnicas y prácticas publicitarias
- [Wang Yongrui - Algoritmos de publicidad en Internet y práctica del sistema] http://yuedu.baidu.com/ebook/3e31c551964bcf84b9d57bc0.html
- Introducción: el maestro Wang es la persona a cargo del algoritmo publicitario objetivo de Taobao. Su curso combina la experiencia de práctica publicitaria de Taobao, desde la teoría publicitaria hasta la práctica técnica sistemática, y es muy digno de aprender por los técnicos.
- Introducción a la publicidad en Internet
- Anuncios de búsqueda
- Publicidad dirigida
- Licitación publicitaria en tiempo real
- Arquitectura y desafíos del sistema publicitario
- 【UCS - Introducción a la publicidad computacional】 http://classes.soe.ucsc.edu/ism293/spring09/index_archivos/page456.html
- Introducción y descripción general
- Recuperación de información (IR) para computacional
- Diseño del mercado
- Técnicas de aprendizaje automático
- Búsqueda patrocinada i
- Search II patrocinada
- Anuncios gráficos y entrega garantizada
- Publicidad contextual I
- Publicidad contextual II
- Orientación conductual (BT)
4. Promueve la búsqueda de tesis y notas de estudio
- 【Notas de estudio de la PNL】
- 【Transformador】
- 【Acerca de los transformadores eficientes: una encuesta】 Cosas que no sabe
- 【Compresión del modelo Bert】
- 【Acerca de la autodenrainamiento + Pre-Training = Mejor modelo de comprensión del lenguaje natural】 Cosas que no sabe
- 【Acerca de Bert a TextCnn】 Cosas que no sabes
- 【Reconocimiento de entidad nombrado】
- 【Biaffine sobre el reconocimiento de entidades anidadas】 Cosas que no sabes
- Papershape de Biaffine
- Inventario de Papershape de reconocimiento de entidad nombrado en los últimos años
- 【Sobre el aprendizaje continuo para ner】 cosas que no sabes
- 【Extracción de relaciones】
- 【Sobre la extracción de relaciones HBT】 Cosas que no sabes
- Desde el principio, la extracción de la relación
- Desde el principio, extracción de relaciones - Ataque de supervisión remota
- [Extracción de relación a nivel de documento]
- 【Acerca del Atlop】 Cosas que no sabes
- Resumen en papel |
- Resumen en papel |
- 【Match de texto】
- 【Sobre oración-bert】 cosas que no sabes
- Facebook: Principio FAISS + Aplicación de la biblioteca de búsqueda para millones de similitud vectorial
- NUEVA SOLUCIÓN DE VECTOR DE ARENDIDOS COSENT REGISTRO PRÁCTICO
- 【Referencia de la cadena de estado】
- 【Sobre el generación de cosas que no sabes
- 【Corrección de errores de texto】
- 【Acerca del gector】 cosas que no sabes
- 【Robot de preguntas y respuestas】
- Topicshare compartiendo el robot basado en escenas y basados en la búsqueda
- 【Sistema de diálogo】
- "【La comunidad dice】 Hablemos de Rasa 3.0" Notas incompletas
- (I) Descripción general de los robots de diálogo
- (Ii) Introducción al motor de código abierto RASA
- (Iii) Modelo de idioma Rasa NLU
- (Iv) Rasa NLU Word Segmenter
- (V) Generador de características de Rasa NLU
- (Vi) clasificador de intención de Rasa NLU
- (Vii) Rasa NLU Entity Extractor
- (9) Componentes de tubería personalizados RASA
- (10) Política central de RASA
- (11) Acción central de RASA
- (12) Dominio RASA
- (13) Datos de entrenamiento de RASA
- (14) Rasa Story
- (15) RASA REGLAS
- (16) Las mejores prácticas de RASA
- (17) Inicie el robot chino basado en Rasa
- (18) Inicie el mecanismo de implementación del robot chino basado en RASA
- (19) Sistema de preguntas y respuestas basado en el gráfico de conocimiento (KBQA)
- (20) Un sistema de preguntas y respuestas basado en la comprensión de lectura
- Dieta: transformador de doble intención y entidad—— Traducción de papel Rasa
- (21) Preguntas frecuentes en la aplicación RASA
- (22) Optimización de hiperparameter de RASA
- (23) Prueba y evaluación de robots
- (24) Crear un asistente de diálogo contextual utilizando formularios RASA
- 【Kbqa】
- 【Sobre KBQA complejo】 Cosas que no sabes (Parte 1)
- 【Sobre el complejo KBQA】 Cosas que no sabes (chino)
- 【Acerca de KBQA complejo】 Cosas que no sabes (Parte 2)
- 【Extracción de eventos】
- 【Acerca de Mlbinet】 Cosas que no sabes
- 【Ajuste rápido】
- Introducción de sintonización rápida
- 【Nuevo descubrimiento de palabras】
- ¡Construye tu propio PTM! Nueva minería de palabras + pre-entrenamiento
- 【Texto a SQL】
- Texto a SQL? Aquí hay un análisis de referencia
- 【Notas de estudio del sistema recomendado】
- Tendencia de evolución de la tecnología del sistema recomendada: retirarse
- Tendencia de evolución de tecnología del sistema recomendada: clasificación
- Tendencia de evolución de la tecnología del sistema recomendada: reordenamiento
- ¿Cómo encuentra el sistema de recomendación usuarios similares?
- Un artículo largo con diez mil palabras detalla la lógica y la evolución del sistema de recomendación de diálogo
- Resumen de las tecnologías relacionadas de adaptación al modelo en el sistema recomendado
- 【Notas de estudio GCN】
- 【Acerca de GCN en NLP】 Cosas que no sabes
- [Calcule los documentos publicitarios y la lista de datos Repo GitHub]
- Tres perspectivas principales, hable sobre el sistema de publicidad en mis ojos
- [Documentos del sistema recomendados y lista de datos GitHub Repo]
- 【Motor de búsqueda】
- 【Acerca de PLM para la recuperación de la escala web en Baidu Búsqueda】 Cosas que no sabe
- EMNLP 2021 |
5. Promocione el artículo de búsqueda
- 【NLP versátil y versátil】
- 【Aprendizaje automático】
- 【Sobre la regularización】 Cosas que no sabes
- 【Sobre el algoritmo de optimización】 cosas que no sabes
- 【Acerca de BatchNorm vs Layernorm】 Cosas que no sabes
- 【Sobre la normalización】 Cosas que no sabes
- 【Sobre el sobreajuste y el poco atajón】 cosas que no sabes
- 【Aprendizaje profundo】
- 【Acerca de CNN】 Cosas que no sabes
- 【Sobre la atención】 Cosas que no sabes
- 【Acerca de Transformer】 Cosas que no sabes (Parte 1)
- 【Acerca de Transformer】 Cosas que no sabes (chino)
- 【Acerca de Transformer】 Cosas que no sabes (Parte 2)
- 【Tareas de PNL】
- 【Modelo previamente provocado】
- 【Acerca de tf-idf】 cosas que no sabes
- 【Acerca de Word2Vec】 Cosas que no sabes
- 【Acerca de FastText】 Cosas que no sabes
- 【Acerca de Elmo】 Cosas que no sabes
- 【Acerca de Bert】 Cosas que no sabes (Parte 1)
- 【Acerca de Bert】 Cosas que no sabes (Parte 2)
- 【Acerca del análisis del código fuente de BERT es el cuerpo principal de I】 cosas que no sabes
- 【Acerca de BERT Código fuente del análisis II Capítulo de pre-entrenamiento】 Cosas que no sabe
- 【Acerca de Bert Código fuente Análisis III Capítulo de ajuste fino】 Cosas que no sabe
- [Acerca de el análisis del código fuente de Bert IV Artículo de generación de vectores de oración] Cosas que no sabe
- 【Sobre la secuencia más grande de Bert, la secuencia más refinada】 cosas que no sabes (yo)
- 【Sobre la secuencia más grande de Bert, la secuencia más refinada】 cosas que no sabes (ii)
- 【Sobre la secuencia más grande de Bert, la secuencia más refinada】 cosas que no sabes (iii)
- 【Nuevo descubrimiento de palabras】
- 【Acerca de un nuevo descubrimiento de palabras】 cosas que no sabes
- 【Extracción de palabras clave】
- 【Sobre la extracción de palabras clave】 cosas que no sabes
- 【Acerca de Keybert】 Cosas que no sabes
- 【Sistema recomendado con todos los lados】
- continuará
6. Marco
6.1 Aprendizaje de Pytorch
- 【Pytorch Versión inglesa Manual oficial】 https://pytorch.org/tutorials/
- Introducción: Pytorch English Version Manual oficial: https://pytorch.org/tutorials/. Para los estudiantes con buen inglés, este documento oficial de Pytorch es muy recomendable, lo que lo llevará paso a paso desde comenzar a dominar. Este documento detalla los conceptos básicos sobre cómo construir redes neuronales profundas usando Pytorch, así como sintaxis de Pytorch y algunos casos de alta calidad.
- [Documento oficial chino de Pytorch] https://pytorch-cn.readthedocs.io/zh/latest/
- Introducción: Pytorch Documento oficial chino: https://pytorch-cn.readthedocs.io/zh/latest/. No importa si tiene dificultades para leer los documentos en inglés mencionados anteriormente.
- [Tutorial de código Pytorch para algoritmos prácticos] https://github.com/yunjey/pytorch-tutorial
- Introducción: Este es un tutorial de código Pytorch que es más práctico en los algoritmos. Se recomienda que aprenda los dos tutoriales básicos de Pytorch antes de leer este documento.
- 【Libros de código abierto de Pytorch】 https://github.com/zergtant/pytorch-handbook
- Introducción: Introducción a un libro de código abierto: https://github.com/zergtant/pytorch-handbook. Este es un libro de código abierto con el objetivo de ayudar a aquellos que desean y usan Pytorch para el desarrollo y la investigación del aprendizaje profundo rápidamente. Sin embargo, este documento no es muy completo y todavía se está actualizando.
- ["Hand-On Deep Learning" Pytorch] http://tangshusen.me/dive-intto-dl-pytorch/#/
- 【Tutorial práctico sobre la capacitación del modelo Pytorch】 https://github.com/km1994/pytorch_tutorial
- 【Pytorch Advanced NLP Práctica práctica】 https://github.com/km1994/nlp_pytorch_project
- 【Biblioteca de herramientas NLP de Ark-NLP】 https://github.com/xiangking/ark-nlp
- Introducción: el arsenal de código abierto de Wang Xiang se utiliza principalmente para recolectar y reproducir los modelos PNL de uso común en académicos y trabajo.
6.2 TensorFlow Learning
- 【Sitio web oficial de Tensorflow】 https://www.tensorflow.org/tutorials
- Introducción: el tutorial oficial del sitio web es definitivamente el material de aprendizaje más fragante
- 【Ejemplos de tensorflow】 https://github.com/aymericdamien/tensorflow-examples
- Introducción: tutoriales de TensorFlow y ejemplos de código para principiantes: https://github.com/aymericdamien/tensorflow-examples. Este tutorial no solo proporciona algunos conjuntos de datos clásicos, sino que también comienza desde la implementación del "Hello World" más simple, hasta los algoritmos clásicos para el aprendizaje automático, y a los modelos comúnmente utilizados para las redes neuronales.
- Tutorials TensorFlow】 https://github.com/pkmital/tensorflow_tutorials
- Introducción: Desde los conceptos básicos de TensorFlow hasta aplicaciones interesantes del proyecto: https://github.com/pkmital/tensorflow_tutorials. También es un tutorial para los novatos, desde la instalación hasta la práctica de proyectos, para enseñarle a construir su propia red neuronal.
- 【Tensorflow tutoriales usando el cuaderno Jupyter】 https://github.com/sjchoi86/tensorflow-101
- INTRODUCCIÓN: Tutorial TensorFlow escrito en Python usando el cuaderno de Jupyter: https://github.com/sjchoi86/tensorflow-101. Este tutorial es un tutorial de flujo de tensor basado en el entorno de desarrollo del cuaderno Jupyter.
- 【Tensorflow_exercises】 https://github.com/terryum/tensorflow_exercises
- Introducción: TensorFlow Code Ejercicio: https://github.com/terryum/tensorflow_exercises. Un manual de ejercicio de código TensorFlow de fácil a difícil. Muy adecuado para amigos que estudian TensorFlow.
- 【Aplicación de Bert y Albert en tareas posteriores】 https://github.com/km1994/bert-for-task
- Introducción: la implementación de Bert en tareas de PNL
6.3 Learning Keras
- 【Bert4keras】 https://github.com/bojone/bert4keras
- Introducción: el Arsenal de código abierto de Sushen, una versión Keras reimplementada de Transformer Model Library, se compromete a combinar Transformer y Keras con el código refrescante posible.
6.4 Aprendizaje del marco de capacitación distribuida
- La primera categoría: funciones de capacitación distribuidas que vienen con marcos de aprendizaje profundo. Tales como: TensorFlow, Pytorch, Mindspore, Onflow, Paddlepaddle, etc.
- La segunda categoría: escala y optimización basada en marcos de aprendizaje profundo existentes (como Pytorch, Flax) para realizar capacitación distribuida. Tales como: megatron-lm (tensor paralelo), velocidad profunda (cero-dp), colossal-ai (paralelismo del modelo de alta dimensión, como 2D, 2.5D, 3D), ALPA (paralelismo automático), etc.
7. Competencia
5.1 Competencia doméstica
- [Competencia de desarrollador iflytek] http://challenge.xfyun.cn/
- 【Ali Tianchi】 https://tiangi.aliyun.com/
- 【Biendata】 https://www.biendata.xyz/
- 【DataFountain】 https://www.datafountain.cn/
- 【Baidu Paddle Paddle】 https://aistudio.baidu.com/
5.2 Cuenta oficial de la competencia
- 【Mapo tofu ai】
- Introducción: presentará algunos eventos recientes en los que puede participar
Arsenal de 5.3 NLP Competition Arsenal
- [NLP Arsenal Tool Library] https://github.com/tingfree/nlper-arsenal
- Introducción: Arsenal de PNL, que incluye principalmente la implementación de la estrategia de competencia de PNL, varios tutoriales de tareas, publicaciones de experiencia, materiales de aprendizaje y tiempo de reunión.
- 【CHIP2021-TASK3-OPEN SOLUCIÓN FUENTE para tareas estandarizadas en términos clínicos】
- Código fuente de Github
- Sitio web de evaluación: http://cips-chip.org.cn/2021/eval3
- Todo el código se basa en nuestra implementación de ARK-NLP de código abierto. No hay una lista para la tarea de estandarización de términos clínicos de ChIP2021, por lo que la depuración del código se completa en la tarea de estandarización de términos clínicos de CBLUE, el conjunto de datos de procesamiento de información médica china de Tianchi.
- Dirección de Ark-Nlp: https://github.com/xiangking/ark-nlp
- Conjunto de datos de procesamiento de información médica china CBLue: https://tiangi.aliyun.com/dataset/datadetail?dataid=95414
- [CHIP2021 Diálogo médico Descubrimiento clínico Yin-yang Tarea de discriminación Campeón Plan de código abierto]
- Código fuente de Github
- Nombre: Cblue: un punto de referencia de evaluación de comprensión de lenguaje biomédico chino
- Tarea de evaluación: CBLUE 1.0 está compuesto por el conjunto de datos de concursos de evaluación académica previa de la Conferencia de CHIP y el negocio de búsqueda médica de Ali Quark, incluida la extracción de información de texto médico (reconocimiento de entidades, extracción de relaciones), normalización de término médico, clasificación de texto médico, juicio de relaciones con oraciones médicas y total de QA de 8 subestamaciones.
- Tipos de tareas: clasificación de texto, similitud de texto, reconocimiento de entidad nombrado, extracción de relaciones y estandarización de terminología (puede considerarse como entidades de vinculación de tareas sin contexto)
- Enlace de evaluación: https://tiangi.aliyun.com/dataset/datadetail?dataid=95414
- 【CBLUE-ALI Tianchi China Medical NLP Ranking Base Base】 https://github.com/dataark/cblue-Baseline
- [Competencia de Big Data de Shandong: línea de base de clasificación inteligente de eventos de Grid] https://github.com/xiangking/shandongdatacompetition2021-grid-events-classification-baseline
- Tarea de evaluación: según los datos del evento de la red, extrae y analice el contenido del evento en la red, divida las categorías de eventos y divida los tipos de asuntos gubernamentales a los que pertenece el evento.
- Tipo de tarea: clasificación de texto
- Enlace de evaluación: http://data.sd.gov.cn/cmpt/cmptdetail.html?id=67
8. Corpus
8.1 Material NLP
- 【Nlp_chinese_corpus】 https://github.com/brightmart/nlp_chinese_corpus
- Introducción: Corpus chino a gran escala para PNL
8.2 Cotización del sistema recomendada
- 【Movielens】 https://grouplens.org/datasets/movielens/
- Introducción: El conjunto de datos Movielens fue organizado por Grouplens Research Group en la Universidad de Minnesota (no relacionado con nuestro uso del conjunto de datos). Movielens es una colección de clasificaciones de películas, disponibles en varios tamaños. Los conjuntos de datos se denominan 1 m, 10m y 20m porque contienen 1, 10 y 200,000 calificaciones. El conjunto de datos más grande utiliza datos de aproximadamente 140,000 usuarios y cubre 27,000 películas. Además de las calificaciones, los datos de Movielens también contienen información de género similar a "Western" y etiquetas para aplicaciones de usuarios como "Over the Top" y "Arnold Schwarzenegger". Estas etiquetas y etiquetas de género son útiles para construir vectores de contenido. Los vectores de contenido codifican la información de un elemento, como color, forma, género o cualquier otro atributo, que realmente puede ser cualquier forma de algoritmo de recomendación para el contenido.
- 【Crossings de libros】
- Introducción: Book-Crossings es un conjunto de datos de calificación de libros escrito por Cai-Nicolas Ziegler basado en los datos de http://bookcrossing.com. Contiene 1,1 millones de calificaciones para 270,000 libros de 90,000 usuarios. El puntaje varía de 1 a 10 y también incluye puntajes implícitos.
- 【Last.fm】 http://www2.informatik.uni-freiburg.de/~cziegler/bx/
- Introducción: Last.fm proporciona un conjunto de datos para recomendaciones de música. Para cada usuario en el conjunto de datos, incluya una lista de sus artistas más populares y la cantidad de obras. También incluye etiquetas de aplicación de usuario que se pueden usar para crear vectores de contenido.
- 【Agencia de citas】 (http://www2.informatik.uni-freiburg.de/~cziegler/bx/)
- Introducción: Este conjunto de datos contiene 17,359,346 calificaciones anónimas para 168,791 archivos de configuración en 135,359 usuarios de Libimseti exportados el 4 de abril de 2006.
- Otros: https://zhuanlan.zhihu.com/p/258566760
8.3 Herramientas de etiquetado
- ¿Todavía estás preocupado por no encontrar el anotador de relación de entidad?
- https://labelstud.io/
- doccano
9. Capítulo de cuenta oficial
- Cosas que no sabes sobre PNL
- Introducción: Cosas que no sabes sobre PNL
- La humilde habitación de CS
- Introducción: una publicación sobre las experiencias de compartir el jefe de Char Siu.
- Datak
- INTRODUCCIÓN: DATAKARK está basado en datos y de código abierto, orientado al intercambio, y está comprometido con la minería de datos, la innovación de algoritmos y el desarrollo de herramientas prácticas.
- Sistema de recomendación inteligente
- Introducción: Centrando en sistemas de recomendación inteligente, aquí están los algoritmos y el intercambio de aplicaciones de la industria y el intercambio de aplicaciones de la industria y el intercambio de aplicaciones de la industria.
- DataFuntalk
- Introducción: Centrarse en compartir y comunicación de big data y aplicaciones de tecnología de inteligencia artificial. Comprometido a lograr millones de científicos de datos.定期组织技术分享直播,并整理大数据、推荐/搜索算法、广告算法、NLP自然语言处理算法、智能风控、自动驾驶、机器学习/深度学习等技术应用文章。
- RUC Al Box
- 介绍:本公众号主要关注使用人工智能技术来解决自然语言处理与社交媒体数据挖掘的研究内容。分享Al前沿,解读热点论文。
- NewBeeNLP
- 开放知识图谱
- WeData365
- 介绍:学习【搜索引擎】 的小伙伴一定要关注,因为有很多【搜索引擎】 干货分享
- 科学空间
- 介绍:苏神的公众号,每周四苏神都会开源他的研究笔记。
- 老刘说NLP
- 介绍:360人工智能研究院大佬刘焕勇刘大佬的公众号,定期发布语言资源、工程实践、技术总结等内容。
- 数据拾光者
- 介绍:学习【广告】 的小伙伴一定要关注,因为有很多【广告】 干货分享
- 泛函的范
- 计算广告那些事
- 介绍:学习【广告】 的小伙伴一定要关注,因为有很多【广告】 干货分享
- 药老算法
- 介绍:学习【搜索引擎】 的小伙伴一定要关注,因为有很多【搜索引擎】 干货分享
- 机器学习算法与自然语言处理
- 介绍:一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
- 王喆的机器学习笔记
- AINLP
- 介绍:关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试自动对联、作诗机、藏头诗生成器,调戏夸夸机器人、彩虹屁生成器,使用中英翻译,查询相似词,测试NLP相关工具包。
- 李rumor
- 夕小瑶的卖萌屋
- 介绍:自然语言处理、计算机视觉、信息检索、推荐系统、机器学习
十、学习笔记
- 科学空间:
- 地址:https://spaces.ac.cn/
- 介绍:苏神经验学习笔记分享
- 魔法学院的Chilia
- 地址:https://www.zhihu.com/people/wang-zi-han-81-18/posts
- 方向:推荐系统| 广告| 搜索| NLP
- 水哥
- 地址:https://www.zhihu.com/people/shui-ge-99
- 方向:推荐系统
- JayJay
- 地址:https://www.zhihu.com/people/lou-jie-9
- 我想了很多事
- 地址:https://www.zhihu.com/people/yuan-chao-yi-83
十一、部署笔记
- Bert与TensorRT部署手册,享受丝滑的顺畅
referirse a
- 关于大模型实践的一些总结