Продвигать поиск арсенала
Автор: Ян XI
NLP Paper Study Примечания: https://github.com/km1994/nlp_paper_study
Личное введение: Здравствуйте, большие парни, меня зовут Ян Си.
NLP Универсальный и универсальный адрес: https://github.com/km1994/nlp-interview-notes
Рекомендуемая система со всеми сторонами и все виды адресов: https://github.com/km1994/res-interview-notes
Продвижение и поиск библиотеки оружия : https://github.com/km1994/recommendation_advertisement_search
Следуйте официальной учетной записи [вещи, которые вы не знаете о NLP] и присоединяйтесь к [NLP && рекомендуемой учебной группе], чтобы учиться вместе! ! !
1. Проект
1.1 Некоторые крупные модели, которые в настоящее время можно загрузить в отрасли
- Chatgpt:
- https://openai.com/blog/chatgpt
- Адрес опыта: https://chat.openai.com/
- GLM-10B/130B
- Введение: двуязычная (китайская и английская) двунаправленная плотная модель
- OPT-2,7B/13B/30B/66B:
- Введение: Meta с открытым исходным кодом
- github: https://github.com/facebookresearch/metaseq
- Бумага: https://arxiv.org/pdf/2205.01068.pdf
- Llama-7b/13b/30b/65b:
- Введение: основная крупная языковая модель мета -открытого исходного кода
- github: https://github.com/facebookresearch/llama
- Бумага: https://arxiv.org/pdf/2302.13971v1.pdf
- Альпака (лама-7b):
- Введение: Стэнфорд предложил мощную модель последующего воспроизводимого обучения.
- github: https://github.com/tatsu-lab/stanford_alpaca
- Китайский-лама-альпака Github: https://github.com/ymcui/chinese-lama-alpaca
- Belle (Bloomz-7b/llama-7b):
- Введение: Этот проект основан на Стэнфордской альпаке и оптимизирован для китайской настройки.
- Chatglm-6b:
- Введение: китайская и английская двуязычная языковая модель языка диалога
- github: https://github.com/thudm/chatglm-6b/
- Bloom-7b/13b/176b:
- Введение: может справиться с 46 языками, включая французский, китайский, вьетнамский, индонезийский, каталонский, 13 индийских языков (таких как хинди) и 20 африканских языков. Среди них модель серии Bloomz хорошо настроена на набор данных XP3. Рекомендуется для английских подсказок (подсказка); Рекомендуется для неанглийских подсказок (подсказка)
- github: https://huggingface.co/bigscience/bloom
- Бумага: https://arxiv.org/pdf/2211.05100.pdf
- Vicuna (7b/13b):
- Введение: Vicuna-13B, созданная исследователями в Калифорнийском университете в Беркли, CMU, Стэнфорде и Калифорнийском университете в Сан-Диего, была получена с помощью тонкой настройки Llama в данных разговора с пользователем, собранными ShareGPT. Среди них GPT-4 использовался для оценки и обнаружил, что производительность Vicuna-13b достигла возможностей, сравнимых с CHATGPT и BARD в более чем 90% случаев; И обучение для Vicuna-13b стоит около 300 долларов. Мало того, это также предоставляет открытую платформу для обучения, обслуживания и оценки чат -ботов на основе больших языковых моделей: FastChat.
- Baize:
- Введение: Bai ZE обучался на ламе. В настоящее время включены четыре английских моделя: Bai ZE-7B, 13B, 30B (модель общего диалога) и вертикальная модель Bai ZE-Medical для исследований/некоммерческого использования, а также планирует выпустить китайскую модель Bai ZE в будущем. Все коды, такие как обработка данных Bai ZE, обучающие модели и демонстрация, были открыты.
- Llmzoo:
- Введение: серия крупных моделей, запущенная Китайским университетом Гонконга и командой Института исследований больших данных Шэньчжэнь, таких как Phoenix и Chimera и т. Д. - Moss: The Moss Bargy Language Model, запущенная командой Fudan NLP.
- Альпака Фастчат
- github: https://github.com/lm-sys/fastchat
- Minigpt-4
- github: https://github.com/vision-cair/minigpt-4
1.2 [LLMS Введение в ряд практических последовательностей]
Tsinghua University Open Source Chinese Version ChatGLM-6B Model Learning and Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical P Обучение модели и практическая битва [Практическая битва LLMS - 8] MINIGPT -4 Модельное обучение и практическая битва
1.3 Проект НЛП
- 【Строительство графа знаний DeepKg】 https://github.com/powercy/deepkg
- Введение: Этот проект привержена конструкции графиков знаний и в настоящее время создает свои методы, и я надеюсь помочь большему количеству людей.
1.4 Рекомендуемый системный проект
- 【Fun-rec】 https://github.com/datawhalechina/fun-rec
- Введение: в основном предназначено для учащихся, которые имеют базовый фонд машинного обучения и хотят найти рекомендованную позицию алгоритма.
- 【Recsys】 https://github.com/qcymkxyc/recsys
1.5 Проект поисковых систем
- [Проект поисковой системы с открытым исходным кодом] https://github.com/zuo369301826/search_project
- Введение проекта: моделируйте поиск Baidu для реализации поисковой системы сайта.
- Функции проекта: Используйте каркасы с открытым исходным кодом, такие как Protobuf, GFLAG и GLOG, предоставленные Google, чтобы завершить разработку; 5. HTTP -сервер вызывает поисковый клиент в CGI, чтобы завершить функцию поиска
- 【Elastic】 https://www.elastic.co/cn/
- ВВЕДЕНИЕ: Elasticsearch-это распределенный двигатель поиска и анализа данных в стиле RESTFUL В основе эластичного стека он центрально хранит ваши данные и помогает вам открыть неожиданные и неожиданные ситуации.
- 【Nutch】 http://nutch.sourceforge.net/docs/zh/about.html
- Введение: Nutch-это веб-поисковая система, которая только что родилась с открытым исходным кодом. Есть подробные китайские инструкции на ее домашней странице.
- 【Lucene】 http://jakarta.apache.org/lucene/docs/index.html
- ВВЕДЕНИЕ: Apache Lucene-это программа с открытым исходным кодом, который может легко добавить полнотекстовые функции поиска в программное обеспечение Java. Основная задача Lucene-индексировать каждое слово файла.
- 【Egothor】 http://www.egothor.org/
- Введение: Egothor - это открытый исходный код и эффективная поисковая система полной текстовой системы, написанная на Java. Благодаря кроссплатформенным функциям Java, Egothor может применяться к приложениям в любой среде, как в качестве отдельной поисковой системы, так и для вашего приложения в качестве полнотекстового поиска.
- 【Oxyus】 http://oxyus.sourceforge.net/
- Введение: Это чистая веб-система, написанная Java.
- 【Bddbot】 http://www.twmacinta.com/bddbot/
- Введение: BDDBOT - это простой и простой для понимания и используйте поисковую систему. В настоящее время он заполняется в URL, указанном в текстовом файле (urls.txt), и сохраняет результаты в базе данных. Он также поддерживает простой веб -сервер, который принимает запросы из браузера и возвращает результаты ответа. Это может быть легко интегрировано в ваш веб -сайт.
1.6 Рассчитайте рекламный проект
- [Практика MEITUAN DSP Adverting Strategy] https://tech.meituan.com/2017/05/05/mt-dsp.html
- [Введение в интернет -рекламу и вычислительную рекламу] http://web.stanford.edu/class/msande239/
2. AI Артефакт
- Chatgpt AI Artifact
- Artifact ai】】 Диалог AI - chatgpt https://999.weny66.cn/chat?bd_vid=11997231054327469370
- 【AI ARTIFACT】 GPT-4 Online Experience Веб-сайт Chatmindai.cn
- Artifact AI AI】 Chatgpt3.5 можно входить в систему, доступно в Китае https://chat23.yqcloud.top/
- Forefront Chatt.forefront.ai
- Poe poe.com/gpt-4
- 3D AI Artifact
- Шедевр студия: https://xiaobot.net/p/superindividual
- Шедевр студия: https://masterpiecestudio.com
- G3dai {jedi}: https://g3d.ai
- Понзу: https://www.ponzu.gg
- Prometheanai: https://www.prometheanai.com
- Leonardo.ai: https://leonardo.ai
- Искусство ИИ Артефакт
- Dream Up (Deviant Art): https://www.dreamup.com
- Nightcafe Studio: https://creator.nightcafe.studio
- Midjourney: https://www.midjourney.com/home/
- Artbreeder: https://www.artbreeder.com
- Wombo: https://www.wombo.art
- Аудио редактирование AI Artifact
- Подкаст: редактирование https://podcastle.ai
- CleanVoice: редактирование аудио https://cleanvoice.ai
- Помощник кода Ай артефакт
- Codesquire https://codesquire.ai
- Помощник кода сборки https://www.buildt.ai
- Эй, GitHub!
- Непрерывное обновление
3. Введение в Xiaobai AI
3.1 Введение в машинное обучение
- [Wu Wanda Machine Learning Courses] https://www.bilibili.com/video/bv1644411b7dx?from=search&seid=18138466354258018449&spm_from=333.337.0.0.0.0
3.2 Начало работы с NLP
- [2021 нг глубокое обучение - модель последовательности NLP] https://www.bilibili.com/video/bv1co4y1279r?from=search&seid=17563746002586971760&spm_from=333.337.0.0.0.0.0.0.0
- 【Введение в график знаний】
- Университет Чжэцзян.
- Университет Чжэцзян.
- График лекции примечания |
- График лекции.
- График лекции примечания |
3.3 Начало работы с вычислительной рекламой
- [Введение в интернет -рекламу и вычислительную рекламу] http://web.stanford.edu/class/msande239/
- Лекция 1: Введение, Дополнительные заметки
- Лекция 2: дизайн рынка, в презентации класса, дополнительные примечания
- Лекция 3: Спонсируемый поиск 1, в презентации в классе
- Лекция 4: Спонсируемый поиск 2, в презентации в классе
- Лекция 5: отображение рекламы 1, в презентации в классе
- Лекция 6: отображение рекламы 2, в презентации в классе
- Лекция 7: Таргетинг, в классе презентации
- Лекция 8: Рекомендованные системы, в презентации класса 1, в презентации класса 2
- Лекция 9: Мобильные, видео и другие появляющиеся форматы, в презентации класса 1, в презентации класса 2
- [Лю Пенг - вычислительная реклама (рекомендуется)] http://study.163.com/course/introduction.htm?courseId=321007
- Введение: Учитель Лю Пэн в настоящее время является главным архитектором коммерческих продуктов в 360 и имеет богатый практический опыт в области интернет -рекламы. Содержание его курса «вычислительная реклама» легко понять, от модели истории рекламы до недавних технологий, которая очень подходит для друзей, которые являются новыми для изучения.
- Основные знания рекламы
- Контрактная рекламная система
- Аудитория таргетинг
- Тординг рекламной системы
- Поиск рекламной и рекламной сети технологии спроса на сеть
- Рынок рекламы
- 【Baidu - вычислительная реклама】 http://openresearch.baidu.com/courses/1231.jhtml
- Обзор вычислительной рекламы
- Принципы рекламы поисковой системы, технологические и инженерные практики
- Принципы, методы и практики сопоставления контента
- [Wang Yongrui - Алгоритмы и системную практику интернет -рекламы] http://yuedu.baidu.com/ebook/3e31c551964bcf84b9d57bc0.html
- Введение: Учитель Ван - это человек, отвечающий за целевой алгоритм рекламы Таобао. Его курс сочетает в себе опыт рекламной практики Taobao, от теории рекламы до систематической технической практики и очень достойна обучения техническими специалистами.
- Введение в интернет -рекламу
- Поиск объявлений
- Целевая реклама
- Рекламные торговли в реальном времени
- Архитектура и проблемы рекламной системы
- 【UCS - Введение в вычислительную рекламу】 http://classes.soe.ucsc.edu/ism293/spring09/index_archivos/page456.html
- Введение и обзор
- Поиск информации (IR) для вычислительных
- Рыночный дизайн
- Методы машинного обучения
- Спонсируемый поиск я
- Спонсируемый поиск II
- Графическая реклама и гарантированная доставка
- Контекстуальная реклама я
- Контекстуальная реклама II
- Поведенческое нацеливание (BT)
4. Продвигайте тезисы поиск и учебные примечания
- 【Примечания к исследованию NLP】
- 【Трансформатор】
- 【Об эффективных трансформаторах: опрос】 Вещи, которые вы не знаете
- 【Сжатие модели BERT】
- 【О самолете + до тренировки = лучшее понимание естественного языка】 Вещи, которые вы не знаете
- 【О Bert to textcnn】 вещи, которые вы не знаете
- 【Названное признание сущности】
- 【Biaffine о признании вложенного сущности】 Вещи, которые вы не знаете
- Papershape от Biaffine
- Инвентаризация PaperShape по признанию организации в последние годы
- 【О постоянном обучении для Ner】 Вещи, которые вы не знаете
- 【Извлечение отношений】
- 【Об извлечении отношений HBT】 Вещи, которые вы не знаете
- С самого начала извлечение отношений
- С самого начала извлечение отношений - атака удаленного надзора
- [Извлечение отношений на уровне документа]
- 【Об atlop】 Вещи, которые вы не знаете
- Сводка бумаги |.
- Сводка бумаги |.
- 【Текстовое совпадение】
- 【О предложении-берте】 Вещи, которые вы не знаете
- Facebook: Принцип FAISS + применение библиотеки поиска для миллионов векторных сходства
- Новое предложение векторное решение Cosent Practical Record
- 【Ссылка на цепочку состояния】
- 【О родах】 о вещах, которые вы не знаете
- 【Исправление текстовой ошибки】
- 【О Gector】 Вещи, которые вы не знаете
- 【Робот Q & A】
- Topicshare обмен сцены и Robot на основе поисковых вопросов и ответов
- 【Система диалога】
- «Сообщество говорит】 Давайте поговорим о RASA 3.0»
- (I) Обзор роботов диалога
- (Ii) Введение в двигатель с открытым исходным кодом RASA
- (Iii) Языковая модель RASA NLU
- (Iv) сегментер слов Rasa nlu
- (V) Генератор функций RASA NLU
- (Vi) Классификатор намерения RASA NLU
- (Vii) экстрактор Entity Rasa NLU
- (9) Компоненты RASA Custom Cipline
- (10) Основная политика RASA
- (11) Основное действие RASA
- (12) Домен Раса
- (13) Данные обучения RASA
- (14) История Раса
- (15) Правила RASA
- (16) Лучшие практики RASA
- (17) Начните китайского робота на основе RASA
- (18) Начните механизм реализации китайского робота на основе RASA
- (19) Система вопросов и ответов, основанная на графике знаний (KBQA)
- (20) Система Q & A, основанная на понимании прочитанного
- Диета: двойное намерение и трансформатор сущности - перевод бумаги RASA
- (21) FAQS в приложении RASA
- (22) Оптимизация гиперпараметрической RASA
- (23) Тестирование и оценка робота
- (24) Создайте помощника по диалогу контекста, используя формы RASA
- 【Kbqa】
- 【О сложных kbqa】 Вещи, которые вы не знаете (часть 1)
- 【О сложных kbqa】 Вещи, которые вы не знаете (китайский)
- 【О сложных kbqa】 Вещи, которые вы не знаете (часть 2)
- 【Извлечение событий】
- 【О Mlbinet】 Вещи, которые вы не знаете
- 【Приглашение настройки】
- Быстрое настройка введения
- 【Новое открытие слова】
- Создайте свой собственный PTM! Новая добыча слов + предварительная тренировка
- 【Текст на SQL】
- Текст в SQL? Вот базовый анализ
- 【Рекомендованные системы исследования примечания】
- Рекомендуемая система эволюции технологии системы: отзыв
- Рекомендуемая система эволюции технологии системы: сортировка
- Рекомендуемая система эволюции технологии системы: перестройка
- Как система рекомендаций находит похожих пользователей?
- Длинная статья с десятью тысячами слов подробно описывает логику и эволюцию системы рекомендаций диалога
- Сводка соответствующих технологий адаптации модели в рекомендуемой системе
- 【Примечания к исследованию GCN】
- 【О GCN в NLP】 Вещи, которые вы не знаете
- [Рассчитайте рекламные документы и список данных Github Repo]
- Три основные перспективы, поговорите о рекламной системе в моих глазах
- [Рекомендуемые системы системы и список данных Github Repo]
- 【Поисковая система】
- 【О PLM для поиска веб-масштаба в Baidu Search】 Вещи, которые вы не знаете
- EMNLP 2021 |.
5. Продвигайте поисковую статью
- 【NLP универсальный и универсальный】
- 【Машинное обучение】
- 【О регуляризации】 Вещи, которые вы не знаете
- 【Об алгоритме оптимизации】 Вещи, которые вы не знаете
- 【О Batchnorm против Layerorm】 Вещи, которые вы не знаете
- 【О нормализации】 Вещи, которые вы не знаете
- 【О переоснащении и недооценке】 Вещи, которые вы не знаете
- 【Глубокое обучение】
- 【О CNN】 Вещи, которые вы не знаете
- 【О внимании】 Вещи, которые вы не знаете
- 【О трансформаторе】 Вещи, которые вы не знаете (часть 1)
- 【О трансформаторе】 Вещи, которые вы не знаете (китайский)
- 【О трансформаторе】 Вещи, которые вы не знаете (часть 2)
- 【Задачи NLP】
- 【Предварительная модель】
- 【О TF-IDF】 Вещи, которые вы не знаете
- 【О Word2Vec】 Вещи, которые вы не знаете
- 【О FastText】 Вещи, которые вы не знаете
- 【О Elmo】 Вещи, которые вы не знаете
- 【О Берте】 Вещи, которые вы не знаете (часть 1)
- 【О Берт】 Вещи, которые вы не знаете (часть 2)
- 【Об анализе исходного кода BERT I Основное тело】 вещи, которые вы не знаете
- 【Об анализе исходного кода BERT II Глава предварительного обучения】 Вещи, которые вы не знаете
- 【Об анализе исходного кода BERT III Глава тонкой настройки】 Вещи, которые вы не знаете
- [О анализе исходного кода BERT IV.
- 【О большей, более утонченной последовательности】 вещи, которые вы не знаете (я)
- 【О большей, более утонченной последовательности】 вещи, которые вы не знаете (ii)
- 【О большей, более утонченной последовательности】 Вещи, которые вы не знаете (iii)
- 【Новое открытие слова】
- 【О новом открытии слова】 Вещи, которые вы не знаете
- 【Извлечение ключевых слов】
- 【Об извлечении ключевых слов】 Вещи, которые вы не знаете
- 【О Киберте】 Вещи, которые вы не знаете
- 【Рекомендуемая система со всеми сторонами】
- продолжение следует
6. Структура
6.1 Pytorch Learning
- 【Pytorch английская версия Официальное руководство】 https://pytorch.org/tutorials/
- Введение: Pytorch English Version Официальное руководство: https://pytorch.org/tutorials/. Для студентов с хорошим английским языком этот официальный документ Pytorch настоятельно рекомендуется, что займет вам шаг за шагом от начала работы. В этом документе подробно описываются основы для создания глубоких нейронных сетей с использованием Pytorch, а также синтаксиса Pytorch и некоторых высококачественных случаев.
- [Pytorch Китайский официальный документ] https://pytorch-cn.readthedocs.io/zh/latest/
- ВВЕДЕНИЕ: Китайский официальный документ Pytorch: https://pytorch-cn.readthedocs.io/zh/latest/. Не имеет значения, если у вас есть трудности с чтением вышеупомянутых английских документов.
- [Учебное пособие по коду Pytorch для практических алгоритмов] https://github.com/yunjey/pytorch-tutorial
- Введение: Это учебник по коду Pytorch, который более практичен для алгоритмов. Рекомендуется выучить два вышеуказанные учебные пособия Pytorch, прежде чем читать этот документ.
- 【Pytorch с открытым исходным кодом
- Введение: Введение в книгу с открытым исходным кодом: https://github.com/zergtant/pytorch-handbook. Это книга с открытым исходным кодом с целью помочь тем, кто хочет и использовать Pytorch для быстрого развития и исследований в области глубокого обучения. Тем не менее, этот документ не очень полный и все еще обновляется.
- ["Ручное глубокое обучение" pytorch] http://tangshusen.me/dive-into-dl-pytorch/#//
- 【Практическое руководство по обучению модели Pytorch】 https://github.com/km1994/pytorch_tutorior
- 【Pytorch Advanced NLP Практическая практика】 https://github.com/km1994/nlp_pytorch_project
- 【Ark-nlp NLP Library】 https://github.com/xiangking/ark-nlp
- Введение: Арсенал с открытым исходным кодом Ван Сян в основном используется для сбора и воспроизведения обычно используемых моделей НЛП в ученых и работе.
6.2 Tensorflow Learning
- 【Официальный сайт TensorFlow】 https://www.tensorflow.org/tutorials
- Введение: Официальный учебник по веб -сайту, безусловно, самый ароматный учебный материал
- 【Примеры TensorFlow】 https://github.com/aymericdamien/tensorflow-examples
- Введение: учебные пособия Tensorflow и примеры кода для начинающих: https://github.com/aymericdamien/tensorflow-examples. Этот учебник не только предоставляет несколько классических наборов данных, но и начинается с простейшего «Hello World», классических алгоритмов для машинного обучения, а также к обычно используемым моделям для нейронных сетей.
- 【Tensorflow Tuperials】 https://github.com/pkmital/tensorflow_tutorials
- Введение: От оснований TensorFlow до интересных проектных приложений: https://github.com/pkmital/tensorflow_tutorials. Это также учебник для новичков, от установки до проектной практики, чтобы научить вас создавать собственную нейронную сеть.
- 【Tensorflow Tuperials с использованием Notebook Jupyter】 https://github.com/sjchoi86/tensorflow-101
- ВВЕДЕНИЕ: Учебное пособие по Tensorflow, написанное на Python с использованием записной книжки Jupyter: https://github.com/sjchoi86/tensorflow-101. Этот учебник представляет собой учебник из Tensorflow, основанный на ноутбуке Jupyter.
- 【Tensorflow_exercises】 https://github.com/terryum/tensorflow_exercises
- Введение: Tensorflow Code Упражнение: https://github.com/terryum/tensorflow_exercises. Руководство по упражнению с кодом TensorFlow от простого в трудное. Очень подходит для друзей, которые изучают Tensorflow.
- 【Применение Берта и Альберта в нижестоящих задачах】 https://github.com/km1994/bert-for-task
- Введение: реализация BERT в задачах NLP
6.3 Keras Learning
- 【Bert4keras】 https://github.com/bojone/bert4keras
- Введение: Арсенал с открытым исходным кодом Sushen, переосмысленная версия библиотеки Transformer Model Combrity, привержена комбинированию трансформатора и керас с возможным освежающим кодом.
6.4 Обучение распределенной учебной рамки обучения
- Первая категория: распределенные тренировочные функции, которые поставляются с рамками глубокого обучения. Такие как: tensorflow, pytorch, mindspore, oneflow, paddlepaddle и т. Д.
- Вторая категория: масштабирование и оптимизация на основе существующих рамок глубокого обучения (например, Pytorch, лен) для проведения распределенного обучения. Такие как: megatron-LM (тензора параллель), Deepspeed (Zero-DP), Colossal-AI (высокомерная модель параллелизма, такая как 2D, 2,5D, 3D), ALPA (автоматический параллелизм) и т. Д.
7. Конкурс
5.1 Внутренняя конкуренция
- [конкурс разработчиков iflytek] http://challenge.xfyun.cn/
- 【Али Тяньчи】 https://tianchi.aliyun.com/
- 【Biendata】 https://www.biendata.xyz/
- 【DataFountain】 https://www.datafountain.cn/
- 【Baidu Paddle Haddle】 https://aistudio.baidu.com/
5.2 Официальный счет конкуренции
- 【Mapo tofu ai】
- Введение: представит некоторые недавние события, в которых вы можете принять участие
5.3 Арсенал конкурса NLP
- [Библиотека инструментов NLP Arsenal] https://github.com/tingfree/nlper-arsenal
- Введение: NLP Arsenal, который в основном включает в себя реализацию стратегии конкуренции NLP, различные учебные пособия по заданиям, посты опыта, учебные материалы и время встречи.
- 【CHIP2021-TASK3-OPEN SORGAIN для стандартизированных задач в клинических терминах】
- исходный код GitHub
- Сайт оценки: http://cips-chip.org.cn/2021/eval3
- Весь код основан на нашей реализации ARK-NLP с открытым исходным кодом. Не существует списка для задачи стандартизации клинических терминов CHIP2021, поэтому отладка кода выполняется на задаче стандартизации клинических терминов CBLUE, набора данных о обработке медицинской информации Китая Tianchi.
- Адрес ARK-NLP: https://github.com/xiangking/ark-nlp
- Китайская медицинская обработка набора данных CBLU
- [CHIP2021 Медицинский диалог Клиническое открытие Инь-ян Дискриминационная задача Чемпион Открытый костюм] План с открытым исходным кодом]
- исходный код GitHub
- Название: CBLU
- Задача оценки: CBLUE 1.0 состоит из набора данных предыдущих соревнований по академической оценке конференции CHIP и медицинского поискового бизнеса Ali Quark, включая извлечение информации о медицинской текстовой информации (распознавание организации, извлечение отношений), нормализацию медицинских терминов, классификация медицинского текста, суждение о отношениях медицинского предложения и общее количество медицинских качества составляет 8 подзадачи.
- Типы задач: классификация текста, сходство текста, признание именования сущности, извлечение отношений и стандартизация терминологии (можно рассматривать как задачи связывания сущности без контекста)
- Ссылка на оценку: https://tianchi.aliyun.com/dataset/datadetail?dataid=95414
- 【CBLUE-ALI TIANCHI МЕДИЦИНСКИЙ МЕДИЦИНСКИЙ МЕДИЦИНСКИЙ РАБОТЫ НЛП.
- [Конкуренция с большими данными Shandong-базовая линия интеллектуальной классификации в области событий] https://github.com/xiangking/shandongdatacompetition2021-grid-events-classiation-baseline
- Задача оценки: на основе данных о событиях сетки, извлечения и анализа содержания событий в сетке, разделите категории событий и разделите типы государственных дел, к которым принадлежит событие.
- Тип задачи: текстовая классификация
- Ссылка на оценку: http://data.sd.gov.cn/cmpt/cmptdetail.html?id=67
8. Корпус
8.1 Материал NLP
- 【Nlp_chinese_corpus】 https://github.com/brightmart/nlp_chinese_corpus
- Введение: крупномасштабное китайское корпус для NLP
8.2 Рекомендованная система кавычка
- 【Movielens】 https://grouplens.org/datasets/movielens/
- Введение: Набор данных Movielens был организован исследовательской группой Grouplens в Университете Миннесоты (не связанный с нами набором данных). Movielens - это коллекция рейтингов фильмов, доступная в разных размерах. Наборы данных названы 1 м, 10 м и 20 м, потому что они содержат 1, 10 и 200 000 рейтингов. Самый большой набор данных использует данные примерно от 140 000 пользователей и охватывает 27 000 фильмов. В дополнение к рейтингам, данные Movielens также содержат информацию о жанре, аналогичную «Western» и теги для пользовательских приложений, таких как «Over Top» и «Arnold Schwarzenegger». Эти жанровые теги и этикетки полезны для построения векторов контента. Векторы контента кодируют информацию о элементе, такой как цвет, форма, жанр или любой другой атрибут, который может быть любой формой алгоритма рекомендаций для на основе контента.
- 【Книжные переселения】
- Введение: Book Crossings-это набор данных о рейтингах книг, написанный Cai-nicolas Ziegler на основе данных с http://bookcrossing.com. Он содержит 1,1 миллиона рейтингов для 270 000 книг от 90 000 пользователей. Оценка колеблется от 1 до 10, а также включает в себя неявные оценки.
- 【Last.fm】 http://www2.informatik.uni-freiburg.de/~cziegler/bx/
- Введение: Last.fm предоставляет набор данных для музыкальных рекомендаций. Для каждого пользователя в наборе данных включите список их самых популярных артистов и количество пьес. Он также включает в себя пользовательские теги приложения, которые можно использовать для создания векторов контента.
- Agency Агентство знакомств】 (http://www2.informatik.uni-freiburg.de/~cziegler/bx/)
- Введение: Этот набор данных содержит 17 359 346 анонимных рейтингов для 168 791 файлов конфигурации на 135 359 пользователей LibimSeti, экспортированных 4 апреля 2006 года.
- Другие: https://zhuanlan.zhihu.com/p/258566760
8.3 Инструменты маркировки
- Вы все еще беспокоитесь о том, чтобы не найти аннотатора отношений организации?
- https://labelstud.io/
- Доккано
9. Официальная глава аккаунта
- Вещи, которые вы не знаете о НЛП
- Введение: вещи, которые вы не знаете о NLP
- Скромная комната CS
- ВВЕДЕНИЕ: Пост об обмене опытом босса Char Siu.
- DataRk
- Введение: Dataark ориентирован на данные и ориентирован на обмен с открытым исходным кодом, и он привержен интеллектуальному анализу данных, инновациям алгоритма и разработке практических инструментов.
- Интеллектуальная система рекомендаций
- ВВЕДЕНИЕ: Сосредоточение внимания на интеллектуальных системах рекомендаций, вот последние и наиболее комплексные алгоритмы, связанные с персонализированными рекомендациями и промышленные приложения.
- DataFuntalk
- Введение: Сосредоточение внимания на обмене и передаче приложений больших данных и технологий искусственного интеллекта. Привержен достижению миллионов ученых данных.定期组织技术分享直播,并整理大数据、推荐/搜索算法、广告算法、NLP自然语言处理算法、智能风控、自动驾驶、机器学习/深度学习等技术应用文章。
- RUC Al Box
- 介绍:本公众号主要关注使用人工智能技术来解决自然语言处理与社交媒体数据挖掘的研究内容。分享Al前沿,解读热点论文。
- NewBeeNLP
- 开放知识图谱
- WeData365
- 介绍:学习【搜索引擎】 的小伙伴一定要关注,因为有很多【搜索引擎】 干货分享
- 科学空间
- 介绍:苏神的公众号,每周四苏神都会开源他的研究笔记。
- 老刘说NLP
- 介绍:360人工智能研究院大佬刘焕勇刘大佬的公众号,定期发布语言资源、工程实践、技术总结等内容。
- 数据拾光者
- 介绍:学习【广告】 的小伙伴一定要关注,因为有很多【广告】 干货分享
- 泛函的范
- 计算广告那些事
- 介绍:学习【广告】 的小伙伴一定要关注,因为有很多【广告】 干货分享
- 药老算法
- 介绍:学习【搜索引擎】 的小伙伴一定要关注,因为有很多【搜索引擎】 干货分享
- 机器学习算法与自然语言处理
- 介绍:一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
- 王喆的机器学习笔记
- AINLP
- 介绍:关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试自动对联、作诗机、藏头诗生成器,调戏夸夸机器人、彩虹屁生成器,使用中英翻译,查询相似词,测试NLP相关工具包。
- 李rumor
- 夕小瑶的卖萌屋
- 介绍:自然语言处理、计算机视觉、信息检索、推荐系统、机器学习
十、学习笔记
- 科学空间:
- 地址:https://spaces.ac.cn/
- 介绍:苏神经验学习笔记分享
- 魔法学院的Chilia
- 地址:https://www.zhihu.com/people/wang-zi-han-81-18/posts
- 方向:推荐系统| 广告| 搜索| NLP
- 水哥
- 地址:https://www.zhihu.com/people/shui-ge-99
- 方向:推荐系统
- JayJay
- 地址:https://www.zhihu.com/people/lou-jie-9
- 我想了很多事
- 地址:https://www.zhihu.com/people/yuan-chao-yi-83
十一、部署笔记
- Bert与TensorRT部署手册,享受丝滑的顺畅
обратиться к
- 关于大模型实践的一些总结