Описание проекта
Реализация общих задач в поле NLP включает в себя новое обнаружение слов, а также векторы слов, основанные на Pytorch, китайской классификации текста, распознавание объектов, генерацию текста, суждение сходства предложений, тройное извлечение, предварительно обученные модели и т. Д.
полагаться
python 3.7
pytorch 1.8.0
torchtext 0.9.1
optuna 2.6.0
transformers 3.0.2
Оглавление
0. Алгоритм обнаружения новых слов
- 0-1. Новые слова открытие
1. Вектор слов
- 1-1. Word2VEC (Skip-Gram)
- 1-2. Перчатка
2. Текстовая классификация (Optuna используется для настройки параметров внутри внутренней)
- 2-1. TextCnn
- 2-2. Фасттекст
- 2-3. Textrcnn
- 2-4. Textrnn_att
- 2-5. Dpcnn
- 2-6. XGBOOST
- 2-7. Distill_ & Fine Tune Bert
- 2-8. Обработка с шаблонами используйте MLM для классификации текста
- 2-9. R-капли
Набор данных (папка данных): набор данных двоичного общественного мнения, разделенный следующим образом:
| Набор данных | Объем данных |
|---|
| Учебный набор | 56700 |
| Проверка набора | 7000 |
| Тестовый набор | 6300 |
3. Идентификация сущности NER
- 3-1. Bert-MRC
- 3-2. БЕРТ-КРФ
- 3-3. Берт-Лейбл-Семантика
- 3-4. Bert-Mlm
4. Текстовое резюме генерации
1). Формула поколения
- 4-1. SEQ2SEQ модель
- 4-2. Модель SEQ2SEQ + механизм внимания
- 4-3. Трансформатор модель
- 4-4. GPT Сводное поколение
- 4-5. Bert-seq2seq
2). Извлечение
- 4-6. БЕРТ-ЭКСТРУКЦИОННЫЙ СМИМАРИЗЕР
5. Дискриминация сходства приговора
6. Классификация с несколькими маршрутами
- 6-1. Многолетняя классиция
7. Тройная добыча
- 7-1. Отношение-экспрессия
8. Предварительно обученная модель (Electra + simcse)
- 8-1. Предварительно языковая модель
9. Совет, чтобы учиться
10. PaperWithCode
Эта папка записывает некоторые документы и соответствующий код модели:
- 10.1. Co-Interactive-Transformer
- 10.2. Lattice_lstm
11. QA
Эта папка записывает простую резюме некоторых знаний о машинном обучении/глубоком обучении.