NLP сделал легко
Простые кодовые заметки для объяснения строительных блоков NLP
- Методы сегментации подчиков
- Давайте сравним различные токенизаторы, то есть NLTK, BPE, предложение и токенизатор Bert.
- Декодирование луча
- Декодирование луча необходимо для задач SEQ2SEQ. Но общеизвестно сложно реализовать. Вот относительно простой, кандидаты в перекладивание.
- Как правильно получить последний скрытый вектор RNN
- Посмотрим, как получить последние скрытые состояния RNN в Tensorflow и Pytorch.
- Tensorflow Seq2seq Шаблон на основе задачи G2P
- Мы напишем простой шаблон для SEQ2SEQ с помощью TensorFlow. Для демонстрации мы атакуем задачу G2P. G2P является задачей преобразования графем (орфографии) в фонемы (произношение). Это очень хороший источник для этой цели, так как он достаточно прост для вас, чтобы подняться и бежать.
- Шаблон Pytorch SEQ2SEQ на основе задачи G2P
- Мы напишем простой шаблон для SEQ2SEQ с помощью Pytorch. Для демонстрации мы атакуем задачу G2P. G2P является задачей преобразования графем (орфографии) в фонемы (произношение). Это очень хороший источник для этой цели, так как он достаточно прост для вас, чтобы подняться и бежать.
- [Механизм внимания] (работа в процессе)
- Пособия с Bert Fine-Muning
- Известно, что Берт хорош в задачах с меткой последовательности, такими как распознавание именованных объектов. Давайте посмотрим, правда ли это для зажигания.
- Выбросить через минуту
- Dropout, пожалуй, самая популярная техника регуляризации в глубоком обучении. Давайте еще раз проверим, как это работает.
- NGRAM LM против RNNLM (WIP)
- Увеличение данных для пар вопросов Quora
- Давайте посмотрим, эффективно ли расширить данные обучения в задаче паров вопросов Quora.