
Этот документ направлен на то, чтобы отслеживать прогресс в вьетнамской обработке естественного языка и дать обзор современных (SOTA) в самых распространенных задачах NLP и соответствующих наборах данных.
Он направлен на охват как традиционные, так и основные задачи NLP, такие как диапазон зависимости и тегинга, а также более поздние, такие как понимание прочитанного и вывод естественного языка. Основная цель состоит в том, чтобы предоставить читателю быстрый обзор benchmark datasets и state-of-the-art для их интересующей задачи, которая служит ступенькой для дальнейших исследований. С этой целью, если есть место, где результаты для задачи уже опубликованы и регулярно поддерживаются, например, public leaderboard , читатель будет указан там.
Граница предложения устранение неоднозначности / обнаружение языка / нормализация текста / коррекция орфографии
Сегментация слова / тегинги / чанькинга / диаграмма
Текстовая классификация / анализ настроений / Вставки слов
Названное распознавание сущности / извлечение отношений / извлечение событий / извлечение информации / извлечение ключевых слов
Разрешение ядра / наполнение слотов / связывание сущности
Семантика / семантическая маркировка ролей / идентификация перефразирования / вывод естественного языка
Машинный перевод / автоматическое суммирование
Представление знаний и рассуждения
Диалоговые системы и чат -боты / генерация языка / ответ на вопрос
Автоматическое распознавание речи / текст в классификацию / речи речи / речь
Оптическое распознавание текста / подписание изображения
РесурсыЕсли вы хотите добавить новый результат, вы можете сделать это с помощью запроса на вытягивание (PR). Чтобы минимизировать шум и сделать техническое обслуживание несколько управляемым, результаты, представленные в опубликованных документах, будут предпочтительнее (укажите место публикации в вашем PR); Исключение может быть сделано для влиятельных препринтов. Результат должен включать название метода, цитирование, счет и ссылку на бумагу и должна быть добавлена так, чтобы таблица была отсортирована (с наилучшим результатом сверху).
Если ваш запрос на притяжение содержит новый результат, пожалуйста, убедитесь, что «новый результат» появляется где -то в заголовке PR. Таким образом, мы можем отслеживать, какие задачи являются наиболее активными и привлечь наибольшее внимание.
Чтобы упростить воспроизведение, мы рекомендуем добавить ссылку на реализацию в каждом методе, если доступно. Вы можете добавить столбец Code (см. Ниже) в таблицу, если его не существует. В столбце Code укажите официальную реализацию с официальным. Если доступна неофициальная реализация, используйте ссылку (см. Ниже). Если реализация не доступна, вы можете оставить ячейку пустой.
| Модель | Счет | Бумага/источник | Код |
|---|---|---|---|
| Официальный | |||
| Связь |
Чтобы добавить новый набор данных или задачу, выполните следующие шаги. Любые новые наборы данных должны были использоваться для оценки, по крайней мере, в одной опубликованной статье, помимо того, которая ввела набор данных.
| Модель | Счет | Бумага/источник | Код |
|---|---|---|---|