translate hokkien скачать - translate hokkien Source Code Скачать

translate hokkien

AI Исходный код

1.0.0

Скачать

Перевести Хоккиен

Цель этого проекта - создать качественные переводы ML Hokkien.
Этот проект содержит инструменты, которые помогают перевести и оценить английский, Хоккиен (сценарий POJ), Хоккиен (сценарий Тай-Ло) и Хоккиен (漢字 Script).
Этот проект фокусируется на переводах текста в текст.
(Хоккиен также известен как Миннан, Тайваньский, Хокла, Южный Мин и ISO 639-3: НАН.)

Демо

Попробуйте онлайн -демонстрацию последней модели перевода Хоккиена

Обновления

2023-11-07

Добавлены модели, переводы и оценки Хоккиена (латинский скрипт ) -> Хоккиен (漢字 Скрипт) *
- - Hokkien (латинский скрипт) = смесь ручных и автоматизированных переводов/трансляции. Автоматизированные представляют собой смесь южных + северных диалектов Хоккиена, а также смесь сценариев Тай-Ло и POJ.
- Результаты: тонкий настроенный GPT3,5 достиг 30% Bleu (в 5 раз больше, чем GPT4-Shot, который получил 6%).
- Результаты: эта модель была бы полезна для обработки Hokkien Wikipedia, поскольку она является крупнейшим источником легкодоступных текстов Hokkien.

2023-10-31

Управление данными; Переносили основные преобразования MOEDICT в трубопровод DBT. Докладывали данные MOEDICT и для MART_SAMEMER USECASES.

2023-10-26

Добавлены переводы и оценки: GPT -3.5 тонко настроенные на 12 000 примеров (почти все образцы MOEDICT), для мандарина -> Хоккиен (漢字 Script).
Результат: бал Bleu 21
Выводы:
- Manetuned Model GPT3.5 определенно работает лучше, чем модель с нулевым выстрелом GPT4, когда есть 1000+ PAIRSE.
- Созданная модель GPT3,5 с ~ 10000 парами предложений выполняет ~ ↑ 55% лучше, чем gpt4, и ~ ↑ 282% лучше, чем gpt3,5.

2023-10-24

Добавлен набор данных MOEDICT. Это вместе с колонкой «английский» (перевод с мандарина через GPT4).
Рассчитанные оценки BLEU с новыми данными.
️ Обнаруженные предыдущие расчеты баллов были отключены. Обновление с исправленными результатами Bleu!
(Структуры данных: рефактован, поэтому с ними легче иметь дело.)
Выводы:
- Английский -> Хоккиен (сценарий POJ) - Начальные модели Naive имеют очень низкие оценки BLEU (1%)
- Mandarin -> Hokkien (漢字 Script) - имеет гораздо более высокий Bleu (от 7% до 17%). Это примерно половина того, что можно было бы ожидать от сносного балла Bleu (30%).
  - GPT-3,5 Zero Shot: Bleu 7%
  - GPT-3,5 тонко настроенные на 100 примеров: 10%
  - GPT-4 Zero Shot: Bleu 13%
  - GPT-3,5 тонко настроились на 1000 примеров: 16%
    - (Да, тонкая модель GPT3.5 Surpases GPT-4 Zero Shot)
Гипотезы:
- Для ZH-> NAN (TC): Учитывая изменение величины с точкой между финалением (0-> 100-> 1000 примеров = 7%-> 10%-> 16%Bleu), предвидится, что если большая часть набора набора данных MEEDICT используется (~ 13 201 пары предложений), то есть шанс, что оценка BLEU может достичь прохожного уровня (30%).

2023-10-19

Управление: Продолжение замены больше моделей данных, на модели DBT.

2023-10-12

Управление: отформатировал нисходящую таблицу 'ML_TESTSET_EVALUATIONS_AVERAVER' 'в качестве модели DBT, как часть трубопровода.

2023-10-11

Управление: переформатировал данные как SQLITE3 и инициализировал из них проект DBT.

2023-10-10

Справочные тексты
- Собрал некоторый справочный текст из Википедии (лицензия GFDL) и Omniglot (некоммерческая лицензия)
- Очищенные эталонные тексты
- Сгенерировал некоторые эталонные переводы английского языка от Миннана Википедии (POJ). Сгенерировано путем взятия «среднего текста» из переводов GPT4. Это не обязательно точно, но служит основой.
Тексты кандидатов
- Сгенерировал некоторые переводы en → NAN (через GPT4 и GPT3.5)
Оценки
- Сгенерировал несколько оценок на основе Bleu
Выводы и следующие шаги
- Результаты: оценки BLEU для этих оценок довольно плохие, причем только баллы Unigram показывают какие-либо ненулевые результаты. Вещи, чтобы попытаться улучшить это:
  - Более мягкий токенизатор POJ, который токенизирует слогом, а не словом. Это потому, что серия слов не всегда согласованна.
  - Более снисходительный токенизатор POJ, который игнорирует диакритику. Это связано с тем, что нынешние источники POJ могут быть непоследовательными.
  - Используя Hanzi в качестве базового сценария перед любыми преобразованием POJ, для ранних моделей перевода.
  - Использование мандаринского китайца в качестве посредника.
  - Рассмотрим использование Tâi-Lô (в качестве конвертера Hanzi → Tâi-Lô в настоящее время, но не Hanzi → Poj One). И как tâi-lô влияет на некоторые исходные данные.
  - Обратитесь к романизированным словам, как «Ханзи», как «hàn-jī / hàn-lī» в любых подсказках LLM. Использование сценариев Хоккиена может слегка сметить LLM в сторону более точного словаря Хоккиена, грамматики и написания сценариев.
- Трубопровод: все они были созданы в электронных таблицах. В будущем они должны быть лучше автоматизированы как часть конвейера данных.