torchMoji Скачать - скачать исходный код torchMoji

torchMoji

Питон

1.0.0

Скачать

------ Обновление сентября 2018 года ------

Прошел год с тех пор, как были выпущены Торчмоджи и Дипмоджи. Мы пытаемся понять, как это используется так, чтобы в будущем мы могли сделать улучшения и разработать лучшие модели.

Вы можете помочь нам достичь этого, ответив на эту форму Google с 4 вопросами. Спасибо за вашу поддержку!

? Торчмоджи

Прочитайте наш пост в блоге о процессе реализации здесь.

Torchmoji - это реализация Pytorch модели Deepmoji, разработанной Бьярком Фелбо, Алан -в Мирлоу, Андерс Сёгаард, Ияд Рахван и Сун Леманн.

Эта модель обучалась на 1,2 миллиарда твитов с эмодзи, чтобы понять, как язык используется для выражения эмоций. Благодаря обучению трансферу модель может получить современные результаты по многим задачам моделирования текста, связанными с эмоциями.

Попробуйте онлайн -демонстрацию DeepMoji по этому поводу? Космос! Смотрите газету, сообщение в блоге или FAQ для получения более подробной информации.

Обзор

Torchmoji/ содержит весь базовый код, необходимый для преобразования набора данных в словарный запас и использование модели.
Примеры/ содержит короткие фрагменты кода, показывающие, как преобразовать набор данных в словарный запас, загрузить модель и запустить его в этом наборе данных.
Сценарии/ содержит код для обработки и анализа наборов данных, чтобы воспроизвести результаты в статье.
модель/ содержит предварительную модель и словарный запас.
Данные/ содержат необработанные и обработанные наборы данных, которые мы включаем в этот репозиторий для тестирования.
Тесты/ содержит модульные тесты для кодовой базы.

Для начала загляните в примеры/ каталог. См. SCOST_TEXTS_EMOJIS.PY для использования DeepMoji для извлечения прогнозов Emoji, Encode_texts.py для преобразования текста в 2304-мерные векторы эмоциональных признаков или finetune_youtube_last.py для использования модели для обучения передачи на новом данных.

Пожалуйста, рассмотрите возможность ссылаться на статью DeepMoji, если вы используете модель или код (см. Ниже для цитирования).

Установка

Мы предполагаем, что вы используете Python 2.7-3.5 с установленным PIP.

Сначала вам нужно установить Pytorch (версия 0,2+), в настоящее время по:

conda install pytorch -c pytorch

На настоящем этапе модель не может эффективно использовать CUDA. Смотрите подробности в сообщении в блоге объятия.

При установке Pytorch запустите следующее в корневом каталоге для установки оставшихся зависимостей:

pip install -e .

Это установит следующие зависимости:

Scikit-learn
Текст-Unidecode
эмодзи

Затем запустите скрипт загрузки, чтобы загрузить веса о предварительному туршкому (~ 85 МБ) отсюда и поместите их в модель/ каталог:

python scripts/download_weights.py

Тестирование

Чтобы запустить тесты, установите нос. После установки перейдите к тестам/ каталогу и запустите:

 cd tests
nosetests -v

По умолчанию это также будет проходить тесты на создание. Эти тесты обучают модель для одной эпохи, а затем проверяют полученную точность, которая может занять несколько минут. Если вы предпочитаете исключить их, вместо этого запустите следующее:

 cd tests
nosetests -v -a ' !slow '

Отказ от ответственности

Этот код был протестирован для работы с Python 2.7 и 3.5 на машинах Ubuntu 16.04 и Macos Sierra. Он не был оптимизирован для эффективности, но должен быть достаточно быстрым для большинства целей. Мы не даем никаких гарантий, что нет ошибок - используйте код для вашей собственной ответственности!

Вклад

Мы приветствуем запросы на привлечение, если вы чувствуете, что что -то может быть улучшено. Вы также можете очень помочь нам, рассказав нам, как вы себя чувствовали, когда пишете свои последние твиты. Просто нажмите здесь, чтобы внести свой вклад.

Лицензия

Этот код и предварительно проведенная модель лицензированы по лицензии MIT.

Контрольные наборы данных

Контрольные наборы данных загружаются в этот репозиторий только в целях удобства. Они не были освобождены нами, и мы не требуем никаких прав на них. Используйте наборы данных для вашей ответственности и убедитесь, что вы выполняете лицензии, с которыми они были выпущены. Если вы используете какой -либо из наборов данных контрольных данных, пожалуйста, рассмотрите возможность ссылаться на оригинальных авторов.

Цитирование

 @inproceedings{felbo2017,
  title={Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm},
  author={Felbo, Bjarke and Mislove, Alan and S{o}gaard, Anders and Rahwan, Iyad and Lehmann, Sune},
  booktitle={Conference on Empirical Methods in Natural Language Processing (EMNLP)},
  year={2017}
}

Расширять

Дополнительная информация