DeepMoji 다운로드 DeepMoji 소스 코드 다운로드

DeepMoji

기타 소스코드

1.0.0

다운로드

------ 2023 년 9 월 업데이트 ------

온라인 데모는 더 이상 인증서를 갱신 할 수 없으므로 더 이상 사용할 수 없습니다. 이 repo의 코드는 여전히 작동하지만 Python 3에서 작동하도록 약간 변경해야 할 수도 있습니다 (Open PRS 참조). Huggingface로 Torchmoji라는이 알고리즘의 Pytorch 버전을 확인할 수도 있습니다.

Deepmoji

(비디오 데모를 위해 이미지를 클릭하십시오)

Deepmoji는 언어가 감정을 표현하는 데 어떻게 사용되는지 이해하기 위해 이모티콘과 12 억 개의 트윗을 훈련 한 모델입니다. 전송 학습을 통해 모델은 많은 감정 관련 텍스트 모델링 작업에서 최첨단 성능을 얻을 수 있습니다.

자세한 내용은 논문 또는 블로그 게시물을 참조하십시오.

개요

DeepMoji/에는 데이터 세트를 어휘로 변환하고 모델을 사용하는 데 필요한 모든 기본 코드가 포함되어 있습니다.
예/에는 데이터 세트를 어휘로 변환하는 방법을 보여주는 짧은 코드 스 니펫이 포함되어 있습니다. 모델을로드하여 해당 데이터 세트에서 실행하십시오.
스크립트/에는 종이에서 결과를 재현하기 위해 데이터 세트 처리 및 분석을위한 코드가 포함되어 있습니다.
모델/는 사전에 사전 모델과 어휘를 포함합니다.
데이터/에는 테스트를 위해이 저장소에 포함 된 원시 및 처리 된 데이터 세트가 포함되어 있습니다.
테스트/ 코드베이스에 대한 단위 테스트가 포함됩니다.

시작하려면 예/ 디렉토리를 살펴보십시오. DeepMoji를 사용하여 이모티콘 예측을 추출하는 방법에 대한 점

모델이나 코드를 사용하는 경우 (인용은 아래 참조) 당사 논문을 인용하십시오.

프레임 워크

이 코드는 Keras를 기반으로하며 Theano 또는 Tensorflow가 백엔드로 필요합니다. Pytorch를 사용하려면 Thomas Wolf가 제공 한 구현이 있습니다.

설치

PIP 설치와 함께 Python 2.7을 사용하고 있다고 가정합니다. 백엔드로서 Theano (버전 0.9+) 또는 Tensorflow (버전 1.3+)를 설치해야합니다. 완료되면 나머지 종속성을 설치하려면 루트 디렉토리 내부에서 다음을 실행해야합니다.

pip install -e .

다음의 종속성을 설치합니다.

Keras (도서관은 버전 2.0.5에서 테스트되었지만 2.0.0 이상의 것이 작동해야합니다)
Scikit-Learn
h5py
텍스트-미니 코드
이모티콘

Keras가 선택한 백엔드를 사용하는지 확인하십시오. 한 백엔드에서 다른 섹션으로 전환하는 아래에서 지침을 찾을 수 있습니다.

포함 된 스크립트를 실행하여 여기에서 사전에 사전 모자 가중치 (~ 85MB)를 다운로드하여 모델/ 디렉토리에 배치합니다.

python scripts/download_weights.py

테스트

테스트를 실행하려면 코를 설치하십시오. 설치 후 테스트/ 디렉토리로 이동하여 실행하십시오.

nosetests -v

기본적으로 이것은 또한 결제 테스트를 실행합니다. 이 테스트는 One Epoch의 모델을 훈련시킨 다음 결과 정확도를 점검하여 몇 분이 걸릴 수 있습니다. 그것들을 제외하고 싶다면 다음을 대신 실행하십시오.

nosetests -v -a ' !slow '

부인 성명

이 코드는 Ubuntu 16.04 기계에서 Python 2.7에서 작동하도록 테스트되었습니다. 효율성을 위해 최적화되지 않았지만 대부분의 목적으로 충분히 빠르야합니다. 우리는 버그가 없다는 보장을 제공하지 않습니다. 자신의 책임에 코드를 사용하십시오!

기여

무언가가 향상 될 수 있다고 생각되면 풀 요청을 환영합니다. 또한 가장 최근의 트윗을 쓸 때 느꼈던 느낌을 알려 주면서 우리를 크게 도울 수 있습니다. 기부하려면 여기를 클릭하십시오.

특허

이 코드와 사전 처리 된 모델은 MIT 라이센스에 따라 라이센스가 부여됩니다.

벤치 마크 데이터 세트

벤치 마크 데이터 세트는 편의 목적으로만이 저장소에 업로드됩니다. 그들은 우리에 의해 석방되지 않았으며 우리는 그들에 대한 권리를 주장하지 않습니다. 귀하의 책임에 데이터 세트를 사용하고 릴리스 된 라이센스를 이행하십시오. 벤치 마크 데이터 세트를 사용하는 경우 원래 저자를 인용하는 것을 고려하십시오.

트위터 데이터 세트

슬프게도 라이센스 제한으로 인해 이모티콘으로 트윗의 대규모 트위터 데이터 세트를 공개 할 수 없습니다.

소환

 @inproceedings{felbo2017,
  title={Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm},
  author={Felbo, Bjarke and Mislove, Alan and S{o}gaard, Anders and Rahwan, Iyad and Lehmann, Sune},
  booktitle={Conference on Empirical Methods in Natural Language Processing (EMNLP)},
  year={2017}
}

확장하다

추가 정보