language_model_tf 다운로드 language_model

language_model_tf

AI 소스 코드

1.0.0

다운로드

언어 모델

언어 모델링은 단어 시퀀스 또는 다양한 언어 단위 (예 : Char, 하위 단어, 문장 등)에 확률을 할당하는 작업입니다. 언어 모델링은 현대 자연 언어 처리 (NLP)에서 가장 중요한 문제 중 하나이며 많은 NLP 응용 프로그램 (예 : 음성 인식, 기계 번역, 텍스트 요약, 주문 수정, 자동 완성 등)에 사용됩니다. 지난 몇 년 동안, 신경 접근법은 많은 언어 모델 벤치 마크에서 전통적인 통계 접근법보다 더 나은 결과를 얻었습니다. 또한, 최근의 연구에서 언어 모델 사전 훈련은 기능 기반 전략 (예 : ELMO 등) 및 미세 조정 전략 (예 : OpenAI GPT, Bert 등) 또는 Zero-Shot 설정 (EG OpenAI GPT-2 등)을 포함하여 다양한 NLP 작업을 다양한 방식으로 향상시킬 수 있음을 보여줍니다.

그림 1 : 언어 모델링에 의해 구동되는 자동 완성의 예

환경

파이썬 3.6.6
텐서 플로 1.12
Numpy 1.15.4
NLTK 3.3

데이터 세트

Wikipedia Corpus에는 2014 년 Wikipedia 덤프 (약 440 만 페이지)에서 약 20 억 개의 텍스트가 포함되어 있습니다. 우리가 아는 한, Wikipedia Full-Text 데이터는 최근 Wikipedia 사본에서 제공되는 유일한 버전입니다.
BookScorpus : Books는 세밀한 정보, 캐릭터, 대상 또는 장면이 어떻게 보이는지, 높은 수준의 의미론, 누군가가 생각하고, 느낌 및 이러한 상태가 이야기를 통해 어떻게 진화하는지의 풍부한 원천입니다. 이 작품은 현재 데이터 세트에서 사용 가능한 캡션을 훨씬 뛰어 넘는 시각적 컨텐츠에 대한 풍부한 설명 설명을 제공하기 위해 책을 영화 릴리스에 정렬하는 것을 목표로합니다.
언어 모델링 실험을위한 표준 교육 및 테스트 설정을 이용할 수 있도록 10 억 단어 벤치 마크가 목표로 삼았습니다. 이 벤치 마크에는 거의 10 억 단어의 교육 데이터가 포함되어 있으며, 연구원이 소설의 언어 모델링 기술을 신속하게 평가하고 다른 고급 기술과 결합 할 때 기여를 쉽게 비교할 수 있도록 도와줍니다.
글러브는 단어에 대한 벡터 표현을 얻기위한 감독되지 않은 학습 알고리즘입니다. 훈련은 코퍼스의 집계 된 글로벌 워드 단어 코-발생 통계에 대해 수행되며, 결과적인 표현은 단어 벡터 공간의 흥미로운 선형 하위 구조를 보여줍니다.

용법

전처리 데이터

 # convert raw data
python preprocess/convert_data.py --dataset wikipedia --input_dir data/wikipedia/raw --output_dir data/wikipedia/processed --min_seq_len 0 --max_seq_len 512
# prepare vocab & embed files
python prepare_resource.py 
--input_dir data/wikipedia/processed --max_word_size 512 --max_char_size 16 
--full_embedding_file data/glove/glove.840B.300d.txt --word_embedding_file data/wikipedia/resource/lm.word.embed --word_embed_dim 300 
--word_vocab_file data/wikipedia/resource/lm.word.vocab --word_vocab_size 100000 
--char_vocab_file data/wikipedia/resource/lm.char.vocab --char_vocab_size 1000

실험을 실행하십시오

 # run experiment in train + eval mode
python language_model_run.py --mode train_eval --config config/config_lm_template.xxx.json
# run experiment in train only mode
python language_model_run.py --mode train --config config/config_lm_template.xxx.json
# run experiment in eval only mode
python language_model_run.py --mode eval --config config/config_lm_template.xxx.json

텍스트를 인코딩합니다

 # encode text as ELMo vector
python language_model_run.py --mode encode --config config/config_lm_template.xxx.json

하이퍼 패러라미터를 검색하십시오

 # random search hyper-parameters
python hparam_search.py --base-config config/config_lm_template.xxx.json --search-config config/config_search_template.xxx.json --num-group 10 --random-seed 100 --output-dir config/search

요약 시각화

 # visualize summary via tensorboard
tensorboard --logdir=output

모델

양방향 언어 모델 (Bilm)

시퀀스가 주어지면 양방향 언어 모델은 순서의 확률을 계산합니다.

그런 다음 시퀀스를 역 순서로 실행하여 시퀀스의 확률을 계산하고,

시퀀스는 먼저 공유 임베딩 층을 통과 한 다음 두 방향으로 다층 RNN (예 : LSTM, GRU 등)에 의해 모델링되며 최종적으로 SoftMax 정규화가 확률을 얻기 위해 적용됩니다.

그림 2 : 양방향 언어 모델 아키텍처 (출처 : 일반 언어 모델)

이 모델은 전방 및 후진 방향의 음의 로그 가능성을 공동으로 최소화하여 교육을받습니다.

참조

Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matthew Gardner, Christopher T Clark, Kenton Lee 및 Luke S. Zettlemoyer. 깊은 맥락화 된 단어 표현 [2018]
Alec Radford, Karthik Narasimhan, Tim Salimans 및 Ilya Sutskever. 생성 사전 훈련에 의한 언어 이해 향상 [2018]
Jacob Devlin, Ming-Wei Chang, Kenton Lee 및 Kristina Toutanova. Bert : 언어 이해를위한 심층 양방향 변압기의 사전 훈련 [2018]
Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei 및 Ilya Sutskever. 언어 모델은 감독되지 않은 멀티 태스킹 학습자 [2019]

확장하다

추가 정보