attention is all you need pytorch attention is all you need pytorch

attention is all you need pytorch

기타 소스코드

1.0.0

다운로드

Pytorch 구현

이것은 "주의가 필요하다"(Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, Arxiv, 2017)에서 변압기 모델의 Pytorch 구현입니다.

서열 프레임 워크에 대한 새로운 서열은 컨볼 루션 조작 또는 재발 구조 대신 자체 변환 메커니즘을 활용하고 WMT 2014 영어-독일어 번역 작업 에 대한 최첨단 성능을 달성합니다. (2017/06/12)

공식 Tensorflow 구현은 Tensorflow/Tensor2tensor에서 찾을 수 있습니다.

자기 변환 메커니즘에 대해 자세히 알아 보려면 "구조적 자기성 문장 임베딩"을 읽을 수 있습니다.

이 프로젝트는 지금 훈련 된 모델로 교육 및 번역을 지원합니다.

이 프로젝트는 여전히 진행중인 작업입니다.

BPE 관련 부품은 아직 완전히 테스트되지 않았습니다.

제안이나 오류가 있으면 문제를 해결하여 알려주십시오. :)

용법

WMT'16 멀티 모달 번역 : de-en

WMT'16 Multimodal Translation Task (http://www.statmt.org/wmt16/multimodal-task.html)에 대한 교육의 예.

0) 스파이어 언어 모델을 다운로드하십시오.

 # conda install -c conda-forge spacy 
python -m spacy download en
python -m spacy download de

1) Torchtext 및 Spacy를 사용하여 데이터를 전제로 처리하십시오.

python preprocess.py -lang_src de -lang_trg en -share_vocab -save_data m30k_deen_shr.pkl

2) 모델을 훈련시킵니다

python train.py -data_pkl m30k_deen_shr.pkl -log m30k_deen_shr -embs_share_weight -proj_share_weight -label_smoothing -output_dir output -b 256 -warmup 128000 -epoch 400

3) 모델을 테스트하십시오

python translate.py -data_pkl m30k_deen_shr.pkl -model trained.chkpt -output prediction.txt

[(WIP)] WMT'17 멀티 모드 번역 : de-en w/ bpe

1) BPE로 데이터를 다운로드하여 전처리합니다.

인터페이스가 통합되지 않았으므로 기본 기능 호출을 main_wo_bpe 에서 main 으로 전환해야합니다.

python preprocess.py -raw_dir /tmp/raw_deen -data_dir ./bpe_deen -save_data bpe_vocab.pkl -codes codes.txt -prefix deen

2) 모델을 훈련시킵니다

python train.py -data_pkl ./bpe_deen/bpe_vocab.pkl -train_path ./bpe_deen/deen-train -val_path ./bpe_deen/deen-val -log deen_bpe -embs_share_weight -proj_share_weight -label_smoothing -output_dir output -b 256 -warmup 128000 -epoch 400

3) 모델 테스트 (준비되지 않음)

TODO :
- 어휘를로드하십시오.
- 번역 후 디코딩을 수행하십시오.

성능

훈련

매개 변수 설정 :
- 배치 크기 256
- 워밍업 단계 4000
- Epoch 200
- lr_mul 0.5
- 레이블 스무딩
- BPE 및 공유 어휘를 적용하지 마십시오
- 대상 임베딩 / 사전-소프트 마맥스 선형 레이어 가중치 공유.

테스트

곧 올 것입니다.

TODO

생성 된 텍스트에 대한 평가.
주의 웨이트 플롯.

승인

바이트 쌍 인코딩 부품은 Subword-NMT에서 빌려줍니다.
프로젝트 구조, 일부 스크립트 및 데이터 세트 전처리 단계는 OpenNMT/OpenNMT-PY에서 크게 빌려줍니다.
@srush, @iamalbert, @zessay, @julesgm, @zijianzhao 및 @huanghoujing의 제안에 감사드립니다.

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-04-16
크기 27.53KB
출처 Github

attention is all you need pytorch

Pytorch 구현

용법

WMT'16 멀티 모달 번역 : de-en

0) 스파이어 언어 모델을 다운로드하십시오.

1) Torchtext 및 Spacy를 사용하여 데이터를 전제로 처리하십시오.

2) 모델을 훈련시킵니다

3) 모델을 테스트하십시오

[(WIP)] WMT'17 멀티 모드 번역 : de-en w/ bpe

1) BPE로 데이터를 다운로드하여 전처리합니다.

2) 모델을 훈련시킵니다

3) 모델 테스트 (준비되지 않음)

성능

훈련

테스트

TODO

승인

pytorch image models

사랑은 주변에 있다

달팽이할까?

니드포스피드 모바일

당신은해야합니다

거기 당신이 있습니다

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express