이 저장소는 에든버러 대학교 (University of Edinburgh)의 알렉산드라 버치 (Alexandra Birch)와 레이첼 바우 덴 (Rachel Bawden)이 조언 한 "전송 학습을 통해 관련 언어의 저주적 신경 기계 번역 개선을 개선하는" 제목의 마스터 논문에서 수행 한 작업을 제시합니다. 그것은 2020 년 8 월에 제출되었습니다. 그것은 XLM-Roberta (XLM-R)와 같은 마스크 언어 모델을 사용하여 NMT (Neural Machine Translation) 시스템에 대한 전송 학습 접근법 중 일부를 조사했습니다 [1]. 이 프로젝트는 주로 변압기 기반 NMT 시스템과 마스크 언어 모델 (MLM)의 상황에 맞는 단어 표현의 관심 기반 융합에 걸쳐 구축되었습니다 [2]. 또한 참조 작업에 기초 하여이 시스템의주의 헤드를 분석함으로써 구문 지식의 이전을 경험적으로 추적했다 [3]. 이 안내서는 IIT Bombay English-Hindi 병렬 데이터 세트의 작은 하위 집합을 사용하여 작은 작업 예제와 함께 필요한 설치 지침을 제공합니다 [4]. 이 연구에 사용 된 모든 과다 모수는 논문에서 액세스 할 수 있습니다.
목차
- 주의 기반 융합에 대한 개요
- 설치
- 전처리
- 기준선 NMT 시스템
- XLM-R 퓨즈 NMT 시스템
- Finetuning XLM-R
- 스크립트 변환
- 구문 분석
- 추가 정보
- 참조
1.주의 기반 융합의 개요
- 우리는 XLM-R을 작업에 따른주의 기반 융합을 사용하여 변압기 기반 NMT 시스템에 연결했습니다 [2].
- 표준 NMT-Encoder 및 NMT-Decoder 이외의 추가 XLM-R 모듈로 구성된 XLM-R-Fused NMT 시스템이라고합니다.
- 입력 문장은 XLM-R과 NMT-Encoder 모두에게 전달되며, 이는 문장에 대해 두 가지 다른 표현을 제공합니다. XLM-R로부터의 맥락화 된 단어 표현은주의 기반 융합을 사용하여 NMT- 인코더 표현과 융합된다. 유사하게, XLM-R 표현은 디코더와 융합된다.
2. 설치
2.1. 요구 사항
- 파이썬> = 3.5
- Pytorch> = 1.5.0
- Tensorflow == 1.13.1
- 포옹 페이스 트랜스포머 == 2.11.0
- matplotlib
- 슈타본
- Scikit-Learn
- sacrebleu> = 1.4.10
- 문장 피스> = 0.1.91
- 표시 NLP 라이브러리> = 0.6
- Mosesdecoder
2.2 패키지 디렉토리에 설치
- 이 위치에서 Mosesdecoder를 다운로드, 추출 및 설치하십시오.
- 이 위치에서 Indic NLP 라이브러리를 다운로드, 추출 및 설치하십시오. 또한이 위치에서 NLP 리소스를 표시하십시오. Indic Languages로 작업하지 않으면이 단계를 건너 뛸 수 있습니다.
- 이 위치에서 Huggingface Transformers 라이브러리를 다운로드, 추출 및 설치하십시오.
2.3 FairSeQ 설치
- 이 저장소를 복제하십시오. 부모 디렉토리는이 작업에서 모든 전처리, 교육 및 평가 스크립트를위한 홈 디렉토리 역할을합니다.
- 홈 디렉토리에서 다음 명령을 실행하십시오.
cd 'work/systems/baseline-NMT/fairseq'
pip install --editable ./
- FairSeQ 라이브러리를 기반으로 기준선 NMT 시스템을 설치합니다. 이 위치에 위치한 여러 버전의 FairSeQ 시스템을 사용했습니다. 따라서 우리는 항상 훈련 및 평가 파일의 정확한 경로를 사용하여 충돌을 피했습니다.
2.4 XLM-R 다운로드 및 추출
- Huggingface Hub에서 XLM-R과 관련된 모든 파일을 다운로드하십시오. 옵션 '모델에 모든 파일 나열'을 사용하여 파일을보고 다운로드하여 config.json, pytorch_model.bin, sentence.bpe.model 및 tokenizer.json을 다운로드하십시오.
- 이 파일을이 디렉토리에 넣으십시오.
3. 전처리
- FairSeQ 및 Bert-NMT 라이브러리를 방문하여 기본 전처리, 교육 및 평가 단계에 익숙해 지십시오.
- 우리는 Mosesdecoder를 사용하여 영어 데이터 세트를 전처리했지만 힌디어, 구자라트, 벵골어 및 마라 티와 같은 인디언 NLP 라이브러리로 전환했습니다.
- 우리는 단어 세분화에 문장 BPE를 사용했습니다. 소스 및 대상 언어가 실질적인 문자를 공유하면이 스크립트를 사용하여 공동 BPE로 데이터 세트를 처리했습니다. 그렇지 않으면 다른 스크립트가 사용되었습니다.
- 이 작업을 보여주는 데 사용되는 영어 힌디 데이터 세트의 경우 후자의 스크립트를 사용했습니다.
- HOME_DIR 을이 저장소의 상위 디렉토리로 설정하십시오.
- 우리는 이미 RAW_DATA_DIR 에 열차, 테스트 및 DEV 파일을 넣었습니다. 동일한 이름 지정 규칙으로 파일로 변경할 수 있습니다.
- 더 나은 BPE 세분화를 배우기 위해 교육 데이터를 대규모 모노 링 구 데이터 세트와 병합했습니다. 이 데이터 세트를 raw_monolingual_data_dir 에 넣으십시오. 우리는 우리의 작업에서 거대한 오스카 코퍼스를 사용했지만이 데모에는 동일한 기차 파일을 사용했습니다.
- 스크립트에 표시된대로 clean_norm_tok 함수를 댓글을 달아서 언어를 기반으로 Indic NLP 또는 Moses 라이브러리 사이를 전환하십시오.
- 이 스크립트를 실행하여 모든 파일을 전처리하고 preprocessed_data_dir 에서 저장하십시오. 토큰 화 된 BPE 디렉토리에는 정규화, 토큰 화 등 후 모든 중간 파일과 모든 최종 BPED 파일이 포함되어 있습니다.
- 그런 다음이 스크립트는 FairSeQ 기반 시스템에서 사용하도록 데이터를 바이어링하고 이진 디렉토리를 저장합니다. XLM-R-Fused 시스템의 FairSeQ Binariser를 사용하여 XLM-R-Fused 시스템뿐만 아니라 기준 파일의 파일을 이진화합니다. XLM-R Tokenizer에 액세스하기 위해 -Bert-Model-Name을 사용하여 XLM-R 구성 요소에 의해 XLM-R 퓨즈 시스템의 표준 NMT-Encoder와 함께 사용되었으므로 소스 파일을 토큰 화하기 위해 사용합니다.
- (선택 사항)이 시스템은 주로 XLM-R을 기반으로하지만 Huggingface Transformers 라이브러리가 제공하는 다른 마스크 언어 모델을 사용할 수도 있습니다. 다음과 같이 몇 가지 변경이 필요합니다.
- 2.4 단계에서 언급 된대로 새 언어 모델을 다운로드하여 추출하십시오.
- XLM-R 퓨즈 시스템의 Huggingface Transformers 라이브러리에서 해당 토큰 화기 및 모델을 아래에 언급 한 기본 시스템으로 가져옵니다.
from transformers import XLMRobertaModel
BertModel = XLMRobertaModel
from transformers import XLMRobertaTokenizer
BertTokenizer = XLMRobertaTokenizer
- 다음 파일로 가져와야합니다.
- 작업/시스템/xlm-r-fused/bert-nmt/preprocess.py
- 작업/시스템/XLM-R-FUSED/BERT-NMT/Interactive.py
- Work/Systems/XLM-R-FUSED/BERT-NMT/FAIRSEQ_CLI/PREPROCESS.py
- Work/Systems/XLM-R-FUSED/BERT-NMT/FAIRSEQ_CLI/Interactive.py
- Work/Systems/XLM-R-FUSED/BERT-NMT/FAIRSEQ/TASKS/TRANSIFATION.PY
- Work/Systems/XLM-R-FUSED/BERT-NMT/FAIRSEQ/MODOMES/TRANSFORMER.PY
- 작업/시스템/xlm-r-fused/bert-nmt/fairseq/binarizer.py
- 또한 새 언어 모델에 따라 이러한 파일에서 시작
(<s>) 및 END (</s>) 토큰을 변경해야합니다.
4. 기준선 NMT 시스템
4.1 교육 기준 NMT 시스템
- 이 스크립트로 변압기 기반 기준 시스템을 훈련시킵니다.
- 그라디언트를 축적하여 더 큰 효과적인 배치 크기를 형성합니다. 배치 크기 = (gpus 수) * ( --max-tokens ) * ( -update-freq ).
- -Patience 와 함께 초기 정지 유효성 검사 전략을 사용하여 BLEU 점수 감소로 최대 체크 포인트 수를 결정합니다.
- 우리의 작업은 변압기 아키텍처를 기본적으로 사용합니다. XLM-R-Fused 시스템은 기준 시스템에서 매개 변수를 복원하므로 해당 아키텍처가 일치해야합니다. 우리는 또한 기준 시스템에 다른 큰 아키텍처를 사용할 수 있지만 XLM-R 퓨즈 시스템에 대해서도 동일한 기본 아키텍처를 제공해야합니다. 주의 기반 융합을 구현하는 추가 아키텍처 가이 파일을 확인하십시오.
- Baseline_nmt_checkpoints_dir 에서 검사 점을 저장합니다.
4.2 기준 NMT 시스템 평가
- 이 스크립트로 기준 시스템을 평가하십시오.
- 최상의 체크 포인트로 bped 테스트 파일을 평가해야합니다. -remove-bpe = sentencepiece를 사용하여 출력 파일에서 BPE 분할을 제거하십시오.
- 스크립트에 표시된대로 인디 NLP 또는 MOSE를 사용하여 출력 파일을 제거하십시오.
- 이 스크립트는 대상 언어의 손길이없는 테스트 파일을 사용하여 Sacrebleu를 사용하여 최종 BLEU 점수를 계산합니다.
5. XLM-R-FUSED NMT 시스템
5.1 교육 XLM-R-Fused NMT 시스템
- 이 위치에서 시스템을 사용할 수있는이 스크립트로 XLM-R 퓨즈 시스템을 교육하십시오.
- Bert_name 은이 시스템에 사용되는 XLM-R 변형으로가는 경로를 저장합니다. 여기에서 미리 훈련 된 또는 미세 변형을 사용할 수 있습니다.
- 이 스크립트는 기준 시스템의 최상의 체크 포인트를 복사하고 XLM-R- 퓨즈 시스템으로 추가 교육을 위해 매개 변수를 복원합니다.
- 이 시스템은 초기 중지를 제공하지 않은 FairSeQ의 이전 버전에 걸쳐 구축 되었으므로이 스크립트는 -Max Update 교육 단계에 대한 모든 체크 포인트를 저장 한 다음 나중에 평가됩니다.
- 인코더 및 디코더 측면에서주의를 삭제하려면 -arch를 transformer_s2_iwslt_de_en 으로 사용하고 디코더 전용 퓨전의 경우 Transformer_iwslt_de_en을 사용하십시오.
- 매개 변수가 이미 최적 수준에 가깝기 때문에 작은 학습 속도를 사용하십시오.
5.2 XLM-R 퓨즈 NMT 시스템 평가
- 이 스크립트를 사용하여 XLM-R- 퓨즈 시스템을 평가합니다.이 스크립트는 기준 시스템에 사용되는 스크립트와 유사합니다.
- 이 스크립트는 특정 체크 포인트를 사용하여 BLEU 점수를 계산하는 반면 다른 스크립트는 모든 체크 포인트의 점수를 계산하기 위해이를 확장합니다.
- 이전에 언급 했듯이이 시스템에는 조기 중지 기능이 없습니다. 그래서 우리는 몇 가지 시대마다 모든 체크 포인트를 저장하고 유효성 검사 세트로 평가했습니다. 그런 다음 최상의 체크 포인트는 테스트 세트 평가를 위해 이전 스크립트에서 Best_checkpoint를 사용하여 설정할 수 있습니다.
- XLM-R-Fused NMT 시스템의 다른 구성 요소에서 사용하는 두 가지 다른 테스트 파일의 경로를 사용합니다. test_src_bped는 표준 NMT-Encoder에서 사용하는 파일을 가리키고 Test_src_raw 는 XLM-R 구성 요소가 사용하는 원시 소스 파일을 가리 킵니다. XLM-R은 Huggingface Transformers 라이브러리에서 제공하는 토큰 화기를 사용하여 자체 내부 토큰 화를 사용하므로 RAW 파일이 필요합니다. BERT_NAME이 해당 XLM-R 변형 디렉토리를 가리켜 해당 토큰 화기에 액세스 할 수 있는지 확인하십시오.
6. Finetuning XLM-R
6.1 다국어 및 단일 언어 변형
- 우리는 XLM-R 모델을 정비하여 원래 미리 훈련 된 모델의 다국어 및 단일 변형을 만듭니다.
- Indo-Aryan-XLM-R-Base는 다국어 변형으로, 힌디어, 구자라트, 마라 티어 및 벵골어와 관련된 언어로 XLM-R베이스를 미세 조정하여 만들어집니다. 그것은 그들의 구문, 형태 학적, 직교 및 어휘 유사성을 이용합니다.
- Gujarati-XLM-R-Base 및 Gujarati-XLM-R-LARGE는 단일 구자라트 데이터 세트와 결합 된 단일 변형입니다. 또한 Gujarati-Dev-XLM-R-Base는 구자라트어 언어가 Devanagari 스크립트로 변환되어 만들어졌습니다. 이 모델은 여기에서 사용할 수있는 Huggingface Hub에서 출시되었습니다.
- 우리는 여기에서 사용 가능한 XLM-R의 Pytorch 변형을 미리 훈련 된 모델로 사용했습니다.
6.2 데이터 준비
- 우리는 주로이 튜토리얼을 따랐으며, 다음에 진행하기 전에 방문하는 것이 좋습니다.
- 이 스크립트를 사용하여 데이터를 준비하십시오. RAW_MONO_SOURCE를 사용하여 경로를 설정하는 단일 단일 단일 데이터 세트에 대한 교육 및 검증 파일을 준비합니다. 그런 다음 위의 교육 파일에 대해 수행 한대로 Indic NLP 라이브러리를 사용하여 전처리됩니다.
- 이 스크립트에서 BERT_NAME은 사전에 액세스하는 데 사용되는 원래의 사전 각인 XLM-R 모델을 가리 킵니다.
- 그런 다음 여기에서 사용 가능한 FairSeQ 라이브러리의 다른 변형을 사용하여 이항화됩니다. XLM-R 토큰 화기를 사용하여 XLM-R을 예비적으로 예측하기 위해 원래 데이터가 수행 된 것과 같은 방식으로 데이터가 토큰 화되도록합니다.
- (선택 사항) 다른 마스크 된 언어 모델을 미세화하려면이 파일에서 해당 언어 모델을 가져와야합니다. 다음을 변경하십시오.
- 기본 XLMROBERTATOKENIGER 대신 해당 토 케이저를 가져 오십시오
from transformers import XLMRobertaTokenizer
BertTokenizer = XLMRobertaTokenizer
- 여기에서 모델 이름을 바꾸십시오
dict = BertTokenizer.from_pretrained("xlm-roberta-base")
- 전처리의 제안과 유사한 시작 및 엔드 토큰을 교체하십시오.
- 마찬가지로 다국어 모델을 만들려면 다른 언어에 대한 데이터를 준비하십시오.
6.3 모델 교육 및 평가
- 이 스크립트를 사용하여 단일 변형을 미선급하십시오.
- 4.1 단계에서 사용되는 동일한 기준 NMT 시스템을 사용하여 모델을 정합합니다. 여기서 Restore_point 는 미리 훈련 된 모델 체크 포인트를 가리 킵니다. 단일 변형의 경우 -타스크를 masked_lm 으로 사용하십시오.
- Similalrly,이 스크립트를 사용하여 다국어 변형을 만듭니다. -타스크를 MultiLingual_masked_lm 으로 사용하여 다른 언어의 데이터를 병합합니다.
- 또한 더 큰 데이터 세트가 더 작은 데이터 세트를 압도하는 데이터 불균형의 영향을 최소화하기 위해이를 리그 샘플링합니다. -Multilang-Sampling-Alpha를 사용하여 샘플링 비율을 조정하십시오. 자세한 내용은 원래 XLM-R 논문 [1]을 참조하십시오.
- 체크 포인트를 정기적으로 저장하고 최소 유효성 검사 손실로 모델을 선택했습니다.
6.4 Pytorch Checkpoint를 Huggingface Transformers와 호환 가능합니다
- 저장된 Pytorch 체크 포인트를 Huggingface Transformers 라이브러리와 호환되는 다른 버전으로 변환해야합니다.
- 패키지 디렉토리에 Transformers 라이브러리를 설치했다고 가정합니다. 그런 다음 다음 명령을 사용하십시오.
python packages/transformers/src/transformers/convert_roberta_original_pytorch_checkpoint_to_pytorch.py --roberta_checkpoint_path best_ck_dir/ --pytorch_dump_folder_path ./
- 여기에는 Best_ck_dir 에는 model.pt , dict.txt 및 sentence.bpe.model 이라는 Finetuned XLM-R Checkpoint가 포함되어 있습니다. 후자의 2 파일은 미리 훈련 된 모델 및 미세한 모델 모두에 대해 동일하며 여기에서 액세스 할 수 있습니다. pytorch_dump_folder_path는 변압기 호환 Pytorch 버전을 저장 해야하는 디렉토리를 나타냅니다.
- Transformers 라이브러리에는 convert_roberta_original_pytorch_checkpoint_to_pytorch.py 파일에 몇 가지 문제가 있었으며 Utils 디렉토리에 수정하고 추가했습니다. 이 파일을 교체하고 라이브러리를 재구성하십시오.
- (선택 사항) FairSeQ 라이브러리를 먼저 사용하지 않고 Huggingface 가이드를 직접 사용하여 모델을 정합 할 수 있습니다. 우리는 Huggingf 그들은 멀티 프로세싱을 통해 멀티 스레딩을 구현하여 불균형 GPU 사용을 유발합니다. FairSeQ는이를 처리하기 위해 자체 모듈을 구현했으며 여기에서 논의됩니다.
- 미세 조정 후 최종 Pytorch 버전을 사용하여 XLM-R 퓨즈 시스템 교육 및 평가를위한 원래 미리 훈련 된 모델을 대체하십시오.
7. 스크립트 변환
- 우리는 공통 스크립트를 사용하여 관련 언어들 사이의 어휘 유사성을 악용하려고 시도한 일부 스크립트 변환 전략을 사용했습니다. 우리는 Indic NLP 라이브러리를 사용하여 동일한 것을 변환했습니다.
- XLM-R-Fused 시스템은 NMT-Encoder뿐만 아니라 XLM-R의 동일한 입력 문장을 처리함에 따라 이러한 모듈에 대한 스크립트의 다른 조합을 시도했습니다. 예를 들어, 구자라트 티 힌디 쌍의 경우 구자라트 스크립트 문장을 XLM-R 모듈로 전달했지만 Devanagari 스크립트의 구자라트는 NMT- 인코더에 대상 언어와의 어휘 중첩을 극대화했습니다.
- 다른 스크립트의 문장은 동일한 의미 론적 의미를 가지므로주의 기반 융합이 가능했습니다. 자세한 내용은 논문을 확인하십시오.
- 이 기능은 XLM-R에 비해 소스 파일을 변경하여 XLM-R- 퓨즈 시스템과 함께 사용할 수 있습니다. 이 파일을 대상 스크립트로 변환하는이 스크립트를 사용하여 수행 할 수 있습니다.
- 마찬가지로, 스크립트를 사용하여 표준 NMT-Encoder뿐만 아니라 XLM-R로 전달할 소스 파일의 스크립트를 변환 할 수 있습니다.
- 그런 다음 초기 교육 스크립트를 사용하기 전과 같이 기준선 및 XLM-R 퓨즈 NMT 시스템을 교육하십시오.
- 초기 평가 스크립트를 사용하기 전에 이러한 시스템을 평가하십시오. 대상 언어가 소스 언어의 스크립트로 변환되면 사후 처리 단계로 초기 스크립트로 다시 변환해야합니다. 이는 기준선 내부의 스크립트 수정 디렉토리 및 XLM-R-Fused Systems 'Scripts'Directories에있는 평가 스크립트를 사용하여 수행 할 수 있습니다.
8. 구문 분석
코드를 여기에서 사용할 수있는 [3]의 작업에 익숙해 지십시오. 우리의 연구는 XLM-R-Fused 시스템에서 구문 지식의 전달을 추적하도록 확장합니다.
8.1 데이터 준비
- UD (Universal Dependencies) 데이터 세트 처리
- 구문 분석에 힌디어 UD 데이터 세트 [5] [6]를 사용했습니다.
- 이 스크립트를 사용하여 RAW UD 열차 및 테스트 파일을 처리하십시오. UD 파일에서 구문 헤드와 해당 구문 관계를 추출합니다.
- 그런 다음이 스크립트를 사용하여 위의 지침을 사용하여 위 파일을 JSON 형식으로 변환하십시오.
- 마지막 으로이 스크립트를 사용하여 위 파일에서 원시 문장을 추출하십시오.
- FairSeQ 추론을위한 소스 파일 처리
- 소스 테스트 파일로 원시 문장이있는 위 파일을 사용하십시오. 우리는 이러한 파일을 사용하여 최고의 기준선 및 XLM-R 퓨즈 시스템 체크 포인트를 평가합니다.
- 3 단계 (사전 처리)에 언급 된 대로이 파일을 전처리하고 FairSeQ에 대한 이항 파일을 준비하십시오. 여기에는 대상 측면 데이터가 없으므로 수정 된 전처리 스크립트를 사용하여 소스 측면 파일 만 처리합니다.
8.2 기준선 및 XLM-R 퓨즈 시스템에서주의지도 추출
- 위의 불안한 데이터를 사용하여 평가 스크립트를 사용하여 XLM-R-Fused 시스템에서주의 맵을 추출하십시오. 마찬가지로이 스크립트를 사용하여 기준 시스템에서지도를 추출하십시오.
- 이 스크립트는 기준선 NMT 시스템과 XLM-R 퓨즈 NMT 시스템을 통해 구축 된 두 가지 다른 시스템을 사용하여 각각 여기 및 여기에서 액세스 할 수 있습니다.
- 이 시스템은 모든 변압기 인코더 층에 존재하는 모든주의 헤드에 대한 자체 변환 맵을 추출합니다. 또한, XLM-R 퓨즈를 통해 구축 된 시스템은 또한 XLM-R 표현의주의 기반 융합 및 NMT- 인코더 표현으로 인한 Bert-intention 맵을 추출합니다.
- 추가 매개 변수 ---save_attn_maps를 사용하여주의 맵을 저장하는 경로를 제공하십시오. 각 맵을 저장하기 위해 폴더 ( self , bert 및 batch_sentence) 를 만듭니다. Batch_sentences는 주의지도가 추출되는 순서대로 해당 문장을 저장합니다. 이 파일은 처리 된 문장의 순서를 확인하는 데 사용될 수 있습니다.
- 이 맵은 단일 파일에 배치 크기와 동일한 문장 수가 포함 된 Numpy Array에 저장됩니다.
- 이 스크립트를 사용하여주의지도를 추가로 처리하십시오.
- 주의 맵과 JSON 파일을 사용하여 피클 객체를 만듭니다.
- 그런 다음 BPE 레벨 토큰의주의지도를 단어 레벨로 변환합니다. 자세한 내용은 논문을 확인하십시오.
- 코드를 테스트하기 위해 여기에서 사용 가능한 기준선 및 XLM-R 퓨즈 시스템 모두에 피클 파일을 사용할 수 있습니다. 이 위치에서 압축 파일을 다운로드하여 추출하십시오. 이 피클 파일은 이미 언급 된 위치에있는 힌디어 UD 전처리 데이터와 함께 작동합니다.
8.3주의지도 및주의 기반 프로빙 분류기 시각화
- 구문 분석 노트북을 여기에서 사용할 수 있습니다. 위의 열차 및 테스트 피클 파일에 대한 Train_path 및 dev_path를 가리키십시오. 여기에서 우리의 개발자와 테스트 파일은 과복 동물을 사용하지 않기 때문에 동일합니다.
- 기준선 및 XLM-R- 퓨즈 시스템에서 얻은 가중치를 사용하여 다른 층 및주의 헤드에서 올바른 구문 헤드를 결정했습니다.
- 구문 헤드가 성공적으로 예측 된 질적 사례가 있습니다.
- 마지막으로,주의 기반 조사 분류기를 교육하고 평가하여 최종 UAS 점수를 제공합니다. 구문 지식의 전반적인 측정을 제공하기 위해 모든 층과주의 헤드에 의해 주어진 자체 변환 가중치의 가중치 조합이 필요합니다.
9. 추가 정보
- 라이센스 : 당사의 작업은 MIT 라이센스에 따라 라이센스가 부여됩니다. 그러나 우리는 자체 라이센스가있는 다른 작품과 데이터 세트를 사용합니다. 특히 FairSeQ 라이브러리를 기반으로하는 모든 시스템에는 해당 라이센스가 해당 디렉토리에 있습니다. 또한 readme 파일의 주어진 링크를 사용하여 English-Hindi IIT Bombay 병렬 데이터 세트 및 Hindi Universal Depancies 데이터 세트의 라이센스를 확인하십시오. 마찬가지로, readme에 언급 된대로 파일 중 하나를 수정 했으므로 Huggingface Transformers 라이브러리의 라이센스를 확인하십시오.
- 도움이 필요한 경우 문제를 제기하십시오. 이 작업이 유용하다고 생각되면 자유롭게 사용하고 내 논문도 인용하십시오.
10. 참조
[1] Conneau, Alexis 등. "규모에 따라 감독되지 않은 교차 대표 학습." Arxiv preprint arxiv : 1911.02116 (2019)
[2] Zhu, Jinhua, et al. "버트를 신경 기계 번역에 통합합니다." 학습 대표에 관한 국제 회의. 2019
[3] Clark, K., Khandelwal, U., Levy, O., & Manning, CD (2019, 8 월). Bert는 무엇을 봅니까? Bert의 관심 분석. 2019 ACL 워크숍 BlackBoxNLP : NLP의 신경망 분석 및 해석 (pp. 276-286)의 절차.
[4] Anoop Kunchukuttan, Pratik Mehta, Pushpak Bhattacharyya. IIT Bombay English-Hindi 평행 코퍼스. 언어 리소스 및 평가 회의. 2018.
[5] Riyaz Ahmad Bhat, Rajesh Bhatt, Annahita Farudi, Prescott Klassen, Bhuvana Narasimhan, Martha Palmer, Owen Rambow, Dipti Misra Sharma, Ashwini Vaidya, Sri Ramagurumurthy Vishnu 및 Fei Xia. 힌디어/우르두어 뱅크 프로젝트. 언어 주석 핸드북 (Nancy Ide와 James Pustejovsky가 편집)에서 Springer Press. 2015.
[6] Martha Palmer, Rajesh Bhatt, Bhuvana Narasimhan, Owen Rambow, Dipti Misra Sharma, Fei Xia. 힌디어 구문 : 주석 의존성, 어휘 술어 관절 구조 및 문구 구조. 2009 년 12 월 14-17 일 인도 하이데라바드의 ICON-2009, 자연 언어 처리에 관한 제 7 차 국제 회의 절차에서.