프로젝트 설명
NLP 필드에서 일반적인 작업의 구현에는 새로운 단어 발견과 Pytorch, 중국어 텍스트 분류, 엔티티 인식, 텍스트 생성, 문장 유사성 판단, 트리플 추출, 미리 훈련 된 모델 등을 기반으로하는 단어 벡터가 포함됩니다.
의존하다
python 3.7
pytorch 1.8.0
torchtext 0.9.1
optuna 2.6.0
transformers 3.0.2
목차
0. 새로운 단어 발견 알고리즘
1. 단어 벡터
- 1-1. Word2vec (Skip-Gram)
- 1-2. 장갑
2. 텍스트 분류 (Optuna는 내부적으로 매개 변수를 조정하는 데 사용됩니다)
- 2-1. TextCnn
- 2-2. FastText
- 2-3. Textrcnn
- 2-4. Textrnn_att
- 2-5. DPCNN
- 2-6. xgboost
- 2-7. Distill_ & Fine Tune Bert
- 2-8. Pattern-exploiting-Training MLM을 사용하여 텍스트를 분류합니다
- 2-9. R 드롭
데이터 세트 (데이터 폴더) : 바이너리 여론 데이터 세트, 다음과 같이 나뉩니다.
| 데이터 세트 | 데이터 볼륨 |
|---|
| 훈련 세트 | 56700 |
| 확인 세트 | 7000 |
| 테스트 세트 | 6300 |
3. 엔티티 식별 ner
- 3-1. 버트 -MRC
- 3-2. Bert-CRF
- 3-3. 버트 라벨-정양성
- 3-4. Bert-MLM
4. 텍스트 요약 생성
1). 생성 공식
- 4-1. seq2seq 모델
- 4-2. SEQ2SEQ 모델 +주의 메커니즘
- 4-3. 변압기 모델
- 4-4. GPT 요약 생성
- 4-5. Bert-seq2seq
2). 추출
- 4-6. Bert-extractive-summarizer
5. 문장 유사성 차별
6. 다중 라벨 분류
7. 트리플 추출
8. 미리 훈련 된 모델 (Electra + Simcse)
9. 배우는 팁
10. 종이 위의 코드
이 폴더는 일부 논문과 해당 모델 코드를 기록합니다.
- 10.1. 공동 인터랙티브-변환기
- 10.2. lattice_lstm
11. QA
이 폴더는 머신 러닝/딥 러닝의 일부 지식 포인트에 대한 간단한 요약을 기록합니다.