awesome sentence embedding
1.0.0
전처리 된 문장 및 단어 임베딩 모델의 선별 된 목록
| 날짜 | 종이 | 인용 수 | 교육 코드 | 사전 예방 모델 |
|---|---|---|---|---|
| - | WebVectors : 벡터 의미 론적 모델을위한 웹 인터페이스를 구축하기위한 툴킷 | N/A | - | Rusvectōrēs |
| 2013/01 | 벡터 공간에서 단어 표현의 효율적인 추정 | 999+ | 기음 | Word2vec |
| 2014/12 | 가우스 임베딩을 통한 단어 표현 | 221 | 사이 톤 | - |
| 2014/?? | 다중 프로 타입 단어 임베딩을 학습하기위한 확률 론적 모델 | 127 | DMTK | - |
| 2014/?? | 의존성 기반 단어 임베딩 | 719 | C ++ | Word2Vecf |
| 2014/?? | 장갑 : 단어 표현을위한 글로벌 벡터 | 999+ | 기음 | 장갑 |
| 2015/06 | 희소 한 단어 벡터 표현 | 129 | C ++ | - |
| 2015/06 | Paraphrase Database에서 Compositional Paraphrase 모델 및 뒤로 | 3 | 티아노 | 단락 |
| 2015/06 | 비 분산 단어 벡터 표현 | 68 | 파이썬 | WordFeat |
| 2015/?? | 성격과 단어 임베딩에 대한 공동 학습 | 195 | 기음 | - |
| 2015/?? | Sensembed : 단어와 관계 적 유사성을위한 학습 감각 임베드 | 249 | - | Sensembed |
| 2015/?? | 국소 단어 임베딩 | 292 | 사이 톤 | |
| 2016/02 | SWIVEL : 누락 된 것을 알아 차리면서 임베딩을 개선합니다 | 61 | TF | - |
| 2016/03 | 언어 적 제약에 반대하는 단어 벡터 | 232 | 파이썬 | 반제품 (파손) |
| 2016/05 | LDA2VEC를 만들기 위해 Dirichlet 주제 모델 및 단어 임베딩 믹싱 | 91 | 체인 | - |
| 2016/06 | 시암 덩어리 : 문장 표현을위한 단어 임베딩 최적화 | 166 | 티아노 | 시암 덩어리 |
| 2016/06 | 개선 된 단어 표현을위한 창 샘플링 및 음극 샘플링을 사용한 매트릭스 인수화 | 58 | 가다 | Lexvec |
| 2016/07 | 서브 워드 정보를 갖춘 단어 벡터를 풍부하게합니다 | 999+ | C ++ | FastText |
| 2016/08 | 확률 적 신경 단어 임베딩을위한 형태 학적 사전 | 34 | 티아노 | - |
| 2016/11 | 공동 작업 모델 : 여러 NLP 작업을위한 신경망 성장 | 359 | C ++ | charngram2vec |
| 2016/12 | Conceptnet 5.5 : 일반적인 지식의 공개 다국어 그래프 | 604 | 파이썬 | 숫자 배치 |
| 2016/?? | 단어 메타 엠 베딩 학습 | 58 | - | 메타 EMB (깨진) |
| 2017/02 | 오프라인 이중 언어 단어 벡터, 직교 변환 및 거꾸로 된 SoftMax | 336 | 파이썬 | - |
| 2017/04 | 멀티 모달 단어 분포 | 57 | TF | Word2gm |
| 2017/05 | 학습 계층 적 표현을위한 Poincaré 임베딩 | 413 | Pytorch | - |
| 2017/06 | word2veec의 단순하지만 강력한 확장으로 인코더 | 13 | 파이썬 | - |
| 2017/06 | 모노 링 구 및 교차 제약을 사용한 분포 단어 벡터 공간의 시맨틱 전문화 | 99 | TF | 매력-레펠 |
| 2017/08 | 문자의 글리프에서 중국어 단어 표현을 배우는 것 | 44 | 기음 | - |
| 2017/08 | 단어 임베딩을 이해합니다 | 92 | 파이썬 | Sensegram |
| 2017/09 | 효율적인 단어 표현을위한 해시 임베딩 | 25 | 케라 | - |
| 2017/10 | BPEMB : 275 개 언어로 된 토큰 화가없는 미리 훈련 된 서브 워드 | 91 | 세대 | BPEMB |
| 2017/11 | 척추 : 희소 해석 가능한 신경 임베딩 | 48 | Pytorch | 척추 |
| 2017/?? | ARAVEC : 아랍어 NLP에서 사용하기위한 아랍어 단어 임베딩 모델 세트 | 161 | 세대 | ARAVEC |
| 2017/?? | NGRAM2VEC : NGRAM 동시 발생 통계에서 개선 된 단어 표현을 학습합니다 | 25 | 기음 | - |
| 2017/?? | Dict2Vec : 어휘 사전을 사용한 단어 임베딩 학습 | 49 | C ++ | dict2vec |
| 2017/?? | 중국어 단어, 캐릭터 및 세분화 된 하위 문자 구성 요소의 공동 임베드 | 63 | 기음 | - |
| 2018/04 | 쌍곡선 임베딩에 대한 표현 트레이드 오프 | 120 | Pytorch | H-MD |
| 2018/04 | 개선 된 문장 표현을위한 동적 메타 엠 베드 딩 | 60 | Pytorch | DME/CDME |
| 2018/05 | 중국 형태 및 시맨틱 관계에 대한 유사성 추론 | 128 | - | ChineseWordVectors |
| 2018/06 | 멀티 스센스 단어 임베딩에 대한 확률 적 빠른 텍스트 | 39 | C ++ | 확률 적 빠른 텍스트 |
| 2018/09 | 그래프 컨볼 루션 네트워크를 사용하여 단어 임베딩에 구문 및 의미 정보 통합 | 3 | TF | syngcn |
| 2018/09 | FRAGE : 주파수 공유 단어 표현 | 64 | Pytorch | - |
| 2018/12 | Wikipedia2Vec : Wikipedia의 단어 및 엔티티의 학습을위한 최적화 된 도구 | 17 | 사이 톤 | Wikipedia2Vec |
| 2018/?? | 방향 스킵 그램 : 단어 임베딩에 대한 왼쪽과 오른쪽 컨텍스트를 명시 적으로 구별합니다. | 106 | - | 중국의 embedding |
| 2018/?? | CW2VEC : 뇌졸중 N- 그램 정보로 중국어 단어 임베드를 배우는 학습 | 45 | C ++ | - |
| 2019/02 | VCWE : 시각적 문자 향상 단어 임베딩 | 5 | Pytorch | vcwe |
| 2019/05 | 먼 감독을 통해 트위터에서 교차 언어 임베드를 배우는 것 | 2 | 텍스트 | - |
| 2019/08 | 단어와 맥락 표현 학습에 대한 감독되지 않은 성격 인식 신경 적 접근 | 5 | TF | - |
| 2019/08 | Vico : 시각적 동시 발생의 단어 임베딩 | 7 | Pytorch | 비코 |
| 2019/11 | 구형 텍스트 임베딩 | 25 | 기음 | - |
| 2019/?? | 감독되지 않은 단어 임베딩 캡처 재료 과학 문헌의 잠재 지식 | 150 | 세대 | - |
| 날짜 | 종이 | 인용 수 | 암호 | 사전 예방 모델 |
|---|---|---|---|---|
| - | 언어 모델은 감독되지 않은 멀티 태스킹 학습자입니다 | N/A | TF Pytorch, TF2.0 케라 | GPT-2 (117m, 124m, 345m, 355m, 774m, 1558m) |
| 2017/08 | 번역에서 배운 : 맥락화 된 단어 벡터 | 524 | Pytorch 케라 | 후미 |
| 2018/01 | 텍스트 분류를위한 보편적 언어 모델 미세 조정 | 167 | Pytorch | ulmfit (영어, 동물원) |
| 2018/02 | 깊은 맥락화 된 단어 표현 | 999+ | Pytorch TF | Elmo (Allennlp, TF-Hub) |
| 2018/04 | 효율적인 상황에 맞는 표현 : 서열 레이블을위한 언어 모델 가지 치기 | 26 | Pytorch | LD-NET |
| 2018/07 | 더 나은 UD 파싱을 향해 : 깊은 맥락화 된 단어 임베딩, 앙상블 및 트리 뱅크 연결 | 120 | Pytorch | 엘모 |
| 2018/08 | 고위 언어 모델에 대한 직접 출력 연결 | 24 | Pytorch | 의사 |
| 2018/10 | BERT : 언어 이해를위한 깊은 양방향 변압기의 사전 훈련 | 999+ | TF 케라 Pytorch, TF2.0 mxnet 패들 라디 TF 케라 | 버트 (Bert, Ernie, Kobert) |
| 2018/?? | 시퀀스 라벨링을위한 문맥 문자열 임베딩 | 486 | Pytorch | 예민한 후각 |
| 2018/?? | 생성 사전 훈련에 의한 언어 이해 향상 | 999+ | TF 케라 Pytorch, TF2.0 | gpt |
| 2019/01 | 자연어 이해를위한 멀티 태스킹 심층 신경망 | 364 | Pytorch | MT-DNN |
| 2019/01 | Biobert : 생의학 텍스트 마이닝을위한 미리 훈련 된 생물 의학 언어 표현 모델 | 634 | TF | Biobert |
| 2019/01 | 교차 언어 모델 사전 조정 | 639 | Pytorch Pytorch, TF2.0 | XLM |
| 2019/01 | Transformer-XL : 고정 길이의 컨텍스트를 넘어 세심한 언어 모델 | 754 | TF Pytorch Pytorch, TF2.0 | 변압기 -XL |
| 2019/02 | SoftMax 층이없는 효율적인 상황 표현 학습 | 2 | Pytorch | - |
| 2019/03 | SCIBERT : 과학적 텍스트를위한 사전에 사전 컨텍스트 화 된 임베드 | 124 | Pytorch, tf | Scibert |
| 2019/04 | 공개적으로 이용 가능한 임상 적 버트 임베딩 | 229 | 텍스트 | Clinicalbert |
| 2019/04 | Clinicalbert : 임상 노트 모델링 및 병원 재 입원 예측 | 84 | Pytorch | Clinicalbert |
| 2019/05 | Ernie : 유익한 엔티티와의 언어 표현이 향상되었습니다 | 210 | Pytorch | 어니 |
| 2019/05 | 자연어 이해 및 생성을위한 통합 언어 모델 사전 훈련 | 278 | Pytorch | UNILMV1 (UNILM1-LARGE-CASSISS, UNILM1-베이스-케이스) |
| 2019/05 | Hibert : 문서 요약을위한 계층 적 양방향 변압기의 문서 레벨 사전 훈련 | 81 | - | |
| 2019/06 | 중국어 버트를위한 전체 단어 마스킹으로 사전 훈련 | 98 | Pytorch, tf | Bert-WWM |
| 2019/06 | XLNET : 언어 이해를위한 일반적인 자동 회귀 전 사전 조정 | 999+ | TF Pytorch, TF2.0 | xlnet |
| 2019/07 | Ernie 2.0 : 언어 이해를위한 지속적인 사전 훈련 프레임 워크 | 107 | 패들 라디 | 어니 2.0 |
| 2019/07 | Spanbert : 스팬을 표현하고 예측하여 사전 훈련 개선 | 282 | Pytorch | 스팬버트 |
| 2019/07 | Roberta : 강력하게 최적화 된 Bert Pretraining 접근법 | 999+ | Pytorch Pytorch, TF2.0 | 로베르타 |
| 2019/09 | 서브 워드 엘모 | 1 | Pytorch | - |
| 2019/09 | 지식 향상된 맥락 단어 표현 | 115 | - | |
| 2019/09 | Tinybert : 자연어 이해를위한 증류점 | 129 | - | |
| 2019/09 | Megatron-LM : 모델 병렬 처리를 사용하여 수십억 개의 매개 변수 언어 모델을 교육합니다 | 136 | Pytorch | Megatron-LM (Bert-345M, GPT-2-345M) |
| 2019/09 | 다중 자리 : 효율적인 다국어 언어 모델 미세 조정 | 29 | Pytorch | - |
| 2019/09 | 최적의 서브 워드 및 공유 예측으로 극단적 인 언어 모델 압축 | 32 | - | |
| 2019/09 | 노새 : 멀티 모달 보편적 언어 임베딩 | 5 | - | |
| 2019/09 | 유니 코더 : 여러 개의 언어 작업으로 사전 훈련을 통한 범용 언어 인코더 | 51 | - | |
| 2019/09 | K-Bert : 지식 그래프로 언어 표현 활성화 | 59 | - | |
| 2019/09 | initer : 보편적 인 이미지 텍스트 표현 학습 | 60 | - | |
| 2019/09 | Albert : 언어 표현에 대한 자기 감독 학습을위한 라이트 버트 | 803 | TF | - |
| 2019/10 | BART : 자연 언어 생성, 번역 및 이해에 대한 시퀀스-시퀀스 사전 훈련 미용사 | 349 | Pytorch | BART (BART.BASE, BART.LARGE, BART.LARGE.MNLI, BART.LARGE.CNN, BART.LARGE.XSUM) |
| 2019/10 | Distilbert, Bert의 증류 된 버전 : 작고, 빠르며, 저렴하며 가벼운 | 481 | Pytorch, TF2.0 | Distilbert |
| 2019/10 | 통합 된 텍스트-텍스트 변압기로 전송 학습의 한계 탐색 | 696 | TF | T5 |
| 2019/11 | Camembert : 맛있는 프랑스어 모델 | 102 | - | 카망베르 |
| 2019/11 | Zen : N-Gram 표현으로 향상된 중국어 텍스트 인코더 사전 훈련 | 15 | Pytorch | - |
| 2019/11 | 감독되지 않은 교차 대표 학습 규모 | 319 | Pytorch | XLM-R (XLM-ROBERTA) (XLMR.LARGE, XLMR.BASE) |
| 2020/01 | Prophetnet : 시퀀스-시퀀스 사전 훈련을위한 미래의 N-Gram을 예측합니다 | 35 | Pytorch | Prophetnet (Prophetnet-Large-16GB, Prophetnet-Large-160GB) |
| 2020/02 | Codebert : 프로그래밍 및 자연 언어를위한 미리 훈련 된 모델 | 25 | Pytorch | Codebert |
| 2020/02 | UNILMV2 : 통합 언어 모델 사전 훈련을위한 의사 마스크 언어 모델 | 33 | Pytorch | - |
| 2020/03 | Electra : 발전기가 아닌 판별 자로 사전 훈련 텍스트 인코더 | 203 | TF | 전자 (전자-스몰, 전기-기반, 전기-래지) |
| 2020/04 | MPNET : 언어 이해를 위해 마스크 및 순열 사전 훈련 | 5 | Pytorch | mpnet |
| 2020/05 | Parsbert : 페르시아어 이해를위한 변압기 기반 모델 | 1 | Pytorch | 파스버트 |
| 2020/05 | 언어 모델은 소수의 학습자입니다 | 382 | - | - |
| 2020/07 | Infoxlm : 언어 간 모델 사전 훈련을위한 정보 이론적 프레임 워크 | 12 | Pytorch | - |
| 날짜 | 종이 | 인용 수 | 암호 | model_name |
|---|---|---|---|---|
| - | 저주적 설정에서 신경 기계 번역에 대한 증분 도메인 적응 | N/A | 파이썬 | 아라 시프 |
| 2014/05 | 문장 및 문서의 분산 된 표현 | 999+ | Pytorch 파이썬 | doc2vec |
| 2014/11 | 멀티 모달 신경 언어 모델로 시각적 형성 임베딩을 통일합니다 | 849 | 티아노 Pytorch | VSE |
| 2015/06 | 책과 영화 조정 : 영화를보고 책을 읽어 이야기와 같은 시각적 설명을 향해 | 795 | 티아노 TF Pytorch, 토치 | 건너 뛰기 |
| 2015/11 | 이미지와 언어의 주문 제작 | 354 | 티아노 | 주문 퇴치 |
| 2015/11 | 보편적 인 paraphrastic 문장 임베드를 향해 | 411 | 티아노 | PARAGRAMPHRASE |
| 2015/?? | 단어 임베딩에서 문서 거리까지 | 999+ | C, 파이썬 | 단어 발동기의 거리 |
| 2016/02 | 표지되지 않은 데이터에서 문장의 분산 표현 학습 | 363 | 파이썬 | 금식 |
| 2016/07 | Charagram : 문자 n- 그램을 통해 단어와 문장을 포함시킵니다 | 144 | 티아노 | 샤라 그램 |
| 2016/11 | Convolutional Neural Networks를 사용하여 일반 문장 표현 학습 | 76 | 티아노 | 컨소즈 |
| 2017/03 | 구성 N- 그램 기능을 사용한 문장 임베딩에 대한 감독되지 않은 학습 | 319 | C ++ | SENT2VEC |
| 2017/04 | 리뷰를 생성하고 감정을 발견하는 법을 배웁니다 | 293 | TF Pytorch Pytorch | 감정 뉴런 |
| 2017/05 | Paraphrastic Rentence Embedding에 대한 반복 네트워크 재 방문 | 60 | 티아노 | 그란 |
| 2017/05 | 자연 언어 추론 데이터에서 보편적 문장 표현의 감독 학습 | 999+ | Pytorch | 인스센트 |
| 2017/07 | VSE ++ : 단단한 네거티브로 시각적 인 정신적 임베드 개선 | 132 | Pytorch | VSE ++ |
| 2017/08 | 감정, 감정 및 풍자를 탐지하기위한 도메인 표현을 배우기 위해 수백만 개의 이모티콘 발생을 사용합니다. | 357 | 케라 Pytorch | Deepmoji |
| 2017/09 | Starspace : 모든 것을 포함시킵니다! | 129 | C ++ | 스타 스페이스 |
| 2017/10 | 반대 의견 : 명시 적 담론 관계에서 문장 표현 학습 | 47 | Pytorch | 불찬성 |
| 2017/11 | 수백만 건의 기계 번역으로 Polaphrastic 문장 임베드의 한계를 추진 | 128 | 티아노 | para-nmt |
| 2017/11 | 인스턴스 손실이있는 이중 경로 컨볼 루션 이미지 텍스트 포함 | 44 | MATLAB | 이미지 텍스트-엠 베딩 |
| 2018/03 | 학습 문장 표현을위한 효율적인 프레임 워크 | 183 | TF | 빠른 생각 |
| 2018/03 | 유니버설 문장 인코더 | 564 | TF-Hub | 사용 |
| 2018/04 | 엔세스 간 상호 작용의 깊은 탐사를 통한 종료 직접 지향 텍스트 수입 | 14 | 티아노 | Deiste |
| 2018/04 | 대규모 멀티 태스킹 학습을 통한 범용 분산 문장 표현 학습 | 198 | Pytorch | 젠슨 |
| 2018/06 | 쌍곡선 공간에 텍스트를 포함시킵니다 | 50 | TF | 하이퍼 텍스트 |
| 2018/07 | 대조적 인 예측 코딩을 가진 표현 학습 | 736 | 케라 | CPC |
| 2018/08 | 컨텍스트 무버의 거리 및 바리 센터 : 건물 표현을위한 최적의 컨텍스트 전송 | 8 | 파이썬 | CMD |
| 2018/09 | 평균 최대 주목자가 코더로 보편적 문장 표현 학습 | 14 | TF | 평균 맥 사아 |
| 2018/10 | 멀티 태스킹 듀얼 인코더 모델을 통한 교차 문장 표현 학습 | 35 | TF-Hub | 사용 -xling |
| 2018/10 | 합의 최대화로 문장 표현 개선 | 4 | - | 멀티 뷰 |
| 2018/10 | Biosentveec : 생물 의학 텍스트에 대한 문장 임베드 만들기 | 70 | 파이썬 | Biosentvec |
| 2018/11 | Word Mover 's Embedding : Word2Vec에서 문서 임베딩까지 | 47 | C, 파이썬 | WordMoverSembeddings |
| 2018/11 | 시맨틱 작업의 임베딩 학습을위한 계층 적 멀티 태스크 접근법 | 76 | Pytorch | HMTL |
| 2018/12 | 제로 샷 교차 전송 및 그 이상을위한 대규모 다국어 문장 임베드 | 238 | Pytorch | 원자 램프 |
| 2018/?? | 보편적 문장 임베딩을위한 컨볼 루션 신경 네트워크 | 6 | 티아노 | CSE |
| 2019/01 | 훈련 필요 없음 : 문장 분류를 위해 임의의 인코더 탐색 | 54 | Pytorch | Randsent |
| 2019/02 | Cbow는 필요한 전부가 아닙니다 : Cbow와 구성 매트릭스 공간 모델을 결합합니다. | 4 | Pytorch | cmow |
| 2019/07 | 광택 : 문장 표현의 생성 잠재적 최적화 | 1 | - | 광택 |
| 2019/07 | 다국어 범용 문장 인코더 | 52 | TF-Hub | 다국어 |
| 2019/08 | 문장-베르트 : 샴 베르트 네트워크를 사용한 문장 임베딩 | 261 | Pytorch | 문장-베르트 |
| 2020/02 | SBERT-WK : BERT 기반 단어 모델을 해부하여 문장 임베딩 방법 | 11 | Pytorch | Sbert-wk |
| 2020/06 | Declutr : 감독되지 않은 텍스트 표현에 대한 대조적 인 학습 | 4 | Pytorch | declutr |
| 2020/07 | 언어-비수성 Bert 문장 임베딩 | 5 | TF-Hub | labse |
| 2020/11 | 사전 훈련 된 언어 모델의 문장 내부 | 0 | TF | 버트 플로우 |