스페인어 단어 임베딩
아래에는 다른 방법과 다른 Corpora로 계산 된 스페인어 단어 임베딩 링크가 있습니다. 가능할 때마다 벡터, 어휘 및 임베딩이 계산 된 코퍼스의 설명과 함께 임베딩을 계산하는 데 사용되는 매개 변수에 대한 설명이 포함됩니다. 임베딩에 대한 직접 링크가 제공되므로 적절한 인용은 원래 소스를 참조하십시오 (참조 참조). 이러한 임베딩 중 일부를 사용하는 예는 여기 또는이 튜토리얼 (스페인어로)에서 찾을 수 있습니다.
이 페이지의 임베딩에 대한 요약 (및 링크) :
| 신체 | 크기 | 연산 | #Vectors | VEC-DIM | 크레딧 |
|---|
| 1 | 스페인어 미확인 Corpora | 2.6b | FastText | 1,313,423 | 300 | José Cañete |
| 2 | 스페인 수십억 단어 코퍼스 | 1.4b | FastText | 855,380 | 300 | 호르헤 페레즈 |
| 3 | 스페인 수십억 단어 코퍼스 | 1.4b | 장갑 | 855,380 | 300 | 호르헤 페레즈 |
| 4 | 스페인 수십억 단어 코퍼스 | 1.4b | Word2vec | 1,000,653 | 300 | Cristian Cardellino |
| 5 | 스페인 위키 백과 | ? | FastText | 985,667 | 300 | FastText 팀 |
Sup의 FastText Embedings
임베딩
임베딩 링크 ( #치수 = 300, #vectors = 1,313,423) :
- 벡터 형식 (.Vec) (3.4GB)
- 이진 형식 (.Bin) (5.6GB)
차원이 다른 더 많은 벡터 (10, 30, 100 및 300)는 여기에서 찾을 수 있습니다.
연산
- 구현 : skipgram을 사용한 FastText
- 매개 변수 :
- Min Subword-ngram = 3
- Max subword-ngram = 6
- mincount = 5
- 에포크 = 20
- dim = 300
- 다른 모든 매개 변수는 기본값으로 설정됩니다
신체
- 스페인어 미확인 Corpora
- 코퍼스 크기 : 30 억 단어
- 포스트 처리 : 토큰 화, 소문자, 제거 된 목록 및 URL을 포함한 임베딩 및 코퍼라 리포지토리에 설명되어 있습니다.
SBWC의 FastText Embedings
임베딩
임베딩 링크 ( #치수 = 300, #vectors = 855,380) :
- 벡터 형식 (.Vec.gz) (802 MB)
- 이진 형식 (.Bin) (4.2GB)
연산
- 구현 : skipgram을 사용한 FastText
- 매개 변수 :
- Min Subword-ngram = 3
- Max subword-ngram = 6
- mincount = 5
- 에포크 = 20
- dim = 300
- 다른 모든 매개 변수는 기본값으로 설정됩니다
신체
- 스페인 수십억 단어 코퍼스
- 코퍼스 크기 : 14 억 단어
- Post Processing : 구두점, 숫자 등의 삭제를 포함하는 SBWCE 페이지에서 설명 된 원시 코퍼스의 사후 처리 외에도 다음과 같은 처리가 적용되었습니다.
- 단어는 소문자로 변환되었습니다
- 'Digito'키워드의 모든 시퀀스는 (단일) '0'으로 대체되었습니다.
- 3 개 이상의 문자와 '0'이라는 모든 단어가 헌신되었습니다 (예 : 'padre0')
SBWC의 장갑 임베딩
임베딩
임베딩 링크 ( #치수 = 300, #vectors = 855,380) :
- 벡터 형식 (.Vec.gz) (906 MB)
- 이진 형식 (.Bin) (3.9GB)
연산
- 구현 : 글러브
- 매개 변수 :
- 벡터 크기 = 300
- 반복 = 25
- Min-Count = 5
- 다른 모든 매개 변수는 기본값으로 설정됩니다
신체
SBWC의 Word2Vec 임베딩
임베딩
임베딩 링크 ( #치수 = 300, #벡터 = 1,000,653)
- 벡터 형식 (.txt.bz2)
- 이진 형식 (.bin.gz)
연산
- 구현 : Gensim의 Skipgram이있는 Word2Vec
- 매개 변수 : 매개 변수에 대한 자세한 내용은 SBWCE 페이지를 참조하십시오.
신체
- 스페인 수십억 단어 코퍼스
- 코퍼스 크기 : 14 억 단어
스페인 Wikipedia의 FastText Embedings
임베딩
임베딩 링크 ( #치수 = 300, #vectors = 985,667) :
- 벡터 형식 (.Vec) (2.4GB)
- 바이너리 플러스 벡터 형식 (.zip) (5.4 GB)
연산
- 구현 : skipgram을 사용한 FastText
- 매개 변수 : FastText 기본 매개 변수
신체
참조
- Suc : Word Embeddings의 FastText Embedings는 Botcenter의 José Cañete에 의해 계산되었습니다. MIT 라이센스에 따라 원하는대로 이러한 벡터를 사용할 수 있습니다. 자세한 내용은 Botcenter Embeddings Repo를 참조하십시오. 서브 워드 정보로 FastText 용지를 풍성한 단어 벡터를 인용 할 수도 있습니다.
- SBWC의 FastText Embeddings : Word Embeddings는 Jorge Pérez에 의해 계산되었습니다. CC-By-4.0 라이센스에 따라 원하는 대로이 벡터를 사용할 수 있습니다. 서브 워드 정보와 스페인어 10 억 단어 코퍼스 프로젝트를 갖춘 FastText 용지를 풍성한 단어 벡터를 인용 할 수도 있습니다.
- SBWC의 장갑 임베딩 : Word Embeddings는 Jorge Pérez에 의해 계산되었습니다. CC-By-4.0 라이센스에 따라 원하는 대로이 벡터를 사용할 수 있습니다. 또한 글러브 페이퍼 글러브 : 단어 표현을위한 글로벌 벡터와 스페인 수십억 단어 코퍼스 프로젝트를 인용 할 수도 있습니다.
- 스페인 Wikipedia의 FastText Embeddings : Word Embeddings는 FastText 팀에 의해 계산되었습니다. 이 벡터를 사용하려면 FastText 사전 훈련 된 벡터 페이지를 참조하십시오.
- SBWC의 Word2Vec 임베딩 : Word Embeddings는 Cristian Cardellino에 의해 계산되었습니다. 이 벡터를 사용하려면 SBWCE 페이지를 참조하십시오.