Incorporation de mot espagnol
Vous trouverez ci-dessous des liens vers des incorporations de mots espagnols calculées avec différentes méthodes et de différentes corpus. Chaque fois que cela est possible, une description des paramètres utilisées pour calculer les intérêts est incluse, ainsi que des statistiques simples des vecteurs, du vocabulaire et de la description du corpus à partir desquels les intérêts ont été calculés. Des liens directs vers les intérêts sont fournis, veuillez donc vous référer aux sources originales pour une citation appropriée (voir également les références). Un exemple de l'utilisation de certains de ces intérêts peut être trouvé ici ou dans ce tutoriel (tous deux en espagnol).
Résumé (et liens) pour les intégres dans cette page:
| Corpus | Taille | Algorithme | # vecteurs | vec-dim | Crédits |
|---|
| 1 | Corpus espagnols non annotés | 2.6b | Texte rapide | 1 313 423 | 300 | José cañete |
| 2 | Corpus de mot à milliards espagnol | 1.4b | Texte rapide | 855 380 | 300 | Jorge Pérez |
| 3 | Corpus de mot à milliards espagnol | 1.4b | Gant | 855 380 | 300 | Jorge Pérez |
| 4 | Corpus de mot à milliards espagnol | 1.4b | Word2vec | 1 000 653 | 300 | Cristian Cardellino |
| 5 | Wikipedia espagnol | ??? | Texte rapide | 985 667 | 300 | Équipe FastText |
FastText Embeddings de Suc
Incorporer
Liens vers les intégres (# dimensions = 300, # vecteurs = 1 313 423):
- Format vectoriel (.VEC) (3,4 Go)
- Format binaire (.bin) (5,6 Go)
Plus de vecteurs avec différentes dimensions (10, 30, 100 et 300) peuvent être trouvés ici
Algorithme
- Implémentation: FastText avec Skipgram
- Paramètres:
- Min sous-mot-ngram = 3
- max sous-mot-ngram = 6
- mincount = 5
- époques = 20
- dim = 300
- Tous les autres paramètres définissent par défaut
Corpus
- Corpus espagnols non annotés
- Taille du corpus: 3 milliards de mots
- Post traitement: expliqué dans les intérêts et les repos corporels, qui incluent la tokenisation, les minuscules, les listes supprimées et les URL.
FastText Embeddings de SBWC
Incorporer
Liens vers les intégres (# dimensions = 300, # vecteurs = 855 380):
- Format vectoriel (.ve.gz) (802 Mo)
- Format binaire (.bin) (4,2 Go)
Algorithme
- Implémentation: FastText avec Skipgram
- Paramètres:
- Min sous-mot-ngram = 3
- max sous-mot-ngram = 6
- mincount = 5
- époques = 20
- dim = 300
- Tous les autres paramètres définissent par défaut
Corpus
- Corpus de mot à milliards espagnol
- Taille du corpus: 1,4 milliard de mots
- Post traitement: Outre le post-traitement du corpus brut expliqué dans la page SBWCE qui comprenait la suppression de ponctuation, de chiffres, etc., le traitement suivant a été appliqué:
- Les mots ont été convertis en lettres minuscules
- Chaque séquence du mot-clé «digito» a été remplacée par (un seul) «0»
- Tous les mots de plus de 3 caractères plus un «0» ont été ouverts (exemple: «Padre0»)
Gants intégrés de SBWC
Incorporer
Liens vers les intégres (# dimensions = 300, # vecteurs = 855 380):
- Format vectoriel (.Vec.gz) (906 Mo)
- Format binaire (.bin) (3,9 Go)
Algorithme
- Implémentation: gant
- Paramètres:
- Vector-Size = 300
- iter = 25
- Count min = 5
- Tous les autres paramètres définissent par défaut
Corpus
- Corpus Word Billion Word (voir ci-dessus)
Word2Vec Embeddings de SBWC
Incorporer
Liens vers les intégres (# dimensions = 300, # vecteurs = 1 000 653)
- Format vectoriel (.txt.bz2)
- Format binaire (.bin.gz)
Algorithme
- Implémentation: Word2Vec avec Skipgram par Gensim
- Paramètres: Pour plus de détails sur les paramètres, veuillez vous référer à la page SBWCE
Corpus
- Corpus de mot à milliards espagnol
- Taille du corpus: 1,4 milliard de mots
FastText Embeddings de Wikipedia espagnol
Incorporer
Liens vers les intégres (# dimensions = 300, # vecteurs = 985 667):
- Format vectoriel (.VEC) (2,4 Go)
- Format vectoriel binaire plus (.zip) (5,4 Go)
Algorithme
- Implémentation: FastText avec Skipgram
- Paramètres: paramètres par défaut de FastText
Corpus
Références
- Les incorporations de texte rapide de Suc: Les intégres de mots ont été calculés par José Cañete chez BotCenter. Vous pouvez utiliser ces vecteurs comme vous le souhaitez sous la licence MIT. Veuillez vous référer à BotCenter Embeddings Repo pour une discussion plus approfondie. Vous pouvez également citer les vecteurs de mots enrichissants de papier FastText avec des informations de sous-mots.
- FastText Embeddings de SBWC: les intégres de mots ont été calculés par Jorge Pérez. Vous pouvez utiliser ces vecteurs comme vous le souhaitez sous la licence CC-BY-4.0. Vous pouvez également citer les vecteurs de mots enrichissants de papier FastText avec des informations de sous-mots et le projet de corpus Word Spanish Billion Word.
- Les incorporations de gants de SBWC: les incorporations de mots ont été calculées par Jorge Pérez. Vous pouvez utiliser ces vecteurs comme vous le souhaitez sous la licence CC-BY-4.0. Vous pouvez également citer le gant Glove Paper Glove: Global Vectors for Word Representation and the Spanish Billion Word Corpus Project.
- FastText Embeddings de Wikipedia espagnol: les intégres de mots ont été calculés par l'équipe FastText. Veuillez vous référer à la page de vecteurs pré-formés FastText si vous souhaitez utiliser ces vecteurs.
- Les incorporations Word2Vec de SBWC: les intégres de mots ont été calculés par Cristian Cardellino. Veuillez vous référer à la page SBWCE si vous souhaitez utiliser ces vecteurs.