Spanisches Wort Einbettung
Im Folgenden finden Sie Links zu spanischen Worteinbettungen, die mit unterschiedlichen Methoden und aus verschiedenen Korpora berechnet wurden. Immer wenn es möglich ist, ist eine Beschreibung der zur Berechnung der Einschreibungen verwendeten Parameter zusammen mit einfachen Statistiken der Vektoren, des Wortschatzes und der Beschreibung des Korpus, aus dem die Einbettungen berechnet wurden. Direkte Links zu den Einbettungen werden bereitgestellt. Weitere Informationen finden Sie in den Originalquellen für ordnungsgemäßes Zitat (auch siehe Referenzen). Ein Beispiel für die Verwendung einiger dieser Einbettungen finden Sie hier oder in diesem Tutorial (beide in Spanisch).
Zusammenfassung (und Links) für die Einbettungen auf dieser Seite:
| Korpus | Größe | Algorithmus | #vektoren | VEC-DIM | Credits |
|---|
| 1 | Spanische nicht annotierte Korpora | 2.6b | FastText | 1,313.423 | 300 | José Cañete |
| 2 | Spanischer Milliarden -Word -Korpus | 1.4b | FastText | 855.380 | 300 | Jorge Pérez |
| 3 | Spanischer Milliarden -Word -Korpus | 1.4b | Handschuh | 855.380 | 300 | Jorge Pérez |
| 4 | Spanischer Milliarden -Word -Korpus | 1.4b | Word2Vec | 1.000.653 | 300 | Cristian Cardellino |
| 5 | Spanische Wikipedia | ??? | FastText | 985.667 | 300 | FastText -Team |
FastText -Einbettungen von Suc
Einbettungen
Links zu den Einbettungen ( #Dimensions = 300, #Vektoren = 1.313.423):
- Vektorformat (.VEC) (3,4 GB)
- Binärformat (.Bin) (5,6 GB)
Weitere Vektoren mit unterschiedlichen Dimensionen (10, 30, 100 und 300) finden Sie hier
Algorithmus
- Implementierung: FastText mit Skipgram
- Parameter:
- min subword-ngram = 3
- Max Subword-ngram = 6
- mincount = 5
- Epochen = 20
- Dim = 300
- Alle anderen als Standard festgelegten Parameter
Korpus
- Spanische nicht annotierte Korpora
- Korpusgröße: 3 Milliarden Wörter
- Nachverarbeitung: Erklärt in Einbettungen und Korpora -Repos, einschließlich Tokenisierung, Kleinbuchstaben, Entfernung von Listings und URLs.
FastText -Einbettungen von SBWC
Einbettungen
Links zu den Einbettungen ( #Dimensions = 300, #Vektoren = 855.380):
- Vektorformat (.vec.gz) (802 MB)
- Binärformat (.Bin) (4,2 GB)
Algorithmus
- Implementierung: FastText mit Skipgram
- Parameter:
- min subword-ngram = 3
- Max Subword-ngram = 6
- mincount = 5
- Epochen = 20
- Dim = 300
- Alle anderen als Standard festgelegten Parameter
Korpus
- Spanischer Milliarden -Word -Korpus
- Korpusgröße: 1,4 Milliarden Wörter
- Post -Verarbeitung: Neben der Postverarbeitung des RAW Corpus, das auf der SBWCE -Seite erläutert wurde, die die Löschung der Zeichensetzung, Zahlen usw. enthielt, wurde die folgende Verarbeitung angewendet:
- Wörter wurden in niedrigere Fallbuchstaben konvertiert
- Jede Sequenz des Schlüsselworts 'Digito' wurde durch (ein einzelner) '0' ersetzt
- Alle Wörter von mehr als 3 Charakteren plus A '0' wurden befreit (Beispiel: 'Pater0')
Handschuhbettendings aus SBWC
Einbettungen
Links zu den Einbettungen ( #Dimensions = 300, #Vektoren = 855.380):
- Vektorformat (.vec.gz) (906 MB)
- Binärformat (.Bin) (3,9 GB)
Algorithmus
- Implementierung: Handschuh
- Parameter:
- Vektorgröße = 300
- ITER = 25
- min-count = 5
- Alle anderen als Standard festgelegten Parameter
Korpus
- Spanisches Milliarden -Word -Korpus (siehe oben)
Word2VEC -Einbettungen von SBWC
Einbettungen
Links zu den Einbettungen ( #Dimensions = 300, #Vektoren = 1.000.653)
- Vektorformat (.txt.bz2)
- Binärformat (.Bin.gz)
Algorithmus
- Implementierung: Word2Vec mit Skipgram von Gensim
- Parameter: Details zu Parametern finden Sie auf der SBWCE -Seite
Korpus
- Spanischer Milliarden -Word -Korpus
- Korpusgröße: 1,4 Milliarden Wörter
Fasttext -Einbettung aus spanischer Wikipedia
Einbettungen
Links zu den Einbettungen ( #Dimensions = 300, #Vektoren = 985.667):
- Vektorformat (.VEC) (2,4 GB)
- Binärer Plus -Vektorformat (.zip) (5,4 GB)
Algorithmus
- Implementierung: FastText mit Skipgram
- Parameter: FastText -Standardparameter
Korpus
- Wikipedia Spanische Müllkippe
Referenzen
- FastText -Einbettungen aus Suc: Word -Einbettungen wurden von José Cañete in BotCenter berechnet. Sie können diese Vektoren nach der MIT -Lizenz verwenden. Weitere Diskussionen finden Sie unter BotCenter Embodings Repo. Möglicherweise möchten Sie auch die FastText -Papier -Anreicherungs -Wortvektoren mit Subword -Informationen zitieren.
- FastText -Einbettungen aus SBWC: Worteinbettungen wurden von Jorge Pérez berechnet. Sie können diese Vektoren nach Belieben der CC-BY-4.0-Lizenz verwenden. Möglicherweise möchten Sie auch die FastText -Papier -Anreicherungs -Wortvektoren mit Subword -Informationen und das spanische Milliarden -Word -Corpus -Projekt zitieren.
- Handschuhbettendings aus SBWC: Worteinbettungen wurden von Jorge Pérez berechnet. Sie können diese Vektoren nach Belieben der CC-BY-4.0-Lizenz verwenden. Möglicherweise möchten Sie auch den Handschuhpapierhandschuh: Globale Vektoren für die Wortdarstellung und das spanische Milliarden -Word -Corpus -Projekt zitieren.
- FastText -Einbettungen aus spanischen Wikipedia: Word -Einbettungen wurden vom FastText -Team berechnet. Weitere Informationen zu FastText PreAnt Vectors finden Sie auf der FastText-Seite, wenn Sie diese Vektoren verwenden möchten.
- Word2VEC -Einbettungen aus SBWC: Worteinbettungen wurden von Cristian Cardellino berechnet. Weitere Informationen finden Sie in der SBWCE -Seite, wenn Sie diese Vektoren verwenden möchten.