西班牙語單詞嵌入
在下面,您可以找到指向使用不同方法和不同語料庫計算的西班牙單詞嵌入式的鏈接。只要有可能,就包含了用於計算嵌入的參數的描述,以及對向量,詞彙的簡單統計信息,以及計算嵌入的語料庫的描述。提供了指向嵌入的直接鏈接,因此請參閱原始資源以獲取適當的引用(另請參見參考文獻)。可以在此處或本教程中找到其中一些嵌入的示例(均以西班牙語)找到。
此頁面中嵌入的摘要(和鏈接):
| 語料庫 | 尺寸 | 演算法 | #vectors | vec-dim | 學分 |
|---|
| 1 | 西班牙未經通知的語料庫 | 2.6b | fastText | 1,313,423 | 300 | JoséCañete |
| 2 | 西班牙十億個單詞語料庫 | 1.4b | fastText | 855,380 | 300 | 豪爾赫·佩雷斯(JorgePérez) |
| 3 | 西班牙十億個單詞語料庫 | 1.4b | 手套 | 855,380 | 300 | 豪爾赫·佩雷斯(JorgePérez) |
| 4 | 西班牙十億個單詞語料庫 | 1.4b | Word2Vec | 1,000,653 | 300 | 克里斯蒂安·卡德利諾(Cristian Cardellino) |
| 5 | 西班牙維基百科 | ??? | fastText | 985,667 | 300 | FastText團隊 |
suc的fastText嵌入
嵌入
鏈接到嵌入式(#dimensions = 300,#vectors = 1,313,423):
- 向量格式(.VEC)(3.4 GB)
- 二進制格式(.bin)(5.6 GB)
可以在此處找到更多具有不同尺寸(10、30、100和300)的向量
演算法
- 實現:帶有Skipgram的FastText
- 參數:
- min subword-ngram = 3
- 最大子詞ngram = 6
- mincount = 5
- 時代= 20
- DIM = 300
- 所有其他參數設置為默認
語料庫
- 西班牙未經通知的語料庫
- 語料庫大小:30億個單詞
- 後處理:在嵌入式和語料庫存儲庫中進行了解釋,其中包括令牌化,小寫,刪除的列表和URL。
SBWC的FastText嵌入
嵌入
鏈接到嵌入式(#dimensions = 300,#vectors = 855,380):
- 向量格式(.vec.gz)(802 MB)
- 二進制格式(.bin)(4.2 GB)
演算法
- 實現:帶有Skipgram的FastText
- 參數:
- min subword-ngram = 3
- 最大子詞ngram = 6
- mincount = 5
- 時代= 20
- DIM = 300
- 所有其他參數設置為默認
語料庫
- 西班牙十億個單詞語料庫
- 語料庫大小:14億個單詞
- 後處理:除了在SBWCE頁面中解釋的RAW語料庫的後處理外,還應用了以下處理:應用以下處理:
- 單詞被轉換為較低的案例字母
- “ Digito”關鍵字的每個序列都被(單個)'0'取代
- 所有的三個字符和'0'的單詞都符合(示例:'padre0')
SBWC的手套嵌入
嵌入
鏈接到嵌入式(#dimensions = 300,#vectors = 855,380):
- 向量格式(.vec.gz)(906 MB)
- 二進制格式(.bin)(3.9 GB)
演算法
- 實施:手套
- 參數:
- 向量大小= 300
- iter = 25
- 最小計數= 5
- 所有其他參數設置為默認
語料庫
SBWC的Word2Vec嵌入
嵌入
鏈接到嵌入式(#dimensions = 300,#vectors = 1,000,653)
- 向量格式(.txt.bz2)
- 二進制格式(.bin.gz)
演算法
- 實施:Word2Vec帶有Gensim的Skipgram
- 參數:有關參數的詳細信息,請參閱SBWCE頁面
語料庫
西班牙wikipedia的fastText嵌入
嵌入
鏈接到嵌入式(#dimensions = 300,#vectors = 985,667):
- 矢量格式(.VEC)(2.4 GB)
- 二進制加矢量格式(.zip)(5.4 GB)
演算法
- 實現:帶有Skipgram的FastText
- 參數:fastText默認參數
語料庫
參考
- suc的fastText嵌入:botcenter的何塞·卡涅特(JoséCañete)計算了單詞嵌入。您可以根據MIT許可證使用這些向量。請參閱Botcenter嵌入式存儲庫以進行進一步討論。您可能還想引用使用子字信息的FastText紙張豐富單詞向量。
- SBWC的FastText嵌入:單詞嵌入由JorgePérez計算出來。您可以按照CC-By-4.0許可證使用這些向量。您可能還想引用使用子詞信息和西班牙十億個單詞coppus項目的FastText紙張豐富的單詞矢量。
- SBWC的手套嵌入:單詞嵌入由JorgePérez計算出來。您可以按照CC-By-4.0許可證使用這些向量。您可能還想引用手套紙手套:單詞表示形式和西班牙十億個單詞語料庫項目的全球向量。
- 西班牙wikipedia的FastText嵌入:詞嵌入由FastText團隊計算出來。如果您想使用這些向量,請參閱FastText預訓練的矢量頁面。
- SBWC的Word2Vec嵌入:詞嵌入由Cristian Cardellino計算出來。如果您想使用這些向量,請參考SBWCE頁面。