西班牙语单词嵌入
在下面,您可以找到指向使用不同方法和不同语料库计算的西班牙单词嵌入式的链接。只要有可能,就包含了用于计算嵌入的参数的描述,以及对向量,词汇的简单统计信息,以及计算嵌入的语料库的描述。提供了指向嵌入的直接链接,因此请参阅原始资源以获取适当的引用(另请参见参考文献)。可以在此处或本教程中找到其中一些嵌入的示例(均以西班牙语)找到。
此页面中嵌入的摘要(和链接):
| 语料库 | 尺寸 | 算法 | #vectors | vec-dim | 学分 |
|---|
| 1 | 西班牙未经通知的语料库 | 2.6b | fastText | 1,313,423 | 300 | JoséCañete |
| 2 | 西班牙十亿个单词语料库 | 1.4b | fastText | 855,380 | 300 | 豪尔赫·佩雷斯(JorgePérez) |
| 3 | 西班牙十亿个单词语料库 | 1.4b | 手套 | 855,380 | 300 | 豪尔赫·佩雷斯(JorgePérez) |
| 4 | 西班牙十亿个单词语料库 | 1.4b | Word2Vec | 1,000,653 | 300 | 克里斯蒂安·卡德利诺(Cristian Cardellino) |
| 5 | 西班牙维基百科 | ??? | fastText | 985,667 | 300 | FastText团队 |
suc的fastText嵌入
嵌入
链接到嵌入式(#dimensions = 300,#vectors = 1,313,423):
- 向量格式(.VEC)(3.4 GB)
- 二进制格式(.bin)(5.6 GB)
可以在此处找到更多具有不同尺寸(10、30、100和300)的向量
算法
- 实现:带有Skipgram的FastText
- 参数:
- min subword-ngram = 3
- 最大子词ngram = 6
- mincount = 5
- 时代= 20
- DIM = 300
- 所有其他参数设置为默认
语料库
- 西班牙未经通知的语料库
- 语料库大小:30亿个单词
- 后处理:在嵌入式和语料库存储库中进行了解释,其中包括令牌化,小写,删除的列表和URL。
SBWC的FastText嵌入
嵌入
链接到嵌入式(#dimensions = 300,#vectors = 855,380):
- 向量格式(.vec.gz)(802 MB)
- 二进制格式(.bin)(4.2 GB)
算法
- 实现:带有Skipgram的FastText
- 参数:
- min subword-ngram = 3
- 最大子词ngram = 6
- mincount = 5
- 时代= 20
- DIM = 300
- 所有其他参数设置为默认
语料库
- 西班牙十亿个单词语料库
- 语料库大小:14亿个单词
- 后处理:除了在SBWCE页面中解释的RAW语料库的后处理外,还应用了以下处理:应用以下处理:
- 单词被转换为较低的案例字母
- “ Digito”关键字的每个序列都被(单个)'0'取代
- 所有的三个字符和'0'的单词都符合(示例:'padre0')
SBWC的手套嵌入
嵌入
链接到嵌入式(#dimensions = 300,#vectors = 855,380):
- 向量格式(.vec.gz)(906 MB)
- 二进制格式(.bin)(3.9 GB)
算法
- 实施:手套
- 参数:
- 向量大小= 300
- iter = 25
- 最小计数= 5
- 所有其他参数设置为默认
语料库
SBWC的Word2Vec嵌入
嵌入
链接到嵌入式(#dimensions = 300,#vectors = 1,000,653)
- 向量格式(.txt.bz2)
- 二进制格式(.bin.gz)
算法
- 实施:Word2Vec带有Gensim的Skipgram
- 参数:有关参数的详细信息,请参阅SBWCE页面
语料库
西班牙wikipedia的fastText嵌入
嵌入
链接到嵌入式(#dimensions = 300,#vectors = 985,667):
- 矢量格式(.VEC)(2.4 GB)
- 二进制加矢量格式(.zip)(5.4 GB)
算法
- 实现:带有Skipgram的FastText
- 参数:fastText默认参数
语料库
参考
- suc的fastText嵌入:botcenter的何塞·卡涅特(JoséCañete)计算了单词嵌入。您可以根据MIT许可证使用这些向量。请参阅Botcenter嵌入式存储库以进行进一步讨论。您可能还想引用使用子字信息的FastText纸张丰富单词向量。
- SBWC的FastText嵌入:单词嵌入由JorgePérez计算出来。您可以按照CC-By-4.0许可证使用这些向量。您可能还想引用使用子词信息和西班牙十亿个单词coppus项目的FastText纸张丰富的单词矢量。
- SBWC的手套嵌入:单词嵌入由JorgePérez计算出来。您可以按照CC-By-4.0许可证使用这些向量。您可能还想引用手套纸手套:单词表示形式和西班牙十亿个单词语料库项目的全球向量。
- 西班牙wikipedia的FastText嵌入:词嵌入由FastText团队计算出来。如果您想使用这些向量,请参阅FastText预训练的矢量页面。
- SBWC的Word2Vec嵌入:词嵌入由Cristian Cardellino计算出来。如果您想使用这些向量,请参考SBWCE页面。