การฝังคำภาษาสเปน
ด้านล่างคุณจะพบลิงก์ไปยังการฝังคำภาษาสเปนที่คำนวณด้วยวิธีการที่แตกต่างกันและจาก corpora ที่แตกต่างกัน เมื่อใดก็ตามที่เป็นไปได้คำอธิบายของพารามิเตอร์ที่ใช้ในการคำนวณการฝังตัวจะรวมอยู่พร้อมกับสถิติง่ายๆของเวกเตอร์คำศัพท์และคำอธิบายของคลังข้อมูลที่คำนวณด้วยการฝัง มีการเชื่อมโยงโดยตรงไปยัง embeddings ดังนั้นโปรดดูแหล่งที่มาดั้งเดิมสำหรับการอ้างอิงที่เหมาะสม (ดูการอ้างอิง) ตัวอย่างของการใช้งานการฝังตัวเหล่านี้บางส่วนสามารถพบได้ที่นี่หรือในบทช่วยสอนนี้ (ทั้งในภาษาสเปน)
สรุป (และลิงก์) สำหรับ embeddings ในหน้านี้:
| คอร์ปัส | ขนาด | อัลกอริทึม | #Vectors | vec-dim | การให้เครดิต |
|---|
| 1 | Corpora ที่ยังไม่ได้กล่าวถึงภาษาสเปน | 2.6b | Fastext | 1,313,423 | 300 | JoséCañete |
| 2 | คลังคำพันคำของสเปนพันล้าน | 1.4B | Fastext | 855,380 | 300 | Jorge Pérez |
| 3 | คลังคำพันคำของสเปนพันล้าน | 1.4B | ถุงมือ | 855,380 | 300 | Jorge Pérez |
| 4 | คลังคำพันคำของสเปนพันล้าน | 1.4B | Word2Vec | 1,000,653 | 300 | Cristian Cardellino |
| 5 | วิกิพีเดียสเปน | - | Fastext | 985,667 | 300 | ทีม FastText |
FastText Embeddings จาก SUC
การฝัง
ลิงก์ไปยัง Embeddings ( #dimensions = 300, #vectors = 1,313,423):
- รูปแบบเวกเตอร์ (.VEC) (3.4 GB)
- รูปแบบไบนารี (.bin) (5.6 GB)
เวกเตอร์เพิ่มเติมที่มีมิติที่แตกต่างกัน (10, 30, 100 และ 300) สามารถพบได้ที่นี่
อัลกอริทึม
- การใช้งาน: fasttext ด้วย skipgram
- พารามิเตอร์:
- min subword-ngram = 3
- max subword-ngram = 6
- mincount = 5
- ยุค = 20
- สลัว = 300
- พารามิเตอร์อื่น ๆ ทั้งหมดตั้งค่าเป็นค่าเริ่มต้น
คอร์ปัส
- Corpora ที่ยังไม่ได้กล่าวถึงภาษาสเปน
- Corpus Size: 3 พันล้านคำ
- การประมวลผลโพสต์: อธิบายใน EMBEDDINGS และ CORPORA REPOS ซึ่งรวมถึงโทเค็น, ตัวพิมพ์เล็ก, รายชื่อที่ถูกลบและ URL
FastText Embeddings จาก SBWC
การฝัง
ลิงก์ไปยัง Embeddings ( #dimensions = 300, #vectors = 855,380):
- รูปแบบเวกเตอร์ (.vec.gz) (802 MB)
- รูปแบบไบนารี (.bin) (4.2 GB)
อัลกอริทึม
- การใช้งาน: fasttext ด้วย skipgram
- พารามิเตอร์:
- min subword-ngram = 3
- max subword-ngram = 6
- mincount = 5
- ยุค = 20
- สลัว = 300
- พารามิเตอร์อื่น ๆ ทั้งหมดตั้งค่าเป็นค่าเริ่มต้น
คอร์ปัส
- คลังคำพันคำของสเปนพันล้าน
- Corpus Size: 1.4 พันล้านคำ
- การประมวลผลโพสต์: นอกเหนือจากการประมวลผลโพสต์ของคลังข้อมูลดิบที่อธิบายไว้ในหน้า SBWCE ซึ่งรวมถึงการลบเครื่องหมายวรรคตอนตัวเลข ฯลฯ การประมวลผลต่อไปนี้ถูกนำไปใช้:
- คำถูกแปลงเป็นตัวอักษรตัวพิมพ์เล็ก
- ทุกลำดับของคำหลัก 'digito' ถูกแทนที่ด้วย (เดียว) '0'
- คำทั้งหมดของตัวละครมากกว่า 3 ตัวรวมทั้ง '0' ถูก ommitted (ตัวอย่าง: 'padre0')
ถุงมือฝังตัวจาก SBWC
การฝัง
ลิงก์ไปยัง Embeddings ( #dimensions = 300, #vectors = 855,380):
- รูปแบบเวกเตอร์ (.vec.gz) (906 MB)
- รูปแบบไบนารี (.bin) (3.9 GB)
อัลกอริทึม
- การใช้งาน: ถุงมือ
- พารามิเตอร์:
- เวกเตอร์ขนาด = 300
- iter = 25
- min-count = 5
- พารามิเตอร์อื่น ๆ ทั้งหมดตั้งค่าเป็นค่าเริ่มต้น
คอร์ปัส
- คลังข้อมูลพันล้านคำภาษาสเปน (ดูด้านบน)
Word2vec Embeddings จาก SBWC
การฝัง
ลิงก์ไปยัง Embeddings ( #dimensions = 300, #vectors = 1,000,653)
- รูปแบบเวกเตอร์ (.txt.bz2)
- รูปแบบไบนารี (.bin.gz)
อัลกอริทึม
- การใช้งาน: Word2vec กับ skipgram โดย gensim
- พารามิเตอร์: สำหรับรายละเอียดเกี่ยวกับพารามิเตอร์โปรดดูที่หน้า SBWCE
คอร์ปัส
- คลังคำพันคำของสเปนพันล้าน
- Corpus Size: 1.4 พันล้านคำ
FastText Embeddings จาก Spanish Wikipedia
การฝัง
ลิงก์ไปยัง Embeddings ( #dimensions = 300, #vectors = 985,667):
- รูปแบบเวกเตอร์ (.VEC) (2.4 GB)
- รูปแบบ Binary Plus Vector (.ZIP) (5.4 GB)
อัลกอริทึม
- การใช้งาน: fasttext ด้วย skipgram
- พารามิเตอร์: พารามิเตอร์เริ่มต้น fasttext
คอร์ปัส
การอ้างอิง
- FastText Embeddings จาก SUC: Word Embeddings คำนวณโดยJoséCañeteที่ BotCenter คุณสามารถใช้เวกเตอร์เหล่านี้ตามที่คุณต้องการภายใต้ใบอนุญาต MIT โปรดดูที่ BotCenter Embeddings Repo สำหรับการอภิปรายเพิ่มเติม คุณอาจต้องการอ้างถึง FastText Paper ที่เพิ่มคุณค่าของคำว่าเวกเตอร์ด้วยข้อมูล subword
- FastText Embeddings จาก SBWC: Word Embeddings คำนวณโดย Jorge Pérez คุณสามารถใช้เวกเตอร์เหล่านี้ตามที่คุณต้องการภายใต้ใบอนุญาต CC-by-4.0 คุณอาจต้องการอ้างถึง FastText Paper ที่เพิ่มคุณค่าของคำว่าเวกเตอร์ด้วยข้อมูล subword และโครงการ Corpus ของ Spanish Billion Word Corpus
- ถุงมือฝังตัวจาก SBWC: การฝังคำถูกคำนวณโดย Jorge Pérez คุณสามารถใช้เวกเตอร์เหล่านี้ตามที่คุณต้องการภายใต้ใบอนุญาต CC-by-4.0 นอกจากนี้คุณยังอาจต้องการอ้างถึงถุงมือถุงมือ: เวกเตอร์ทั่วโลกสำหรับการเป็นตัวแทนคำและโครงการคำศัพท์พันล้านคำภาษาสเปน
- FastText Embeddings จาก Spanish Wikipedia: Word Embeddings คำนวณโดยทีม FastText โปรดดูหน้าฟาสต์เท็กซ์ที่ได้รับการฝึกอบรมล่วงหน้าหากคุณต้องการใช้เวกเตอร์เหล่านี้
- Word2vec Embeddings จาก SBWC: Word Embeddings คำนวณโดย Cristian Cardellino โปรดดูหน้า SBWCE หากคุณต้องการใช้เวกเตอร์เหล่านี้