التضمينات الكلمة الإسبانية
ستجد أدناه روابط إلى تضمينات الكلمات الإسبانية المحسوبة بطرق مختلفة ومن شركة مختلفة. كلما كان ذلك ممكنًا ، يتم تضمين وصف للمعلمات المستخدمة لحساب التضمينات ، إلى جانب إحصائيات بسيطة للمتجهات والمفردات ووصف الجسوس التي تم حساب التضمين منها. يتم توفير الروابط المباشرة للتضمينات ، لذا يرجى الرجوع إلى المصادر الأصلية للاستشهاد السليم (انظر أيضًا المراجع). يمكن العثور على مثال على استخدام بعض هذه التضمينات هنا أو في هذا البرنامج التعليمي (سواء باللغة الإسبانية).
ملخص (وروابط) للتضمينات في هذه الصفحة:
| مجموعة | مقاس | خوارزمية | #المحلات | VEC-DIM | الاعتمادات |
|---|
| 1 | الإسبانية غير المقطورة | 2.6 ب | fasttext | 1،313،423 | 300 | خوسيه كانيت |
| 2 | إسبانية مليار كلمة كوربوس | 1.4 ب | fasttext | 855380 | 300 | خورخي بيريز |
| 3 | إسبانية مليار كلمة كوربوس | 1.4 ب | قفاز | 855380 | 300 | خورخي بيريز |
| 4 | إسبانية مليار كلمة كوربوس | 1.4 ب | Word2Vec | 1،000،653 | 300 | كريستيان كارديلينو |
| 5 | ويكيبيديا الإسبانية | ؟؟؟ | fasttext | 985،667 | 300 | فريق fasttext |
تضمينات fasttext من SUC
التضمين
روابط للتضمينات ( #أبعاد = 300 ، #متجهات = 1،313،423):
- تنسيق المتجه (.vec) (3.4 جيجابايت)
- التنسيق الثنائي (.bin) (5.6 جيجابايت)
يمكن العثور هنا على المزيد من المتجهات ذات الأبعاد المختلفة (10 و 30 و 100 و 300)
خوارزمية
- التنفيذ: fasttext مع Skipgram
- حدود:
- Min subword ngram = 3
- ماكس subword ngram = 6
- Mincount = 5
- الحقبة = 20
- قاتمة = 300
- تم تعيين جميع المعلمات الأخرى على أنها افتراضية
مجموعة
- الإسبانية غير المقطورة
- حجم الجسم: 3 مليارات كلمة
- معالجة ما بعد المعالجة: شرح في التضمينات و repos corpora ، والتي تشمل الرمز المميز ، والأحرف الصغيرة ، والقوائم التي تمت إزالتها وعنوان URL.
تضمينات fasttext من SBWC
التضمين
روابط للتضمينات ( #أبعاد = 300 ، #متجهات = 855،380):
- تنسيق المتجه (.vec.gz) (802 ميغابايت)
- التنسيق الثنائي (.bin) (4.2 جيجابايت)
خوارزمية
- التنفيذ: fasttext مع Skipgram
- حدود:
- Min subword ngram = 3
- ماكس subword ngram = 6
- Mincount = 5
- الحقبة = 20
- قاتمة = 300
- تم تعيين جميع المعلمات الأخرى على أنها افتراضية
مجموعة
- إسبانية مليار كلمة كوربوس
- حجم الجسم: 1.4 مليار كلمة
- معالجة ما بعد المعالجة: إلى جانب معالجة ما بعد المجموعة الخام الموضحة في صفحة SBWCE التي تضمنت حذف علامات الترقيم والأرقام وما إلى ذلك ، تم تطبيق المعالجة التالية:
- تم تحويل الكلمات إلى أحرف الحالة السفلية
- تم استبدال كل تسلسل للكلمة الرئيسية "Digito" بـ (واحد) "0"
- جميع كلمات أكثر من 3 موكل بالإضافة إلى "0" تم ommited (مثال: "padre0")
تضمينات القفازات من SBWC
التضمين
روابط للتضمينات ( #أبعاد = 300 ، #متجهات = 855،380):
- تنسيق المتجه (.vec.gz) (906 ميغابايت)
- التنسيق الثنائي (.bin) (3.9 جيجابايت)
خوارزمية
- التنفيذ: القفاز
- حدود:
- حجم ناقل = 300
- iter = 25
- الحد الأدنى = 5
- تم تعيين جميع المعلمات الأخرى على أنها افتراضية
مجموعة
- إسبانية مليار كلمة (انظر أعلاه)
تضمينات Word2Vec من SBWC
التضمين
روابط للتضمينات ( #أبعاد = 300 ، #متجهات = 1،000،653)
- تنسيق المتجه (.txt.bz2)
- التنسيق الثنائي (.bin.gz)
خوارزمية
- التنفيذ: Word2Vec مع Skipgram بواسطة Gensim
- المعلمات: للحصول على تفاصيل حول المعلمات ، يرجى الرجوع إلى صفحة SBWCE
مجموعة
- إسبانية مليار كلمة كوربوس
- حجم الجسم: 1.4 مليار كلمة
تضمينات fasttext من ويكيبيديا الإسبانية
التضمين
روابط للتضمينات ( #أبعاد = 300 ، #متجهات = 985،667):
- تنسيق المتجه (.vec) (2.4 جيجابايت)
- تنسيق متجه ثنائي زائد (.zip) (5.4 غيغابايت)
خوارزمية
- التنفيذ: fasttext مع Skipgram
- المعلمات: المعلمات الافتراضية fasttext
مجموعة
- ويكيبيديا تفريغ الإسبانية
مراجع
- تضمينات fasttext من SUC: تم حساب تضمينات Word بواسطة José Cañete في Botcenter. يمكنك استخدام هذه المتجهات كما ترغب في رخصة معهد ماساتشوستس للتكنولوجيا. يرجى الرجوع إلى Botcenter embeddings repo لمزيد من المناقشة. قد ترغب أيضًا في الاستشهاد بمواقف Word FastText Enriching Word بمعلومات عن الكلمات الفرعية.
- تضمينات Fasttext من SBWC: تم حساب توضيحات Word بواسطة Jorge Pérez. يمكنك استخدام هذه المتجهات كما ترغب في رخصة CC-By-4.0. قد ترغب أيضًا في الاستشهاد بمواقف Word FastText Enricting Word بمعلومات عن الكلمات الفرعية ومشروع Corpus الإسباني مليار.
- قفازات التضمينات من SBWC: تم حساب توضيحات الكلمات بواسطة خورخي بيريز. يمكنك استخدام هذه المتجهات كما ترغب في رخصة CC-By-4.0. قد ترغب أيضًا في الاستشهاد بقفاز قفازات قفاز: ناقلات عالمية لتمثيل الكلمات ومشروع Corpus الإسباني مليار Word.
- تضمينات fasttext من ويكيبيديا الإسبانية: تم حساب تضمينات الكلمات بواسطة فريق FastText. يرجى الرجوع إلى صفحة المتجهات FastText التي تم تدريبها مسبقًا إذا كنت ترغب في استخدام هذه المتجهات.
- تضمينات Word2Vec من SBWC: تم حساب تضمينات الكلمات بواسطة كريستيان كارديلينو. يرجى الرجوع إلى صفحة SBWCE إذا كنت ترغب في استخدام هذه المتجهات.