ดาวน์โหลด word2word - ดาวน์โหลดซอร์สโค้ด word2word

word2word

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

Word2word

การแปลคำที่ใช้งานง่ายสำหรับ 3,564 คู่ภาษา

นี่คือรหัสอย่างเป็นทางการที่มาพร้อมกับกระดาษ LREC 2020 ของเรา

สรุป

คอลเล็กชั่นพจนานุกรมสองภาษาที่ใช้งานได้อย่างอิสระและเปิดเผยต่อสาธารณะ สำหรับคู่ภาษา 3,564 คู่ใน 62 ภาษาที่ไม่ซ้ำกัน
อินเทอร์เฟซ Python ที่ใช้งานง่ายสำหรับการเข้าถึงการแปล Word Top-K และสำหรับการสร้างพจนานุกรมสองภาษาใหม่จากคลังข้อมูลแบบขนานที่กำหนดเอง
สร้างขึ้นโดยใช้วิธีการง่ายๆที่ให้คำศัพท์สองภาษาที่มีความครอบคลุมสูงและคุณภาพการแปลที่แข่งขันได้

การใช้งาน

ก่อนอื่นติดตั้งแพ็คเกจโดยใช้ pip :

pip install word2word

หรือ

git clone https://github.com/kakaobrain/word2word
python setup.py install

จากนั้นใน Python ให้ดาวน์โหลดโมเดลและดึงคำแปลท็อป 5 คำของคำใด ๆ ที่กำหนดไปยังภาษาที่ต้องการ:

 from word2word import Word2word
en2fr = Word2word ( "en" , "fr" )
print ( en2fr ( "apple" ))
# out: ['pomme', 'pommes', 'pommier', 'tartes', 'fleurs']

GIF

ภาษาที่รองรับ

เราให้บริการการแปลแบบคำเป็นคำสูงสุดในทุกคู่ที่มีอยู่ทั้งหมดจาก OpenSubtitles2018 จำนวนนี้มีจำนวน 3,564 คู่ในภาษาที่ไม่ซ้ำกัน 62 ภาษา

รายการทั้งหมดมีให้ที่นี่

วิธีการ

วิธีการของเราคำนวณการแปลคำสูงสุด K ตามสถิติการเกิดร่วมระหว่างคู่คำข้ามภาษาในคลังข้อมูลคู่ขนาน นอกจากนี้เรายังแนะนำคำแก้ไขที่ควบคุมผลกระทบใด ๆ ที่มาจากคำแหล่งอื่น ๆ ภายในประโยคเดียวกัน วิธีการที่ได้เป็นวิธีที่มีประสิทธิภาพและปรับขนาดได้ซึ่งช่วยให้เราสามารถสร้างพจนานุกรมสองภาษาขนาดใหญ่จากคลังข้อมูลคู่ขนานใด ๆ

สำหรับรายละเอียดเพิ่มเติมดูส่วนวิธีการของบทความของเรา

สร้างพจนานุกรมสองภาษาบนคลังข้อมูลแบบขนานที่กำหนดเอง

แพ็คเกจ word2word ยังมีอินเทอร์เฟซสำหรับการสร้างพจนานุกรมสองภาษาแบบกำหนดเองโดยใช้คลังข้อมูลขนานที่แตกต่างกัน ที่นี่เราแสดงตัวอย่างของการสร้างหนึ่งจากชุดข้อมูล Medline English-French:

 from word2word import Word2word

# custom parallel data: data/pubmed.en-fr.en, data/pubmed.en-fr.fr
my_en2fr = Word2word . make ( "en" , "fr" , "data/pubmed.en-fr" )
# ...building...
print ( my_en2fr ( "mitochondrial" ))
# out: ['mitochondriale', 'mitochondriales', 'mitochondrial', 
#       'cytopathies', 'mitochondriaux']

เมื่อสร้างขึ้นจากแหล่งที่มาพจนานุกรมสองภาษาสามารถสร้างได้จากบรรทัดคำสั่งดังนี้:

python make.py --lang1 en --lang2 fr --datapref data/pubmed.en-fr

ในทั้งสองกรณีคำศัพท์ที่กำหนดเอง (บันทึกลงใน datapref/ โดยค่าเริ่มต้น) สามารถโหลดได้อีกครั้งใน Python:

 from word2word import Word2word
my_en2fr = Word2word . load ( "en" , "fr" , "data/pubmed.en-fr" )
# Loaded word2word custom bilingual lexicon from data/pubmed.en-fr/en-fr.pkl

การประมวลผล

ในทั้งอินเทอร์เฟซ Python และอินเตอร์เฟสบรรทัดคำสั่ง make ใช้การใช้มัลติโปรเซสเซอร์ด้วย 16 CPU โดยค่าเริ่มต้น จำนวนคนงาน CPU สามารถปรับได้โดยการตั้งค่า num_workers=N (python) หรือ --num_workers N (บรรทัดคำสั่ง)

การอ้างอิง

หากคุณใช้ Word2word สำหรับการวิจัยโปรดอ้างอิงบทความของเรา:

 @inproceedings { choe2020word2word ,
 author = { Yo Joong Choe and Kyubyong Park and Dongwoo Kim } ,
 title = { word2word: A Collection of Bilingual Lexicons for 3,564 Language Pairs } ,
 booktitle = { Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020) } ,
 year = { 2020 }
}

คำศัพท์สองภาษาที่คำนวณล่วงหน้าทั้งหมดของเราถูกสร้างขึ้นจากชุดข้อมูล OpenSubtitles2018 ที่เปิดเผยต่อสาธารณะ:

 @inproceedings { lison-etal-2018-opensubtitles2018 ,
    title = " {O}pen{S}ubtitles2018: Statistical Rescoring of Sentence Alignments in Large, Noisy Parallel Corpora " ,
    author = { Lison, Pierre  and
      Tiedemann, J{"o}rg  and
      Kouylekov, Milen } ,
    booktitle = " Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018) " ,
    month = may,
    year = " 2018 " ,
    address = " Miyazaki, Japan " ,
    publisher = " European Language Resources Association (ELRA) " ,
    url = " https://www.aclweb.org/anthology/L18-1275 " ,
}

ผู้เขียน

Kyubyong Park, Dongwoo Kim และ YJ Choe

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-18
ขนาด 140.1KB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด