spacy pipeline bg ดาวน์โหลด - spacy pipeline bg แหล่งที่มาดาวน์โหลด

spacy pipeline bg

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ไปป์ไลน์การประมวลผลภาษาธรรมชาติของบัลแกเรีย

กระดาษ: ท่อประมวลผลภาษาธรรมชาติบัลแกเรียที่ได้รับการปรับปรุงการดำเนินการประชุมนานาชาติเกี่ยวกับระบบข้อมูลระบบฝังตัวและแอพพลิเคชั่นอัจฉริยะ (ISеsia) 2023

การใช้งาน

ก่อนอื่นต้องดาวน์โหลดโมเดลที่ผ่านการฝึกอบรมลงในโฟลเดอร์ repo จาก HuggingFace

ในการใช้ท่อควรติดตั้งเป็นแพ็คเกจ Python ในเครื่อง:

python -m spacy package ./models_v3.3/model-best/ packages --name bg --version 1.0.0 --code language_components/custom_bg_lang.py
pip install packages/bg_bg-1.0.0/dist/bg_bg-1.0.0.tar.gz

คุณสามารถตรวจสอบว่าไปป์ไลน์ได้รับการติดตั้งอย่างถูกต้องด้วยคำสั่ง pip list หรือไม่

หลังจากการติดตั้งที่ประสบความสำเร็จไปป์ไลน์สามารถเปิดได้ในไฟล์ Python เป็นรูปแบบภาษา Spacy tokenizer จะต้องเพิ่มด้วยตนเอง

 import spacy
nlp = spacy . load ( "bg_bg" )
from language_components . custom_tokenizer import *
nlp . tokenizer = custom_tokenizer ( nlp )

สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับวิธีการใช้ท่อโปรดดูที่สมุดบันทึกการโหลดและการใช้งานของโมเดลและเอกสารประกอบอย่างเป็นทางการ

โครงสร้างโครงการและรายละเอียด

ส่วนประกอบท่อ

ท่อประกอบด้วยขั้นตอนต่อไปนี้:

การทำให้โทเค็น
การแยกประโยค
การทำให้เป็นโรคจิต
การติดแท็กส่วนหนึ่ง
การแยกวิเคราะห์การพึ่งพา
Word Sense Disambiguation (มีตามคำขอ)

เวกเตอร์

สามารถดาวน์โหลดเวกเตอร์ fasttext สำหรับภาษาบัลแกเรียได้จากเว็บไซต์ FastText และใส่ลงใน vectors/ โฟลเดอร์

โครงสร้างโครงการ Spacy

หลังจากดาวน์โหลดเวกเตอร์คำที่ผ่านการฝึกอบรมและโมเดลที่ผ่านการฝึกอบรมโครงการควรประกอบด้วยโฟลเดอร์ต่อไปนี้:

configs/ - ไฟล์การกำหนดค่า
corpus/ - ชุดข้อมูลรถไฟ/dev/test ในรูปแบบ. spacy
language_components/ - ไฟล์สำหรับส่วนประกอบภาษาที่กำหนดเอง (Tokenizer, Sentencizer และไฟล์ที่เชื่อมต่อ)
models_v3.3/ - โมเดลไปป์ไลน์ที่ผ่านการฝึกอบรมใน Spacy 3.3
models_v3.4/ - โมเดลไปป์ไลน์ที่ผ่านการฝึกอบรมใน Spacy 3.4
tests/ - unittests สำหรับส่วนประกอบที่กำหนดเอง
vectors/ - การฝังคำที่ผ่านการฝึกอบรม (fasttext)
visualiations/ การวิเคราะห์การวิเคราะห์การพึ่งพาอาศัยการพึ่งพาในชุดทดสอบ

การทำให้โทเค็น

Tokenization เป็นขั้นตอนแรกของท่อ Tokenizer บัลแกเรียประกอบด้วยกฎที่กำหนดเองข้อยกเว้นและคำหยุด มันสามารถใช้แยกต่างหากจากส่วนที่เหลือของไปป์ไลน์

กฎ

กฎสำหรับ tokenizer ตามกฎอยู่ในไฟล์ language_components/custom_tokenizer.py พวกเขาถูกกำหนดโดยข้อยกเว้นปกติต่อไปนี้:

 prefix_re = re . compile ( r'''^[[("'“„]''' )
suffix_re = re . compile ( r'''[])"'.?!,:%$€“„]$''' )
infix_re = re . compile ( r'''[~]''' )
simple_url_re = re . compile ( r'''^https?://''' )

ข้อยกเว้น

ข้อยกเว้น Tokenizer อยู่ในไฟล์ language_components/token_exceptions.py. พวกเขาถูกจัดกลุ่มในตัวแปรต่อไปนี้:

METRICS_NO_DOT_EXC - หน่วยวัด
DASH_ABBR_EXC - ตัวย่อด้วยเส้นประใน
DASH_ABBR_TITLE_EXC - ตัวย่อด้วยเส้นประด้านในเป็นตัวพิมพ์ใหญ่
ABBR_DOT_MIDDLE_EXC - ตัวย่อด้วยจุดที่ไม่สามารถอยู่ท้ายประโยคได้
ABBR_DOT_MIDDLE_TITLE_EXC - เหมือนกันกับตัวอักษรทุน
ABBR_DOT_END_EXC - ตัวย่อด้วยจุดที่อาจจะอยู่ในตอนท้ายของประโยค
ABBR_UPPERCASE_EXC - ตัวย่อตัวพิมพ์ใหญ่

คำพูด

ในไฟล์ language_components/stopwords.py คำหยุดถูกนำมาจากเว็บไซต์ Bultreebank

ส่วนประกอบอื่น ๆ

โปรดดูที่กระดาษสำหรับรายละเอียดเกี่ยวกับส่วนประกอบที่เหลือในท่อ

อ้างอิง

หากคุณใช้ท่อในโครงการวิชาการของคุณโปรดอ้างอิงเป็น:

@ article
{berbatova2023improved,
title={An improved Bulgarian natural language processing pipelihttps://github.com/melaniab/spacy-pipeline-bgne},
author={Berbatova, Melania and Ivanov, Filip},
journal={Annual of Sofia University St. Kliment Ohridski. Faculty of Mathematics and Informatics},
volume={110},
pages={37--50},
year={2023}
}

ใบอนุญาต MIT
ลิขสิทธิ์ (c) 2023 Melania Berbatova

ขยาย

ข้อมูลเพิ่มเติม