
ยินดีต้อนรับสู่พื้นที่เก็บข้อมูล LifeWeb Language Models ที่นี่เรามุ่งมั่นที่จะฝึกอบรมแบบจำลองภาษาเปอร์เซียที่แตกต่างกันและเผยแพร่ต่อสาธารณชนเพื่อมีส่วนร่วมของเราในสาขา AI ของภาษาเปอร์เซีย รุ่นแรกของแบบจำลองของเราได้รับการฝึกฝนในชุดข้อมูลของเราที่เรียกว่า Divan ด้วยเอกสารมากกว่า 164 ล้านเอกสาร และ โทเค็นมากกว่า 10B ซึ่งเป็นมาตรฐานและหักล้างอย่างพิถีพิถันเพื่อให้แน่ใจว่าการเพิ่มคุณค่าและความครอบคลุม ชุดข้อมูลที่ดีกว่านำไปสู่โมเดลที่ดีกว่า
คุณสามารถเข้าถึงโมเดลได้อย่างง่ายดายโดยใช้ลิงก์ของ HuggingFace Model Hub ที่ให้ไว้ในตารางด้านล่าง
| ชื่อนางแบบ | รุ่นฐาน | ขนาดคำศัพท์ | |
|---|---|---|---|
| เตหะราน | โรเบอร์ต้า | 50000 | ผลลัพธ์ |
| ชีราซ | มือถือ | 50000 | ผลลัพธ์ |
from transformers import AutoTokenizer , AutoModelForMaskedLM , FillMaskPipeline
model_name = "lifeweb-ai/shiraz"
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoModelForMaskedLM . from_pretrained ( model_name )
text = "در همین لحظه که شما مشغول [MASK] این متن هستید، میلیونها دیتا در فضای آنلاین در حال تولید است. ما در لایف وب به جمعآوری، پردازش و تحلیل این کلان داده (Big Data) میپردازیم."
classifier = FillMaskPipeline ( model = model , tokenizer = tokenizer )
result = classifier ( text )
print ( result [ 0 ])
#{'score': 0.3584367036819458, 'token': 5764, 'token_str': 'خواندن', 'sequence': 'در همین لحظه که شما مشغول خواندن این متن هستید، میلیون ها دیتا در فضای انلاین در حال تولید است. ما در لایف وب به جمع اوری، پردازش و تحلیل این کلان داده ( big data ) می پردازیم.'}แบบจำลอง Lifeweb ได้รับการประเมินในงาน NLP แบบดาวน์สตรีมสามงานประกอบด้วย NER การวิเคราะห์ความเชื่อมั่น และ การตรวจจับอารมณ์ เตหะราน มีประสิทธิภาพสูงกว่ารูปแบบภาษาเปอร์เซียอื่น ๆ ในแง่ของความแม่นยำและมาโคร F1 นอกจากนี้ Shiraz ยังเร็วกว่ามากและความแม่นยำของมันยังคงมีการแข่งขันสูงโดยไม่ลดทอนความเร็วมาก จากข้อมูลของ Mobilebert Paper รุ่นนี้มีขนาดเล็กกว่า 4.3 ×และเร็วกว่า Bert-Base เรายืนยันว่าโมเดลของเรามีประสิทธิภาพสูงกว่ารุ่นที่คล้ายกันทั้งหมดในสนามเพื่อให้ได้ประสิทธิภาพที่ทันสมัยใหม่ การอ้างอิง Parsbert , Ariater และ Fabert เรายืนยันการอ้างสิทธิ์นี้โดยแสดงให้เห็นถึงการวัดการประเมินที่เหนือกว่าแม้ว่าพวกเขาจะได้เน้นประสิทธิภาพที่ดีขึ้นของพวกเขาในรูปแบบที่เหมาะสมอื่น ๆ
ชัดเจนจากตารางด้านล่างคุณสามารถค้นหารหัส colab สำหรับแต่ละงานที่จะใช้เป็นบทช่วยสอนนอกเหนือจากคะแนนแมโคร F1 รหัส colab เหล่านี้ทำงานได้อย่างเท่าเทียมกันบนการ์ดกราฟิก 4x2080 TI
| แบบอย่าง | คนโง่ | ความเชื่อมั่น | อารมณ์ | ||
|---|---|---|---|---|---|
| อาร์มาน | คนเลี้ยงสัตว์ | ศิษย์ (Multi) | snappfood | อาร์มาน | |
| Lifeweb-ai/เตหะราน | 71.87% | 90.79% | 63.75% | 88.74% | 77.73% |
| Lifeweb-ai/shiraz | 67.62% | 86.24% | 59.17% | 88.01% | 66.97% |
| sbunlp/fabert | 71.23% | 88.53% | 58.51% | 88.60% | 72.65% |
| ViraintelligentDatamining/Ariater | 69.12% | 87.15% | 59.26% | 87.96% | 69.11% |
| hooshvarelab/bert-fa-zwnj-base | 67.49% | 85.73% | 59.61% | 87.58% | 59.27% |
| hooshvarelab/roberta-fa-zwnj-base | 69.73% | 86.21% | 56.23% | 87.19% | 57.96% |
หากคุณทดสอบโมเดลของเราในชุดข้อมูลสาธารณะและคุณต้องการเพิ่มผลลัพธ์ของคุณลงในตารางด้านบนเปิดคำขอดึงหรือติดต่อเรา นอกจากนี้ตรวจสอบให้แน่ใจว่ามีรหัสของคุณออนไลน์เพื่อให้เราสามารถเพิ่มข้อมูลอ้างอิงได้
v1.0 (2024-03-09)
รุ่นแรกของ Tehran และ Shiraz ที่ได้รับการฝึกฝนเกี่ยวกับ Divan
โดยการมีส่วนร่วมในโครงการนี้คุณยอมรับว่าการบริจาคของคุณจะได้รับใบอนุญาตภายใต้ ใบอนุญาต Apache 2.0