
Selamat datang di Repositori Model Bahasa LifeWeb. Di sini kami bertujuan untuk melatih model bahasa Persia yang berbeda dan melepaskannya secara publik untuk menyumbangkan bagian kami ke bidang AI bahasa Persia. Versi pertama dari model kami semuanya dilatih pada dataset kami yang disebut Divan dengan lebih dari 164 juta dokumen dan lebih dari 10b token yang dinormalisasi dan dideduplikasi dengan cermat untuk memastikan pengayaan dan komprehensifnya. Dataset yang lebih baik mengarah ke model yang lebih baik.
Anda dapat dengan mudah mengakses model menggunakan tautan hub model HuggingFace yang disediakan dalam tabel di bawah ini.
| Nama model | Model dasar | Ukuran kosa kata | |
|---|---|---|---|
| Teheran | Roberta | 50000 | Hasil |
| Shiraz | MobileBert | 50000 | Hasil |
from transformers import AutoTokenizer , AutoModelForMaskedLM , FillMaskPipeline
model_name = "lifeweb-ai/shiraz"
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoModelForMaskedLM . from_pretrained ( model_name )
text = "در همین لحظه که شما مشغول [MASK] این متن هستید، میلیونها دیتا در فضای آنلاین در حال تولید است. ما در لایف وب به جمعآوری، پردازش و تحلیل این کلان داده (Big Data) میپردازیم."
classifier = FillMaskPipeline ( model = model , tokenizer = tokenizer )
result = classifier ( text )
print ( result [ 0 ])
#{'score': 0.3584367036819458, 'token': 5764, 'token_str': 'خواندن', 'sequence': 'در همین لحظه که شما مشغول خواندن این متن هستید، میلیون ها دیتا در فضای انلاین در حال تولید است. ما در لایف وب به جمع اوری، پردازش و تحلیل این کلان داده ( big data ) می پردازیم.'}Model LifeWeb dievaluasi pada tiga tugas NLP hilir yang terdiri dari NER , analisis sentimen , dan deteksi emosi . Teheran mengungguli setiap model bahasa Persia lainnya dalam hal akurasi dan F1 makro. Selain itu, Shiraz jauh lebih cepat, dan keakuratannya tetap sangat kompetitif tanpa mengurangi kecepatan. Menurut MobileBert Paper , model ini 4,3 × lebih kecil dan 5,5 × lebih cepat dari Bert-base. Kami menyatakan bahwa model kami mengungguli semua model serupa di lapangan, mencapai kinerja canggih yang baru. Referensi Parsbert , Ariabert dan Fabert , kami mendukung klaim ini dengan menunjukkan metrik evaluasi yang unggul, bahkan ketika mereka sendiri telah menyoroti kinerja mereka yang lebih baik di antara model -model lain yang sesuai.
Jelas dari tabel di bawah ini, Anda dapat menemukan kode Colab untuk setiap tugas untuk digunakan sebagai tutorial selain skor F1 makro. Kode Colab ini dijalankan secara merata pada kartu grafis Ti 4x2080.
| Model | Ner | Sentimen | Emosi | ||
|---|---|---|---|---|---|
| Arman | PEYMA | SENIPER (MULTI) | Snappfood | Arman | |
| LifeWeb-Ai/Teheran | 71,87% | 90,79% | 63,75% | 88,74% | 77,73% |
| LifeWeb-Ai/Shiraz | 67,62% | 86,24% | 59,17% | 88,01% | 66,97% |
| SBUNLP/FABERT | 71,23% | 88,53% | 58,51% | 88,60% | 72,65% |
| Viraintelligentdatamining/ariabert | 69,12% | 87,15% | 59,26% | 87,96% | 69,11% |
| Hooshvarelab/bert-fa-zwnj-base | 67,49% | 85,73% | 59,61% | 87,58% | 59,27% |
| Hooshvarelab/Roberta-fa-Zwnj-Base | 69,73% | 86,21% | 56,23% | 87,19% | 57,96% |
Jika Anda menguji model kami pada dataset publik, dan Anda ingin menambahkan hasil Anda ke tabel di atas, buka permintaan tarik atau hubungi kami. Juga, pastikan kode Anda tersedia online sehingga kami dapat menambahkan referensi.
V1.0 (2024-03-09)
Versi pertama model Teheran dan Shiraz yang dilatih di Divan .
Dengan berkontribusi pada proyek ini, Anda setuju bahwa kontribusi Anda akan dilisensikan di bawah Lisensi Apache 2.0