
LifeWeb言語モデルリポジトリへようこそ。ここでは、さまざまなペルシャ語モデルを訓練し、ペルシャ語のAI分野にシェアを貢献するために公開することを目指しています。モデルの最初のバージョンはすべて、 Divanと呼ばれるデータセットで、 1億6,400万を超えるドキュメントと10Bを超えるトークンを使用して、その濃縮と包括性を確保するために細心の注意を払って重複した10Bを超えるトークンでトレーニングされています。より良いデータセットは、より良いモデルにつながります。
以下の表に記載されているハグFaceモデルハブのリンクを使用して、モデルに簡単にアクセスできます。
| モデル名 | ベースモデル | 語彙サイズ | |
|---|---|---|---|
| テヘラン | ロベルタ | 50000 | 結果 |
| シラーズ | MobileBert | 50000 | 結果 |
from transformers import AutoTokenizer , AutoModelForMaskedLM , FillMaskPipeline
model_name = "lifeweb-ai/shiraz"
tokenizer = AutoTokenizer . from_pretrained ( model_name )
model = AutoModelForMaskedLM . from_pretrained ( model_name )
text = "در همین لحظه که شما مشغول [MASK] این متن هستید، میلیونها دیتا در فضای آنلاین در حال تولید است. ما در لایف وب به جمعآوری، پردازش و تحلیل این کلان داده (Big Data) میپردازیم."
classifier = FillMaskPipeline ( model = model , tokenizer = tokenizer )
result = classifier ( text )
print ( result [ 0 ])
#{'score': 0.3584367036819458, 'token': 5764, 'token_str': 'خواندن', 'sequence': 'در همین لحظه که شما مشغول خواندن این متن هستید، میلیون ها دیتا در فضای انلاین در حال تولید است. ما در لایف وب به جمع اوری، پردازش و تحلیل این کلان داده ( big data ) می پردازیم.'}LifeWebモデルは、 NER 、感情分析、感情検出を含む3つの下流のNLPタスクで評価されます。テヘランは、精度とマクロF1の観点から、他のすべてのペルシャ語モデルを上回ります。さらに、 Shirazはかなり速く、その精度は速度をあまり妥協することなく非常に競争力があります。 MobileBert Paperによると、このモデルはBert-Baseよりも4.3×小さく、5.5倍高速です。モデルはフィールド内のすべての類似モデルを上回り、新しい最先端のパフォーマンスを達成することを主張しています。 Parsbert 、 Ariabert 、およびFabertを参照して、他の適切なモデルの中でより良いパフォーマンスを強調しているにもかかわらず、優れた評価メトリックを実証することにより、この主張を実証します。
以下の表からは、マクロF1スコア以外のチュートリアルとして使用する各タスクのコラブコードを見つけることができます。これらのコラブコードは、4x2080 Tiグラフィックカードで等しく実行されます。
| モデル | ええと | 感情 | 感情 | ||
|---|---|---|---|---|---|
| アーマン | ペイマ | センチパーズ(マルチ) | snappfood | アーマン | |
| lifeweb-ai/tehran | 71.87% | 90.79% | 63.75% | 88.74% | 77.73% |
| lifeweb-ai/shiraz | 67.62% | 86.24% | 59.17% | 88.01% | 66.97% |
| sbunlp/fabert | 71.23% | 88.53% | 58.51% | 88.60% | 72.65% |
| VirainteligentDatamining/Ariabert | 69.12% | 87.15% | 59.26% | 87.96% | 69.11% |
| Hooshvarelab/bert-fa-zwnj-base | 67.49% | 85.73% | 59.61% | 87.58% | 59.27% |
| Hooshvarelab/Roberta-fa-zwnj-base | 69.73% | 86.21% | 56.23% | 87.19% | 57.96% |
パブリックデータセットでモデルをテストし、上記のテーブルに結果を追加したい場合は、プルリクエストを開くか、お問い合わせください。また、参照を追加できるように、オンラインでコードを利用できるようにしてください。
v1.0(2024-03-09)
TehranとShirazモデルの最初のバージョンは、 Divanで訓練されました。
このプロジェクトに貢献することにより、お客様はあなたの貢献がApacheライセンス2.0に基づいてライセンスされることに同意します