parsbert Download - parsbert Source Code Download

parsbert

Anderer Quellcode

1.0.0

Herunterladen

Parsbert: Transformator-basiertes Modell für das Verständnis des persischen Sprache?

Parsbert ist ein einsprachiges Sprachmodell, das auf der Bert -Architektur von Google basiert. Dieses Modell ist auf große persische Korpora mit verschiedenen Schreibstilen aus zahlreichen Fächern (z. B. wissenschaftlich, Romanen, Nachrichten) mit mehr als 3.9M Dokumenten, 73M -Sätzen und 1.3B Wörtern ausgebildet.

Papier präsentieren Parsbert: doi: 10.1007/s11063-021-10528-4

Aktuelle Version: v3

Einführung

ParsBERT trained on a massive amount of public corpora (Persian Wikidumps, MirasText) and six other manually crawled text data from a various type of websites (BigBang Page scientific , Chetor lifestyle , Eligasht itinerary , Digikala digital magazine , Ted Talks general conversational , Books novels, storybooks, short stories from old to the contemporary era ).

Als Teil der Parsbert-Methodik wurde eine umfassende Vorverarbeitung, bei der POS-Tagging und Wortstückssegmentierung kombiniert werden, um die Korpora in ein ordnungsgemäßes Format zu bringen.

Parsbert Demo

~~Parsbert -Spielplatz~~

Auswertung

Parsbert wird an drei NLP -Downstream -Aufgaben bewertet: Sentiment Analysis (SA), Textklassifizierung und Namen der Entitätserkennung (NER). Zu dieser Angelegenheit und aufgrund unzureichender Ressourcen wurden zwei große Datensätze für SA und zwei für die Textklassifizierung manuell komponiert, die für die öffentliche Nutzung und das Benchmarking zur Verfügung stehen. Parsbert übertraf alle anderen Sprachmodelle, darunter mehrsprachige Bert und andere hybride Deep-Learning-Modelle für alle Aufgaben, wodurch die hochmoderne Leistung in der Persischen Sprachmodellierung verbessert wurde.

Ergebnisse

Die folgende Tabelle fasst den von Parsbert erhaltenen F1 -Score im Vergleich zu anderen Modellen und Architekturen zusammen.

Aufgabe der Stimmungsanalyse (SA)

Datensatz	Parsbert V3	Parsbert V2	Parsbert V1	Mbert	DeepSentipers
Digikala -Benutzerkommentare	- -	81.72	81.74*	80.74	- -
Snappfood -Benutzerkommentare	- -	87,98	88.12*	87.87	- -
Sentipers (Multi -Klasse)	- -	71.31*	71.11	- -	69.33
Sentipers (Binärklasse)	- -	92.42*	92.13	- -	91.98

TC -Aufgabe (Textklassifizierung)

Datensatz	Parsbert V3	Parsbert V2	Parsbert V1	Mbert
Digikala Magazine	- -	93.65*	93.59	90.72
Persische Nachrichten	- -	97.44*	97.19	95.79

NER

Datensatz	Parsbert V3	Parsbert V2	Parsbert V1	Mbert	Morphobert	Beheshti-ner	Lstm-crf	Regelbasiertes CRF	Bilstm-crf
Peyma		93.40*	93.10	86.64	- -	90.59	- -	84.00	- -
Arman		99.84*	98.79	95.89	89,9	84.03	86,55	- -	77,45

Wenn Sie Parsbert auf einem öffentlichen Datensatz getestet haben und Ihre Ergebnisse in der obigen Tabelle hinzufügen möchten, öffnen Sie eine Pull -Anfrage oder kontaktieren Sie uns. Stellen Sie außerdem sicher, dass Ihr Code online verfügbar ist, damit wir ihn als Referenz hinzufügen können

Wie man benutzt

 from transformers import AutoConfig , AutoTokenizer , AutoModel , TFAutoModel

# v3.0
model_name_or_path = "HooshvareLab/bert-fa-zwnj-base"
config = AutoConfig . from_pretrained ( model_name_or_path )
tokenizer = AutoTokenizer . from_pretrained ( model_name_or_path )

# model = TFAutoModel.from_pretrained(model_name_or_path)  For TF
model = AutoModel . from_pretrained ( model_name_or_path )

text = "ما در هوش‌واره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer . tokenize ( text )

[ 'ما' , 'در' , 'هوش' , '[ZWNJ]' , 'واره' , 'معتقدیم' , 'با' , 'انتقال' , 'صحیح' , 'دانش' , 'و' , 'آ' , '##گاهی' , '،' , 'همه' , 'افراد' , 'میتوانند' , 'از' , 'ابزارهای' , 'هوشمند' , 'استفاده' , 'کنند' , '.' , 'شعار' , 'ما' , 'هوش' , 'مصنوعی' , 'برای' , 'همه' , 'است' , '.' ]

Ableitungsmodelle

V3.0

Bert V3.0 Modell

Hooshvarelab/Bert-Fa-Zwnj-Base

DISTILBERT V3.0 Modell

Hooshvarelab/Distilbert-Fa-Zwnj-Base

Albert V3.0 Modell

Hooshvarelab/Albert-Fa-Zwnj-Base-V2

Roberta v3.0 Modell

Hooshvarelab/Roberta-Fa-Zwnj-Base

V2.0

Parsbert V2.0 Modell

Hooshvarelab/Bert-Fa-Base-beunruhigt

Parsbert V2.0 Sentimentanalyse

Hooshvarelab/Bert-Fa-Base-Unbekanntes-Sentiment-Digikala
Hooshvarelab/Bert-Fa-Base-Unbekannter-Sentiment-Snappfood
Hooshvarelab/Bert-Fa-Base-unbekanntes Sentiment-DeepSentipers-Binär
Hooshvarelab/Bert-Fa-Base-unbekannt-Sentiment-DeepSentipers-Multi

Parsbert v2.0 Textklassifizierung

Hooshvarelab/Bert-Fa-Base-Unbekannter-Clf-Digimag
Hooshvarelab/Bert-Fa-Base-clf-persiannews

Parsbert v2.0 Ner

Hooshvarelab/Bert-Fa-Base-Ocnased-Ner-Peyma
Hooshvarelab/Bert-Fa-Base-Ocnased-Ner-Arman

V1.0

Parsbert V1.0 Modell

Hooshvarelab/Bert-Base-Parsbert-Unbekannter

Parsbert v1.0 Ner

Hooshvarelab/Bert-Base-Parsbert-Peymaner-Unbekannter
Hooshvarelab/Bert-Base-Parsbert-Armanner-Unbekannter
Hooshvarelab/Bert-Base-Parsbert-NER-Bekannte

NLP -Aufgaben Tutorial?

Notizbuch
Textklassifizierung
Stimmungsanalyse
Genannte Entitätserkennung
Textgenerierung

Zitieren

Bitte zitieren Sie das folgende Papier in Ihrer Veröffentlichung, wenn Sie Parsbert in Ihrer Forschung verwenden:

 @article { ParsBERT , 
    title = { Parsbert: Transformer-based model for Persian language understanding } , 
    DOI = { 10.1007/s11063-021-10528-4 } , 
    journal = { Neural Processing Letters } , 
    author = { Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri } , 
    year = { 2021 }
}

Anerkennung

Hiermit bedanken wir uns beim TFRC -Programm (TensorFlow Research Cloud) für die Bereitstellung der erforderlichen Rechenressourcen. Wir danken auch die Hooshvare Research Group für die Erleichterung des Datensatzes und das Abkratzen von Online -Textressourcen.

Mitwirkende

Mehrdad Farahani: Linkedin, Twitter, Github
Mohammad Gharachorloo: LinkedIn, Twitter, GitHub
Marzieh Farahani: Linkedin, Twitter, Github
Mohammad Manthouri: LinkedIn, Twitter, GitHub
Hooshvare -Team: Offizielle Website, LinkedIn, Twitter, Github, Instagram

Veröffentlichungen

v3.0 (2021-02-28)

Die neue Version von Bert V3.0 für Persisch ist heute verfügbar und kann den Null-Width-Nicht-Joiner-Charakter für das persische Schreiben in Angriff nehmen. Außerdem wurde das Modell auf neuen Multi-Typen mit einem neuen Satz Vokabular ausgebildet.

Verfügbar von: Hooshvarelab/Bert-Fa-Zwnj-Base

v2.0 (2020-09-05)

Parsbert V2.0: Wir haben den Wortschatz rekonstruiert und den Parsbert V1.1 auf der neuen persischen Korpora abgestimmt, um einige Funktionen für die Verwendung von Parsbert in anderen Reichweiten bereitzustellen! Die objektiven Ziele während des Trainings finden Sie unten (nach 300.000 Schritten).

 ***** Eval results *****
global_step = 300000
loss = 1.4392426
masked_lm_accuracy = 0.6865794
masked_lm_loss = 1.4469004
next_sentence_accuracy = 1.0
next_sentence_loss = 6.534152e-05

Erhältlich von: Hooshvarelab/Bert-Fa-Base-Unbekannter

v1.1 (2020-06-24)

Parsbert V1.1: Wir haben das Training für mehr als 2,5 m auf derselben persischen Korpora- und Bert-Base-Konfiguration fortgesetzt. Die objektiven Ziele während des Trainings finden Sie unten (nach 2,5 -m -Schritten).

 ***** Eval results *****
global_step = 2575000
loss = 1.3973521
masked_lm_accuracy = 0.70044917
masked_lm_loss = 1.3974043
next_sentence_accuracy = 0.9976562
next_sentence_loss = 0.0088804625

Erhältlich von: Hooshvarelab/Bert-Base-Parsbert-Unbekannter

v1.0 (2020-05-27)

Parsbert V1: Dies ist die erste Version unseres Parsbert, die auf Bert-Base basiert. Das Modell wurde für 1920000 Stufen auf weite persische Korpora geschult. Die objektiven Ziele während des Trainings finden Sie unten (nach 1,9 -m -Schritten).

 ***** Eval results *****
global_step = 1920000
loss = 2.6646128
masked_lm_accuracy = 0.583321
masked_lm_loss = 2.2517521
next_sentence_accuracy = 0.885625
next_sentence_loss = 0.3884369

Erhältlich von: Hooshvarelab/Bert-Base-Parsbert-Unbekannter

Lizenz

Apache -Lizenz 2.0

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-19
Größe 413.26KB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22