parsbert Download - parsbert Código Fonte Download

parsbert

Outro código-fonte

1.0.0

Baixar

Parsbert: Modelo baseado em transformadores para o entendimento da linguagem persa?

Parsbert é um modelo de linguagem monolíngue com base na arquitetura Bert do Google. Este modelo é pré-treinado em grandes corpora persa, com vários estilos de escrita de vários assuntos (por exemplo, científicos, romances, notícias) com mais de 3.9M de documentos, 73M de frases e 1.3B de palavras.

Artigo Apresentando Parsbert: doi: 10.1007/s11063-021-10528-4

Versão atual: v3

Introdução

Parsbert treinou em uma quantidade enorme de corpora pública (Wikidumps persa, Mirastext) e seis outros dados de texto rastejados manualmente de vários tipos de sites (Bigbang Page scientific , Chetor lifestyle , Elegasht itinerary , Digikala digital magazine , Treldes Talks general conversational , Livros, novatos, novels, storybooks, short stories from old to the contemporary era .

Como parte da metodologia de Parsbert, uma extensa segmentação de marcação de PDV e Wordpiece pré-processamento foi realizada para trazer o corpora em um formato adequado.

Demonstração de Parsbert

~~Parsbert Playground~~

Avaliação

Parsbert é avaliado em três tarefas a jusante de NLP: análise de sentimentos (SA), classificação de texto e reconhecimento de entidade nomeado (NER). Para este assunto e devido a recursos insuficientes, dois grandes conjuntos de dados para SA e dois para classificação de texto foram compostos manualmente, disponíveis para uso público e benchmarking. A Parsbert superou todos os outros modelos de idiomas, incluindo Bert multilíngue e outros modelos de aprendizado profundo híbrido para todas as tarefas, melhorando o desempenho de ponta na modelagem de idiomas persa.

Resultados

A tabela a seguir resume a pontuação F1 obtida por Parsbert em comparação com outros modelos e arquiteturas.

Tarefa de análise de sentimentos (SA)

Conjunto de dados	Parsbert v3	Parsbert v2	Parsbert v1	Mbert	DeepSentipers
Comentários do usuário Digikala	-	81.72	81,74*	80,74	-
Comentários do usuário do Snappfood	-	87.98	88.12*	87,87	-
Sentipers (multi -classe)	-	71.31*	71.11	-	69.33
Sentipers (classe binária)	-	92.42*	92.13	-	91.98

Tarefa de classificação de texto (TC)

Conjunto de dados	Parsbert v3	Parsbert v2	Parsbert v1	Mbert
Revista Digikala	-	93.65*	93.59	90.72
Notícias persas	-	97,44*	97.19	95.79

Tarefa de reconhecimento de entidade nomeada (NER)

Conjunto de dados	Parsbert v3	Parsbert v2	Parsbert v1	Mbert	Morfobert	Beheshti -ner	LSTM-CRF	CRF baseado em regras	Bilstm-Crf
Peyma		93.40*	93.10	86.64	-	90.59	-	84,00	-
Arman		99,84*	98.79	95.89	89.9	84.03	86,55	-	77.45

Se você testou Parsbert em um conjunto de dados público e deseja adicionar seus resultados à tabela acima, abra uma solicitação de tração ou entre em contato conosco. Também certifique -se de ter seu código disponível online para que possamos adicioná -lo como uma referência

Como usar

 from transformers import AutoConfig , AutoTokenizer , AutoModel , TFAutoModel

# v3.0
model_name_or_path = "HooshvareLab/bert-fa-zwnj-base"
config = AutoConfig . from_pretrained ( model_name_or_path )
tokenizer = AutoTokenizer . from_pretrained ( model_name_or_path )

# model = TFAutoModel.from_pretrained(model_name_or_path)  For TF
model = AutoModel . from_pretrained ( model_name_or_path )

text = "ما در هوش‌واره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer . tokenize ( text )

[ 'ما' , 'در' , 'هوش' , '[ZWNJ]' , 'واره' , 'معتقدیم' , 'با' , 'انتقال' , 'صحیح' , 'دانش' , 'و' , 'آ' , '##گاهی' , '،' , 'همه' , 'افراد' , 'میتوانند' , 'از' , 'ابزارهای' , 'هوشمند' , 'استفاده' , 'کنند' , '.' , 'شعار' , 'ما' , 'هوش' , 'مصنوعی' , 'برای' , 'همه' , 'است' , '.' ]

Modelos derivados

V3.0

Modelo Bert v3.0

Hooshvarelab/Bert-FA-ZWNJ-BASE

Modelo Distilbert v3.0

Hooshvarelab/Distilbert-FA-ZWNJ-BASE

Modelo Albert v3.0

Hooshvarelab/Albert-FA-ZWNJ-BASE-V2

Modelo Roberta v3.0

Hooshvarelab/Roberta-FA-ZWNJ-BASE

V2.0

Modelo Parsbert v2.0

Hooshvarelab/bert-fa-base-base-base

Análise de sentimento de Parsbert v2.0

Hooshvarelab/Bert-FA-BASE-Baseado-Sentiment-Digikala
Hooshvarelab/Bert-fa-Base-Base-Based-Sentiment-Snappfood
Hooshvarelab/bert-fa-Base-Base-Based-Sentiment-Sensentipers-Binary
Hooshvarelab/Bert-FA-Base-Base-Based-Sentiment-Sensentipers-Multi

Classificação de texto Parsbert v2.0

Hooshvarelab/Bert-FA-BASE-BASE-BASED-CLF-DIGIMAG
Hooshvarelab/Bert-FA-BASE-ANCASED CLF-PERSIANNEWS

Parsbert v2.0 ner

Hooshvarelab/Bert-FA-Base-Based -ne-Peyma
Hooshvarelab/Bert-FA-Base-Based-ir-Arman

V1.0

Modelo Parsbert v1.0

Hooshvarelab/Bert-Base-Parsbert-Baseado

Parsbert v1.0 ner

Hooshvarelab/Bert-Base-Parsbert-Peymaner-Baseado
Hooshvarelab/Bert-Base-Parsbert-Armanner-Incased
Hooshvarelab/Bert-BASE-PARSBERT-GRAND-ACED

Tutorial de tarefas do NLP?

Caderno
Classificação de texto
Análise de sentimentos
Reconhecimento de entidade nomeado
Geração de texto

Citar

Cite o seguinte artigo em sua publicação se você estiver usando o Parsbert em sua pesquisa:

 @article { ParsBERT , 
    title = { Parsbert: Transformer-based model for Persian language understanding } , 
    DOI = { 10.1007/s11063-021-10528-4 } , 
    journal = { Neural Processing Letters } , 
    author = { Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri } , 
    year = { 2021 }
}

Agradecimentos

Por meio deste, expressamos nossa gratidão ao programa TensorFlow Research Cloud (TFRC) por nos fornecer os recursos de computação necessários. Agradecemos também a Hooshvare Research Group por facilitar a coleta de dados e raspar os recursos de texto on -line.

Colaboradores

Mehrdad Farahani: LinkedIn, Twitter, Github
Mohammad Gharachorloo: LinkedIn, Twitter, Github
Marzieh Farahani: LinkedIn, Twitter, Github
Mohammad Manthouri: LinkedIn, Twitter, Github
Equipe Hooshvare: site oficial, LinkedIn, Twitter, Github, Instagram

Lançamentos

v3.0 (2021-02-28)

A nova versão do Bert v3.0 para persa está disponível hoje e pode enfrentar o personagem não-Jero-Width não-jero para a escrita persa. Além disso, o modelo foi treinado em novos corpora de vários tipos com um novo conjunto de vocabulário.

Disponível por: Hooshvarelab/Bert-FA-ZWNJ-BASE

v2.0 (2020-09-05)

Parsbert v2.0: Reconstruímos o vocabulário e ajustamos o Parsbert v1.1 no novo corpora persa, a fim de fornecer algumas funcionalidades para o uso de Parsbert em outros escopos! Os objetivos objetivos durante o treinamento estão abaixo (após 300 mil passos).

 ***** Eval results *****
global_step = 300000
loss = 1.4392426
masked_lm_accuracy = 0.6865794
masked_lm_loss = 1.4469004
next_sentence_accuracy = 1.0
next_sentence_loss = 6.534152e-05

Disponível por: Hooshvarelab/Bert-FA-BASE-ACED

v1.1 (2020-06-24)

Parsbert v1.1: Continuamos o treinamento para mais de 2,5 milhões de etapas com base na mesma configuração persa corporal e bert-base. Os objetivos objetivos durante o treinamento estão abaixo (após 2,5 milhões de etapas).

 ***** Eval results *****
global_step = 2575000
loss = 1.3973521
masked_lm_accuracy = 0.70044917
masked_lm_loss = 1.3974043
next_sentence_accuracy = 0.9976562
next_sentence_loss = 0.0088804625

Disponível por: Hooshvarelab/Bert-Base-Parsbert-Incased

v1.0 (2020-05-27)

Parsbert V1: Esta é a primeira versão do nosso Parsbert baseado no Bert-Base. O modelo foi treinado em vastos corpora persa para as etapas de 1920000. Os objetivos objetivos durante o treinamento estão abaixo (após 1,9 milhão de etapas).

 ***** Eval results *****
global_step = 1920000
loss = 2.6646128
masked_lm_accuracy = 0.583321
masked_lm_loss = 2.2517521
next_sentence_accuracy = 0.885625
next_sentence_loss = 0.3884369

Disponível por: Hooshvarelab/Bert-Base-Parsbert-Incased

Licença

Licença Apache 2.0

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-19
tamanho 413.26KB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos