Download spacy pipeline bg - spacy pipeline bg download de código fonte

spacy pipeline bg

Código-Fonte de IA

1.0.0

Baixar

Pipeline de processamento de linguagem natural da Spacy Búlgara

Artigo: Um pipeline de processamento de linguagem natural búlgara aprimorado, Anais da Conferência Internacional sobre Sistemas de Informação, Sistemas Incorporados e Aplicações Inteligentes (ISSIA) 2023.

Uso

Primeiro, os modelos pré -rastreados precisam ser baixados na pasta repo do huggingface.

Para usar o pipeline, ele deve ser instalado como um pacote Python local:

python -m spacy package ./models_v3.3/model-best/ packages --name bg --version 1.0.0 --code language_components/custom_bg_lang.py
pip install packages/bg_bg-1.0.0/dist/bg_bg-1.0.0.tar.gz

Você pode verificar se o pipeline foi instalado corretamente com o comando pip list .

Após uma instalação bem -sucedida, o pipeline pode ser aberto em um arquivo python como um modelo de idioma espacial. O tokenizer precisa ser adicionado manualmente.

 import spacy
nlp = spacy . load ( "bg_bg" )
from language_components . custom_tokenizer import *
nlp . tokenizer = custom_tokenizer ( nlp )

Para obter mais detalhes sobre como usar o pipeline, consulte o notebook de carregamento e uso do modelo e a documentação oficial da Spacy.

Estrutura e detalhes do projeto

Componentes de pipeline

O oleoduto consiste nas seguintes etapas:

Tokenização
Divisão da frase
Lematização
Marcação de parte da fala
Parsing de dependência
Desambiguação de sentido de palavra (disponível mediante solicitação)

Vetores pré -teriados

Os vetores fasttext pré -tenhados para o idioma búlgaro podem ser baixados no site FastText e colocados nos vectors/ pasta.

Estrutura do projeto Spacy

Após o download dos vetores de palavras pré -tenham e os modelos pré -teremam, o projeto deve consistir nas seguintes pastas:

arquivos de configs/ arquivos de configuração,
conjunto de dados de corpus/ - trem/dev/teste no formato .spacy,
language_components/ - arquivos para os componentes de idioma personalizados (Tokenizer, Sentencizer e Arquivos Conectados),
models_v3.3/ - modelos de pipeline treinados no spacy 3.3,
models_v3.4/ - modelos de pipeline treinados no spacy 3.4,
tests/ - unittests para os componentes personalizados,
vectors/ - incorporações de palavras pré -tenhadas (text fasttext),
visualiations/ - Visualizações de análise de dependência no conjunto de testes.

Tokenização

A tokenização é a primeira etapa do pipeline. O tokenizador búlgaro consiste em regras, exceções e palavras de parada personalizadas. Pode ser usado separadamente do restante do pipeline.

Regras

As regras para o tokenizer baseado em regras estão no arquivo Language_Components/Custom_Tokenizer.py. Eles são definidos pelas seguintes exceções regulares:

 prefix_re = re . compile ( r'''^[[("'“„]''' )
suffix_re = re . compile ( r'''[])"'.?!,:%$€“„]$''' )
infix_re = re . compile ( r'''[~]''' )
simple_url_re = re . compile ( r'''^https?://''' )

Exceções

As exceções do Tokenizer estão no arquivo language_components/token_exceptions.py. Eles são agrupados nas seguintes variáveis:

METRICS_NO_DOT_EXC - Unidades de medida
DASH_ABBR_EXC - Abreviações com um painel interno
DASH_ABBR_TITLE_EXC - Abreviações com um painel interno, capitalizado
ABBR_DOT_MIDDLE_EXC - abreviações com um ponto que não pode estar no final da frase
ABBR_DOT_MIDDLE_TITLE_EXC - O mesmo com uma letra maiúscula
ABBR_DOT_END_EXC - abreviações com um ponto que pode estar no final da frase
ABBR_UPPERCASE_EXC - abreviações de mancal

Palavras de parada

No arquivo language_components/stopwords.py . As palavras de parada são retiradas do site do BulTreeBank.

Outros componentes

Consulte o artigo para obter detalhes sobre o restante dos componentes do pipeline.

Referência

Se você usar o pipeline em seu projeto acadêmico, cite como:

@ article
{berbatova2023improved,
title={An improved Bulgarian natural language processing pipelihttps://github.com/melaniab/spacy-pipeline-bgne},
author={Berbatova, Melania and Ivanov, Filip},
journal={Annual of Sofia University St. Kliment Ohridski. Faculty of Mathematics and Informatics},
volume={110},
pages={37--50},
year={2023}
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-08
tamanho 4.25MB
Vindo de Github

Aplicativos Relacionados

ComfyUI_Pipeline_Tool

2024-11-09
GitHub sgrebnov/cordova plugin background download

2024-11-05
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
trigger circleci pipeline action

2024-11-01
Aplicativo assistente BG

2023-08-23
Oleoduto do Imperador Yu

2022-08-18

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos