Download do zshot - Download do código -fonte zshot

zshot

Outro código-fonte

v0.0.9

Baixar

Zshot

Zero e poucos tiro denominado Entidade e reconhecimento de relacionamentos

Construir

Documentação : https://ibm.github.io/zshot

Código fonte : https://github.com/ibm/zshot

Papel : https://aclanthology.org/2023.acl-demo.34/

O ZShot é uma estrutura altamente personalizável para realizar zero e poucos tiro denominado reconhecimento de entidade.

Pode ser usado para executar:

Menções Extração : Identifique menções ou menções relevantes globalmente relevantes para um determinado domínio
Wikification : a tarefa de vincular menções textuais às entidades na Wikipedia
Zero e poucos tiro denominado reconhecimento de entidade : Usando a descrição da linguagem, execute o nerd para generalizar para domínios invisíveis
Zero e poucos tiro nomeados reconhecimento de relacionamento
Visualização: NER ZERO SHOT e RE Extração

Requisitos

Python 3.6+
spacy - Zshot depende de Spacy para pipelining e visualização
torch - Pytorch é necessário para executar modelos Pytorch.
transformers - necessários para modelos de idiomas pré -treinados.
evaluate - necessário para a avaliação.
datasets - necessários para avaliar os conjuntos de dados (por exemplo: ontonotes).

Dependências opcionais

flair - Necessário se você quiser usar o Flair menciona o extrator e para o ligante de alcatrão e o alcatrão menciona o extrator.
blink - necessário se você quiser usar o Blink para vincular as páginas da Wikipedia.
gliner - Necessário se você deseja usar o Linker ou Gliner menciona o Extrator.

Instalação

$ pip install zshot

---> 100%

Exemplos

Exemplo	Caderno
Instalação e visualização
Extrator de conhecimento
Wikification
Componentes personalizados
Avaliação

Abordagem do zshot

O ZShot contém dois componentes diferentes, o extrator mencionado e o ligante .

Menciona extrator

O extrator mencionado detectará as entidades possíveis (também conhecidas como mencionadas), que serão vinculadas a uma fonte de dados (por exemplo: Wikidata) pelo vinculador .

Atualmente, existem 7 menções diferentes, suportados por extratores , SMXM, Tars, Gliner, 2 com base no Spacy e 2 que são baseados no Flair . As duas versões diferentes para Spacy e Flair são semelhantes, uma é baseada no reconhecimento e classificação de entidade nomeadas (NERC) e o outro é baseado na lingüística (isto é: usando parte da marcação de fala (POS) e análise de dependência (DP)).

A abordagem NERC usará os modelos NERC para detectar todas as entidades que precisam ser vinculadas. Essa abordagem depende do modelo que está sendo usado e das entidades nas quais o modelo foi treinado; portanto, dependendo do caso de uso e das entidades -alvo, pode não ser a melhor abordagem, pois as entidades podem não ser reconhecidas pelo modelo NERC e, portanto, não serão vinculadas.

A abordagem linguística depende da idéia que menciona geralmente será um sintagma ou um substantivo. Portanto, essa abordagem detecta substantivos incluídos em um sintagma e que agem como objetos, assuntos etc. Essa abordagem não depende do modelo (embora o desempenho dependente), mas um substantivo em um texto deve ser sempre um substantivo, não depende do conjunto de dados em que o modelo foi treinado.

Linker

O vinculador vinculará as entidades detectadas a um conjunto de etiquetas existente. Alguns dos ligantes , no entanto, são de ponta a ponta , ou seja, eles não precisam das menções extrator , pois detectam e vinculam as entidades ao mesmo tempo.

Novamente, existem 5 ligantes disponíveis atualmente, 3 deles são de ponta a ponta e 2 não.

Nome do vinculador	ponta a ponta	Código -fonte	Papel
Piscar	X	Código -fonte	Papel
GÊNERO	X	Código -fonte	Papel
Smxm	✓	Código -fonte	Papel
Alcatrão	✓	Código -fonte	Papel
Gliner	✓	Código -fonte	Papel

Extrator de relações

O extrator de relações extrairá relações entre diferentes entidades anteriormente extraídas por um ligante .

Atualmente, o extrator é apenas uma relação disponível:

ZS-Bert
- Papel
- Código -fonte

Extrator de conhecimento

O extrator de conhecimento terá realizar ao mesmo tempo a extração e classificação de entidades nomeadas e a extração das relações entre elas. O pipeline com este componente não precisa de nenhuma menção extrator , ligante ou extrator de relação ao trabalho.

Atualmente, o extrator de conhecimento é disponível:

Knowgl
- Rossiello et al. (AAAI 2023)
- Mihindukulasoriya et al. (ISWC 2022)

Como usá -lo

Requisitos de instalação: pip install -r requirements.txt
Instale um pipeline espacial para usá -lo para mencionar a extração: python -m spacy download en_core_web_sm
Crie um arquivo main.py com a definição de configuração e entidades ( abstrato da Wikipedia é geralmente um bom ponto de partida para descrições ):

 import spacy

from zshot import PipelineConfig , displacy
from zshot . linker import LinkerRegen
from zshot . mentions_extractor import MentionsExtractorSpacy
from zshot . utils . data_models import Entity

nlp = spacy . load ( "en_core_web_sm" )
nlp_config = PipelineConfig (
    mentions_extractor = MentionsExtractorSpacy (),
    linker = LinkerRegen (),
    entities = [
        Entity ( name = "Paris" ,
               description = "Paris is located in northern central France, in a north-bending arc of the river Seine" ),
        Entity ( name = "IBM" ,
               description = "International Business Machines Corporation (IBM) is an American multinational technology corporation headquartered in Armonk, New York" ),
        Entity ( name = "New York" , description = "New York is a city in U.S. state" ),
        Entity ( name = "Florida" , description = "southeasternmost U.S. state" ),
        Entity ( name = "American" ,
               description = "American, something of, from, or related to the United States of America, commonly known as the United States or America" ),
        Entity ( name = "Chemical formula" ,
               description = "In chemistry, a chemical formula is a way of presenting information about the chemical proportions of atoms that constitute a particular chemical compound or molecule" ),
        Entity ( name = "Acetamide" ,
               description = "Acetamide (systematic name: ethanamide) is an organic compound with the formula CH3CONH2. It is the simplest amide derived from acetic acid. It finds some use as a plasticizer and as an industrial solvent." ),
        Entity ( name = "Armonk" ,
               description = "Armonk is a hamlet and census-designated place (CDP) in the town of North Castle, located in Westchester County, New York, United States." ),
        Entity ( name = "Acetic Acid" ,
               description = "Acetic acid, systematically named ethanoic acid, is an acidic, colourless liquid and organic compound with the chemical formula CH3COOH" ),
        Entity ( name = "Industrial solvent" ,
               description = "Acetamide (systematic name: ethanamide) is an organic compound with the formula CH3CONH2. It is the simplest amide derived from acetic acid. It finds some use as a plasticizer and as an industrial solvent." ),
    ]
)
nlp . add_pipe ( "zshot" , config = nlp_config , last = True )

text = "International Business Machines Corporation (IBM) is an American multinational technology corporation" 
       " headquartered in Armonk, New York, with operations in over 171 countries."

doc = nlp ( text )
displacy . serve ( doc , style = "ent" )

Execute

Correr com

$ python main.py

Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

O script anotará o texto usando o Zshot e usará o Despotacy para visualizar as anotações

Verifique

Abra seu navegador em http://127.0.0.1:5000.

Você verá a frase anotada:

Como criar um componente personalizado

Se você deseja implementar suas próprias meacteres_extractor ou vinculador e use -o com o Zshot, você pode fazê -lo. Para facilitar a implementação do usuário, são fornecidas algumas classes base que você deve estender com seu código.

É tão simples quanto criar uma nova classe que estende a classe base ( MentionsExtractor e Linker ). Você precisará implementar o método Predict, que receberá os documentos Spacy e retornará uma lista de zshot.utils.data_models.Span para cada documento.

Esta é uma mencionação simples_extractor que extrairá como menciona todas as palavras que contêm a letra s:

 from typing import Iterable
import spacy
from spacy . tokens import Doc
from zshot import PipelineConfig
from zshot . utils . data_models import Span
from zshot . mentions_extractor import MentionsExtractor

class SimpleMentionExtractor ( MentionsExtractor ):
    def predict ( self , docs : Iterable [ Doc ], batch_size = None ):
        spans = [[ Span ( tok . idx , tok . idx + len ( tok )) for tok in doc if "s" in tok . text ] for doc in docs ]
        return spans

new_nlp = spacy . load ( "en_core_web_sm" )

config = PipelineConfig (
    mentions_extractor = SimpleMentionExtractor ()
)
new_nlp . add_pipe ( "zshot" , config = config , last = True )
text_acetamide = "CH2O2 is a chemical compound similar to Acetamide used in International Business " 
        "Machines Corporation (IBM)."

doc = new_nlp ( text_acetamide )
print ( doc . _ . mentions )

> >> [ is , similar , used , Business , Machines , materials ]

Como avaliar o Zshot

A avaliação é um processo importante para continuar melhorando o desempenho dos modelos, é por isso que o ZShot permite avaliar o componente com dois conjuntos de dados predefinidos: ontonotes e medições, em uma versão zero na qual as entidades das divisões de teste e validação não aparecem no conjunto de trem.

A evaluation do pacote contém todas as funcionalidades para avaliar os componentes do Zshot. A função principal é zshot.evaluation.zshot_evaluate.evaluate , que levará como entrada o modelo SPACY nlp e o conjunto de dados para avaliar. Ele retornará um str contendo uma tabela com os resultados da avaliação. Por exemplo, a avaliação do vinculador Tars no ZShot para o conjunto de validação de ontonotes seria:

 import spacy

from zshot import PipelineConfig
from zshot . linker import LinkerTARS
from zshot . evaluation . dataset import load_ontonotes_zs
from zshot . evaluation . zshot_evaluate import evaluate , prettify_evaluate_report
from zshot . evaluation . metrics . seqeval . seqeval import Seqeval

ontonotes_zs = load_ontonotes_zs ( 'validation' )


nlp = spacy . blank ( "en" )
nlp_config = PipelineConfig (
    linker = LinkerTARS (),
    entities = ontonotes_zs . entities
)

nlp . add_pipe ( "zshot" , config = nlp_config , last = True )

evaluation = evaluate ( nlp , ontonotes_zs , metric = Seqeval ())
prettify_evaluate_report ( evaluation )

Citação

 @inproceedings{picco-etal-2023-zshot,
    title = "Zshot: An Open-source Framework for Zero-Shot Named Entity Recognition and Relation Extraction",
    author = "Picco, Gabriele  and
      Martinez Galindo, Marcos  and
      Purpura, Alberto  and
      Fuchs, Leopold  and
      Lopez, Vanessa  and
      Hoang, Thanh Lam",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    month = jul,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.acl-demo.34",
    doi = "10.18653/v1/2023.acl-demo.34",
    pages = "357--368",
    abstract = "The Zero-Shot Learning (ZSL) task pertains to the identification of entities or relations in texts that were not seen during training. ZSL has emerged as a critical research area due to the scarcity of labeled data in specific domains, and its applications have grown significantly in recent years. With the advent of large pretrained language models, several novel methods have been proposed, resulting in substantial improvements in ZSL performance. There is a growing demand, both in the research community and industry, for a comprehensive ZSL framework that facilitates the development and accessibility of the latest methods and pretrained models.In this study, we propose a novel ZSL framework called Zshot that aims to address the aforementioned challenges. Our primary objective is to provide a platform that allows researchers to compare different state-of-the-art ZSL methods with standard benchmark datasets. Additionally, we have designed our framework to support the industry with readily available APIs for production under the standard SpaCy NLP pipeline. Our API is extendible and evaluable, moreover, we include numerous enhancements such as boosting the accuracy with pipeline ensembling and visualization utilities available as a SpaCy extension.",
}

Expandir

Informações adicionais

Versão v0.0.9
Tipo Outro código-fonte
Data da Última Atualização 2025-04-18
tamanho 432.72KB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos