Téléchargement zshot - Téléchargement du code source zshot

zshot

Autre code source

v0.0.9

Télécharger

Zshot

Zéro et quelques coups nommés entité et reconnaissance des relations

Construire

Documentation : https://ibm.github.io/zshot

Code source : https://github.com/ibm/zshot

Papier : https://aclanthology.org/2023.acl-demo.34/

Zshot est un framework hautement personnalisable pour effectuer Zero et quelques coups nommés entités.

Peut être utilisé pour jouer:

Mentions l'extraction : identifier les mentions ou mentionne les mentions ou les mentions pertinentes pour un domaine donné
Wikification : La tâche de lier les mentions textuelles aux entités de Wikipedia
Zero et quelques coups nommés entités Nommé : Utilisation de la description du langage Effectuez NER pour généraliser aux domaines invisibles
Zero et quelques coups nommés reconnaissance de la relation
Visualisation: extraction NER et RE à tirs zéro

Exigences

Python 3.6+
spacy - Zshot s'appuie sur Spacy pour le pipeline et la visualisation
torch - Pytorch est nécessaire pour exécuter des modèles Pytorch.
transformers - Requis pour les modèles de langue pré-formés.
evaluate - requis pour l'évaluation.
datasets - requis pour évaluer les ensembles de données (par exemple: ontonotes).

Dépendances facultatives

flair - Requis si vous souhaitez utiliser l'extracteur Flair Mentions Extracteur et pour TARS Linker et TARS Mentions l'extracteur.
blink - requis si vous souhaitez utiliser Blink pour lier aux pages Wikipedia.
gliner - OBLIQUE Si vous souhaitez utiliser Gliner Linker ou Gliner Mentions Extracteur.

Installation

$ pip install zshot

---> 100%

Exemples

Exemple	Carnet de notes
Installation et visualisation
Extracteur de connaissances
Bourse
Composants personnalisés
Évaluation

Approche zshot

Zshot contient deux composants différents, l' extracteur de mentions et le lieur .

Mentionne l'extracteur

L' extracteur des mentions détectera les entités possibles (AKA Mentions), qui seront ensuite liées à une source de données (par exemple: Wikidata) par la liaison .

Actuellement, il y a 7 mentions différentes soutenues, SMXM, TARS, GLINER, 2 basées sur Spacy et 2 qui sont basées sur Flair . Les deux versions différentes pour Spacy et Flair sont similaires, l'une est basée sur la reconnaissance et la classification des entités nommées (NERC) et l'autre est basée sur la linguistique (c'est-à-dire: en utilisant une partie du marquage de la parole (POS) et l'analyse de dépendance (DP)).

L'approche NERC utilisera les modèles NERC pour détecter toutes les entités qui doivent être liées. Cette approche dépend du modèle utilisé et des entités sur lesquelles le modèle a été formé, donc en fonction du cas d'utilisation et des entités cibles, il peut ne pas être la meilleure approche, car les entités peuvent ne pas être reconnues par le modèle NERC et ne seront donc pas liées.

L'approche linguistique repose sur l'idée que les mentions seront généralement une syntagma ou un nom. Par conséquent, cette approche détecte les noms qui sont inclus dans une syntagma et qui agissent comme des objets, des sujets, etc. Cette approche ne dépend pas du modèle (bien que les performances le font), mais un nom dans un texte devrait être toujours un nom, il ne dépend pas de l'ensemble de données sur lequel le modèle a été formé.

Linker

Le linker reliera les entités détectées à un ensemble d'étiquettes existantes. Cependant, certains des liens sont de bout en bout, c'est-à- dire qu'ils n'ont pas besoin de l' extracteur des mentions , car ils détectent et relient les entités en même temps.

Encore une fois, 5 lieurs sont actuellement disponibles, 3 d'entre eux sont de bout en bout et 2 ne le sont pas.

Nom de lieur	de bout en bout	Code source	Papier
Clignoter	X	Code source	Papier
GENRE	X	Code source	Papier
Smxm	✓	Code source	Papier
Goudron	✓	Code source	Papier
Gain	✓	Code source	Papier

Extracteur de relations

L' extracteur de relations extraitra les relations entre les différentes entités précédemment extraites par un linker .

Actuellement, le n'est qu'un extracteur de relation disponible:

ZS-BERT
- Papier
- Code source

Extracteur de connaissances

L' extracteur de connaissances se produira en même temps l'extraction et la classification des entités nommées et l'extraction des relations entre eux. Le pipeline avec ce composant n'a besoin aucun extracteur , lieur ou extracteur de relation pour fonctionner.

Actuellement, le n'est qu'un extracteur de connaissances disponible:

Knowgl
- Rossiello et al. (AAAI 2023)
- Mihinkulasooriya et al. (ISWC 2022)

Comment l'utiliser

Installation des exigences: pip install -r requirements.txt
Installez un pipeline Spacy pour l'utiliser pour des mentions d'extraction: python -m spacy download en_core_web_sm
Créer un fichier main.py avec la configuration de la configuration et des entités du pipeline ( Wikipedia Résumé est généralement un bon point de départ pour les descriptions ):

 import spacy

from zshot import PipelineConfig , displacy
from zshot . linker import LinkerRegen
from zshot . mentions_extractor import MentionsExtractorSpacy
from zshot . utils . data_models import Entity

nlp = spacy . load ( "en_core_web_sm" )
nlp_config = PipelineConfig (
    mentions_extractor = MentionsExtractorSpacy (),
    linker = LinkerRegen (),
    entities = [
        Entity ( name = "Paris" ,
               description = "Paris is located in northern central France, in a north-bending arc of the river Seine" ),
        Entity ( name = "IBM" ,
               description = "International Business Machines Corporation (IBM) is an American multinational technology corporation headquartered in Armonk, New York" ),
        Entity ( name = "New York" , description = "New York is a city in U.S. state" ),
        Entity ( name = "Florida" , description = "southeasternmost U.S. state" ),
        Entity ( name = "American" ,
               description = "American, something of, from, or related to the United States of America, commonly known as the United States or America" ),
        Entity ( name = "Chemical formula" ,
               description = "In chemistry, a chemical formula is a way of presenting information about the chemical proportions of atoms that constitute a particular chemical compound or molecule" ),
        Entity ( name = "Acetamide" ,
               description = "Acetamide (systematic name: ethanamide) is an organic compound with the formula CH3CONH2. It is the simplest amide derived from acetic acid. It finds some use as a plasticizer and as an industrial solvent." ),
        Entity ( name = "Armonk" ,
               description = "Armonk is a hamlet and census-designated place (CDP) in the town of North Castle, located in Westchester County, New York, United States." ),
        Entity ( name = "Acetic Acid" ,
               description = "Acetic acid, systematically named ethanoic acid, is an acidic, colourless liquid and organic compound with the chemical formula CH3COOH" ),
        Entity ( name = "Industrial solvent" ,
               description = "Acetamide (systematic name: ethanamide) is an organic compound with the formula CH3CONH2. It is the simplest amide derived from acetic acid. It finds some use as a plasticizer and as an industrial solvent." ),
    ]
)
nlp . add_pipe ( "zshot" , config = nlp_config , last = True )

text = "International Business Machines Corporation (IBM) is an American multinational technology corporation" 
       " headquartered in Armonk, New York, with operations in over 171 countries."

doc = nlp ( text )
displacy . serve ( doc , style = "ent" )

Courir

Courir avec

$ python main.py

Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Le script annotera le texte à l'aide de Zshot et utilisera la déformation pour visualiser les annotations

Vérifiez

Ouvrez votre navigateur sur http://127.0.0.1:5000.

Vous verrez la phrase annotée:

Comment créer un composant personnalisé

Si vous souhaitez implémenter votre propre mentions_extractor ou un linker et l'utiliser avec Zshot, vous pouvez le faire. Pour faciliter la mise en œuvre d'un nouveau composant, certaines classes de base sont prévues que vous devez étendre avec votre code.

Il est aussi simple que de créer une nouvelle classe étendant la classe de base ( MentionsExtractor ou Linker ). Vous devrez implémenter la méthode de prédiction, qui recevra les documents Spacy et renverra une liste de zshot.utils.data_models.Span pour chaque document.

Ceci est un simple mentions_extractor qui extrait comme mentionne tous les mots qui contiennent la lettre S:

 from typing import Iterable
import spacy
from spacy . tokens import Doc
from zshot import PipelineConfig
from zshot . utils . data_models import Span
from zshot . mentions_extractor import MentionsExtractor

class SimpleMentionExtractor ( MentionsExtractor ):
    def predict ( self , docs : Iterable [ Doc ], batch_size = None ):
        spans = [[ Span ( tok . idx , tok . idx + len ( tok )) for tok in doc if "s" in tok . text ] for doc in docs ]
        return spans

new_nlp = spacy . load ( "en_core_web_sm" )

config = PipelineConfig (
    mentions_extractor = SimpleMentionExtractor ()
)
new_nlp . add_pipe ( "zshot" , config = config , last = True )
text_acetamide = "CH2O2 is a chemical compound similar to Acetamide used in International Business " 
        "Machines Corporation (IBM)."

doc = new_nlp ( text_acetamide )
print ( doc . _ . mentions )

> >> [ is , similar , used , Business , Machines , materials ]

Comment évaluer Zshot

L'évaluation est un processus important pour continuer à améliorer les performances des modèles, c'est pourquoi Zshot permet d'évaluer le composant avec deux ensembles de données prédéfinis: les ontonotes et les médiasons, dans une version zéro-shot dans laquelle les entités du test et des divisions de validation n'apparaissent pas dans l'ensemble de train.

L' evaluation du package contient toutes les fonctionnalités pour évaluer les composants Zshot. La fonction principale est zshot.evaluation.zshot_evaluate.evaluate , qui prendra en entrée le modèle nlp Spacy et l'ensemble de données à évaluer. Il renverra un str contenant une table avec les résultats de l'évaluation. Par exemple, l'évaluation du linker TARS dans Zshot pour l'ensemble de validation Ontonotes serait:

 import spacy

from zshot import PipelineConfig
from zshot . linker import LinkerTARS
from zshot . evaluation . dataset import load_ontonotes_zs
from zshot . evaluation . zshot_evaluate import evaluate , prettify_evaluate_report
from zshot . evaluation . metrics . seqeval . seqeval import Seqeval

ontonotes_zs = load_ontonotes_zs ( 'validation' )


nlp = spacy . blank ( "en" )
nlp_config = PipelineConfig (
    linker = LinkerTARS (),
    entities = ontonotes_zs . entities
)

nlp . add_pipe ( "zshot" , config = nlp_config , last = True )

evaluation = evaluate ( nlp , ontonotes_zs , metric = Seqeval ())
prettify_evaluate_report ( evaluation )

Citation

 @inproceedings{picco-etal-2023-zshot,
    title = "Zshot: An Open-source Framework for Zero-Shot Named Entity Recognition and Relation Extraction",
    author = "Picco, Gabriele  and
      Martinez Galindo, Marcos  and
      Purpura, Alberto  and
      Fuchs, Leopold  and
      Lopez, Vanessa  and
      Hoang, Thanh Lam",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    month = jul,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.acl-demo.34",
    doi = "10.18653/v1/2023.acl-demo.34",
    pages = "357--368",
    abstract = "The Zero-Shot Learning (ZSL) task pertains to the identification of entities or relations in texts that were not seen during training. ZSL has emerged as a critical research area due to the scarcity of labeled data in specific domains, and its applications have grown significantly in recent years. With the advent of large pretrained language models, several novel methods have been proposed, resulting in substantial improvements in ZSL performance. There is a growing demand, both in the research community and industry, for a comprehensive ZSL framework that facilitates the development and accessibility of the latest methods and pretrained models.In this study, we propose a novel ZSL framework called Zshot that aims to address the aforementioned challenges. Our primary objective is to provide a platform that allows researchers to compare different state-of-the-art ZSL methods with standard benchmark datasets. Additionally, we have designed our framework to support the industry with readily available APIs for production under the standard SpaCy NLP pipeline. Our API is extendible and evaluable, moreover, we include numerous enhancements such as boosting the accuracy with pipeline ensembling and visualization utilities available as a SpaCy extension.",
}

Développer

Informations supplémentaires

Version v0.0.9
Type Autre code source
Date de mise à jour 2025-04-18
taille 432.72KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout