Загрузка zshot - скачать исходный код zshot

zshot

Другой исходный код

v0.0.9

Скачать

Zshot

Ноль и немногие выстрелы по имени сущности и признание отношений

Строить

Документация : https://ibm.github.io/zshot

Исходный код : https://github.com/ibm/zshot

Бумага : https://aclanthology.org/2023.acl-demo.34/

Zshot - это очень настраиваемая структура для выполнения ноль и мало ударов по распознаванию сущности.

Можно использовать для выполнения:

Упоминает извлечение : выявить во всем мире упоминания или упоминания, имеющие отношение к данной области
Викификация : задача связывания текстовых упоминаний с субъектами в Википедии
Зель и несколько выстрелов, названных именованных объектов .
Зель и несколько выстрелов по признанию отношений
Визуализация: нулевая и повторная добыча

Требования

Python 3.6+
spacy - Zshot полагается на Spacy для трубопровода и визуализации
torch - PYTORCH необходим для запуска моделей Pytorch.
transformers - требуются для предварительно обученных языковых моделей.
evaluate - требуется для оценки.
datasets - необходимо для оценки наборов данных (например, Ontonotes).

Необязательные зависимости

flair - Требуется, если вы хотите использовать экстрактор Flair, а для линкера TARS и TARS упоминает экстрактор.
blink - Требуется, если вы хотите использовать Blink для ссылки на страницы Википедии.
gliner - Требуется, если вы хотите использовать Extractor Gliner или Gliner Mentions Extractor.

Установка

$ pip install zshot

---> 100%

Примеры

Пример	Блокнот
Установка и визуализация
Экстрактор знаний
Викификация
Пользовательские компоненты
Оценка

Zshot подход

Zshot содержит два разных компонента, экстрактор упоминаний и линкер .

Упоминает экстрактор

Экстрактор упоминаний обнаружит возможные объекты (он же упоминания), которые затем будут связаны с источником данных (например: Wikidata) линкером .

В настоящее время поддерживаются 7 различных экстракторов упоминаний , SMXM, TARS, Gliner, 2, основанные на Spacy и 2, которые основаны на таланте . Две разные версии для Spacy и Flair аналогичны, одна основана на распознавании и классификации сущности (NERC), а другая основана на лингвистике (т. Е. Использование части речевого тега (POS) и диапазона зависимости (DP)).

Подход NERC будет использовать модели NERC для обнаружения всех объектов, которые должны быть связаны. Этот подход зависит от используемой модели, и сущностей, на которые модель была обучена, поэтому в зависимости от случая использования и целевых объектов, которые она может быть не лучшим подходом, так как объекты могут не быть распознаны моделью NERC и, следовательно, не будут связаны.

Лингвистический подход основан на идее, которую упоминает, обычно будет синтагмой или существительным. Следовательно, этот подход обнаруживает существительные, которые включены в синтагму, и которые действуют как объекты, субъекты и т. Д. Этот подход не зависит от модели (хотя производительность выполняет), но существительное в тексте всегда должно быть существительным, он не зависит от набора данных, на котором модель была обучена.

Линкер

Линкер будет связывать обнаруженные объекты с существующим набором меток. Некоторые из линкеров , однако, сквозные , то есть им не нужно экстрактор упоминаний , поскольку они обнаруживают и одновременно связывают сущности.

Опять же, в настоящее время доступно 5 линкеров , 3 из них являются сквозными, а 2-нет.

Имя линкера	сквозной	Исходный код	Бумага
Мигание	Х	Исходный код	Бумага
ЖАНР	Х	Исходный код	Бумага
Smxm	✓	Исходный код	Бумага
Герметичный	✓	Исходный код	Бумага
Прозвенел	✓	Исходный код	Бумага

Отношения экстрактор

Экстрактор отношений извлекает отношения между различными сущностями, ранее извлеченными линкером .

В настоящее время доступен только один экстрактор связи:

ZS-Bert
- Бумага
- Исходный код

Экстрактор знаний

Экстрактор знаний будет выполнять в то же время извлечение и классификация названных сущностей и извлечение между ними. Трубопровод с этим компонентом не нуждается в упоминаниях экстрактора , линкера или экстрактора отношения для работы.

В настоящее время доступен только один экстрактор знаний:

Знание
- Rossiello et al. (AAAI 2023)
- Mihindukulasooriya et al. (ISWC 2022)

Как его использовать

Установите требования: pip install -r requirements.txt
Установите трубопровод Spacy, чтобы использовать его для упоминания. Извлечение: python -m spacy download en_core_web_sm
Создайте файл main.py с определением конфигурации трубопровода и объектов ( Abstract Wikipedia, как правило, является хорошей отправной точкой для описаний ):

 import spacy

from zshot import PipelineConfig , displacy
from zshot . linker import LinkerRegen
from zshot . mentions_extractor import MentionsExtractorSpacy
from zshot . utils . data_models import Entity

nlp = spacy . load ( "en_core_web_sm" )
nlp_config = PipelineConfig (
    mentions_extractor = MentionsExtractorSpacy (),
    linker = LinkerRegen (),
    entities = [
        Entity ( name = "Paris" ,
               description = "Paris is located in northern central France, in a north-bending arc of the river Seine" ),
        Entity ( name = "IBM" ,
               description = "International Business Machines Corporation (IBM) is an American multinational technology corporation headquartered in Armonk, New York" ),
        Entity ( name = "New York" , description = "New York is a city in U.S. state" ),
        Entity ( name = "Florida" , description = "southeasternmost U.S. state" ),
        Entity ( name = "American" ,
               description = "American, something of, from, or related to the United States of America, commonly known as the United States or America" ),
        Entity ( name = "Chemical formula" ,
               description = "In chemistry, a chemical formula is a way of presenting information about the chemical proportions of atoms that constitute a particular chemical compound or molecule" ),
        Entity ( name = "Acetamide" ,
               description = "Acetamide (systematic name: ethanamide) is an organic compound with the formula CH3CONH2. It is the simplest amide derived from acetic acid. It finds some use as a plasticizer and as an industrial solvent." ),
        Entity ( name = "Armonk" ,
               description = "Armonk is a hamlet and census-designated place (CDP) in the town of North Castle, located in Westchester County, New York, United States." ),
        Entity ( name = "Acetic Acid" ,
               description = "Acetic acid, systematically named ethanoic acid, is an acidic, colourless liquid and organic compound with the chemical formula CH3COOH" ),
        Entity ( name = "Industrial solvent" ,
               description = "Acetamide (systematic name: ethanamide) is an organic compound with the formula CH3CONH2. It is the simplest amide derived from acetic acid. It finds some use as a plasticizer and as an industrial solvent." ),
    ]
)
nlp . add_pipe ( "zshot" , config = nlp_config , last = True )

text = "International Business Machines Corporation (IBM) is an American multinational technology corporation" 
       " headquartered in Armonk, New York, with operations in over 171 countries."

doc = nlp ( text )
displacy . serve ( doc , style = "ent" )

Запустить это

Бежать с

$ python main.py

Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Скрипт будет аннотировать текст, используя ZSHOT и использует дисптарику для визуализации аннотаций

Проверьте это

Откройте свой браузер по адресу http://127.0.0.1:5000.

Вы увидите аннотированное предложение:

Как создать пользовательский компонент

Если вы хотите реализовать свои собственные ementions_extractor или линкер и использовать его с помощью Zshot, вы можете это сделать. Чтобы упростить пользователю внедрить новый компонент, предоставляются некоторые базовые классы, которые вы должны расширить с вашим кодом.

Это так же просто, как создать новый класс, расширяющий базовый класс ( MentionsExtractor или Linker ). Вам придется реализовать метод прогноза, который будет получать документы Spacy и вернуть список zshot.utils.data_models.Span для каждого документа.

Это простые упоминания_extractor, который будет извлекать как упоминание всех слов, которые содержат буквы s:

 from typing import Iterable
import spacy
from spacy . tokens import Doc
from zshot import PipelineConfig
from zshot . utils . data_models import Span
from zshot . mentions_extractor import MentionsExtractor

class SimpleMentionExtractor ( MentionsExtractor ):
    def predict ( self , docs : Iterable [ Doc ], batch_size = None ):
        spans = [[ Span ( tok . idx , tok . idx + len ( tok )) for tok in doc if "s" in tok . text ] for doc in docs ]
        return spans

new_nlp = spacy . load ( "en_core_web_sm" )

config = PipelineConfig (
    mentions_extractor = SimpleMentionExtractor ()
)
new_nlp . add_pipe ( "zshot" , config = config , last = True )
text_acetamide = "CH2O2 is a chemical compound similar to Acetamide used in International Business " 
        "Machines Corporation (IBM)."

doc = new_nlp ( text_acetamide )
print ( doc . _ . mentions )

> >> [ is , similar , used , Business , Machines , materials ]

Как оценить Zshot

Оценка является важным процессом для поддержания повышения производительности моделей, поэтому Zshot позволяет оценивать компонент с двумя предопределенными наборами данных: Ontonotes и Medmentions, в версии с нулевым выстрелом, в которой объекты испытательных и валидационных разделений не появляются в наборе поездов.

evaluation пакета содержит все функции для оценки компонентов ZSHOT. Основной функцией является zshot.evaluation.zshot_evaluate.evaluate , который будет вводить в качестве входной модели Spacy nlp и набора данных для оценки. Он вернет str , содержащую таблицу с результатами оценки. Например, оценка линкера Tars в Zshot для набора валидации Ontonotes будет:

 import spacy

from zshot import PipelineConfig
from zshot . linker import LinkerTARS
from zshot . evaluation . dataset import load_ontonotes_zs
from zshot . evaluation . zshot_evaluate import evaluate , prettify_evaluate_report
from zshot . evaluation . metrics . seqeval . seqeval import Seqeval

ontonotes_zs = load_ontonotes_zs ( 'validation' )


nlp = spacy . blank ( "en" )
nlp_config = PipelineConfig (
    linker = LinkerTARS (),
    entities = ontonotes_zs . entities
)

nlp . add_pipe ( "zshot" , config = nlp_config , last = True )

evaluation = evaluate ( nlp , ontonotes_zs , metric = Seqeval ())
prettify_evaluate_report ( evaluation )

Цитирование

 @inproceedings{picco-etal-2023-zshot,
    title = "Zshot: An Open-source Framework for Zero-Shot Named Entity Recognition and Relation Extraction",
    author = "Picco, Gabriele  and
      Martinez Galindo, Marcos  and
      Purpura, Alberto  and
      Fuchs, Leopold  and
      Lopez, Vanessa  and
      Hoang, Thanh Lam",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    month = jul,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.acl-demo.34",
    doi = "10.18653/v1/2023.acl-demo.34",
    pages = "357--368",
    abstract = "The Zero-Shot Learning (ZSL) task pertains to the identification of entities or relations in texts that were not seen during training. ZSL has emerged as a critical research area due to the scarcity of labeled data in specific domains, and its applications have grown significantly in recent years. With the advent of large pretrained language models, several novel methods have been proposed, resulting in substantial improvements in ZSL performance. There is a growing demand, both in the research community and industry, for a comprehensive ZSL framework that facilitates the development and accessibility of the latest methods and pretrained models.In this study, we propose a novel ZSL framework called Zshot that aims to address the aforementioned challenges. Our primary objective is to provide a platform that allows researchers to compare different state-of-the-art ZSL methods with standard benchmark datasets. Additionally, we have designed our framework to support the industry with readily available APIs for production under the standard SpaCy NLP pipeline. Our API is extendible and evaluable, moreover, we include numerous enhancements such as boosting the accuracy with pipeline ensembling and visualization utilities available as a SpaCy extension.",
}

Расширять

Дополнительная информация

Версия v0.0.9
Тип Другой исходный код
Время обновления 2025-04-18
размер 432.72KB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

zshot

Zshot

Требования

Необязательные зависимости

Установка

Примеры

Zshot подход

Упоминает экстрактор

Линкер

Отношения экстрактор

Экстрактор знаний

Как его использовать

Запустить это

Проверьте это

Как создать пользовательский компонент

Как оценить Zshot

Цитирование

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express