Unduh zshot - Unduh Kode Sumber zshot

zshot

Kode sumber lainnya

v0.0.9

Unduh

Zshot

Nol dan beberapa tembakan bernama pengakuan entitas & hubungan

Membangun

Dokumentasi : https://ibm.github.io/zshot

Kode Sumber : https://github.com/ibm/zshot

Kertas : https://aclanthology.org/2023.acl-demo.34/

Zshot adalah kerangka kerja yang sangat dapat disesuaikan untuk melakukan pengakuan entitas nol dan beberapa bidikan.

Dapat digunakan untuk melakukan:

Menyebutkan Ekstraksi : Identifikasi secara global menyebutkan atau menyebutkan yang relevan untuk domain yang diberikan
Wikifikasi : Tugas menghubungkan menyebutkan tekstual dengan entitas di Wikipedia
Nol dan beberapa pengakuan entitas bernama : Menggunakan deskripsi bahasa melakukan ner untuk menggeneralisasi ke domain yang tidak terlihat
Nol dan beberapa tembakan bernama pengakuan hubungan
Visualisasi: Ekstraksi ner-shot ner dan re

Persyaratan

Python 3.6+
spacy - Zshot mengandalkan spacy untuk pipa dan visualisasi
torch - Pytorch diperlukan untuk menjalankan model Pytorch.
transformers - Diperlukan untuk model bahasa pra -terlatih.
evaluate - Diperlukan untuk evaluasi.
datasets - Diperlukan untuk mengevaluasi dataset melalui (misalnya: Ontonotes).

Dependensi opsional

flair - Diperlukan jika Anda ingin menggunakan Flair menyebutkan ekstraktor dan untuk tars linker dan tars menyebutkan ekstraktor.
blink - Diperlukan jika Anda ingin menggunakan Blink untuk menautkan ke halaman Wikipedia.
gliner - Diperlukan jika Anda ingin menggunakan Gliner Linker atau Gliner menyebutkan ekstraktor.

Instalasi

$ pip install zshot

---> 100%

Contoh

Contoh	Buku catatan
Instalasi dan Visualisasi
Ekstraktor pengetahuan
Wikifikasi
Komponen khusus
Evaluasi

Pendekatan zshot

Zshot berisi dua komponen yang berbeda, Extractor dan Linker .

Menyebutkan ekstraktor

Extractor yang disebutkan akan mendeteksi entitas yang mungkin (alias menyebutkan), yang kemudian akan ditautkan ke sumber data (misalnya: wikidata) oleh linker .

Saat ini, ada 7 penyebutan yang berbeda yang didukung ekstraktor , SMXM, TAR, gliner, 2 berdasarkan spacy , dan 2 yang didasarkan pada bakat . Dua versi yang berbeda untuk spacy dan bakat serupa, satu didasarkan pada pengakuan entitas dan klasifikasi yang disebutkan (NERC) dan yang lainnya didasarkan pada linguistik (yaitu: menggunakan bagian dari penandaan pidato (POS) dan ketergantungan parsing (DP)).

Pendekatan NERC akan menggunakan model NERC untuk mendeteksi semua entitas yang harus dihubungkan. Pendekatan ini tergantung pada model yang sedang digunakan, dan entitas model telah dilatih, jadi tergantung pada kasus penggunaan dan entitas target itu mungkin bukan pendekatan terbaik, karena entitas mungkin tidak dikenali oleh model NERC dan dengan demikian tidak akan dikaitkan.

Pendekatan linguistik bergantung pada gagasan bahwa menyebutkan biasanya akan menjadi sintagma atau kata benda. Oleh karena itu, pendekatan ini mendeteksi kata benda yang termasuk dalam sintagma dan yang bertindak seperti objek, subjek, dll. Pendekatan ini tidak bergantung pada model (meskipun kinerjanya melakukannya), tetapi kata benda dalam teks harus selalu menjadi kata benda, tidak tergantung pada dataset model telah dilatih.

Tautan

Linker akan menautkan entitas yang terdeteksi ke set label yang ada. Namun, beberapa penghubung adalah ujung ke ujung , yaitu mereka tidak membutuhkan ekstraktor menyebutkan , karena mereka mendeteksi dan menghubungkan entitas pada saat yang sama.

Sekali lagi, ada 5 tautan yang tersedia saat ini, 3 di antaranya adalah ujung ke ujung dan 2 tidak.

Nama tautan	ujung ke ujung	Kode Sumber	Kertas
Berkedip	X	Kode Sumber	Kertas
GENRE	X	Kode Sumber	Kertas
Smxm	✓	Kode Sumber	Kertas
Tars	✓	Kode Sumber	Kertas
Gliner	✓	Kode Sumber	Kertas

Ekstraktor Hubungan

Ekstraktor hubungan akan mengekstraksi hubungan di antara berbagai entitas yang sebelumnya diekstraksi oleh linker ..

Saat ini, hanya satu ekstraktor relasi yang tersedia:

ZS-BERT
- Kertas
- Kode Sumber

Ekstraktor pengetahuan

Ekstraktor pengetahuan akan melakukan pada saat yang sama ekstraksi dan klasifikasi entitas yang disebutkan dan ekstraksi hubungan di antara mereka. Pipa dengan komponen ini tidak perlu menyebutkan ekstraktor , penghubung, atau ekstraktor hubungan untuk bekerja.

Saat ini, hanya satu ekstraktor pengetahuan yang tersedia:

Knowgl
- Rossiello et al. (AAAI 2023)
- Mihindukulasooriya et al. (ISWC 2022)

Cara menggunakannya

Instal Persyaratan: pip install -r requirements.txt
Instal pipa spacy untuk menggunakannya untuk menyebutkan ekstraksi: python -m spacy download en_core_web_sm
Buat file main.py dengan konfigurasi pipa dan definisi entitas ( abstrak wikipedia biasanya merupakan titik awal yang baik untuk deskripsi ):

 import spacy

from zshot import PipelineConfig , displacy
from zshot . linker import LinkerRegen
from zshot . mentions_extractor import MentionsExtractorSpacy
from zshot . utils . data_models import Entity

nlp = spacy . load ( "en_core_web_sm" )
nlp_config = PipelineConfig (
    mentions_extractor = MentionsExtractorSpacy (),
    linker = LinkerRegen (),
    entities = [
        Entity ( name = "Paris" ,
               description = "Paris is located in northern central France, in a north-bending arc of the river Seine" ),
        Entity ( name = "IBM" ,
               description = "International Business Machines Corporation (IBM) is an American multinational technology corporation headquartered in Armonk, New York" ),
        Entity ( name = "New York" , description = "New York is a city in U.S. state" ),
        Entity ( name = "Florida" , description = "southeasternmost U.S. state" ),
        Entity ( name = "American" ,
               description = "American, something of, from, or related to the United States of America, commonly known as the United States or America" ),
        Entity ( name = "Chemical formula" ,
               description = "In chemistry, a chemical formula is a way of presenting information about the chemical proportions of atoms that constitute a particular chemical compound or molecule" ),
        Entity ( name = "Acetamide" ,
               description = "Acetamide (systematic name: ethanamide) is an organic compound with the formula CH3CONH2. It is the simplest amide derived from acetic acid. It finds some use as a plasticizer and as an industrial solvent." ),
        Entity ( name = "Armonk" ,
               description = "Armonk is a hamlet and census-designated place (CDP) in the town of North Castle, located in Westchester County, New York, United States." ),
        Entity ( name = "Acetic Acid" ,
               description = "Acetic acid, systematically named ethanoic acid, is an acidic, colourless liquid and organic compound with the chemical formula CH3COOH" ),
        Entity ( name = "Industrial solvent" ,
               description = "Acetamide (systematic name: ethanamide) is an organic compound with the formula CH3CONH2. It is the simplest amide derived from acetic acid. It finds some use as a plasticizer and as an industrial solvent." ),
    ]
)
nlp . add_pipe ( "zshot" , config = nlp_config , last = True )

text = "International Business Machines Corporation (IBM) is an American multinational technology corporation" 
       " headquartered in Armonk, New York, with operations in over 171 countries."

doc = nlp ( text )
displacy . serve ( doc , style = "ent" )

Jalankan

Jalankan dengan

$ python main.py

Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Script akan memberi anotasi teks menggunakan zshot dan menggunakan perpindahan untuk memvisualisasikan anotasi

Periksa

Buka browser Anda di http://127.0.0.1:5000.

Anda akan melihat kalimat beranotasi:

Cara membuat komponen khusus

Jika Anda ingin mengimplementasikan Anda sendiri mutons_extractor atau linker dan menggunakannya dengan zshot, Anda dapat melakukannya. Agar lebih mudah bagi pengguna untuk mengimplementasikan komponen baru, beberapa kelas dasar disediakan bahwa Anda harus memperpanjang dengan kode Anda.

Ini sesederhana membuat kelas baru yang memperluas kelas dasar ( MentionsExtractor atau Linker ). Anda harus mengimplementasikan metode prediksi, yang akan menerima dokumen spacy dan akan mengembalikan daftar zshot.utils.data_models.Span untuk setiap dokumen.

Ini adalah Simple Sumsions_Extractor yang akan mengekstraksi karena menyebutkan semua kata yang berisi huruf s:

 from typing import Iterable
import spacy
from spacy . tokens import Doc
from zshot import PipelineConfig
from zshot . utils . data_models import Span
from zshot . mentions_extractor import MentionsExtractor

class SimpleMentionExtractor ( MentionsExtractor ):
    def predict ( self , docs : Iterable [ Doc ], batch_size = None ):
        spans = [[ Span ( tok . idx , tok . idx + len ( tok )) for tok in doc if "s" in tok . text ] for doc in docs ]
        return spans

new_nlp = spacy . load ( "en_core_web_sm" )

config = PipelineConfig (
    mentions_extractor = SimpleMentionExtractor ()
)
new_nlp . add_pipe ( "zshot" , config = config , last = True )
text_acetamide = "CH2O2 is a chemical compound similar to Acetamide used in International Business " 
        "Machines Corporation (IBM)."

doc = new_nlp ( text_acetamide )
print ( doc . _ . mentions )

> >> [ is , similar , used , Business , Machines , materials ]

Cara mengevaluasi zshot

Evaluasi adalah proses penting untuk terus meningkatkan kinerja model, itulah sebabnya Zshot memungkinkan untuk mengevaluasi komponen dengan dua dataset yang telah ditentukan: Ontonotes dan Medmentions, dalam versi zero-shot di mana entitas pengujian dan pemisahan validasi tidak muncul dalam set kereta.

evaluation paket berisi semua fungsi untuk mengevaluasi komponen zshot. Fungsi utama adalah zshot.evaluation.zshot_evaluate.evaluate , yang akan mengambil sebagai memasukkan model nlp spacy dan dataset untuk dievaluasi. Ini akan mengembalikan str yang berisi tabel dengan hasil evaluasi. Misalnya evaluasi linker TAR di zshot untuk set validasi Ontonotes adalah:

 import spacy

from zshot import PipelineConfig
from zshot . linker import LinkerTARS
from zshot . evaluation . dataset import load_ontonotes_zs
from zshot . evaluation . zshot_evaluate import evaluate , prettify_evaluate_report
from zshot . evaluation . metrics . seqeval . seqeval import Seqeval

ontonotes_zs = load_ontonotes_zs ( 'validation' )


nlp = spacy . blank ( "en" )
nlp_config = PipelineConfig (
    linker = LinkerTARS (),
    entities = ontonotes_zs . entities
)

nlp . add_pipe ( "zshot" , config = nlp_config , last = True )

evaluation = evaluate ( nlp , ontonotes_zs , metric = Seqeval ())
prettify_evaluate_report ( evaluation )

Kutipan

 @inproceedings{picco-etal-2023-zshot,
    title = "Zshot: An Open-source Framework for Zero-Shot Named Entity Recognition and Relation Extraction",
    author = "Picco, Gabriele  and
      Martinez Galindo, Marcos  and
      Purpura, Alberto  and
      Fuchs, Leopold  and
      Lopez, Vanessa  and
      Hoang, Thanh Lam",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    month = jul,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.acl-demo.34",
    doi = "10.18653/v1/2023.acl-demo.34",
    pages = "357--368",
    abstract = "The Zero-Shot Learning (ZSL) task pertains to the identification of entities or relations in texts that were not seen during training. ZSL has emerged as a critical research area due to the scarcity of labeled data in specific domains, and its applications have grown significantly in recent years. With the advent of large pretrained language models, several novel methods have been proposed, resulting in substantial improvements in ZSL performance. There is a growing demand, both in the research community and industry, for a comprehensive ZSL framework that facilitates the development and accessibility of the latest methods and pretrained models.In this study, we propose a novel ZSL framework called Zshot that aims to address the aforementioned challenges. Our primary objective is to provide a platform that allows researchers to compare different state-of-the-art ZSL methods with standard benchmark datasets. Additionally, we have designed our framework to support the industry with readily available APIs for production under the standard SpaCy NLP pipeline. Our API is extendible and evaluable, moreover, we include numerous enhancements such as boosting the accuracy with pipeline ensembling and visualization utilities available as a SpaCy extension.",
}

Memperluas

Informasi Tambahan

Versi v0.0.9
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-18
ukuran 432.72KB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua