Unduh deep_srl - Unduh Kode Sumber deep

deep_srl

Kode sumber lainnya

1.0.0

Unduh

Pelabelan peran semantik yang dalam

Repositori ini berisi kode untuk pelatihan dan menggunakan model SRL yang dalam yang dijelaskan dalam: Label Peran Semantik yang Dalam: Apa yang berhasil dan apa selanjutnya

Jika Anda menggunakan kode kami, silakan mengutip kertas kami sebagai berikut:

@Inproeding {he2017deep,
title = {label peran semantik yang dalam: apa yang berhasil dan apa selanjutnya},
Penulis = {He, Luheng dan Lee, Kenton dan Lewis, Mike dan Zettlemoyer, Luke},
booktitle = {Prosiding Pertemuan Tahunan Asosiasi Linguistik Komputasi},
tahun = {2017}
}

Memulai

Prasyarat:

Python harus menggunakan Python 2. Anda dapat mensimulasikan ini dengan VirtualEnv.
Pip Instal Numpy
PIP Instal Theano == 0.9.0 (Kecabi dengan Theano 1.0 belum diuji)
Pip Instal Protobuf
Pip Instal NLTK (untuk tokenisasi, hanya diperlukan untuk konsol interaktif)
sudo apt-get install tcsh (hanya diperlukan untuk memproses data conll05)
[Git penyimpanan file besar] (https://git-lfs.github.com/): Diperlukan untuk mengunduh file model besar. Atau, Anda bisa mendapatkan model di sini
Embeddings sarung tangan dan skrip srlconll:
./scripts/fetch_required_data.sh

Model pretrained

Mendekompres model (dalam sumber daya) di bawah direktori neural_srl. Misalnya, di bawah Direktori Codebase:
tar -zxvf resources/conll05_model.tar.gz

Berikut daftar model pretrained:

conll05_model.tar.gz : model tunggal yang dilatih pada dataset CONLL-2005.
conll05_ensemble.tar.gz : 5 model ensemble yang dilatih pada dataset CONLL-2005.
conll05_propid_model.tar.gz : Train model identifikasi predikat pada CONLL-2005.
conll2012_model.tar.gz : model tunggal yang dilatih pada dataset CONLL-2012.
conll2012_ensemble.tar.gz : 5 model ensemble yang dilatih pada dataset CONLL-2012.
conll2012_propid_model.tar.gz : Train model identifikasi predikat pada CONLL-2012.

Cobalah konsol interaktif!

python python/interactive.py --model conll05_model/ --pidmodel conll05_propid_model

Prediksi SRL End-to-End:

Berlari:
./scripts/run_end2end.sh sample_data/sentences_with_predicates.txt temp/sample.out (pada cpu) atau:
./scripts/run_end2end.sh sample_data/sentences_with_predicates.txt temp/sample.out ${gpu_id} (pada gpu)

Perhatikan bahwa skrip menambahkan /usr/local/cuda/... ke PATH dan CUDA_LD_LIBRARY_PATH , dan memuat model pretrain dari ./conll05_propid_model dan ./conll05_ensemble , harap sesuaikan konfigurasi sesuai dengan pengaturan Anda sendiri.

File input berisi kalimat tokenisasi, satu kalimat per baris.

File output akan berisi sesuatu seperti:

John menyuruh Pat untuk memotong pohon.
Predikat: Diceritakan (1)
A0: John
V: Diceritakan
A2: Pat
A1: Untuk memotong pohon

John menyuruh Pat untuk memotong pohon.
Predikat: Potong (4)
A0: Pat
V: Potong
A1: Pohon

Masalah skalabilitas

Model membangun untuk pertama kalinya mungkin memakan waktu cukup lama (kurang dari 30 menit).
Saat ini predict.py memuat seluruh file input ke dalam memori, sehingga akan lebih baik untuk menjaga jumlah kalimat di setiap file di bawah 50.000.

Data conll

Untuk mereplikasi hasil pada dataset CONLL-2005 dan CONLL-2012, silakan ikuti langkah-langkah di bawah ini.

Conll-2005

Data disediakan oleh: Tugas Bersama CONLL-2005, tetapi kata-kata aslinya berasal dari Dataset Penn Treebank, yang tidak tersedia untuk umum. Jika Anda memiliki corpus PTB, Anda dapat menjalankan:
./scripts/fetch_and_make_conll05_data.sh /path/to/ptb/

Conll-2012

Anda harus mengikuti instruksi di bawah ini untuk mendapatkan data CONLL-2012 CONLL-2012, ini akan menghasilkan direktori yang disebut /path/to/conll-formatted-ontonotes-5.0 . Berlari:
./scripts/make_conll2012_data.sh /path/to/conll-formatted-ontonotes-5.0

Memprediksi SRL dengan model terlatih

Lihat Penggunaan python/train.py :
python python/predict.py -h

Atau sebagai awal yang cepat, jalankan model terlatih (membutuhkan conll05_ensemble):
./scripts/run_predict_conll05.sh ${gpu_id} atau:
./scripts/run_predict_conll05.sh untuk berjalan di CPU.

Jalankan model ujung ke ujung dengan prediksi (membutuhkan conll05_ensemble, dan conll05_propid_model):
./scripts/run_end_to_end_conll05.sh ${gpu_id}

Menjalankan model CONLL-2012 bekerja dengan cara yang sama.

Melatih model baru

Lihat Penggunaan python/train.py :
python python/train.py -h

Latih model SRL (dengan predikat emas) dengan file konfigurasi yang telah ditentukan sebelumnya: ./scripts/run_train.sh ${gpu_id}

Latih predikat identifikasi: ./scripts/run_propid_train.sh ${gpu_id}

Perhatikan bahwa pada waktu pelatihan, train.py berjalan dalam model FAST_RUN , yang akan menghasilkan overhead besar kompilasi model. Butuh waktu hingga beberapa menit untuk model 2 lapisan, dan hingga 8 jam untuk model 8 lapisan dengan dropout variasional.

Format data

Silakan merujuk ke file di sample_data dan penjelasan di bawah ini untuk cara memformat input model.

Format bio-tag untuk model SRL

Setiap baris berisi tepat satu sampel pelatihan, yang memiliki informasi predikat (indeks dalam kalimat, mulai dari 0), kalimat tokenized, dan urutan tag. Jika tag emas tidak ada, cukup gunakan urutan OS. Kalimat dan urutan tag dipisahkan dengan ||| simbol. Kami menggunakan format IOB2. Semua token dan simbol dipisahkan oleh whitespace yang sewenang -wenang.

Contoh baris:

2 Kucing saya menyukai topi. ||| B-A0 I-A0 BV B-A1 O

Format penandaan untuk model identifikasi predikat

Formatnya mirip dengan yang ditentukan di atas, kecuali bahwa setiap baris sesuai dengan kalimat input, dan tidak ada informasi predikat yang disediakan. Prediat sesuai dengan tag V dan semua kata lainnya diberi label dengan tag O.

Contoh baris:

Kucing saya suka topi, kata mereka. ||| Oovooovo

Konfigurasi untuk pelatihan.

config berisi beberapa file konfigurasi untuk melatih model SRL ( srl_config.json dan srl_small_config.json ) serta untuk melatih model predikat-id ( propid_config.json )

Kontak

Hubungi Luheng He jika Anda memiliki pertanyaan!

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-16
ukuran 53.89KB
Berasal dari Github

Aplikasi Terkait

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
Lapangan Dalam

2023-07-07
Permainan Pemburu Dalam

2023-07-03
Di dalam

2022-08-30
Rune yang dalam

2022-07-25

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua