Unduh xmnlp - Unduh Kode Sumber xmnlp

XMNLP: Toolkit Pemrosesan Bahasa Natural Sumber Open Source Out of the Box

XMNLP: Toolkit Pemrosesan Bahasa Natural Tiongkok yang out-of-the-box

Tinjauan Fitur

Analisis Leksikal Cina (Roberta + CRF Finetune)
- Partisip
- Bagian dari anotasi ucapan
- Bernama pengenalan tubuh
- Mendukung kamus khusus
Pemeriksaan Ejaan Cina (Detektor + Korektor Ejaan)
Ringkasan Teks & Ekstraksi Kata Kunci (Textrank)
Analisis Sentimen (Roberta Finetune)
Teks ke pinyin (trie)
Karakter Tiongkok Radikal (HashMap)
Representasi kalimat dan perhitungan kesamaan

Garis besar

1. Instalasi
- Download model
- Model konfigurasi
2. Gunakan dokumen
- Participle default: Seg
  - Fast Participle: Fast_seg
  - Depth participle: Deep_seg
- Bagian dari Anotasi Pidato: Tag
  - Bagian cepat dari anotasi ucapan: fast_tag
  - Anotasi bagian-of-speech yang dalam: Deep_tag
- Kata parsial & parsial Kamus Kustom Anotasi Kata
- Bernama Pengenalan Tubuh: Ner
- Ekstraksi Kata Kunci: Kata kunci
- Ekstraksi pernyataan kunci: keyphrase
- Pengakuan Emosional: Sentimen
- Ekstraksi pinyin: pinyin
- Ekstraksi Radikal: Radikal
- Koreksi Kesalahan Teks: Pemeriksa
- Representasi Kalimat dan Perhitungan Kesamaan: SENTENCE_VECTOR
- Pemrosesan paralel
3. Lainnya
- Kontributor
- Kutipan Akademik
- Membutuhkan kustomisasi
- Kelompok komunikasi
Membatalkan
Lisensi

1. Instalasi

Instal versi terbaru dari XMNLP

pip install -U xmnlp

Pengguna domestik dapat menambahkan indeks-URL

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U xmnlp

Setelah menginstal paket, Anda juga perlu mengunduh bobot model untuk digunakan secara normal.

Download model

Silakan unduh versi XMNLP yang sesuai. Jika Anda tidak jelas tentang versi XMNLP, Anda dapat menjalankan python -c 'import xmnlp; print(xmnlp.__version__)' untuk melihat versi

Nama model	Versi yang berlaku	Alamat unduhan
xmnlp-onnx-model-v5.zip	v0.5.0, v0.5.1, v0.5.2, v0.5.3	Feishu [ighi] \| Baidu Netdisk [L9ID]
XMNLP-INNX-MODELS-V4.ZIP	V0.4.0	Feishu [dkla] \| Baidu Netdisk [J1QI]
xmnlp-onnx-model-v3.zip	v0.3.2, v0.3.3	Feishu [o4ba] \| Baidu Netdisk [9G7E]

Model konfigurasi

Setelah mengunduh model, Anda perlu mengatur jalur model XMNLP untuk dijalankan secara normal. Dua metode konfigurasi disediakan

Metode 1: Mengkonfigurasi Variabel Lingkungan (Dianjurkan)

Setelah model yang diunduh didekompresi, Anda dapat mengatur variabel lingkungan untuk menentukan alamat model. Mengambil sistem Linux sebagai contoh, pengaturannya adalah sebagai berikut

 export XMNLP_MODEL=/path/to/xmnlp-models

Metode 2: Mengatur melalui fungsi

Atur alamat model sebelum memanggil XMNLP, sebagai berikut

 import xmnlp

xmnlp . set_model ( '/path/to/xmnlp-models' )

* Di atas /path/to/ hanya untuk placeholder. Harap ganti dengan alamat direktori nyata model saat mengonfigurasi.

2. Gunakan dokumen

xmnlp.seg (teks: str) -> daftar [str]

Segmentasi Kata Cina (default), berdasarkan pencocokan maksimum terbalik, Roberta + CRF digunakan untuk pengenalan kata baru.

parameter:

Teks: Masukkan teks

Hasilnya kembali:

Daftar, hasil setelah segmentasi kata

Contoh:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.fast_seg (teks: str) -> daftar [str]

Segmentasi kata berdasarkan pencocokan maksimum terbalik tidak termasuk pengenalan kata baru, dan lebih cepat.

parameter:

Teks: Masukkan teks

Hasilnya kembali:

Daftar, hasil setelah segmentasi kata

Contoh:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即' , '用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.deep_seg (teks: str) -> daftar [str]

Berdasarkan model Roberta + CRF, kecepatannya lebih lambat. Saat ini, antarmuka yang dalam hanya mendukung bahasa Cina yang disederhanakan, bukan Cina tradisional.

parameter:

Teks: Masukkan teks

Hasilnya kembali:

Daftar, hasil setelah segmentasi kata

Contoh:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻' , '量级' , '中文' , '自然' , '语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.tag (teks: str) -> Daftar [tuple (str, str)]

Bagian dari anotasi pidato.

parameter:

Teks: Masukkan teks

Hasilnya kembali:

Daftar kata dan tupel bagian-of-speech

Contoh:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.fast_tag (teks: str) -> Daftar [tuple (str, str)]

Berdasarkan pencocokan maksimum terbalik, itu tidak termasuk pengenalan kata baru, dan lebih cepat.

parameter:

Teks: Masukkan teks

Hasilnya kembali:

Daftar kata dan tupel bagian-of-speech

Contoh:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . fast_tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即' , 'v' ), ( '用' , 'p' ), ( '的' , 'uj' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.deep_tag (teks: str) -> daftar [tuple (str, str)]]

Berdasarkan model Roberta + CRF, kecepatannya lebih lambat. Saat ini, antarmuka yang dalam hanya mendukung bahasa Cina yang disederhanakan, bukan Cina tradisional.

parameter:

Teks: Masukkan teks

Hasilnya kembali:

Daftar kata dan tupel bagian-of-speech

Contoh:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_tag ( text ))
[( 'xmnlp' , 'x' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'v' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻' , 'nz' ), ( '量级' , 'b' ), ( '中文' , 'nz' ), ( '自然' , 'n' ), ( '语言' , 'n' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'w' ), ( '。' , 'w' )]

Kata parsial & parsial Kamus Kustom Anotasi Kata

Mendukung kamus yang ditentukan pengguna, format kamus adalah

词1 词性1
词2 词性2

Juga kompatibel dengan format kamus Jieba participle

词1 词频1 词性1
词2 词频2 词性2

Catatan: Spacer di garis di atas adalah ruang

Contoh Penggunaan:

 from xmnlp . lexical . tokenization import Tokenization

# 定义 tokenizer
# detect_new_word 定义是否识别新词，默认 True， 设为 False 时速度会更快
tokenizer = Tokenization ( user_dict_path , detect_new_word = True )

# 分词
tokenizer . seg ( texts )
# 词性标注
tokenizer . tag ( texts )

xmnlp.ner (teks: str) -> Daftar [tuple (str, str, int, int)]]

Bernama pengenalan tubuh, tipe entitas yang mendukung pengakuan adalah:

Waktu: Waktu
Lokasi: Lokasi
Orang: Karakter
Pekerjaan: Karier
Organisasi: Organisasi

parameter:

Teks: Masukkan teks

Hasilnya kembali:

Daftar Entitas, Jenis Entitas, Posisi Mulai Entitas dan Posisi Akhir Entitas

Contoh:

 > >> import xmnlp
> >> text = "现任美国总统是拜登。"
> >> print ( xmnlp . ner ( text ))
[( '美国' , 'LOCATION' , 2 , 4 ), ( '总统' , 'JOB' , 4 , 6 ), ( '拜登' , 'PERSON' , 7 , 9 )]

xmnlp.keyword (teks: str, k: int = 10, stopword: bool = true, allowpos: opsional [daftar [str]] = tidak ada) -> daftar [tuple [str, float]]]

Ekstrak kata kunci dari teks, berdasarkan algoritma TextTrank.

parameter:

Teks: Input Teks
K: Mengembalikan jumlah kata kunci
Stopword: apakah akan menghapus stopword
ILLEYPOS: Konfigurasikan kualitas kata yang diizinkan

Hasilnya kembali:

Daftar Kata Kunci dan Bobot

Contoh:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyword ( text ))
[( '自然语言' , 2.3000579596585897 ), ( '语言' , 1.4734141257937314 ), ( '计算机' , 1.3747500999598312 ), ( '转化' , 1.2687686226652466 ), ( '系统' , 1.1171384775870152 ), ( '领域' , 1.0970728069617324 ), ( '人类' , 1.0192131829490039 ), ( '生成' , 1.0075197087342542 ), ( '认知' , 0.9327188339671753 ), ( '指' , 0.9218423928455112 )]

xmnlp.keyphrase (teks: str, k: int = 10, stopword: bool = false) -> daftar [str]

Ekstrak kalimat kunci dari teks, berdasarkan algoritma TextTrank.

parameter:

Teks: Input Teks
K: Mengembalikan jumlah kata kunci
Stopword: apakah akan menghapus stopword

Hasilnya kembali:

Daftar Kata Kunci dan Bobot

Contoh:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyphrase ( text , k = 2 ))
[ '自然语言理解系统把自然语言转化为计算机程序更易于处理的形式' , '自然语言生成系统把计算机数据转化为自然语言' ]

xmnlp.senttiment (teks: str) -> tuple [float, float]

Pengakuan emosional didasarkan pada pelatihan corpus ulasan e-commerce, dan cocok untuk pengakuan emosional dalam skenario e-commerce.

parameter:

Teks: Masukkan teks

Hasilnya kembali:

Tuple, format: [probabilitas emosi negatif, probabilitas emosi positif]

Contoh:

 > >> import xmnlp
> >> text = "这本书真不错，下次还要买"
> >> print ( xmnlp . sentiment ( text ))
( 0.02727833203971386 , 0.9727216958999634 )

xmnlp.pinyin (teks: str) -> Daftar [str]

Teks ke pinyin

parameter:

Teks: Masukkan teks

Hasilnya kembali:

Daftar pinyin

Contoh:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . pinyin ( text ))
[ 'Zi' , 'ran' , 'yu' , 'yan' , 'chu' , 'li' ]

xmnlp.radiical (teks: str) -> daftar [str]

Ekstrak radikal teks

parameter:

Teks: Masukkan teks

Hasilnya kembali:

Daftar Radikal

Contoh:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . radical ( text ))
[ '自' , '灬' , '讠' , '言' , '夂' , '王' ]

xmnlp.checker (Teks: str, Sarankan: bool = true, k: int = 5, max_k: int = 200) -> Union [daftar [tuple [int, str]], dikt [tuple [int, str], daftar [tuple [str, float]]]]:

Koreksi kesalahan teks

parameter:

Teks: Masukkan teks
Sarankan: apakah akan mengembalikan kata yang disarankan
K: Mengembalikan jumlah kata yang disarankan
MAX_K: Jumlah maksimum pencarian pinyin (disarankan untuk menjaga nilai default)

Hasilnya kembali:

Ketika menyarankan salah, ia mengembalikan daftar (kata yang salah, kata yang salah); Ketika menyarankan itu benar, ia mengembalikan kamus, kunci kamus adalah daftar (kata yang salah, kata yang salah), dan nilainya adalah kata dan daftar berat yang disarankan.

Contoh:

 > >> import xmnlp
> >> text = "不能适应体育专业选拔人材的要求"
> >> print ( xmnlp . checker ( text ))
{( 11 , '材' ): [( '才' , 1.58528071641922 ), ( '材' , 1.0009655653266236 ), ( '裁' , 1.0000178480604518 ), ( '员' , 0.35814568400382996 ), ( '士' , 0.011077565141022205 )]}

xmnlp.sv.sentencevector (model_dir: opsional [str] = tidak ada, genre: str = 'generik', max_length: int = 512)

Fungsi Inisialisasi Singkapan Salam

Model_dir: Alamat Simpan Model, dan bobot model yang disediakan oleh XMNLP dimuat secara default
Genre: Jenis Konten, saat ini mendukung tiga jenis: ['generik', 'keuangan', 'internasional']
Max_length: Panjang maksimum teks input, default 512

Berikut ini adalah tiga fungsi anggota dari SentencEvector

xmnlp.sv.sentencevector.transform (self, text: str) -> np.ndarray

xmnlp.sv.sentencevector.similarity (self, x: union [str, np.ndarray], y: union [str, np.ndarray]) -> float

xmnlp.sv.sentencevector.most_similar (self, query: str, docs: list [str], k: int = 1, ** kwargs) -> daftar [tuple [str, float]]]

Kueri: Konten permintaan
Dokumen: Daftar dokumen
k: return topk teks serupa
kwargs: parameter kdtree, lihat sklearn.neighbors.kdtree

Contoh penggunaan

 import numpy as np
from xmnlp . sv import SentenceVector


query = '我想买手机'
docs = [
    '我想买苹果手机' ,
    '我喜欢吃苹果'
]

sv = SentenceVector ( genre = '通用' )
for doc in docs :
    print ( 'doc:' , doc )
    print ( 'similarity:' , sv . similarity ( query , doc ))
print ( 'most similar doc:' , sv . most_similar ( query , docs ))
print ( 'query representation shape:' , sv . transform ( query ). shape )

Keluaran

 doc: 我想买苹果手机
similarity: 0.68668646
doc: 我喜欢吃苹果
similarity: 0.3020076
most similar doc: [('我想买苹果手机', 16.255546509314417)]
query representation shape: (312,)

Pemrosesan paralel

Versi baru tidak lagi menyediakan antarmuka pemrosesan paralel yang sesuai, dan membutuhkan penggunaan xmnlp.utils.parallel_handler untuk menentukan antarmuka pemrosesan paralel.

Antarmuka adalah sebagai berikut:

 xmnlp . utils . parallel_handler ( callback : Callable , texts : List [ str ], n_jobs : int = 2 , ** kwargs ) - > Generator [ List [ Any ], None , None ]

Contoh Penggunaan:

 from functools import partial

import xmnlp
from xmnlp . utils import parallel_handler


seg_parallel = partial ( parallel_handler , xmnlp . seg )
print ( seg_parallel ( texts ))

3. Lainnya

Tentang kontributor

Menantikan lebih banyak kontribusi teman untuk membuat alat NLP Cina yang sederhana dan mudah digunakan

Kutipan Kutipan Akademik

@ misc {
  xmnlp ,
  title = { XMNLP : A Lightweight Chinese Natural Language Processing Toolkit },
  author = { Xianming Li },
  year = { 2018 },
  publisher = { GitHub },
  howpublished = { url { https : // github . com / SeanLee97 / xmnlp }},
}

Membutuhkan kustomisasi

Saya berkomitmen untuk penelitian dan implementasi NLP, dan arahan saya meliputi: ekstraksi informasi, klasifikasi emosional, dll.

Untuk kebutuhan implementasi NLP lainnya, silakan hubungi [email protected] (ini adalah layanan berbayar, dan bug yang terkait dengan XMNLP dapat dilaporkan secara langsung)

Kelompok komunikasi

Cari akun resmi xmnlp-ai untuk mengikuti, pilih "Communication Group" di menu untuk bergabung dengan grup.

Referensi

Data yang digunakan dalam proyek ini terutama:

Analisis Leksikal, Koreksi Kesalahan Teks: Kutipan Harian Orang
Pengakuan Emosional: Chinesenlpcorpus

Lisensi

Apache 2.0

Sebagian besar model dibangun di atas langml

Memperluas