Repositori ini tidak lagi dipertahankan
textpipe adalah paket Python untuk mengubah teks mentah menjadi teks yang bersih dan mudah dibaca dan mengekstraksi metadata dari teks itu. Fungsionalitasnya termasuk mengubah teks mentah menjadi teks yang dapat dibaca dengan menghapus tag HTML dan mengekstraksi metadata seperti jumlah kata dan entitas yang disebutkan dari teks.
HTML dan konstruksi lain yang tidak dapat dibacaDianjurkan agar Anda menginstal TextPipe menggunakan lingkungan virtual.
Pertama, buat lingkungan virtual Anda menggunakan VirtualEnv atau VirtualEnvWrapper.
Menggunakan venv jika penerjemah default Anda adalah python3.6
python3 -m venv .venvvirtualenv venv -p python3.6mkvirtualenv textpipe -p python3.6pip install textpipepip install -r requirements.txtSementara file persyaratan.txt yang disertakan dengan panggilan paket untuk model EN_CORE_WEB_SM Spacy, ini dapat diubah tergantung pada model dan bahasa yang Anda butuhkan untuk penggunaan yang Anda maksudkan. Lihat halaman spacy.io pada model yang berbeda untuk informasi lebih lanjut.
> >> from textpipe import doc , pipeline
> >> sample_text = 'Sample text! <!DOCTYPE>'
> >> document = doc . Doc ( sample_text )
> >> print ( document . clean )
'Sample text!'
> >> print ( document . language )
'en'
> >> print ( document . nwords )
2
> >> pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
> >> print ( pipe ( sample_text ))
{ 'CleanText' : 'Sample text!' , 'NWords' : 3 }Untuk memperluas operasi TextPipe yang ada dengan operasi hak milik Anda sendiri;
test_pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
def custom_op ( doc , context = None , settings = None , ** kwargs ):
return 1
custom_argument = { 'argument' : 1 }
test_pipe . register_operation ( 'CUSTOM_STEP' , custom_op )
test_pipe . steps . append (( 'CUSTOM_STEP' , custom_argument ))Lihat berkontribusi untuk pedoman bagi kontributor.
0.12.1
0.12.0
0.11.9
ents yang sewenang -wenang0.11.8
cats Spacy0.11.7
0.11.6
0.11.5
0.11.4
0.11.1
0.11.0
0.9.0
0.8.6
0.8.5
0.8.4
0.8.3
0.8.2
0.8.1
0.8.0
0.7.2
0.7.0
context kwargregister_operation di Pipeline