import texthero as hero
import pandas as pd
df = pd . read_csv (
"https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)
df [ 'tfidf' ] = (
df [ 'text' ]
. pipe ( hero . clean )
. pipe ( hero . tfidf )
)
df [ 'kmeans_labels' ] = (
df [ 'tfidf' ]
. pipe ( hero . kmeans , n_clusters = 5 )
. astype ( str )
)
df [ 'pca' ] = df [ 'tfidf' ]. pipe ( hero . pca )
hero . scatterplot ( df , 'pca' , color = 'kmeans_labels' , title = "K-means BBC Sport news" ) > >> import texthero as hero
> >> import pandas as pd
> >> text = "This sèntencé (123 /) needs to [OK!] be cleaned! "
> >> s = pd . Series ( text )
> >> s
0 This sèntencé ( 123 / ) needs to [ OK !] be cleane ...
dtype : objectHapus semua digit:
> >> s = hero . remove_digits ( s )
> >> s
0 This sèntencé ( / ) needs to [ OK !] be cleaned !
dtype : objectHapus digit hanya menggantikan blok digit. Digit dalam string "Hello123" tidak akan dihapus. Jika kami ingin menghapus semua digit, Anda harus mengatur hanya_blocks ke false.
Hapus semua jenis tanda kurung dan isinya.
> >> s = hero . remove_brackets ( s )
> >> s
0 This sèntencé needs to be cleaned !
dtype : objectHapus diakritik.
> >> s = hero . remove_diacritics ( s )
> >> s
0 This sentence needs to be cleaned !
dtype : objectHapus tanda baca.
> >> s = hero . remove_punctuation ( s )
> >> s
0 This sentence needs to be cleaned
dtype : objectHapus ruang putih ekstra.
> >> s = hero . remove_whitespace ( s )
> >> s
0 This sentence needs to be cleaned
dtype : objectTerkadang kami juga ingin menyingkirkan kata-kata berhenti.
> >> s = hero . remove_stopwords ( s )
> >> s
0 This sentence needs cleaned
dtype : object Texthero terdiri dari empat modul: preprocessing.py, nlp.py, representation.py dan visualisasi.py.
Lingkup: Siapkan data teks untuk analisis lebih lanjut.
Dokumentasi Lengkap: Preprocessing
Lingkup: Menyediakan alat pemrosesan bahasa alami klasik seperti named_entity dan noun_phrases .
Dokumentasi Lengkap: NLP
Lingkup: Peta data teks ke dalam vektor dan lakukan pengurangan dimensi.
Algoritma Representasi yang Didukung:
count )tfidf )Algoritma pengelompokan yang didukung:
kmeans )dbscan )meanshift )Algoritma Pengurangan Dimensi yang Didukung:
pca )tsne )nmf )Dokumentasi Lengkap: Representasi
Lingkup: Ringkas fakta -fakta utama mengenai data teks dan visualisasikan. Modul ini bisa diselesaikan. Ini berguna bagi siapa saja yang membutuhkan solusi cepat untuk memvisualisasikan di layar data teks, misalnya selama Analisis Data Eksplorasi Teks (EDA).
Fungsi yang Didukung:
scatterplot )top_words )Dokumentasi Lengkap: Visualisasi
Terkadang kita hanya ingin sesuatu dilakukan, bukan? Texthero membantu dengan itu. Ini membantu membuat segalanya lebih mudah dan memberi pengembang lebih banyak waktu untuk fokus pada persyaratan khususnya. Kami percaya bahwa teks pembersihan harus memakan waktu sebentar. Sama untuk menemukan bagian terpenting dari suatu teks dan sama untuk mewakilinya.
Dengan cara yang sangat pragmatis, Texthero hanya memiliki satu tujuan: membuat pengembang waktu luang. Bekerja dengan data teks bisa menjadi rasa sakit dan dalam kebanyakan kasus, pipa default bisa cukup baik untuk memulai. Selalu ada waktu untuk kembali dan meningkatkan pekerjaan sebelumnya.
"Texthero telah dikembangkan oleh anggota komunitas NLP untuk seluruh komunitas NLP"
Texthero adalah untuk kita semua NLP-Developer dan dapat terus ada dengan kontribusi masyarakat yang berharga.
Tingkat keahlian Anda tentang Python dan NLP tidak masalah, siapa pun dapat membantu dan siapa pun lebih dari dipersilakan untuk berkontribusi!
Apakah Anda seorang ahli NLP?
Apakah Anda pandai membuat situs web?
Situs web akan segera dipindahkan dari Docusaurus ke Sphinx: Baca edisi terbuka di sana. Kabar Baik: Situs web ini akan terlihat seperti sekarang :) Berita rata-rata: kita perlu melakukan pengembangan web untuk mengadaptasi template sphinx ini dengan kebutuhan kita. Bisakah Anda membantu kami?
Apakah Anda pandai menulis?
Mungkin ini adalah bagian terpenting yang hilang sekarang di Texthero: lebih banyak tutorial dan lebih banyak lagi panduan "Memulai".
Jika Anda pandai menulis, Anda dapat membantu kami! Mengapa Anda tidak memulai dengan menambahkan halaman FAQ ke situs web atau menjelaskan cara membuat pipa khusus? Butuh bantuan? Kami ada untuk Anda.
Apakah Anda bagus di Python?
Ada banyak masalah terbuka untuk orang -orang teknisi. Mana yang kamu pilih?
Jika Anda hanya memiliki pertanyaan atau pertanyaan lain, kirimi saya antrean di jonathanbesomi__at__gmail.com
Lisensi MIT (MIT)
Hak Cipta (C) 2020 Texthero
Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:
Pemberitahuan hak cipta di atas dan pemberitahuan izin ini harus dimasukkan dalam semua salinan atau bagian substansial dari perangkat lunak.
Perangkat lunak ini disediakan "sebagaimana adanya", tanpa jaminan apa pun, tersurat maupun tersirat, termasuk tetapi tidak terbatas pada jaminan dapat diperjualbelikan, kebugaran untuk tujuan tertentu dan nonpringement. Dalam hal apa pun penulis atau pemegang hak cipta tidak akan bertanggung jawab atas klaim, kerusakan atau tanggung jawab lainnya, baik dalam tindakan kontrak, gugatan atau sebaliknya, timbul dari, di luar atau sehubungan dengan perangkat lunak atau penggunaan atau transaksi lain dalam perangkat lunak.