
Bentuk kata dapat secara akurat menghasilkan semua bentuk yang mungkin dari kata bahasa Inggris. Itu bisa mengkonjugasikan kata kerja. Ini dapat menghubungkan berbagai bagian pidato misalnya kata benda ke kata sifat, kata sifat untuk kata keterangan, kata benda untuk kata kerja dll. Ini dapat merugikan kata benda tunggal. Ini melakukan semua ini dalam satu fungsi. Menikmati!
Beberapa contoh yang sangat tepat waktu :-p
> >> from word_forms . word_forms import get_word_forms
> >> get_word_forms ( "president" )
> >> { 'n' : { 'presidents' , 'presidentships' , 'presidencies' , 'presidentship' , 'president' , 'presidency' },
'a' : { 'presidential' },
'v' : { 'preside' , 'presided' , 'presiding' , 'presides' },
'r' : { 'presidentially' }}
> >> get_word_forms ( "elect" )
> >> { 'n' : { 'elects' , 'electives' , 'electors' , 'elect' , 'eligibilities' , 'electorates' , 'eligibility' , 'elector' , 'election' , 'elections' , 'electorate' , 'elective' },
'a' : { 'eligible' , 'electoral' , 'elective' , 'elect' },
'v' : { 'electing' , 'elects' , 'elected' , 'elect' },
'r' : set ()}
> >> get_word_forms ( "politician" )
> >> { 'n' : { 'politician' , 'politics' , 'politicians' },
'a' : { 'political' },
'v' : set (),
'r' : { 'politically' }}
> >> get_word_forms ( "am" )
> >> { 'n' : { 'being' , 'beings' },
'a' : set (),
'v' : { 'was' , 'be' , "weren't" , 'am' , "wasn't" , "aren't" , 'being' , 'were' , 'is' , "isn't" , 'been' , 'are' , 'am not' },
'r' : set ()}
> >> get_word_forms ( "ran" )
> >> { 'n' : { 'run' , 'runniness' , 'runner' , 'runninesses' , 'running' , 'runners' , 'runnings' , 'runs' },
'a' : { 'running' , 'runny' },
'v' : { 'running' , 'run' , 'ran' , 'runs' },
'r' : set ()}
> >> get_word_forms ( 'continent' , 0.8 ) # with configurable similarity threshold
> >> { 'n' : { 'continents' , 'continency' , 'continences' , 'continent' , 'continencies' , 'continence' },
'a' : { 'continental' , 'continent' },
'v' : set (),
'r' : set ()}Seperti yang Anda lihat, outputnya adalah kamus dengan empat tombol. "R" adalah singkatan dari kata keterangan, "A" untuk kata sifat, "n" untuk kata benda dan "v" untuk kata kerja. Jangan tanya saya mengapa "R" adalah singkatan dari kata keterangan. Inilah yang digunakan Wordnet, jadi inilah mengapa saya menggunakannya juga :-)
Bantuan dapat diperoleh kapan saja dengan mengetik berikut:
> >> help ( get_word_forms )Dalam pemrosesan dan pencarian bahasa alami, orang sering perlu memperlakukan kata -kata seperti "lari" dan "lari", "cinta" dan "menyenangkan" atau "politisi" dan "politik" sebagai kata yang sama. Ini biasanya dilakukan dengan secara algoritmik mengurangi setiap kata menjadi kata dasar dan kemudian membandingkan kata -kata dasar. Prosesnya disebut Stemming. Misalnya, Porter Stemmer mengurangi "cinta" dan "indah" menjadi kata dasar "cinta".
Stemmers memiliki beberapa kekurangan. Pertama, kata dasar yang dihasilkan oleh Stemmer tidak selalu kata bahasa Inggris yang valid. Misalnya, Porter Stemmer mengurangi kata "operasi" menjadi "oper". Kedua, stemmers memiliki tingkat negatif palsu yang tinggi. Misalnya, "lari" dikurangi menjadi "lari" dan "ran" dikurangi menjadi "lari". Ini terjadi karena stemmers menggunakan seperangkat aturan rasional untuk menemukan kata -kata dasar, dan seperti yang kita semua tahu, bahasa Inggris tidak selalu berperilaku sangat rasional.
Lemmatizer lebih akurat daripada stemmers karena mereka menghasilkan bentuk dasar yang ada dalam kamus (juga disebut lemma). Jadi kata yang dikurangi selalu kata bahasa Inggris yang valid. Namun, Lemmatizers juga memiliki negatif palsu karena mereka tidak terlalu pandai menghubungkan kata -kata di berbagai bagian pidato. Lemmatizer WordNet yang disertakan dengan NLTK gagal di hampir semua contoh tersebut. "Operasi" dikurangi menjadi "operasi" dan "beroperasi" dikurangi menjadi "beroperasi".
Formulir kata mencoba menyelesaikan masalah ini dengan menemukan semua bentuk yang mungkin dari kata bahasa Inggris yang diberikan. Ini dapat melakukan konjugasi kata kerja, menghubungkan bentuk kata benda ke bentuk kata kerja, bentuk kata sifat, bentuk kata keterangan, memlularisasi bentuk singular dll.
Kami juga menawarkan lemmatizer yang sangat sederhana berdasarkan word_forms . Inilah cara menggunakannya.
> >> from word_forms . lemmatizer import lemmatize
> >> lemmatize ( "operations" )
'operant'
> >> lemmatize ( "operate" )
'operant'Menikmati!
Diuji pada Python 3
Menggunakan pip :
pip install -U word_forms
Atau Anda dapat menginstalnya dari sumber:
git clone https://github.com/gutfeeling/word_forms.git
pip atau setup.py pip install -e word_forms
% or
cd word_forms
python setup.py install
Hai, saya dibanya dan saya mempertahankan repositori ini. Saya ingin sekali mendengar dari Anda. Jangan ragu untuk menghubungi saya di [email protected].
Bentuk kata tidak sempurna. Secara khusus, beberapa aspek dapat ditingkatkan.
Jika Anda menyukai paket ini, silakan berkontribusi. Permintaan tarikan Anda sangat disambut.