Mesin pencari Corpus Fast awalnya dibuat untuk corpus bahasa Tatar tertulis.
Anda dapat mencobanya di sini.
Kode sumber tersedia di https://github.com/mansayk/fastmorph.
Query:
Word 1: китап
Number of occurences: 32209
Query processing time: 0,4 sec.
Query:
Word 1 (case sensitive, distance to the next word up to 3 words): Китап
Word 2 (if in brackets, then it is lemma): (бир)
Number of occurences: 15
Query processing time: 0,4 sec.
Quite heavy query:
Word 1 (word begins with "б" letter, distance range to the next word is from 1 to 10): б*
Word 2 (pronoun, word ends with "ң", distance range to the next word is from 1 to 10): <prn>*ң
Word 3 (lemma "кил", word ends with "р"): (кил)*р
Number of occurences: 135210
Query processing time: 0,8 sec.
Very heavy query:
Word 1 (word ends with "ы", distance range to the next word is from 1 to 100): *ы
Word 2 (word ends with "а", distance range to the next word is from 1 to 100): *а
Word 3 (word ends with "м", distance range to the next word is from 1 to 100): *м
Word 4 (word ends with "с", distance range to the next word is from 1 to 100): *с
Word 5 (word ends with "ь", distance range to the next word is from 1 to 100): *ь
Word 6 (word ends with "е"): *е
Number of occurences: 135210
Query processing time: 1,4 sec.
Anda dapat mencobanya di sini. Ada berbagai contoh pencarian dalam manual corpus kami. Jika Anda memiliki pertanyaan tentang menggunakan FastMorph dalam proyek Anda, silakan hubungi kami dengan [email protected].
Kami juga meminta Anda untuk memberi tahu kami di mana mesin pencari ini digunakan dan, jika Anda tidak keberatan, kami akan menerbitkan tautan di sini ke proyek -proyek tersebut.
Perangkat lunak ini didistribusikan di bawah GNU Umum Lisensi Publik v3.0.
Kueri Pencarian:
Schematical view: {<adj>}(0) 1-5 {ке*<n>}(1) 1-1 {(кил)}(0) 1-1 {}(0) 1-1 {}(0) 1-1 {}(0)
Detailed:
Word 1 (distance range to the next word is from 1 to 5, adjective): <adj>
Word 2 (case sensitive, begins with "ке", noun): ке*<n>
Word 3: (lemma "кил"):(кил)
Word 4:
Word 5:
Word 6:
{
"word": [
"",
"",
"",
"",
"",
""
],
"lemma": [
"",
"",
"кил",
"",
"",
""
],
"tags": [
"<adj>",
"<n>",
"",
"",
"",
""
],
"wildmatch": [
"",
"ке*",
"",
"",
"",
""
],
"case": [
0,
1,
0,
0,
0,
0
],
"dist_from": [
1,
1,
1,
1,
1
],
"dist_to": [
5,
1,
1,
1,
1
],
"return": 100,
"last_pos": "0"
}
"Return" - Jumlah maksimum kalimat untuk dikembalikan.
"last_pos" - "0" untuk kueri pertama atau hanya mengembalikan string ini untuk mendapatkan daftar kalimat berikutnya.
Peringatan! Anda harus menormalkan dan memverifikasi data input sebelum meneruskannya ke FastMorph:
{
"example": [
{
"id": 15853,
"source": ""2013 Универсиадасы блогы" (web-сайт)",
"source_type": "kazan2013.ru",
"sentence": "Универсиада кебек зур проектның бер өлеше булу өчен, Казанга Россиянең төрле
төбәкләреннән һәм Дөньяның
<span id='found_word_0' class='found_word' title='(төрле) <adj>'>төрле</span>
илләреннән бик күп
<span id='found_word_1' class='found_word' title='(кеше) <n>,<nom>,<sg>'>кеше</span>
<span id='found_word_2' class='found_word' title='(кил) <ifi>,<iv>,<p3>,<sg>,<v>'>килде</span>."
},
{
"id": -1
}
],
"last_pos": "892447x39311905x75980782x114356633",
"found_all": 1359
}
Seperti yang Anda lihat, setiap kata yang cocok dengan kueri pencarian dikembalikan dalam tag HTML berikut:
<span id='found_word_0' class='found_word' title='(LEMMA) <TAG1><TAG2>'>FOUND_WORD</span>
Jadi, misalnya, Anda dapat menggunakan CSS untuk menyorotnya.
Anda dapat menemukan contoh membuat contoh di sini.
mysql> pilih * dari morph6_main_apertium batas 10;
| pengenal | serikat | kalimat | sumber |
|---|---|---|---|
| 0 | 1594501 | 1 | 1 |
| 1 | 761564 | 1 | 1 |
| 2 | 787834 | 1 | 1 |
| 3 | 1505641 | 1 | 1 |
| 4 | 420024 | 1 | 1 |
| 5 | 764201 | 1 | 1 |
| 6 | 1003674 | 1 | 1 |
| 7 | 1003851 | 1 | 1 |
| 8 | 764201 | 1 | 1 |
| 9 | 1057551 | 1 | 1 |
mysql> pilih * dari morph6_united_apertium di mana id> = 100 batas 10;
| pengenal | freq | word_case | kata | kata pengantar singkat | tag |
|---|---|---|---|---|---|
| 100 | 1 | 1000084 | 599888 | 429156 | 2 |
| 101 | 60 | 1000085 | 599890 | 429158 | 2 |
| 102 | 5 | 1000086 | 599891 | 429159 | 2 |
| 103 | 2 | 1000087 | 599892 | 429160 | 2 |
| 104 | 1 | 1000088 | 599893 | 429161 | 2 |
| 105 | 10 | 1000089 | 599894 | 429162 | 2 |
| 106 | 1 | 100008 | 164606 | 119768 | 2 |
| 107 | 1 | 1000090 | 599895 | 429163 | 2 |
| 108 | 5 | 1000091 | 599899 | 429167 | 2 |
| 109 | 1 | 1000092 | 599901 | 429169 | 2 |
mysql> pilih * dari morph6_words_case_apertium di mana id> 200000 batas 10;
| pengenal | freq | word_case |
|---|---|---|
| 200001 | 4 | Идәсенiden |
| 200002 | 1 | Иаәсендәе |
| 200003 | 3 | Иаәсене |
| 200004 | 290 | Иаәсенең |
| 200005 | 14 | Иаәсеннән |
| 200006 | 1 | Иаәсеның |
| 200007 | 79 | Иаәсенә |
| 200008 | 1 | Иарәснең |
| 200009 | 1 | Иарәсәнең |
| 200010 | 1 | Иарәханә |
mysql> pilih * dari morph6_words_apertium di mana id> 100000 batas 10;
| pengenal | freq | kata |
|---|---|---|
| 100001 | 975 | а Agustusитлancing |
| 100002 | 7 | а Agustusиллancing - ына |
| 100003 | 74 | а Agustusитлы: д д |
| 100004 | 1 | а Agustusитлancingы |
| 100005 | 1 | а Agustusитлыancingыдай |
| 100006 | 8 | а Agustusиллныкынан |
| 100007 | 1 | а Agustusиллыancingыынан да |
| 100008 | 1 | а Agustusитлыancingыча |
| 100009 | 1408 | а Agustusитлancing |
| 100010 | 3 | а Agustusиллancing - ына |
mysql> pilih * dari morph6_lemmas_apertium di mana id> 300000 batas 10;
| pengenal | freq | kata pengantar singkat |
|---|---|---|
| 300001 | 1 | и и ее_ secara |
| 300002 | 130 | и иеedit |
| 300003 | 8 | и иеeditәә |
| 300004 | 2 | и и чеedit ә ә |
| 300005 | 3 | и иеedit әнән |
| 300006 | 9 | и иеedit |
| 300007 | 2 | и и чеedit |
| 300008 | 2 | и иеedit |
| 300009 | 1 | и иеeditә |
| 300010 | 12 | и иеedit |
mysql> pilih * dari morph6_tags_apertium di mana id> 11100 batas 10;
| pengenal | freq | kombinasi |
|---|---|---|
| 11101 | 4 | <tut>, <cat>, <f>, <frm>, <np>, <px2sg> |
| 11102 | 17141 | <tut>, <cat>, <f>, <np> |
| 11103 | 387 | <tut>, <cat>, <f>, <np>, <pl> |
| 11104 | 1 | <tut>, <cat>, <f>, <np>, <pl>, <px1pl> |
| 11105 | 1 | <trar>, <cat>, <f>, <np>, <pl>, <px1sg> |
| 11106 | 12 | <tut>, <cat>, <f>, <np>, <pl>, <px3sp> |
| 11107 | 1 | <tut>, <cat>, <f>, <np>, <pl>, <px> |
| 11108 | 40 | <tut>, <cat>, <f>, <np>, <px1pl> |
| 11109 | 101 | <tut>, <cat>, <f>, <np>, <px1sg> |
| 11110 | 41 | <tut>, <cat>, <f>, <np>, <px2sg> |
mysql> pilih * dari sumber di mana col1> 300 batas 3;
| col1 | Col2 | Col3 |
|---|---|---|
| 301 | "miras.belem.ru" (web-сайт) | miras.belem.ru |
| 302 | Абдулла аиш. Кшеләр | buku |
| 303 | Әәәт хакимияedit ә җирле зидарә орннарының бердә "әсми тарстан" по Agustт (Web-сйт)) (web-) тарстан "по Agustт (Web-сйт))) (web-ййanda)) (Web-сайт)" пп п тAN) (Web-йайт)) (Web-йайт)) (Web-йайт)) (Web-йайт)) (Web-йайт)) (Web-йайт)) (Web-йайт))) | tatarstan.ru |
Jika Anda menggunakan tagger Apertium untuk secara morfologis membuat anotasi korpus, maka Anda dapat menggunakan skrip Python kami untuk menghasilkan tabel dari output Apertium.
Untuk menggunakan konverter ini, Anda harus:
cat bigfile.txt | apertium -n -d . tat-tagger | cg-proc dev/mansur.bin > bigfile_tagged.txt
Di mana Mansur.bin hanyalah file dengan beberapa aturan tambahan. Anda dapat menemukannya di sini.
Sebagai hasil Anda harus mendapatkan file, berisi kalimat beranotasi:
^Мин/Мин<prn><pers><p1><sg><nom>$ ^үземне/үз<prn><ref><px1sg><acc>$ ^белә/бел<v><tv><prc_impf>$ ^башлаганнан/башла<vaux><ger_past><abl>$ ^бирле/бирле<post>$ ^түбән/түбән<adj>$ ^очка/оч<n><sg><dat>$ – ^ерак/ерак<adj>$ ^бабакайларга/бабакай<n><pl><dat>$ ^төшәргә/төш<v><iv><inf>$ ^ярата/ярат<v><tv><pres><p3><sg>$ ^идем/и<cop><ifi><p1><sg>$^./.<sent>$
| ID Kalimat | Sumber ID |
|---|---|
| 1 | 1 |
| 2 | 1 |
| 3 | 1 |
| 4 | 1 |
| 5 | 1 |
| 6 | 1 |
| 7 | 1 |
| 8 | 1 |
| 9 | 1 |
| 10 | 1 |
Dan letakkan di direktori yang sama dengan skrip.
3) Jalankan skrip Python dengan cara ini:
./tat-tagger_to_ntables_v6.24.py tatcorpus2.sentences.apertium.tagged.txt
Ini akan memakan waktu cukup banyak sesuai dengan ukuran korpus Anda.
4) Jika semuanya berjalan dengan baik, Anda harus mendapatkan daftar file baru yang perlu Anda impor ke database MySQL:
tatcorpus2.sentences.apertium.tagged.txt.lemmas.output.txt
tatcorpus2.sentences.apertium.tagged.txt.main.output.txt
tatcorpus2.sentences.apertium.tagged.txt.tags-uniq.output.txt.sorted.txt
tatcorpus2.sentences.apertium.tagged.txt.tags.output.txt
tatcorpus2.sentences.apertium.tagged.txt.united.output.txt
tatcorpus2.sentences.apertium.tagged.txt.words.output.txt
tatcorpus2.sentences.apertium.tagged.txt.words_case.output.txt
27.02.2017 - Versi ke -5 dari mesin pencari Fastmorph Corpus dirilis. Sekarang mengkonsumsi sekitar 2,5 kali lebih sedikit memori (RAM).
18.11.2016 - Versi ke -4 dari mesin pencari Fastmorph Corpus dirilis. Daftar Perubahan:
19.07.2016 - Beberapa perbaikan dalam mesin pencari morfologis kompleks "FastMorph":
13.06.2016 - Cari di bagian tengah fungsionalitas kata ditambahkan dalam modul FastMorph. Misalnya, jika Anda mengetik *әе *, kata -kata seperti osanреендә, әйрәен, үткәрәен, өйдә € akan ditemukan ...
21.04.2016 - Karena implementasi dalam modul "FastMorph" beberapa optimasi prosesor dan dukungan multithreading, kami mencapai pencarian morfologis yang kompleks sekarang berkinerja hingga lima kali lebih cepat.
03.04.2016 - Fitur sistem pencarian morfologis yang kompleks diperpanjang secara signifikan. Anda bisa mendapatkan info lebih lanjut tentang mereka di pemandu yang diperbarui hingga 3.0 dan versi yang lebih tinggi.
22.02.2016 - Fungsi pencarian morfologis yang kompleks muncul dalam korpus tatar tertulis, di mana Anda dapat menggunakan kombinasi yang berbeda dari parameter seperti wordform, lemma, tag tata bahasa, awal dan akhir kata, jarak di antara mereka. Info teknis: Versi 1 mengkonsumsi sekitar 6 GB RAM untuk corpus, terdiri dari 116 mln Word kejadian. Kecepatannya cukup tinggi.