Unduh fastmorph - Unduh Kode Sumber fastmorph

Fastmorph V5

Mesin pencari Corpus Fast awalnya dibuat untuk corpus bahasa Tatar tertulis.

Anda dapat mencobanya di sini.

Kode sumber tersedia di https://github.com/mansayk/fastmorph.

Fitur

Opsi pencarian lanjutan berdasarkan kombinasi parameter pencarian yang berbeda:
- bentuk kata
- kata pengantar singkat
- set tag morfologis
- Pencocokan pola (saat ini "*" dan "?" Topeng didukung)
- pencocokan kasus
- Jarak ke kata berikutnya
Ini menerima permintaan pencarian melalui file soket domain UNIX dalam format JSON.

Beberapa tes kecepatan

Tes dilakukan pada mesin dengan karakteristik berikut:

CPU: AMD FX-4100 Prosesor Quad-Core
RAM: 16 GB
OS: CentOS Release 6.8 (Final)
FastMorph: Disusun dengan 4 Threads Support, X64
Ukuran Corpus: 116 MLN Word kejadian (140 mln token)
Mengembalikan kalimat penuh dengan sumber: 100

Hasil tes untuk berbagai jenis kueri:

 Query:
   Word 1: китап
Number of occurences: 32209
Query processing time: 0,4 sec.

 Query:
   Word 1 (case sensitive, distance to the next word up to 3 words): Китап
   Word 2 (if in brackets, then it is lemma): (бир)
Number of occurences: 15
Query processing time: 0,4 sec.

 Quite heavy query:
   Word 1 (word begins with "б" letter, distance range to the next word is from 1 to 10): б*
   Word 2 (pronoun, word ends with "ң", distance range to the next word is from 1 to 10): <prn>*ң
   Word 3 (lemma "кил", word ends with "р"): (кил)*р
Number of occurences: 135210
Query processing time: 0,8 sec.

 Very heavy query:
   Word 1 (word ends with "ы", distance range to the next word is from 1 to 100): *ы
   Word 2 (word ends with "а", distance range to the next word is from 1 to 100): *а
   Word 3 (word ends with "м", distance range to the next word is from 1 to 100): *м
   Word 4 (word ends with "с", distance range to the next word is from 1 to 100): *с
   Word 5 (word ends with "ь", distance range to the next word is from 1 to 100): *ь
   Word 6 (word ends with "е"): *е
Number of occurences: 135210
Query processing time: 1,4 sec.

Persyaratan sistem

OS: Diuji pada distribusi Linux x86-64 yang berbeda.
RAM: Sekitar 800 MB untuk corpus kata 100 mln.
CPU: Prosesor multicore 64-bit direkomendasikan karena dukungan multithreading.
MySQL: Program memuat semua data dari database MySQL.
Dukungan Soket Domain UNIX oleh OS.

Dependensi untuk kompilasi

JSMN adalah parser JSON minimalis di C.
MySQL C API adalah API berbasis C yang dapat digunakan aplikasi klien dalam C untuk berkomunikasi dengan server MySQL.

Menggunakan

Anda dapat mencobanya di sini. Ada berbagai contoh pencarian dalam manual corpus kami. Jika Anda memiliki pertanyaan tentang menggunakan FastMorph dalam proyek Anda, silakan hubungi kami dengan [email protected].
Kami juga meminta Anda untuk memberi tahu kami di mana mesin pencari ini digunakan dan, jika Anda tidak keberatan, kami akan menerbitkan tautan di sini ke proyek -proyek tersebut.

Lisensi

Perangkat lunak ini didistribusikan di bawah GNU Umum Lisensi Publik v3.0.

Json

Kueri Pencarian:

 Schematical view: {<adj>}(0) 1-5 {ке*<n>}(1) 1-1 {(кил)}(0) 1-1 {}(0) 1-1 {}(0) 1-1 {}(0)  
Detailed:  
   Word 1 (distance range to the next word is from 1 to 5, adjective): <adj>  
   Word 2 (case sensitive, begins with "ке", noun): ке*<n>  
   Word 3: (lemma "кил"):(кил)  
   Word 4:  
   Word 5:  
   Word 6:

Format input

 {  
  "word": [  
    "",  
    "",  
    "",  
    "",
    "",
    ""  
  ],  
  "lemma": [  
    "",  
    "",  
    "кил",  
    "",
    "",
    ""  
  ],  
  "tags": [  
    "<adj>",  
    "<n>",  
    "",  
    "",  
    "",
    ""  
  ],  
  "wildmatch": [  
    "",  
    "ке*",  
    "",  
    "",
    "",
    ""  
  ],  
  "case": [  
    0,  
    1,  
    0, 
    0,
    0,
    0  
  ],  
  "dist_from": [  
    1,  
    1,  
    1, 
    1,
    1  
  ],  
  "dist_to": [  
    5,  
    1,  
    1,
    1,
    1  
  ],  
  "return": 100,  
  "last_pos": "0"  
}

"Return" - Jumlah maksimum kalimat untuk dikembalikan.
"last_pos" - "0" untuk kueri pertama atau hanya mengembalikan string ini untuk mendapatkan daftar kalimat berikutnya.

Peringatan! Anda harus menormalkan dan memverifikasi data input sebelum meneruskannya ke FastMorph:

Hapus semua simbol yang tidak diizinkan;
Periksa string legths, kebenaran angka dan sebagainya.

Format output

 {  
  "example": [  
    {  
      "id": 15853,  
      "source": ""2013 Универсиадасы блогы" (web-сайт)",  
      "source_type": "kazan2013.ru",  
      "sentence": "Универсиада кебек зур проектның бер өлеше булу өчен, Казанга Россиянең төрле  
        төбәкләреннән һәм Дөньяның  
        <span id='found_word_0' class='found_word' title='(төрле) <adj>'>төрле</span>  
        илләреннән бик күп  
        <span id='found_word_1' class='found_word' title='(кеше) <n>,<nom>,<sg>'>кеше</span>  
        <span id='found_word_2' class='found_word' title='(кил) <ifi>,<iv>,<p3>,<sg>,<v>'>килде</span>."  
    },  
    {  
      "id": -1  
    }  
  ],  
  "last_pos": "892447x39311905x75980782x114356633",  
  "found_all": 1359  
}

Seperti yang Anda lihat, setiap kata yang cocok dengan kueri pencarian dikembalikan dalam tag HTML berikut:

 <span id='found_word_0' class='found_word' title='(LEMMA) <TAG1><TAG2>'>FOUND_WORD</span>

Jadi, misalnya, Anda dapat menggunakan CSS untuk menyorotnya.

Format Basis Data MySQL

Anda dapat menemukan contoh membuat contoh di sini.

mysql> pilih * dari morph6_main_apertium batas 10;

pengenal	serikat	kalimat	sumber
0	1594501	1	1
1	761564	1	1
2	787834	1	1
3	1505641	1	1
4	420024	1	1
5	764201	1	1
6	1003674	1	1
7	1003851	1	1
8	764201	1	1
9	1057551	1	1

mysql> pilih * dari morph6_united_apertium di mana id> = 100 batas 10;

pengenal	freq	word_case	kata	kata pengantar singkat	tag
100	1	1000084	599888	429156	2
101	60	1000085	599890	429158	2
102	5	1000086	599891	429159	2
103	2	1000087	599892	429160	2
104	1	1000088	599893	429161	2
105	10	1000089	599894	429162	2
106	1	100008	164606	119768	2
107	1	1000090	599895	429163	2
108	5	1000091	599899	429167	2
109	1	1000092	599901	429169	2

mysql> pilih * dari morph6_words_case_apertium di mana id> 200000 batas 10;

pengenal	freq	word_case
200001	4	Идәсенiden
200002	1	Иаәсендәе
200003	3	Иаәсене
200004	290	Иаәсенең
200005	14	Иаәсеннән
200006	1	Иаәсеның
200007	79	Иаәсенә
200008	1	Иарәснең
200009	1	Иарәсәнең
200010	1	Иарәханә

mysql> pilih * dari morph6_words_apertium di mana id> 100000 batas 10;

pengenal	freq	kata
100001	975	а Agustusитлancing
100002	7	а Agustusиллancing - ына
100003	74	а Agustusитлы: д д
100004	1	а Agustusитлancingы
100005	1	а Agustusитлыancingыдай
100006	8	а Agustusиллныкынан
100007	1	а Agustusиллыancingыынан да
100008	1	а Agustusитлыancingыча
100009	1408	а Agustusитлancing
100010	3	а Agustusиллancing - ына

mysql> pilih * dari morph6_lemmas_apertium di mana id> 300000 batas 10;

pengenal	freq	kata pengantar singkat
300001	1	и и ее_ secara
300002	130	и иеedit
300003	8	и иеeditәә
300004	2	и и чеedit ә ә
300005	3	и иеedit әнән
300006	9	и иеedit
300007	2	и и чеedit
300008	2	и иеedit
300009	1	и иеeditә
300010	12	и иеedit

mysql> pilih * dari morph6_tags_apertium di mana id> 11100 batas 10;

pengenal	freq	kombinasi
11101	4	<tut>, <cat>, <f>, <frm>, <np>, <px2sg>
11102	17141	<tut>, <cat>, <f>, <np>
11103	387	<tut>, <cat>, <f>, <np>, <pl>
11104	1	<tut>, <cat>, <f>, <np>, <pl>, <px1pl>
11105	1	<trar>, <cat>, <f>, <np>, <pl>, <px1sg>
11106	12	<tut>, <cat>, <f>, <np>, <pl>, <px3sp>
11107	1	<tut>, <cat>, <f>, <np>, <pl>, <px>
11108	40	<tut>, <cat>, <f>, <np>, <px1pl>
11109	101	<tut>, <cat>, <f>, <np>, <px1sg>
11110	41	<tut>, <cat>, <f>, <np>, <px2sg>

mysql> pilih * dari sumber di mana col1> 300 batas 3;

col1	Col2	Col3
301	"miras.belem.ru" (web-сайт)	miras.belem.ru
302	Абдулла аиш. Кшеләр	buku
303	Әәәт хакимияedit ә җирле зидарә орннарының бердә "әсми тарстан" по Agustт (Web-сйт)) (web-) тарстан "по Agustт (Web-сйт))) (web-ййanda)) (Web-сайт)" пп п тAN) (Web-йайт)) (Web-йайт)) (Web-йайт)) (Web-йайт)) (Web-йайт)) (Web-йайт)) (Web-йайт)))	tatarstan.ru

Apertium

Jika Anda menggunakan tagger Apertium untuk secara morfologis membuat anotasi korpus, maka Anda dapat menggunakan skrip Python kami untuk menghasilkan tabel dari output Apertium.

Untuk menggunakan konverter ini, Anda harus:

Annotate Corpus Anda Menggunakan Tagger Apertium:

 cat bigfile.txt | apertium -n -d . tat-tagger | cg-proc dev/mansur.bin > bigfile_tagged.txt

Di mana Mansur.bin hanyalah file dengan beberapa aturan tambahan. Anda dapat menemukannya di sini.
Sebagai hasil Anda harus mendapatkan file, berisi kalimat beranotasi:

 ^Мин/Мин<prn><pers><p1><sg><nom>$ ^үземне/үз<prn><ref><px1sg><acc>$ ^белә/бел<v><tv><prc_impf>$ ^башлаганнан/башла<vaux><ger_past><abl>$ ^бирле/бирле<post>$ ^түбән/түбән<adj>$ ^очка/оч<n><sg><dat>$ – ^ерак/ерак<adj>$ ^бабакайларга/бабакай<n><pl><dat>$ ^төшәргә/төш<v><iv><inf>$ ^ярата/ярат<v><tv><pres><p3><sg>$ ^идем/и<cop><ifi><p1><sg>$^./.<sent>$

Menghasilkan file teks "inv_so" dalam format berikut:

ID Kalimat	Sumber ID
1	1
2	1
3	1
4	1
5	1
6	1
7	1
8	1
9	1
10	1

Dan letakkan di direktori yang sama dengan skrip.
3) Jalankan skrip Python dengan cara ini:

 ./tat-tagger_to_ntables_v6.24.py tatcorpus2.sentences.apertium.tagged.txt

Ini akan memakan waktu cukup banyak sesuai dengan ukuran korpus Anda.
4) Jika semuanya berjalan dengan baik, Anda harus mendapatkan daftar file baru yang perlu Anda impor ke database MySQL:

 tatcorpus2.sentences.apertium.tagged.txt.lemmas.output.txt
tatcorpus2.sentences.apertium.tagged.txt.main.output.txt
tatcorpus2.sentences.apertium.tagged.txt.tags-uniq.output.txt.sorted.txt
tatcorpus2.sentences.apertium.tagged.txt.tags.output.txt
tatcorpus2.sentences.apertium.tagged.txt.united.output.txt
tatcorpus2.sentences.apertium.tagged.txt.words.output.txt
tatcorpus2.sentences.apertium.tagged.txt.words_case.output.txt

Changelog:

27.02.2017 - Versi ke -5 dari mesin pencari Fastmorph Corpus dirilis. Sekarang mengkonsumsi sekitar 2,5 kali lebih sedikit memori (RAM).

18.11.2016 - Versi ke -4 dari mesin pencari Fastmorph Corpus dirilis. Daftar Perubahan:

Opsi pencarian sensitif case ditambahkan;
Penggunaan memori (RAM) oleh sistem pencarian dikurangi dua kali;
Karena perubahan penting dalam arsitektur aplikasi, permintaan pencarian melakukan sekarang 3 - 5 kali lebih cepat. Info teknis: Versi 4 mengkonsumsi sekitar 2 GB RAM untuk korpus yang sama.

19.07.2016 - Beberapa perbaikan dalam mesin pencari morfologis kompleks "FastMorph":

Selain topeng yang ada "*", yang cocok dengan sejumlah simbol, topeng "?", Yang mewakili karakter tunggal, ditambahkan. Informasi lebih lanjut tentang hal itu yang dapat Anda temukan di panduan yang diperbarui;
Dalam rencana teknis penggunaan memori oleh sistem pencarian dikurangi hingga 25%. Info teknis: Versi 3 mengkonsumsi sekitar 4 GB RAM untuk korpus yang sama.

13.06.2016 - Cari di bagian tengah fungsionalitas kata ditambahkan dalam modul FastMorph. Misalnya, jika Anda mengetik *әе *, kata -kata seperti osanреендә, әйрәен, үткәрәен, өйдә € akan ditemukan ...

21.04.2016 - Karena implementasi dalam modul "FastMorph" beberapa optimasi prosesor dan dukungan multithreading, kami mencapai pencarian morfologis yang kompleks sekarang berkinerja hingga lima kali lebih cepat.

03.04.2016 - Fitur sistem pencarian morfologis yang kompleks diperpanjang secara signifikan. Anda bisa mendapatkan info lebih lanjut tentang mereka di pemandu yang diperbarui hingga 3.0 dan versi yang lebih tinggi.

22.02.2016 - Fungsi pencarian morfologis yang kompleks muncul dalam korpus tatar tertulis, di mana Anda dapat menggunakan kombinasi yang berbeda dari parameter seperti wordform, lemma, tag tata bahasa, awal dan akhir kata, jarak di antara mereka. Info teknis: Versi 1 mengkonsumsi sekitar 6 GB RAM untuk corpus, terdiri dari 116 mln Word kejadian. Kecepatannya cukup tinggi.

Memperluas