fastmorph Download - fastmorph исходный код скачать

Fastmorph v5

Fast Corpus Search Engine изначально создана для корпуса письменного татарского языка.

Вы можете попробовать это здесь.

Исходный код доступен по адресу https://github.com/mansayk/fastmorph.

Функции

Расширенные параметры поиска на основе любой комбинации различных параметров поиска:
- форма слова
- Лемма
- набор морфологических тегов
- Сопоставление рисунков (в настоящее время "*" и "?"
- совпадение корпуса
- Расстояние до следующего слова
Он получает поисковые запросы по файлу сокета домена Unix в формате JSON.

Некоторые скоростные тесты

Тесты, выполненные на машине с следующими характеристиками:

ЦП: четырехъядерный процессор AMD FX-4100
ОЗУ: 16 ГБ
ОС: релиз Centos 6.8 (финал)
Fastmorph: скомпилировано с 4 -й темой поддержкой, x64
Размер корпуса: 116 MLN Word Evidences (140 MLN токенов)
Вернуть полные предложения с источниками: 100

Результаты теста для различных типов запросов:

 Query:
   Word 1: китап
Number of occurences: 32209
Query processing time: 0,4 sec.

 Query:
   Word 1 (case sensitive, distance to the next word up to 3 words): Китап
   Word 2 (if in brackets, then it is lemma): (бир)
Number of occurences: 15
Query processing time: 0,4 sec.

 Quite heavy query:
   Word 1 (word begins with "б" letter, distance range to the next word is from 1 to 10): б*
   Word 2 (pronoun, word ends with "ң", distance range to the next word is from 1 to 10): <prn>*ң
   Word 3 (lemma "кил", word ends with "р"): (кил)*р
Number of occurences: 135210
Query processing time: 0,8 sec.

 Very heavy query:
   Word 1 (word ends with "ы", distance range to the next word is from 1 to 100): *ы
   Word 2 (word ends with "а", distance range to the next word is from 1 to 100): *а
   Word 3 (word ends with "м", distance range to the next word is from 1 to 100): *м
   Word 4 (word ends with "с", distance range to the next word is from 1 to 100): *с
   Word 5 (word ends with "ь", distance range to the next word is from 1 to 100): *ь
   Word 6 (word ends with "е"): *е
Number of occurences: 135210
Query processing time: 1,4 sec.

Системные требования

ОС: протестирован на различных распределениях Linux x86-64.
ОЗУ: Около 800 МБ для 100 млн. Корпус.
Процессор: 64-разрядные многоядерные процессоры рекомендуются из-за поддержки многопоточной поддержки.
MySQL: программа загружает все данные из базы данных MySQL.
Unix Domain Socket Support от OS.

Зависимости для компиляции

JSMN является минималистичным анализатором JSON в C.
MySQL C API-это API на основе C, который клиентские приложения, написанные в C, могут использовать для связи с MySQL Server.

С использованием

Вы можете попробовать это здесь. Есть разные примеры поиска в руководстве нашего корпуса. Если у вас есть какие -либо вопросы об использовании Fastmorph в ваших проектах, свяжитесь с нами по адресу [email protected].
Также мы просим вас сообщить нам, где используется эта поисковая система, и, если вы не возражаете, мы опубликуем здесь ссылки на эти проекты.

Лицензия

Это программное обеспечение распространяется в соответствии с GNU General Public Public License v3.0.

Json

Поиск запроса:

 Schematical view: {<adj>}(0) 1-5 {ке*<n>}(1) 1-1 {(кил)}(0) 1-1 {}(0) 1-1 {}(0) 1-1 {}(0)  
Detailed:  
   Word 1 (distance range to the next word is from 1 to 5, adjective): <adj>  
   Word 2 (case sensitive, begins with "ке", noun): ке*<n>  
   Word 3: (lemma "кил"):(кил)  
   Word 4:  
   Word 5:  
   Word 6:

Входной формат

 {  
  "word": [  
    "",  
    "",  
    "",  
    "",
    "",
    ""  
  ],  
  "lemma": [  
    "",  
    "",  
    "кил",  
    "",
    "",
    ""  
  ],  
  "tags": [  
    "<adj>",  
    "<n>",  
    "",  
    "",  
    "",
    ""  
  ],  
  "wildmatch": [  
    "",  
    "ке*",  
    "",  
    "",
    "",
    ""  
  ],  
  "case": [  
    0,  
    1,  
    0, 
    0,
    0,
    0  
  ],  
  "dist_from": [  
    1,  
    1,  
    1, 
    1,
    1  
  ],  
  "dist_to": [  
    5,  
    1,  
    1,
    1,
    1  
  ],  
  "return": 100,  
  "last_pos": "0"  
}

«Возврат» - максимальная сумма предложений для возврата.
«Last_pos» - «0» для первого запроса или просто верните эту строку, чтобы получить следующий список предложений.

Предупреждение! Вы должны нормализовать и проверить входные данные перед передачей его в Fastmorph:

Удалить все не разрешенные символы;
Проверьте строки ног, правильность чисел и так далее.

Выходной формат

 {  
  "example": [  
    {  
      "id": 15853,  
      "source": ""2013 Универсиадасы блогы" (web-сайт)",  
      "source_type": "kazan2013.ru",  
      "sentence": "Универсиада кебек зур проектның бер өлеше булу өчен, Казанга Россиянең төрле  
        төбәкләреннән һәм Дөньяның  
        <span id='found_word_0' class='found_word' title='(төрле) <adj>'>төрле</span>  
        илләреннән бик күп  
        <span id='found_word_1' class='found_word' title='(кеше) <n>,<nom>,<sg>'>кеше</span>  
        <span id='found_word_2' class='found_word' title='(кил) <ifi>,<iv>,<p3>,<sg>,<v>'>килде</span>."  
    },  
    {  
      "id": -1  
    }  
  ],  
  "last_pos": "892447x39311905x75980782x114356633",  
  "found_all": 1359  
}

Как видите, каждое слово, соответствующее поисковому запросу, возвращается в следующих тегах HTML:

 <span id='found_word_0' class='found_word' title='(LEMMA) <TAG1><TAG2>'>FOUND_WORD</span>

Так, например, вы можете использовать CSS для их выделения.

MySQL Формат базы данных

Вы можете найти примеры создания таблицы здесь.

mysql> выберите * из Morph6_main_apertium Limit 10;

идентификатор	объединенная	предложение	источник
0	1594501	1	1
1	761564	1	1
2	787834	1	1
3	1505641	1	1
4	420024	1	1
5	764201	1	1
6	1003674	1	1
7	1003851	1	1
8	764201	1	1
9	1057551	1	1

mysql> выберите * из morph6_united_apertium, где id> = 100 Limit 10;

идентификатор	фрейк	Word_case	слово	Лемма	теги
100	1	1000084	599888	429156	2
101	60	1000085	599890	429158	2
102	5	1000086	599891	429159	2
103	2	1000087	599892	429160	2
104	1	1000088	599893	429161	2
105	10	1000089	599894	429162	2
106	1	100008	164606	119768	2
107	1	1000090	599895	429163	2
108	5	1000091	599899	429167	2
109	1	1000092	599901	429169	2

mysql> выберите * из morph6_words_case_apertium, где идентификатор> 200000 лимит 10;

идентификатор	фрейк	Word_case
200001	4	Иду
200002	1	Идарсенд
200003	3	Иди
200004	290	Идарсенте
200005	14	Идарсеннн
200006	1	Идарсен
200007	79	Идарсен
200008	1	Идаргин
200009	1	Идаргин
200010	1	Идарлан

mysql> выберите * из morph6_words_apertium, где идентификатор> 100000 предел 10;

идентификатор	фрейк	слово
100001	975	Артистларн
100002	7	Артистларн Гуна
100003	74	Артистларнд
100004	1	Артистларнк
100005	1	Артистларнк -дад
100006	8	Артистларнкеннана
100007	1	Артистларнкеннана
100008	1	Артистларнкха
100009	1408	Артистларн
100010	3	Артистларн Гуна

mysql> выберите * из morph6_lemmas_apertium, где идентификатор> 300000 предел 10;

идентификатор	фрейк	Лемма
300001	1	изнасилование
300002	130	изнасилование
300003	8	yanirhe-elәrgә
300004	2	yanirhe-elәrdә
300005	3	изнасилование
300006	9	изнасилование
300007	2	изнасилование
300008	2	изнасилование
300009	1	изнасилование
300010	12	изнасилование

mysql> выберите * из morph6_tags_apertium, где идентификатор> 11100 предел 10;

идентификатор	фрейк	Комбинации
11101	4	<nat>, <tat>, <f>, <frm>, <np>, <px2sg>
11102	17141	<nat>, <tat>, <f>, <np>
11103	387	<nat>, <tat>, <f>, <np>, <pl>
11104	1	<nat>, <dat>, <f>, <np>, <pl>, <px1pl>
11105	1	<nat>, <tat>, <f>, <np>, <pl>, <px1sg>
11106	12	<nat>, <dat>, <f>, <np>, <pl>, <px3sp>
11107	1	<nat>, <tat>, <f>, <np>, <pl>, <px>
11108	40	<nat>, <tat>, <f>, <np>, <px1pl>
11109	101	<nat>, <tat>, <f>, <np>, <px1sg>
11110	41	<nat>, <tat>, <f>, <np>, <px2sg>

MySQL> выберите * из источников, где COL1> 300 лимит 3;

Col1	Col2	Col3
301	"miras.belem.ru" (web-caphot)	miras.belem.ru
302	Абдулла. Куриль	книга
303	ДЕВАЕТСЯ	Tatarstan.ru

Апертик

Если вы используете Tagger Apertium, чтобы морфологически аннотировать корпус, то вы можете использовать наш скрипт Python для генерации таблиц с вывода Apertium.

Чтобы использовать этот конвертер, вы должны:

Аннотируйте свой корпус, используя Tagger Apertium:

 cat bigfile.txt | apertium -n -d . tat-tagger | cg-proc dev/mansur.bin > bigfile_tagged.txt

где Mansur.bin - это просто файл с некоторыми дополнительными правилами. Вы можете найти это здесь.
В результате вы должны получить файл, содержащий аннотированные предложения:

 ^Мин/Мин<prn><pers><p1><sg><nom>$ ^үземне/үз<prn><ref><px1sg><acc>$ ^белә/бел<v><tv><prc_impf>$ ^башлаганнан/башла<vaux><ger_past><abl>$ ^бирле/бирле<post>$ ^түбән/түбән<adj>$ ^очка/оч<n><sg><dat>$ – ^ерак/ерак<adj>$ ^бабакайларга/бабакай<n><pl><dat>$ ^төшәргә/төш<v><iv><inf>$ ^ярата/ярат<v><tv><pres><p3><sg>$ ^идем/и<cop><ifi><p1><sg>$^./.<sent>$

Сгенерировать текстовый файл "vin_so" в следующем формате:

идентификатор предложения	идентификатор источника
1	1
2	1
3	1
4	1
5	1
6	1
7	1
8	1
9	1
10	1

И поместите его в тот же каталог со сценарием.
3) Запустите сценарий Python таким образом:

 ./tat-tagger_to_ntables_v6.24.py tatcorpus2.sentences.apertium.tagged.txt

Это займет много времени в зависимости от размера вашего корпуса.
4) Если все прошло хорошо, вы должны получить список новых файлов, которые вам нужно импортировать в базу данных MySQL:

 tatcorpus2.sentences.apertium.tagged.txt.lemmas.output.txt
tatcorpus2.sentences.apertium.tagged.txt.main.output.txt
tatcorpus2.sentences.apertium.tagged.txt.tags-uniq.output.txt.sorted.txt
tatcorpus2.sentences.apertium.tagged.txt.tags.output.txt
tatcorpus2.sentences.apertium.tagged.txt.united.output.txt
tatcorpus2.sentences.apertium.tagged.txt.words.output.txt
tatcorpus2.sentences.apertium.tagged.txt.words_case.output.txt

Изменение:

27.02.2017 - Выпущена 5 -я версия поисковой системы Fastmorph Corpus. Теперь он потребляет примерно в 2,5 раза меньше памяти (ОЗУ).

18.11.2016 - 4 -я версия поисковой системы Fastmorph Corpus выпускается. Список изменений:

Был добавлен вариант поиска, чувствительный к корпусу;
Использование памяти (ОЗУ) с помощью системы поиска уменьшается дважды;
Из -за важных изменений в архитектуре приложения поисковый запрос работает сейчас в 3-5 раз быстрее. Техническая информация: версия 4 потребляет около 2 ГБ оперативной памяти для того же корпуса.

19.07.2016 - Некоторые улучшения в сложной морфологической поисковой системе "Fastmorph":

В дополнение к существующей маске "*", которая соответствует любому количеству любых символов, была добавлена маска "?", которая представляет любой отдельный символ. Более подробную информацию об этом вы можете найти в обновленных направляющих;
В техническом плане использование памяти системой поиска снижается до 25%. Техническая информация: версия 3 потребляет около 4 ГБ оперативной памяти для того же корпуса.

13.06.2016 - Поиск по средней части функциональности слова был добавлен в модуль Fastmorph. Например, если вы печатаете *әme *, такие слова, как jardәmendә, bәйrәmen, yotkәrәmenen, өйdәme будет найден ...

21.04.2016 - Из -за реализации в модуле «Fastmorph» некоторые оптимизации процессоров и поддержка многопоточной поддержки мы достигли, что сложный морфологический поиск теперь работает в пять раз быстрее.

03.04.2016 - Сложные функции морфологической системы поиска были значительно расширены. Вы можете получить больше информации о них в руководствах, обновленных до 3,0 и более высокой версии.

22.02.2016 - Сложная морфологическая функция поиска появилась в корпусе письменного татара, где вы можете использовать различные комбинации таких параметров, как Wordform, Lemma, грамматические теги, начало и конец слов, расстояния между ними. Техническая информация: Версия 1 потребляет около 6 ГБ оперативной памяти для корпуса, состоящую из 116 событий слова. Его скорость довольно высока.

Расширять