Download do fastmorph - Download do código -fonte fastmorph

FastMorph v5

O mecanismo de busca de corpus rápido foi originalmente feito para o corpus da língua tártara escrita.

Você pode tentar aqui.

O código -fonte está disponível em https://github.com/mansayk/fastmorph.

Características

Opções avançadas de pesquisa com base em qualquer combinação de diferentes parâmetros de pesquisa:
- forma de palavra
- lema
- conjunto de etiquetas morfológicas
- As máscaras de correspondência de padrões (atualmente "*" e "?" são suportadas)
- correspondência de casos
- Distância da próxima palavra
Ele recebe consultas de pesquisa sobre o arquivo de soquete de domínio Unix no formato JSON.

Alguns testes de velocidade

Testes realizados na máquina com as seguintes características:

CPU: processador quad-core AMD FX-4100
RAM: 16 GB
OS: CentOS Release 6.8 (final)
FastMorph: Compilado com 4 threads Support, x64
Tamanho do corpus: 116 mln de ocorrências de palavras (140 mln tokens)
Retorne frases completas com fontes: 100

Resultados do teste para diferentes tipos de consultas:

 Query:
   Word 1: китап
Number of occurences: 32209
Query processing time: 0,4 sec.

 Query:
   Word 1 (case sensitive, distance to the next word up to 3 words): Китап
   Word 2 (if in brackets, then it is lemma): (бир)
Number of occurences: 15
Query processing time: 0,4 sec.

 Quite heavy query:
   Word 1 (word begins with "б" letter, distance range to the next word is from 1 to 10): б*
   Word 2 (pronoun, word ends with "ң", distance range to the next word is from 1 to 10): <prn>*ң
   Word 3 (lemma "кил", word ends with "р"): (кил)*р
Number of occurences: 135210
Query processing time: 0,8 sec.

 Very heavy query:
   Word 1 (word ends with "ы", distance range to the next word is from 1 to 100): *ы
   Word 2 (word ends with "а", distance range to the next word is from 1 to 100): *а
   Word 3 (word ends with "м", distance range to the next word is from 1 to 100): *м
   Word 4 (word ends with "с", distance range to the next word is from 1 to 100): *с
   Word 5 (word ends with "ь", distance range to the next word is from 1 to 100): *ь
   Word 6 (word ends with "е"): *е
Number of occurences: 135210
Query processing time: 1,4 sec.

Requisitos do sistema

OS: testado em diferentes distribuições Linux X86-64.
RAM: cerca de 800 MB para o corpus de 100 mln.
CPU: processadores multicore de 64 bits são recomendados devido ao suporte a multithreading.
MySQL: o programa carrega todos os dados do banco de dados MySQL.
Suporte de soquete do Domain Unix pelo SO.

Dependências para compilação

O JSMN é um analisador JSON minimalista em C.
A API MySQL C é uma API baseada em C que os aplicativos de clientes escritos em C podem usar para se comunicar com o MySQL Server.

Usando

Você pode tentar aqui. Existem diferentes exemplos de pesquisa no manual de nosso corpus. Se você tiver alguma dúvida sobre o uso do FastMorph em seus projetos, entre em contato conosco por [email protected].
Também pedimos que você nos informe onde esse mecanismo de pesquisa é usado e, se você não se importar, publicaremos aqui links para esses projetos.

Licença

Este software é distribuído sob licença pública geral da GNU v3.0.

JSON

Consulta de pesquisa:

 Schematical view: {<adj>}(0) 1-5 {ке*<n>}(1) 1-1 {(кил)}(0) 1-1 {}(0) 1-1 {}(0) 1-1 {}(0)  
Detailed:  
   Word 1 (distance range to the next word is from 1 to 5, adjective): <adj>  
   Word 2 (case sensitive, begins with "ке", noun): ке*<n>  
   Word 3: (lemma "кил"):(кил)  
   Word 4:  
   Word 5:  
   Word 6:

Formato de entrada

 {  
  "word": [  
    "",  
    "",  
    "",  
    "",
    "",
    ""  
  ],  
  "lemma": [  
    "",  
    "",  
    "кил",  
    "",
    "",
    ""  
  ],  
  "tags": [  
    "<adj>",  
    "<n>",  
    "",  
    "",  
    "",
    ""  
  ],  
  "wildmatch": [  
    "",  
    "ке*",  
    "",  
    "",
    "",
    ""  
  ],  
  "case": [  
    0,  
    1,  
    0, 
    0,
    0,
    0  
  ],  
  "dist_from": [  
    1,  
    1,  
    1, 
    1,
    1  
  ],  
  "dist_to": [  
    5,  
    1,  
    1,
    1,
    1  
  ],  
  "return": 100,  
  "last_pos": "0"  
}

"Return" - quantidade máxima de frases para retornar.
"last_pos" - "0" para a primeira consulta ou apenas devolva esta string para obter a próxima lista de frases.

Aviso! Você deve normalizar e verificar os dados de entrada antes de passá -los para o FastMorph:

remover todos os símbolos não permitidos;
Verifique as pernas da string, os números de correção e assim por diante.

Formato de saída

 {  
  "example": [  
    {  
      "id": 15853,  
      "source": ""2013 Универсиадасы блогы" (web-сайт)",  
      "source_type": "kazan2013.ru",  
      "sentence": "Универсиада кебек зур проектның бер өлеше булу өчен, Казанга Россиянең төрле  
        төбәкләреннән һәм Дөньяның  
        <span id='found_word_0' class='found_word' title='(төрле) <adj>'>төрле</span>  
        илләреннән бик күп  
        <span id='found_word_1' class='found_word' title='(кеше) <n>,<nom>,<sg>'>кеше</span>  
        <span id='found_word_2' class='found_word' title='(кил) <ifi>,<iv>,<p3>,<sg>,<v>'>килде</span>."  
    },  
    {  
      "id": -1  
    }  
  ],  
  "last_pos": "892447x39311905x75980782x114356633",  
  "found_all": 1359  
}

Como você pode ver, cada palavra que corresponde à consulta de pesquisa é retornada nas seguintes tags HTML:

 <span id='found_word_0' class='found_word' title='(LEMMA) <TAG1><TAG2>'>FOUND_WORD</span>

Por exemplo, você pode usar o CSS para destacá -los.

Formato do banco de dados MySQL

Você pode encontrar exemplos de tabela Criar aqui.

mysql> selecione * do limite de morph6_main_apertium 10;

eu ia	unido	frase	fonte
0	1594501	1	1
1	761564	1	1
2	787834	1	1
3	1505641	1	1
4	420024	1	1
5	764201	1	1
6	1003674	1	1
7	1003851	1	1
8	764201	1	1
9	1057551	1	1

mysql> selecione * de morph6_united_apertium onde id> = 100 limite 10;

eu ia	Freq	word_case	palavra	lema	tags
100	1	1000084	599888	429156	2
101	60	1000085	599890	429158	2
102	5	1000086	599891	429159	2
103	2	1000087	599892	429160	2
104	1	1000088	599893	429161	2
105	10	1000089	599894	429162	2
106	1	100008	164606	119768	2
107	1	1000090	599895	429163	2
108	5	1000091	599899	429167	2
109	1	1000092	599901	429169	2

mysql> selecione * de morph6_words_case_apertium onde id> 200000 limite 10;

eu ia	Freq	word_case
200001	4	Иаарәәәәә ә ә ә
200002	1	Иаарәәенәе
200003	3	Иаарәәен passar
200004	290	Иаарәәенең
200005	14	Иаарәәнәнә
200006	1	Иааinto
200007	79	Иааinto
200008	1	Иаарәәнең
200009	1	Иаарәәнең
200010	1	Иарәханә

mysql> selecione * de morph6_words_apertium onde id> 100000 limite 10;

eu ia	Freq	palavra
100001	975	а а а а а а а а а а а а а а а ар
100002	7	а а а а а а а а а а а а а а а а а а de março
100003	74	а а а а а а а а а а а а а de março
100004	1	а а а а а а а а а а а а а а а а а а а а а а а а а de março
100005	1	а а а а а а а а а а а а а de março
100006	8	а а а а а а а а а а а а а а а а а а а а de março
100007	1	а а а а а а а а а de março
100008	1	а а а а а а а а а а а а а а а а а а а а de março
100009	1408	а а а а а а а а а а а а а а а ар
100010	3	а а а а а а а а а а а а а а а а а а de março

mysql> selecione * de morph6_lemmas_apertium onde id> 300000 limite 10;

eu ia	Freq	lema
300001	1	иячччччч
300002	130	иячччр
300003	8	ияччч sentido
300004	2	иячччәрәә
300005	3	иячччч sentido
300006	9	иячччрәә
300007	2	иячччч sentido
300008	2	ияччч sentido
300009	1	ияччч sentido
300010	12	иячччә sentido

mysql> selecione * de morph6_tags_apertium onde id> 11100 limite 10;

eu ia	Freq	Combinações
11101	4	<nt>, <at>, <f>, <frm>, <np>, <px2sg>
11102	17141	<nt>, <at>, <f>, <np>
11103	387	<ft>, <dat>, <f>, <np>, <pl>
11104	1	<ft>, <dat>, <f>, <np>, <pl>, <px1pl>
11105	1	<ft>, <dat>, <f>, <np>, <pl>, <px1sg>
11106	12	<ft>, <dat>, <f>, <np>, <pl>, <px3sp>
11107	1	<ft>, <at>, <f>, <np>, <pl>, <px>
11108	40	<nt>, <at>, <f>, <np>, <px1pl>
11109	101	<nt>, <at>, <f>, <np>, <px1sg>
11110	41	<nt>, <at>, <f>, <np>, <px2sg>

mysql> selecione * de fontes onde col1> 300 limite 3;

Col1	Col2	COL3
301	"Miras.belem.ru" (web-ййótimo)	miras.belem.ru
302	Абlus алш. Кршero	livro
303	Ә хә хиииятттт хәәә әәI х хиззззз иитттт их әә хтттт иит ихттth җ җ х хизаәаа х хизз land җ җ җ х/хзаés җ җ х әәтт land җ җ х әитзз land җ җ х әиттз land җ җ хиззза land җ җ хиззз land җ җ хизз land җ җ хиntas	tatarstan.ru

Apertium

Se você usar o Tagger do Apertium para anotar morfologicamente o corpus, poderá usar nosso script Python para gerar tabelas a partir da saída do Apertium.

Para usar este conversor, você deve:

Anote seu corpus usando o Apertium's Tagger:

 cat bigfile.txt | apertium -n -d . tat-tagger | cg-proc dev/mansur.bin > bigfile_tagged.txt

Onde Mansur.bin é apenas um arquivo com algumas regras adicionais. Você pode encontrá -lo aqui.
No resultado, você deve obter arquivos, contendo frases anotadas:

 ^Мин/Мин<prn><pers><p1><sg><nom>$ ^үземне/үз<prn><ref><px1sg><acc>$ ^белә/бел<v><tv><prc_impf>$ ^башлаганнан/башла<vaux><ger_past><abl>$ ^бирле/бирле<post>$ ^түбән/түбән<adj>$ ^очка/оч<n><sg><dat>$ – ^ерак/ерак<adj>$ ^бабакайларга/бабакай<n><pl><dat>$ ^төшәргә/төш<v><iv><inf>$ ^ярата/ярат<v><tv><pres><p3><sg>$ ^идем/и<cop><ifi><p1><sg>$^./.<sent>$

Gere "INV_SO" Arquivo de texto no seguinte formato:

Id de frase	ID de origem
1	1
2	1
3	1
4	1
5	1
6	1
7	1
8	1
9	1
10	1

E coloque -o no mesmo diretório com o script.
3) Execute o script Python desta maneira:

 ./tat-tagger_to_ntables_v6.24.py tatcorpus2.sentences.apertium.tagged.txt

Levará muito tempo de acordo com o tamanho do seu corpus.
4) Se tudo correr bem, você deve obter uma lista de novos arquivos que você precisa importar para o banco de dados MySQL:

 tatcorpus2.sentences.apertium.tagged.txt.lemmas.output.txt
tatcorpus2.sentences.apertium.tagged.txt.main.output.txt
tatcorpus2.sentences.apertium.tagged.txt.tags-uniq.output.txt.sorted.txt
tatcorpus2.sentences.apertium.tagged.txt.tags.output.txt
tatcorpus2.sentences.apertium.tagged.txt.united.output.txt
tatcorpus2.sentences.apertium.tagged.txt.words.output.txt
tatcorpus2.sentences.apertium.tagged.txt.words_case.output.txt

Changelog:

27.02.2017 - A 5ª versão do mecanismo de busca FastMorph Corpus é lançada. Agora consome cerca de 2,5 vezes menos memória (RAM).

18.11.2016 - A 4ª versão do mecanismo de busca FastMorph Corpus é lançada. Lista de alterações:

A opção de pesquisa sensível ao caso foi adicionada;
O uso da memória (RAM) pelo sistema de pesquisa é reduzido duas vezes;
Devido a alterações essenciais na arquitetura do aplicativo, a consulta de pesquisa funciona agora 3 - 5 vezes mais rápida. Informações técnicas: a versão 4 consome cerca de 2 GB de RAM para o mesmo corpus.

19.07.2016 - Algumas melhorias no complexo mecanismo de busca morfológica "FastMorph":

Além da máscara existente "*", isso corresponde a qualquer número de símbolos, a máscara "?", Isso representa algum caractere único, foi adicionado. Mais informações sobre isso que você pode encontrar nos guias atualizados;
No uso da memória do plano técnico pelo sistema de pesquisa, é reduzido em até 25%. Informações técnicas: a versão 3 consome cerca de 4 GB de RAM para o mesmo corpus.

13.06.2016 - A pesquisa na parte do meio de uma funcionalidade do Word foi adicionada no módulo FastMorph. Por exemplo, se você digitar *әәе *, palavras como íbio әенәә, әйәйәйәен, әй әйәйәйее,, әй өй әйәйәйе), será encontrado ...

21.04.2016 - Devido à implementação no módulo "FastMorph", algumas otimizações do processador e suporte multithreading, alcançamos que a pesquisa morfológica complexa agora tem um desempenho cinco vezes mais rápido.

03.04.2016 - Os recursos complexos do sistema de pesquisa morfológica foram significativamente estendidos. Você pode obter mais informações sobre eles nos guias atualizados até 3.0 e versão superior.

22.02.2016 - A função de busca morfológica complexa apareceu no corpus do tártaro escrito, onde você pode usar diferentes combinações de parâmetros como Wordform, lema, tags gramaticais, início e fim das palavras, distâncias entre eles. Informações técnicas: a versão 1 consome cerca de 6 GB de RAM para o corpus, consistindo em 116 ocorrências de palavras mln. Sua velocidade é bastante alta.

Expandir