Descargar fastmorph - Descargar el código fuente de fastmorph

Fastmorph v5

Fast Corpus Search Engine originalmente hecho para el corpus del lenguaje tártaro escrito.

Puedes probarlo aquí.

El código fuente está disponible en https://github.com/mansayk/fastmorph.

Características

Opciones de búsqueda avanzadas basadas en cualquier combinación de diferentes parámetros de búsqueda:
- forma de palabra
- lema
- conjunto de etiquetas morfológicas
- coincidencia de patrones (actualmente "*" y "?" Las máscaras son compatibles)
- coincidencia de casos
- Distancia a la siguiente palabra
Recibe consultas de búsqueda sobre el archivo de socket de dominio UNIX en formato JSON.

Algunas pruebas de velocidad

Pruebas realizadas en la máquina con las siguientes características:

CPU: procesador AMD FX-4100 Quad-Core
Ram: 16 GB
OS: CentOS Release 6.8 (final)
FastMorph: compilado con 4 hilos de soporte, x64
Tamaño del corpus: 116 mln ocurrencias de palabras (tokens de 140 mln)
Devolver oraciones completas con fuentes: 100

Resultados de la prueba para diferentes tipos de consultas:

 Query:
   Word 1: китап
Number of occurences: 32209
Query processing time: 0,4 sec.

 Query:
   Word 1 (case sensitive, distance to the next word up to 3 words): Китап
   Word 2 (if in brackets, then it is lemma): (бир)
Number of occurences: 15
Query processing time: 0,4 sec.

 Quite heavy query:
   Word 1 (word begins with "б" letter, distance range to the next word is from 1 to 10): б*
   Word 2 (pronoun, word ends with "ң", distance range to the next word is from 1 to 10): <prn>*ң
   Word 3 (lemma "кил", word ends with "р"): (кил)*р
Number of occurences: 135210
Query processing time: 0,8 sec.

 Very heavy query:
   Word 1 (word ends with "ы", distance range to the next word is from 1 to 100): *ы
   Word 2 (word ends with "а", distance range to the next word is from 1 to 100): *а
   Word 3 (word ends with "м", distance range to the next word is from 1 to 100): *м
   Word 4 (word ends with "с", distance range to the next word is from 1 to 100): *с
   Word 5 (word ends with "ь", distance range to the next word is from 1 to 100): *ь
   Word 6 (word ends with "е"): *е
Number of occurences: 135210
Query processing time: 1,4 sec.

Requisitos del sistema

OS: Probado en diferentes distribuciones de Linux x86-64.
Ram: alrededor de 800 MB para el Corpus de 100 MLN Word.
CPU: se recomiendan procesadores multinúcleo de 64 bits debido al soporte de lectura múltiple.
MySQL: el programa carga todos los datos de la base de datos MySQL.
Soporte de socket de dominio UNIX por sistema operativo.

Dependencias para la compilación

JSMN es un analizador JSON minimalista en C.
MySQL C API es una API basada en C que las aplicaciones de clientes escritas en C pueden usar para comunicarse con MySQL Server.

Usando

Puedes probarlo aquí. Hay diferentes ejemplos de búsqueda en el manual de nuestro corpus. Si tiene alguna pregunta sobre el uso de FastMorph en sus proyectos, contáctenos por [email protected].
También le pedimos que nos haga saber dónde se usa este motor de búsqueda y, si no le importa, publicaremos aquí enlaces a esos proyectos.

Licencia

Este software se distribuye bajo GNU General Public License v3.0.

Json

Consulta de búsqueda:

 Schematical view: {<adj>}(0) 1-5 {ке*<n>}(1) 1-1 {(кил)}(0) 1-1 {}(0) 1-1 {}(0) 1-1 {}(0)  
Detailed:  
   Word 1 (distance range to the next word is from 1 to 5, adjective): <adj>  
   Word 2 (case sensitive, begins with "ке", noun): ке*<n>  
   Word 3: (lemma "кил"):(кил)  
   Word 4:  
   Word 5:  
   Word 6:

Formato de entrada

 {  
  "word": [  
    "",  
    "",  
    "",  
    "",
    "",
    ""  
  ],  
  "lemma": [  
    "",  
    "",  
    "кил",  
    "",
    "",
    ""  
  ],  
  "tags": [  
    "<adj>",  
    "<n>",  
    "",  
    "",  
    "",
    ""  
  ],  
  "wildmatch": [  
    "",  
    "ке*",  
    "",  
    "",
    "",
    ""  
  ],  
  "case": [  
    0,  
    1,  
    0, 
    0,
    0,
    0  
  ],  
  "dist_from": [  
    1,  
    1,  
    1, 
    1,
    1  
  ],  
  "dist_to": [  
    5,  
    1,  
    1,
    1,
    1  
  ],  
  "return": 100,  
  "last_pos": "0"  
}

"Retorno" - Cantidad máxima de oraciones para devolver.
"Last_Pos" - "0" para la primera consulta o simplemente devuelva esta cadena para obtener la siguiente lista de oraciones.

¡Advertencia! Debe normalizar y verificar los datos de entrada antes de pasarlos a FastMorph:

eliminar todos los símbolos no permitidos;
Verifique las piernas de la cadena, la corrección de los números, etc.

Formato de salida

 {  
  "example": [  
    {  
      "id": 15853,  
      "source": ""2013 Универсиадасы блогы" (web-сайт)",  
      "source_type": "kazan2013.ru",  
      "sentence": "Универсиада кебек зур проектның бер өлеше булу өчен, Казанга Россиянең төрле  
        төбәкләреннән һәм Дөньяның  
        <span id='found_word_0' class='found_word' title='(төрле) <adj>'>төрле</span>  
        илләреннән бик күп  
        <span id='found_word_1' class='found_word' title='(кеше) <n>,<nom>,<sg>'>кеше</span>  
        <span id='found_word_2' class='found_word' title='(кил) <ifi>,<iv>,<p3>,<sg>,<v>'>килде</span>."  
    },  
    {  
      "id": -1  
    }  
  ],  
  "last_pos": "892447x39311905x75980782x114356633",  
  "found_all": 1359  
}

Como puede ver, cada palabra coincide con la consulta de búsqueda se devuelve en las siguientes etiquetas HTML:

 <span id='found_word_0' class='found_word' title='(LEMMA) <TAG1><TAG2>'>FOUND_WORD</span>

Entonces, por ejemplo, puede usar CSS para resaltarlos.

Formato de base de datos mysql

Puede encontrar ejemplos de mesa Crear aquí.

mysql> select * de Morph6_Main_apertium Limit 10;

identificación	unido	oración	fuente
0	1594501	1	1
1	761564	1	1
2	787834	1	1
3	1505641	1	1
4	420024	1	1
5	764201	1	1
6	1003674	1	1
7	1003851	1	1
8	764201	1	1
9	1057551	1	1

mysql> seleccionar * de MORPH6_United_apertium donde id> = 100 límite 10;

identificación	frecuente	Word_case	palabra	lema	etiquetas
100	1	1000084	599888	429156	2
101	60	1000085	599890	429158	2
102	5	1000086	599891	429159	2
103	2	1000087	599892	429160	2
104	1	1000088	599893	429161	2
105	10	1000089	599894	429162	2
106	1	100008	164606	119768	2
107	1	1000090	599895	429163	2
108	5	1000091	599899	429167	2
109	1	1000092	599901	429169	2

mysql> seleccionar * de Morph6_words_case_apertium donde ID> 200000 límite 10;

identificación	frecuente	Word_case
200001	4	Идарәсендәе
200002	1	Идарәсендәә
200003	3	Идарәсене
200004	290	Идарәсенең
200005	14	Идарәсеннән
200006	1	Идарәсеның
200007	79	Идарәсенә
200008	1	Идарәснең
200009	1	Идарәәнең
200010	1	Идарәханә

mysql> seleccionar * de Morph6_words_apertium donde ID> 100000 límite 10;

identificación	frecuente	palabra
100001	975	артиселарны
100002	7	'
100003	74	артист veor
100004	1	артиселарныкы
100005	1	артистлар comior
100006	8	артиселарныкынан
100007	1	"
100008	1	арис vel
100009	1408	артиселарның
100010	3	'

mysql> seleccionar * de Morph6_lemmas_apertium donde ID> 300000 límite 10;

identificación	frecuente	lema
300001	1	иechчелек
300002	130	иechчеләрәә
300003	8	ияеләрәә
300004	2	иecharчеләрдә
300005	3	ияеләр 24ән
300006	9	ияеләре
300007	2	ияеләрегез
300008	2	ияеләрен
300009	1	ияеләренең
300010	12	ияеләрне

mysql> seleccionar * de MORPH6_TAGS_APERTIUM DONDE ID> 11100 límite 10;

identificación	frecuente	combinaciones
11101	4	<NNT>, <CAT>, <F>, <PRESTA <Frm>, <Np>, <PX2SG>
11102	17141	<tnt>, <at>, <f>, <np>
11103	387	<NNT>, <ATAT>, <f>, <np>, <Pl>
11104	1	<NNT>, <CAT>, <F>, <NP>, <PLP>, <PX1PL>
11105	1	<NNT>, <Cat>, <F>, <Np>, <Pl>, <PX1SG>
11106	12	<NNT>, <CAT>, <F>, <NP>, <Pl>, <PX3SP>
11107	1	<NNT>, <CAT>, <F>, <NP>, <Pl>, <PX>
11108	40	<NNT>, <CAT>, <F>, <NP>, <PX1PL>
11109	101	<NNT>, <Cat>, <F>, <NP>, <PX1SG>
11110	41	<NNT>, <CAT>, <F>, <NP>, <PX2SG>

MySQL> Seleccionar * de fuentes donde COL1> 300 LIMIT 3;

COL1	Col2	COL3
301	"Miras.belem.ru" (web-сй)	Miras.belem.ru
302	Аблла алиш. Крше»	libro
303	Әәәләт хакиock.	tatarstan.ru

Apertio

Si usa el etiquetador de Apertium para anotar morfológicamente el corpus, puede usar nuestro script de Python para generar tablas a partir de la salida de Apertium.

Para usar este convertidor deberías:

Anotar su corpus usando el tagger de Apertium:

 cat bigfile.txt | apertium -n -d . tat-tagger | cg-proc dev/mansur.bin > bigfile_tagged.txt

Donde Mansur.bin es solo un archivo con algunas reglas adicionales. Puedes encontrarlo aquí.
En resultado, debe obtener el archivo, que contiene oraciones anotadas:

 ^Мин/Мин<prn><pers><p1><sg><nom>$ ^үземне/үз<prn><ref><px1sg><acc>$ ^белә/бел<v><tv><prc_impf>$ ^башлаганнан/башла<vaux><ger_past><abl>$ ^бирле/бирле<post>$ ^түбән/түбән<adj>$ ^очка/оч<n><sg><dat>$ – ^ерак/ерак<adj>$ ^бабакайларга/бабакай<n><pl><dat>$ ^төшәргә/төш<v><iv><inf>$ ^ярата/ярат<v><tv><pres><p3><sg>$ ^идем/и<cop><ifi><p1><sg>$^./.<sent>$

Genere el archivo de texto "inv_so" en el siguiente formato:

ID de oración	ID de origen
1	1
2	1
3	1
4	1
5	1
6	1
7	1
8	1
9	1
10	1

Y colóquelo en el mismo directorio con script.
3) Ejecute el script de Python de esta manera:

 ./tat-tagger_to_ntables_v6.24.py tatcorpus2.sentences.apertium.tagged.txt

Tomará bastante tiempo según el tamaño de su corpus.
4) Si todo salió bien, debe obtener una lista de archivos nuevos que necesita importar a la base de datos MySQL:

 tatcorpus2.sentences.apertium.tagged.txt.lemmas.output.txt
tatcorpus2.sentences.apertium.tagged.txt.main.output.txt
tatcorpus2.sentences.apertium.tagged.txt.tags-uniq.output.txt.sorted.txt
tatcorpus2.sentences.apertium.tagged.txt.tags.output.txt
tatcorpus2.sentences.apertium.tagged.txt.united.output.txt
tatcorpus2.sentences.apertium.tagged.txt.words.output.txt
tatcorpus2.sentences.apertium.tagged.txt.words_case.output.txt

ChangeLog:

27.02.2017 - Se libera la quinta versión del motor de búsqueda de FastMorph Corpus. Ahora consume aproximadamente 2,5 veces menos memoria (RAM).

18.11.2016 - Se lanza la cuarta versión del motor de búsqueda de FastMorph Corpus. Lista de cambios:

Se agregó la opción de búsqueda sensible a la caja;
El uso de memoria (RAM) por el sistema de búsqueda se reduce dos veces;
Debido a los cambios esenciales en la arquitectura de la aplicación, la consulta de búsqueda funciona ahora 3 - 5 veces más rápido. Información técnica: la versión 4 consume aproximadamente 2 GB de RAM para el mismo corpus.

19.07.2016 - Algunas mejoras en el complejo motor de búsqueda morfológica "FastMorph":

Además de la máscara existente "*", eso coincide con cualquier número de símbolos, la máscara ", que representa un solo carácter. Más información al respecto que puede encontrar en las guías actualizadas;
En el plan técnico, el uso de la memoria del sistema de búsqueda se reduce hasta un 25%. Información técnica: la versión 3 consume aproximadamente 4 GB de RAM para el mismo corpus.

13.06.2016 - La búsqueda por la parte media de una funcionalidad de Word se agregó en el módulo FastMorph. Por ejemplo, si escribe *әее *, palabras como ярәәндә, әйрәәен, үткәрәен, өйөйөй Es encontrar ...

21.04.2016 - Debido a la implementación en el módulo "FastMorph", algunas optimizaciones de procesadores y soporte de lectura múltiple logramos que la búsqueda morfológica compleja ahora funciona hasta cinco veces más rápido.

03.04.2016 - Las características complejas del sistema de búsqueda morfológica se extendieron significativamente. Puede obtener más información sobre ellas en las guías actualizadas hasta 3.0 y una versión superior.

22.02.2016 - La función de búsqueda morfológica compleja apareció en el corpus del tártaro escrito, donde puede usar diferentes combinaciones de parámetros tales como forma de palabra, lema, etiquetas gramaticales, inicio y final de palabras, distancias entre ellos. Información técnica: la versión 1 consume aproximadamente 6 GB de RAM para el corpus, que consta de 116 ocurrencias de palabras. Su velocidad es bastante alta.

Expandir