Descargar ArticutAPI - Descargar el código fuente de ArticutAPI

Artículo Servicio de marcado de palabras chinas y parcialidad

[Cálculo verbal de palabras chino basado en la estructura gramatical, no los métodos estadísticos. ]

Sitio web de API de Artículo

Documento

Punto de referencia

Objetivos de diseño

nombre	Articleapi	Mp_articutapi	Ws_articutapi
producto	En línea / Docker	Estibador	Estibador
tecnología	Solicitud HTTP	Multiprocesamiento	Websocket
característica	Simple y fácil de usar	Procesamiento por lotes	Procesamiento instantáneo
Escenarios aplicables	cualquier	Análisis de texto	Chatbot

Velocidad de procesamiento

nombre	Articleapi	Mp_articutapi	Ws_articutapi
tiempo	0.1252 segundos	0.1206 segundos	0.0677 segundos

Una gran cantidad de texto

Número de oraciones	Articleapi	Mp_articutapi	Ws_articutapi
método	analizar gramaticalmente()	Bulk_parse (20)	analizar gramaticalmente()
1k	155 segundos	8 segundos	18 segundos
2k	306 segundos	14 segundos	35 segundos
3k	455 segundos	17 segundos	43 segundos

La plataforma de prueba es 4 CPU de núcleo y utiliza 4 procesos.
MP_ArticutAPI usa el método Bulk_Parse (Bulksize = 20).
WS_ArticutAPI usa el método parse ().

Articleapi

Método de instalación

pip3 install ArticutAPI

Documento de descripción

Consulte Docs/Index.html para la descripción de la función

Cómo usar

Artículo CWS (segmentación de palabras chinas)

 from ArticutAPI import Articut
from pprint import pprint
username = "" #這裡填入您在 https://api.droidtown.co 使用的帳號 email。若使用空字串，則預設使用每小時 2000 字的公用額度。
apikey   = "" #這裡填入您在 https://api.droidtown.co 登入後取得的 api Key。若使用空字串，則預設使用每小時 2000 字的公用額度。
articut = Articut(username, apikey)
inputSTR = "會被大家盯上，才證明你有實力。"
resultDICT = articut.parse(inputSTR)
pprint(resultDICT)

Resultados de devolución

 {"exec_time": 0.06723856925964355,
 "level": "lv2",
 "msg": "Success!",
 
 "result_pos": ["<MODAL>會</MODAL><ACTION_lightVerb>被</ACTION_lightVerb><ENTITY_nouny>大家</ENTITY_nouny><ACTION_verb>盯上</ACTION_verb>",
                "，",
                "<MODAL>才</MODAL><ACTION_verb>證明</ACTION_verb><ENTITY_pronoun>你</ENTITY_pronoun><ACTION_verb>有</ACTION_verb><ENTITY_noun>實力</ENTITY_noun>",
                "。"],
 "result_segmentation": "會/被/大家/盯上/，/才/證明/你/有/實力/。/",
 "status": True,
 "version": "v118",
 "word_count_balance": 9985,
 "product": "https://api.droidtown.co/product/",
 "document": "https://api.droidtown.co/document/"
}

Enumere todas las marcas de parte de voz de los resultados verbales de la palabra

Puede encontrar palabras que tengan significados completos de palabras como "sustantivo", "verbo" o "adjetivo" de acuerdo con sus necesidades.

 inputSTR = "你計劃過地球人類補完計劃"
resultDICT = articut.parse(inputSTR, level="lv1")
pprint(resultDICT["result_pos"])

#列出所有的 content word.
contentWordLIST = articut.getContentWordLIST(resultDICT)
pprint(contentWordLIST)

#列出所有的 verb word. (動詞)
verbStemLIST = articut.getVerbStemLIST(resultDICT)
pprint(verbStemLIST)

#列出所有的 noun word. (名詞)
nounStemLIST = articut.getNounStemLIST(resultDICT)
pprint(nounStemLIST)

#列出所有的 location word. (地方名稱)
locationStemLIST = articut.getLocationStemLIST(resultDICT)
pprint(locationStemLIST)

Resultados de devolución

 #resultDICT["result_pos"]
["<ENTITY_pronoun>你</ENTITY_pronoun><ACTION_verb>計劃</ACTION_verb><ASPECT>過</ASPECT><LOCATION>地球</LOCATION><ENTITY_oov>人類</ENTITY_oov><ACTION_verb>補完</ACTION_verb><ENTITY_nounHead>計劃</ENTITY_nounHead>"]

#列出所有的 content word.
[[(47, 49, '計劃'), (117, 119, '人類'), (146, 147, '補'), (196, 198, '計劃')]]

#列出所有的 verb word. (動詞)
[[(47, 49, '計劃'), (146, 147, '補')]]

#列出所有的 noun word. (名詞)
[[(117, 119, '人類'), (196, 198, '計劃')]]

#列出所有的 location word. (地方名稱)
[[(91, 93, '地球')]]

Obtenga la lista de versiones del artículo

 resultDICT = articut.versions()
pprint(resultDICT)

Resultados de devolución

 {"msg": "Success!",
 "status": True,
 "versions": [{"level": ["lv1", "lv2"],
               "release_date": "2019-04-25",
               "version": "latest"},
              {"level": ["lv1", "lv2"],
               "release_date": "2019-04-25",
               "version": "v118"},
              {"level": ["lv1", "lv2"],
               "release_date": "2019-04-24",
               "version": "v117"},...
}

Uso avanzado

Uso avanzado 01 >> Nivel de artículo: la profundidad del verbo de palabra. Cuanto más pequeño sea el número, más delgado se corta (preajuste: LV2).

 inputSTR = "小紅帽"
resultDICT = articut.parse(inputSTR, level="lv1")
pprint(resultDICT)

Resultado de retorno LV1

Verbo extremo verbo, adecuado para el uso de traducción automática de NLU o máquina. Presente los resultados para subdividir cada elemento en la oración tanto como sea posible.

 {"exec_time": 0.04814624786376953,
 "level": "lv1",
 "msg": "Success!",
 "result_pos": ["<MODIFIER>小</MODIFIER><MODIFIER_color>紅</MODIFIER_color><ENTITY_nounHead>帽</ENTITY_nounHead>"],
 "result_segmentation": "小/紅/帽/",
 "status": True,
 "version": "v118",
 "word_count_balance": 9997,...}

Resultado de retorno LV2

La fonología de la frase es adecuada para el análisis de texto, el cálculo del valor de la característica, la extracción de palabras clave, etc. Los resultados de la presentación se presentarán en una unidad de significado más pequeña.

 {"exec_time": 0.04195523262023926,
 "level": "lv2",
 "msg": "Success!",
 "result_pos": ["<ENTITY_nouny>小紅帽</ENTITY_nouny>"],
 "result_segmentation": "小紅帽/",
 "status": True,
 "version": "v118",
 "word_count_balance": 9997,...}

Uso avanzado 02 >> UserDefinedDictFile: Diccionario personalizado del usuario.

Porque el artículo solo trata con el "conocimiento del lenguaje" y no el "conocimiento de la enciclopedia". Proporcionamos la función del vocabulario de "personalización del usuario", que se utiliza en formato de diccionario, por favor escríbelo usted mismo.

UserDefinedFile.json

 {"雷姆":["小老婆"],
 "艾蜜莉亞":["大老婆"],
 "初音未來": ["初音", "只是個軟體"],
 "李敏鎬": ["全民歐巴", "歐巴"]}

rúnticut.py

 from ArticutAPI import Articut
from pprint import pprint

articut = Articut()
userDefined = "./UserDefinedFile.json"
inputSTR = "我的最愛是小老婆，不是初音未來。"

# 使用自定義詞典
resultDICT = articut.parse(inputSTR, userDefinedDictFILE=userDefined)
pprint(resultDICT)

# 未使用自定義詞典
resultDICT = articut.parse(inputSTR)
pprint(resultDICT)

Resultados de devolución

 # 使用自定義詞典
{"result_pos": ["<ENTITY_pronoun>我</ENTITY_pronoun><FUNC_inner>的</FUNC_inner><ACTION_verb>最愛</ACTION_verb><AUX>是</AUX><UserDefined>小老婆</UserDefined>",
                "，",
                "<FUNC_negation>不</FUNC_negation><AUX>是</AUX><UserDefined>初音未來</UserDefined>",
                "。"],
 "result_segmentation": "我/的/最愛/是/小老婆/，/不/是/初音未來/。/",...}

# 未使用自定義詞典
{"result_pos": ["<ENTITY_pronoun>我</ENTITY_pronoun><FUNC_inner>的</FUNC_inner><ACTION_verb>最愛</ACTION_verb><AUX>是</AUX><ENTITY_nouny>小老婆</ENTITY_nouny>",
                "，",
                "<FUNC_negation>不</FUNC_negation><AUX>是</AUX><ENTITY_nouny>初音</ENTITY_nouny><TIME_justtime>未來</TIME_justtime>",
                "。"],
 "result_segmentation": "我/的/最愛/是/小老婆/，/不/是/初音/未來/。/",...}

Uso avanzado 03 - Llame a la base de datos de información turística

La plataforma abierta del gobierno contiene "la Oficina de Turismo del Ministerio de Transporte recopila información turística espacial publicada por varias agencias gubernamentales". El artículo puede usar la información en ella y marcarla como <KELLAKE_PLECE>

Subir contenido (formato JSON)

 {
	"username": "[email protected]",
	"api_key": "anapikeyfordocthatdoesnwork@all",
	"input_str": "花蓮的原野牧場有一間餐廳",
	"version": "v137",
	"level": "lv1",
	"opendata_place": true
}

Return Content (formato JSON)

 {
	"exec_time": 0.013453006744384766,
	"level": "lv1",
	"msg": "Success!",
	"result_pos": ["<LOCATION>花蓮</LOCATION><FUNC_inner>的</FUNC_inner><KNOWLEDGE_place>原野牧場</KNOWLEDGE_place><ACTION_verb>有</ACTION_verb><ENTITY_classifier>一間</ENTITY_classifier><ENTITY_noun>餐廳</ENTITY_noun>"],
	"result_segmentation": "花蓮/的/原野牧場/有/一間/餐廳/",
	"status": True,
	"version": "v137",
	"word_count_balance": 99987
}

Uso avanzado 04 - Extracción de palabras clave basada en el algoritmo TF -IDF

artículo
- La oración es el texto para extraer palabras clave
- Topk es extraer varias palabras clave TF-IDF, con un valor preestablecido de 20
- con peso es si devolver el valor de peso de la palabra clave, el valor preestablecido es falso
- Los extractos de ILOTPOS solo se extraen la parte especificada de la palabra, el valor preestablecido está vacío, es decir, todas las palabras se extraen.
articut.analyse.tfidf (IDF_PATH = NINGUNO) Crear un nuevo objeto TFIDF, IDF_PATH es la ruta del corpus de IDF

Ejemplo de uso: https://github.com/droidtown/articutapi/blob/master/articutapi.py#l624

Uso avanzado 05 - Extracción de palabras clave basada en el algoritmo de TexTrank

artículo
- La oración es el texto para extraer palabras clave
- Topk es extraer varias palabras clave TF-IDF, con un valor preestablecido de 20
- con peso es si devolver el valor de peso de la palabra clave, el valor preestablecido es falso
- Los extractos de ILOTPOS solo se extraen la parte especificada de la palabra, el valor preestablecido está vacío, es decir, todas las palabras se extraen.
articut.analyse.textrank () crea un nuevo objeto Textrank

Documento de algoritmo: TexTrank: Traer el orden a los textos

Idea básica:

Cortar el texto de la palabra clave que se extrae
Con un tamaño de panel fijo (el valor preestablecido es 5, ajustado por el atributo SPAN), la relación de concurrencia entre palabras se construye para crear un gráfico sin peso
Calcule el PageRank del nodo en el camino

Ejemplo de uso: https://github.com/droidtown/articutapi/blob/master/articutapi.py#l629

Uso avanzado 06 - Resultados de ruptura de palabras de consulta usando GraphQL

Mira el video

Uso de herramientas Graphiql

Requisitos ambientales

 Python 3.6.1
$ pip install graphene
$ pip install starlette
$ pip install jinja2
$ pip install uvicorn

Ejecute Artículographql.py para llevar el camino de archivo al resultado de la ruptura de palabras de Articut, y abra el navegador para ingresar la URL http://0.0.0.0:8000/

 $ python ArticutGraphQL.py articutResult.json

Uso Ejemplo 01

Graphiql Ejemplo 01

Ejemplo de uso 02

Graphiql Ejemplo 02

Usar ArtemUt-Graphql

Instalar módulo de grafeno

 $ pip install graphene

Uso Ejemplo 01

 inputSTR = "地址：宜蘭縣宜蘭市縣政北七路六段55巷1號2樓"
result = articut.parse(inputSTR)
with open("articutResult.json", "w", encoding="utf-8") as resultFile:
    json.dump(result, resultFile, ensure_ascii=False)
	
graphQLResult = articut.graphQL.query(
    filePath="articutResult.json",
    query="""
	{
	  meta {
	    lang
	    description
	  }
	  doc {
	    text
	    tokens {
	      text
	      pos_
	      tag_
	      isStop
	      isEntity
	      isVerb
	      isTime
	      isClause
	      isKnowledge
	    }
	  }
	}""")
pprint(graphQLResult)

Resultados de devolución

Artículo Graphql Ejemplo 01

Ejemplo de uso 02

 inputSTR = "劉克襄在本次活動當中，分享了台北中山北路一日遊路線。他表示當初自己領著柯文哲一同探索了雙連市場與中山捷運站的小吃與商圈，還有商圈內的文創商店與日系雜物店鋪，都令柯文哲留下深刻的印象。劉克襄也認為，雙連市場內的魯肉飯、圓仔湯與切仔麵，還有九條通的日式店家、居酒屋等特色，也能讓人感受到台北舊城區不一樣的魅力。"
result = articut.parse(inputSTR)
with open("articutResult.json", "w", encoding="utf-8") as resultFile:
    json.dump(result, resultFile, ensure_ascii=False)
	
graphQLResult = articut.graphQL.query(
    filePath="articutResult.json",
    query="""
	{
	  meta {
	    lang
	    description
	  }
	  doc {
	    text
	    ents {
	      persons {
	        text
	        pos_
	        tag_
	      }
	    }
	  }
	}""")
pprint(graphQLResult)

Resultados de devolución

Articlecut-Graphql Return Result 2

Expandir