Download de ArticutAPI - download de código fonte ArticutAPI

Artigo de quebra de palavras chinesas e serviço de marcação de parte da fala

[Cálculo do verbo da palavra chinês com base na estrutura gramatical, não nos métodos estatísticos. ]

Site da API do artigo

Documento

Benchmark

Objetivos de design

nome	Articleapi	MP_ARTICUTAPI	Ws_articutapi
produto	Online / Docker	Docker	Docker
tecnologia	Solicitação http	Multiprocessamento	WebSocket
recurso	Simples e fácil de usar	Processamento em lote	Processamento instantâneo
Cenários aplicáveis	qualquer	Análise de texto	Chatbot

Velocidade de processamento

nome	Articleapi	MP_ARTICUTAPI	Ws_articutapi
tempo	0,1252 segundos	0,1206 segundos	0,0677 segundos

Uma grande quantidade de texto

Número de frases	Articleapi	MP_ARTICUTAPI	Ws_articutapi
método	Parse ()	Bulk_parse (20)	Parse ()
1k	155 segundos	8 segundos	18 segundos
2k	306 segundos	14 segundos	35 segundos
3k	455 segundos	17 segundos	43 segundos

A plataforma de teste é 4 CPUs principais e usa 4 processos.
MP_ArticutAPI Usa o método BULK_PARSE (BULKSIZE = 20).
WS_ArticutAPI usa o método parse ().

Articleapi

Método de instalação

pip3 install ArticutAPI

Documento de descrição

Consulte o docs/index.html para descrição da função

Como usar

Artigo CWS (segmentação de palavras chinesa)

 from ArticutAPI import Articut
from pprint import pprint
username = "" #這裡填入您在 https://api.droidtown.co 使用的帳號 email。若使用空字串，則預設使用每小時 2000 字的公用額度。
apikey   = "" #這裡填入您在 https://api.droidtown.co 登入後取得的 api Key。若使用空字串，則預設使用每小時 2000 字的公用額度。
articut = Articut(username, apikey)
inputSTR = "會被大家盯上，才證明你有實力。"
resultDICT = articut.parse(inputSTR)
pprint(resultDICT)

Resultados de retorno

 {"exec_time": 0.06723856925964355,
 "level": "lv2",
 "msg": "Success!",
 
 "result_pos": ["<MODAL>會</MODAL><ACTION_lightVerb>被</ACTION_lightVerb><ENTITY_nouny>大家</ENTITY_nouny><ACTION_verb>盯上</ACTION_verb>",
                "，",
                "<MODAL>才</MODAL><ACTION_verb>證明</ACTION_verb><ENTITY_pronoun>你</ENTITY_pronoun><ACTION_verb>有</ACTION_verb><ENTITY_noun>實力</ENTITY_noun>",
                "。"],
 "result_segmentation": "會/被/大家/盯上/，/才/證明/你/有/實力/。/",
 "status": True,
 "version": "v118",
 "word_count_balance": 9985,
 "product": "https://api.droidtown.co/product/",
 "document": "https://api.droidtown.co/document/"
}

Liste todas as marcas de parte da fala da palavra que os resultados do verbo

Você pode encontrar palavras que tenham significados completos de palavras como "substantivo", "verbo" ou "adjetivo" de acordo com suas necessidades.

 inputSTR = "你計劃過地球人類補完計劃"
resultDICT = articut.parse(inputSTR, level="lv1")
pprint(resultDICT["result_pos"])

#列出所有的 content word.
contentWordLIST = articut.getContentWordLIST(resultDICT)
pprint(contentWordLIST)

#列出所有的 verb word. (動詞)
verbStemLIST = articut.getVerbStemLIST(resultDICT)
pprint(verbStemLIST)

#列出所有的 noun word. (名詞)
nounStemLIST = articut.getNounStemLIST(resultDICT)
pprint(nounStemLIST)

#列出所有的 location word. (地方名稱)
locationStemLIST = articut.getLocationStemLIST(resultDICT)
pprint(locationStemLIST)

Resultados de retorno

 #resultDICT["result_pos"]
["<ENTITY_pronoun>你</ENTITY_pronoun><ACTION_verb>計劃</ACTION_verb><ASPECT>過</ASPECT><LOCATION>地球</LOCATION><ENTITY_oov>人類</ENTITY_oov><ACTION_verb>補完</ACTION_verb><ENTITY_nounHead>計劃</ENTITY_nounHead>"]

#列出所有的 content word.
[[(47, 49, '計劃'), (117, 119, '人類'), (146, 147, '補'), (196, 198, '計劃')]]

#列出所有的 verb word. (動詞)
[[(47, 49, '計劃'), (146, 147, '補')]]

#列出所有的 noun word. (名詞)
[[(117, 119, '人類'), (196, 198, '計劃')]]

#列出所有的 location word. (地方名稱)
[[(91, 93, '地球')]]

Obtenha a lista de versão do artigo

 resultDICT = articut.versions()
pprint(resultDICT)

Resultados de retorno

 {"msg": "Success!",
 "status": True,
 "versions": [{"level": ["lv1", "lv2"],
               "release_date": "2019-04-25",
               "version": "latest"},
              {"level": ["lv1", "lv2"],
               "release_date": "2019-04-25",
               "version": "v118"},
              {"level": ["lv1", "lv2"],
               "release_date": "2019-04-24",
               "version": "v117"},...
}

Uso avançado

Uso avançado 01 >> Nível do artigo: A profundidade do verbo da palavra. Quanto menor o número, mais fino ele corta (predefinição: lv2).

 inputSTR = "小紅帽"
resultDICT = articut.parse(inputSTR, level="lv1")
pprint(resultDICT)

Resultado de retorno Lv1

Verbo extremo verbo, adequado para NLU ou Máquina de uso automático de tradução. Apresente os resultados para subdividir cada elemento na frase o máximo possível.

 {"exec_time": 0.04814624786376953,
 "level": "lv1",
 "msg": "Success!",
 "result_pos": ["<MODIFIER>小</MODIFIER><MODIFIER_color>紅</MODIFIER_color><ENTITY_nounHead>帽</ENTITY_nounHead>"],
 "result_segmentation": "小/紅/帽/",
 "status": True,
 "version": "v118",
 "word_count_balance": 9997,...}

Resultado de retorno Lv2

A fonologia da frase é adequada para análise de texto, cálculo do valor do recurso, extração de palavras -chave, etc. Os resultados da apresentação serão apresentados em uma menor unidade de significado.

 {"exec_time": 0.04195523262023926,
 "level": "lv2",
 "msg": "Success!",
 "result_pos": ["<ENTITY_nouny>小紅帽</ENTITY_nouny>"],
 "result_segmentation": "小紅帽/",
 "status": True,
 "version": "v118",
 "word_count_balance": 9997,...}

Uso avançado 02 >> UserDefinedDictFile: Dicionário personalizado do usuário.

Porque o artigo lida apenas com "conhecimento da linguagem" e não "conhecimento da enciclopédia". Fornecemos a função do vocabulário de "personalização do usuário", que é usado no formato de dicionário, escreva você mesmo.

UserDefinedFile.json

 {"雷姆":["小老婆"],
 "艾蜜莉亞":["大老婆"],
 "初音未來": ["初音", "只是個軟體"],
 "李敏鎬": ["全民歐巴", "歐巴"]}

RUNARTICUT.PY

 from ArticutAPI import Articut
from pprint import pprint

articut = Articut()
userDefined = "./UserDefinedFile.json"
inputSTR = "我的最愛是小老婆，不是初音未來。"

# 使用自定義詞典
resultDICT = articut.parse(inputSTR, userDefinedDictFILE=userDefined)
pprint(resultDICT)

# 未使用自定義詞典
resultDICT = articut.parse(inputSTR)
pprint(resultDICT)

Resultados de retorno

 # 使用自定義詞典
{"result_pos": ["<ENTITY_pronoun>我</ENTITY_pronoun><FUNC_inner>的</FUNC_inner><ACTION_verb>最愛</ACTION_verb><AUX>是</AUX><UserDefined>小老婆</UserDefined>",
                "，",
                "<FUNC_negation>不</FUNC_negation><AUX>是</AUX><UserDefined>初音未來</UserDefined>",
                "。"],
 "result_segmentation": "我/的/最愛/是/小老婆/，/不/是/初音未來/。/",...}

# 未使用自定義詞典
{"result_pos": ["<ENTITY_pronoun>我</ENTITY_pronoun><FUNC_inner>的</FUNC_inner><ACTION_verb>最愛</ACTION_verb><AUX>是</AUX><ENTITY_nouny>小老婆</ENTITY_nouny>",
                "，",
                "<FUNC_negation>不</FUNC_negation><AUX>是</AUX><ENTITY_nouny>初音</ENTITY_nouny><TIME_justtime>未來</TIME_justtime>",
                "。"],
 "result_segmentation": "我/的/最愛/是/小老婆/，/不/是/初音/未來/。/",...}

Uso avançado 03 - Ligue para o banco de dados de informações de turismo

A plataforma aberta do governo contém "O Departamento de Turismo do Ministério dos Transportes coleta informações de turismo espacial divulgadas por várias agências governamentais". Artigo pode usar as informações nele e marcá -las como <wellwledge_place>

Carregar conteúdo (formato JSON)

 {
	"username": "[email protected]",
	"api_key": "anapikeyfordocthatdoesnwork@all",
	"input_str": "花蓮的原野牧場有一間餐廳",
	"version": "v137",
	"level": "lv1",
	"opendata_place": true
}

Retornar conteúdo (formato JSON)

 {
	"exec_time": 0.013453006744384766,
	"level": "lv1",
	"msg": "Success!",
	"result_pos": ["<LOCATION>花蓮</LOCATION><FUNC_inner>的</FUNC_inner><KNOWLEDGE_place>原野牧場</KNOWLEDGE_place><ACTION_verb>有</ACTION_verb><ENTITY_classifier>一間</ENTITY_classifier><ENTITY_noun>餐廳</ENTITY_noun>"],
	"result_segmentation": "花蓮/的/原野牧場/有/一間/餐廳/",
	"status": True,
	"version": "v137",
	"word_count_balance": 99987
}

Uso avançado 04 - Extração de palavras -chave com base no algoritmo TF -IDF

Artigo.Analyse.extract_tags (sentença, topk = 20, withweight = false, allowpos = ())
- sentença é o texto para extrair palavras -chave
- Topk é extrair várias palavras-chave TF-IDF, com um valor predefinido de 20
- Withweight é se deve retornar o valor do peso da palavra -chave, o valor predefinido é falso
- O AllowPOS extrai apenas a parte especificada da palavra, o valor predefinido está vazio, ou seja, todas as palavras são extraídas.
articut.analyse.tfidf (odf_path = nenhum) Crie um novo objeto TFIDF, IDF_PATH é o caminho da IDF corpus

Exemplo de uso: https://github.com/droidtown/articutapi/blob/master/articutapi.py#l624

Uso avançado 05 - Extração de palavras -chave com base no algoritmo TexTrank

Artigo.Analyse.TexTrank (Sentença, Topk = 20, Withweight = false, allowPos = ())
- sentença é o texto para extrair palavras -chave
- Topk é extrair várias palavras-chave TF-IDF, com um valor predefinido de 20
- Withweight é se deve retornar o valor do peso da palavra -chave, o valor predefinido é falso
- O AllowPOS extrai apenas a parte especificada da palavra, o valor predefinido está vazio, ou seja, todas as palavras são extraídas.
articut.Analyse.texTrank () Crie um novo objeto TexTrank

Artigo de algoritmo: TexTrank: trazendo ordem para textos

Ideia básica:

Corte o texto da palavra -chave a ser extraído
Com um tamanho fixo do painel (o valor predefinido é 5, ajustado por atributo span), a relação de co-ocorrência entre as palavras é construída para criar um gráfico sem peso
Calcule o PageRank do nó no caminho

Exemplo de uso: https://github.com/droidtown/articutapi/blob/master/articutapi.py#l629

Uso avançado 06 - Consulta Breaking Results usando grafql

Assista ao vídeo

Usando ferramentas GraphIQL

Requisitos ambientais

 Python 3.6.1
$ pip install graphene
$ pip install starlette
$ pip install jinja2
$ pip install uvicorn

Execute o artigographql.py para trazer o caminho do arquivo para o resultado de quebra de palavras de Articut e abrir o navegador para entrar no URL http://0.0.0.0:8000/

 $ python ArticutGraphQL.py articutResult.json

Exemplo de uso 01

Exemplo de GraphIQL 01

Exemplo de uso 02

Exemplo de GraphIQL 02

Usando o Artigot-GraphQL

Instale o módulo de grafeno

 $ pip install graphene

Exemplo de uso 01

 inputSTR = "地址：宜蘭縣宜蘭市縣政北七路六段55巷1號2樓"
result = articut.parse(inputSTR)
with open("articutResult.json", "w", encoding="utf-8") as resultFile:
    json.dump(result, resultFile, ensure_ascii=False)
	
graphQLResult = articut.graphQL.query(
    filePath="articutResult.json",
    query="""
	{
	  meta {
	    lang
	    description
	  }
	  doc {
	    text
	    tokens {
	      text
	      pos_
	      tag_
	      isStop
	      isEntity
	      isVerb
	      isTime
	      isClause
	      isKnowledge
	    }
	  }
	}""")
pprint(graphQLResult)

Resultados de retorno

Exemplo de Artigo-GraphQL 01

Exemplo de uso 02

 inputSTR = "劉克襄在本次活動當中，分享了台北中山北路一日遊路線。他表示當初自己領著柯文哲一同探索了雙連市場與中山捷運站的小吃與商圈，還有商圈內的文創商店與日系雜物店鋪，都令柯文哲留下深刻的印象。劉克襄也認為，雙連市場內的魯肉飯、圓仔湯與切仔麵，還有九條通的日式店家、居酒屋等特色，也能讓人感受到台北舊城區不一樣的魅力。"
result = articut.parse(inputSTR)
with open("articutResult.json", "w", encoding="utf-8") as resultFile:
    json.dump(result, resultFile, ensure_ascii=False)
	
graphQLResult = articut.graphQL.query(
    filePath="articutResult.json",
    query="""
	{
	  meta {
	    lang
	    description
	  }
	  doc {
	    text
	    ents {
	      persons {
	        text
	        pos_
	        tag_
	      }
	    }
	  }
	}""")
pprint(graphQLResult)

Resultados de retorno

Resultado de Retorno 2 Articlecut-Graphql 2

Expandir