Download SmoothNLP - download do código -fonte SmoothNLP

Smoothnlp

Autor	E-mail
Vencedor	[email protected]
Yinjun	[email protected]
medusa	[email protected]

Smoothnlp
- Instalar
- Gráfico de conhecimento
  - Exemplos de chamada e visualização
- Oleodutos básicos do NLP
  - 1. Tokenize o particípio
  - 2. Anotação de parte da fala posterior
  - 3. Reconhecimento de entidades nerds
  - 4. Identificação da entidade financeira
  - 5. Análise de sintaxe de dependência
  - 6. Corte frases
  - 7. Suporte multithread
  - 8. log
- Aprendizado não supervisionado
  - Novo mineração de palavras
  - Agrupamento de eventos
- Aprendizado supervisionado
  - (Informação) Classificação de eventos
- Tutorial
- Descrição do serviço
  - declaração
  - Edição profissional
  - Perguntas frequentes
- Defina fontes
- Ovos de Páscoa

Instalar

Instale via pip

pip install smoothnlp > =0.4.0

Instale a versão mais recente através do código -fonte

git clone https://github.com/smoothnlp/SmoothNLP.git
cd SmoothNLP
python setup.py install

Gráfico de conhecimento

Somente versões suportadas do SmoothNLP V0.3.0 e posterior; Os seguintes são exemplos após a versão V0.4 :

Exemplos de chamada e visualização

 from smoothnlp . algorithm import kg
from kgexplore import visual
ngrams = kg . extract_ngram ([ "SmoothNLP在V0.3版本中正式推出知识抽取功能" ,
                            "SmoothNLP专注于可解释的NLP技术" ,
                            "SmoothNLP支持Python与Java" ,
                            "SmoothNLP将帮助工业界与学术界更加高效的构建知识图谱" ,
                            "SmoothNLP是上海文磨网络科技公司的开源项目" ,
                            "SmoothNLP在V0.4版本中推出对图谱节点的分类功能" ,
                            "KGExplore是SmoothNLP的一个子项目" ])
visual . visualize ( ngrams , width = 12 , height = 10 )

Smoothnlp_kg_demo

Descrição da função

O tipo Edge suportado na versão v0.4 inclui:事件触发,状态描述,属性描述e数值描述.
Os tipos de nós (tipos de nó) suportados na versão v0.4 incluem:产品,地区,公司与品牌,货品,机构,人物,修饰短语e其他.

Oleodutos básicos do NLP

1. Tokenize Word Segmentation

 >> import smoothnlp 
>> smoothnlp . segment ( '欢迎在Python中使用SmoothNLP' )
[ '欢迎' , '在' , 'Python' , '中' , '使用' , 'SmoothNLP' ]

2. Anotação de parte da fala do postag

Wiki de explicação de etiqueta de parte da fala

 >> smoothnlp . postag ( '欢迎使用smoothnlp的Python接口' )
[{ 'token' : '欢迎' , 'postag' : 'VV' },
 { 'token' : '在' , 'postag' : 'P' },
 { 'token' : 'Python' , 'postag' : 'NN' },
 { 'token' : '中' , 'postag' : 'LC' },
 { 'token' : '使用' , 'postag' : 'VV' },
 { 'token' : 'SmoothNLP' , 'postag' : 'NN' }]

3.ner reconhecimento de entidade

 >> smoothnlp . ner ( "中国平安2019年度长期服务计划于2019年5月7日至5月14日通过二级市场完成购股" )
[{ 'charStart' : 0 , 'charEnd' : 4 , 'text' : '中国平安' , 'nerTag' : 'COMPANY_NAME' , 'sTokenList' : { '1' : { 'token' : '中国平安' , 'postag' : None }}, 'normalizedEntityValue' : '中国平安' },
{ 'charStart' : 4 , 'charEnd' : 9 , 'text' : '2019年' , 'nerTag' : 'NUMBER' , 'sTokenList' : { '2' : { 'token' : '2019年' , 'postag' : 'CD' }}, 'normalizedEntityValue' : '2019年' },
{ 'charStart' : 17 , 'charEnd' : 26 , 'text' : '2019年5月7日' , 'nerTag' : 'DATETIME' , 'sTokenList' : { '8' : { 'token' : '2019年5月' , 'postag' : None }, '9' : { 'token' : '7日' , 'postag' : None }}, 'normalizedEntityValue' : '2019年5月7日' },
{ 'charStart' : 27 , 'charEnd' : 32 , 'text' : '5月14日' , 'nerTag' : 'DATETIME' , 'sTokenList' : { '11' : { 'token' : '5月' , 'postag' : None }, '12' : { 'token' : '14日' , 'postag' : None }}, 'normalizedEntityValue' : '5月14日' }]

4. Identificação da entidade financeira

 >> smoothnlp . company_recognize ( "旷视科技预计将在今年9月在港IPO" )
[{ 'charStart' : 0 ,
  'charEnd' : 4 ,
  'text' : '旷视科技' ,
  'nerTag' : 'COMPANY_NAME' ,
  'sTokenList' : { '1' : { 'token' : '旷视科技' , 'postag' : None }},
  'normalizedEntityValue' : '旷视科技' }]

5. Análise de sintaxe de dependência

Observe que Index=0 retornado por smoothnlp.dep_parsing é root de Dummy.

Sintaxe de dependência Tag Explicação Explicação Wiki

 smoothnlp . dep_parsing ( "特斯拉是全球最大的电动汽车制造商。" )
> [{ 'relationship' : 'top' , 'dependentIndex' : 2 , 'targetIndex' : 1 },
  { 'relationship' : 'root' , 'dependentIndex' : 0 , 'targetIndex' : 2 },
  { 'relationship' : 'dep' , 'dependentIndex' : 5 , 'targetIndex' : 3 },
  { 'relationship' : 'advmod' , 'dependentIndex' : 5 , 'targetIndex' : 4 },
  { 'relationship' : 'ccomp' , 'dependentIndex' : 2 , 'targetIndex' : 5 },
  { 'relationship' : 'cpm' , 'dependentIndex' : 5 , 'targetIndex' : 6 },
  { 'relationship' : 'amod' , 'dependentIndex' : 8 , 'targetIndex' : 7 },
  { 'relationship' : 'attr' , 'dependentIndex' : 2 , 'targetIndex' : 8 },
  { 'relationship' : 'attr' , 'dependentIndex' : 2 , 'targetIndex' : 9 },
  { 'relationship' : 'punct' , 'dependentIndex' : 2 , 'targetIndex' : 10 }]

6. Corte frases

 smoothnlp . split2sentences ( "句子1!句子2!" )
> [ '句子1!' , '句子2!' ]

7. Suporte multithread

SmoothNLP usa 2 threads por padrão para chamadas de serviço;

 from smoothnlp import config
config . setNumThreads ( 2 )

8. log

 from smoothnlp import config
config . setLogLevel ( "DEBUG" )  ## 设定日志级别

Aprendizado não supervisionado

Novo mineração de palavras

Introdução ao algoritmo | Instruções para uso

Agrupamento de eventos

Atualmente, apoiamos apenas soluções comerciais para esse recurso, com serviços on -line. Para obter mais informações, entre em contato com [email protected]

Demonstração de efeito

[
  {
    "url" : " https://36kr.com/p/5167309 " ,
    "title" : " Facebook第三次数据泄露，可能导致680万用户私人照片泄露" ,
    "pub_ts" : 1544832000
  },
  {
    "url" : " https://www.pencilnews.cn/p/24038.html " ,
    "title" : "热点 | Facebook将因为泄露700万用户个人照片 面临16亿美元罚款" ,
    "pub_ts" : 1544832000
  },
  {
    "url" : " https://finance.sina.com.cn/stock/usstock/c/2018-12-15/doc-ihmutuec9334184.shtml " ,
    "title" : " Facebook再曝新数据泄露 6800万用户或受影响" ,
    "pub_ts" : 1544844120
  }
]

Comentário: os dados do editor do Sina estão errados ... fatos exagerados, a situação real do Facebook não vazou 68 milhões de fotos

Aprendizado supervisionado

(Informação) Classificação de eventos

Atualmente, apoiamos apenas soluções comerciais para esta função, com serviços on -line. Para obter detalhes, entre em contato com [email protected]; Serviços on -line suportar saída da API.

Efeito

Nome do evento	AUC	Precisão
Investimento e aquisição	0,996	0,982
Cooperação corporativa	0,977	0,885
Diretores, supervisores e executivos	0,982	0,940
Relatório de receita	0,994	0,960
Assinatura de negócios	0,993	0,904
Desenvolvimento de negócios	0,968	0,869
Relatório do produto	0,977	0,911
Política Industrial	0,990	0,879
Má administração	0,981	0,765
Discussão sobre violação	0,951	0,890

Referências

ASER
Hanlp

Tutorial

Chamada multidreada

Descrição do serviço

declaração

O SmoothNLP fornece análise completa de texto de descanso e aplicativos de serviço relacionados através de microsserviços em nuvem . Para usuários em geral, como entusiastas de código aberto, atualmente fornecemos QPS <= 5 suporte de serviço; Para usuários comerciais, fornecemos contas de nuvem irrestritas ou soluções de implantação locais.
Incluindo: ticking de palavras, anotação de parte da fala, análise de sintaxe de dependência e outras tarefas básicas de PNL são implementadas pelo código Java e estão na pasta smoothnlp_maven . Pode ser compilado e embalado através maven
Se você estiver procurando por soluções comerciais de NLP ou Knowledge Graph, envie um email para [email protected]

Edição profissional

O SmoothNLP Pro suporta usuários estáveis e confiáveis em nível corporativo, documentação; Se você quiser experimentar ou comprar, entre em contato com [email protected]

Perguntas frequentes

Observe que, após o ajuste da versão 0.2.20, as seguintes funções básicas de pipeline limitam apenas o comprimento da string (não mais que 200). Se você processar o corpus mais longo, tente smoothnlp.split2sentences para o pré-processamento do corte de frases.
A peça de visualização do gráfico de conhecimento (antes da v0.4) suporta a Font SimHei por padrão. Matplotlib na maioria dos ambientes não suporta fontes chinesas. Fornecemos um link de download para o pacote de fontes; Você pode carregar fontes Simhei na biblioteca da fonte Matplotlib executando o código a seguir.

 import matplotlib . pyplot as plt
import matplotlib . font_manager as font_manager
## 设置字体
font_dirs = [ 'simhei/' ]
font_files = font_manager . findSystemFonts ( fontpaths = font_dirs )
font_list = font_manager . createFontList ( font_files )
font_manager . fontManager . ttflist . extend ( font_list )
plt . rcParams [ 'font.family' ] = "SimHei"

Ovos de Páscoa

Se você tiver alguma sugestão para este projeto ou deseja se tornar um co-desenvolvedor, envie um problema ou solicitação de puxar; Como desconto, forneceremos uma experiência de dados gratuita com compartilhamento de dados ou kgexplore
Se você estiver interessado em algoritmos relacionados ao NLP ou cenários de referência, mas não possui dados de implementação, fornecemos suporte e download de dados gratuitos.
Se você é um estudante universitário, procure materiais de pesquisa relacionados a NLP ou知识图谱ou até oportunidades de estágio. Bem -vindo ao [email protected]

Expandir

SmoothNLP

Smoothnlp

Instalar

Gráfico de conhecimento

Exemplos de chamada e visualização

Oleodutos básicos do NLP

1. Tokenize Word Segmentation

2. Anotação de parte da fala do postag

3.ner reconhecimento de entidade

4. Identificação da entidade financeira

5. Análise de sintaxe de dependência

6. Corte frases

7. Suporte multithread

8. log

Aprendizado não supervisionado

Novo mineração de palavras

Agrupamento de eventos

Aprendizado supervisionado

(Informação) Classificação de eventos

Tutorial

Descrição do serviço

declaração

Edição profissional

Perguntas frequentes

Ovos de Páscoa

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express