compromise下载 - compromise源代码下载

compromise

其他源码

14.14.3

下载

妥协

适度的自然语言处理

npm install compromise

_{Spencer Kelly和许多贡献者}

_{法语•德语•意大利语•西班牙语}

你不觉得这很奇怪，

_{文字制作多么简单，}

_↬ᔐᖜ实际解析和使用有多困难？

妥协尽力将文本转变为数据。

它做出有限而明智的决定。
_{它并不像您想象的那么聪明。}

 import nlp from 'compromise'

let doc = nlp ( 'she sells seashells by the seashore.' )
doc . verbs ( ) . toPastTense ( )
doc . text ( )
// 'she sold seashells by the seashore.'

一点也不要幻想：

 if ( doc . has ( 'simon says #Verb' ) ) {
  return true
}

抓住文本的一部分：

 let doc = nlp ( entireNovel )
doc . match ( 'the #Adjective of times' ) . text ( )
// "the blurst of times?"

匹配文档

并获取数据：

 import plg from 'compromise-speech'
nlp . extend ( plg )

let doc = nlp ( 'Milwaukee has certainly had its share of visitors..' )
doc . compute ( 'syllables' )
doc . places ( ) . json ( )
/*
[{
  "text": "Milwaukee",
  "terms": [{
    "normal": "milwaukee",
    "syllables": ["mil", "wau", "kee"]
  }]
}]
*/

JSON文档

避免脆性解析器的问题：

 let doc = nlp ( "we're not gonna take it.." )

doc . has ( 'gonna' ) // true
doc . has ( 'going to' ) // true (implicit)

// transform
doc . contractions ( ) . expand ( )
doc . text ( )
// 'we are not going to take it..'

收缩文档

像数据一样鞭打东西：

 let doc = nlp ( 'ninety five thousand and fifty two' )
doc . numbers ( ) . add ( 20 )
doc . text ( )
// 'ninety five thousand and seventy two'

数字文档

_{- 因为它实际上是 -}

 let doc = nlp ( 'the purple dinosaur' )
doc . nouns ( ) . toPlural ( )
doc . text ( )
// 'the purple dinosaurs'

名词文档

在客户端使用它：

 < script src =" https://unpkg.com/compromise " > </ script >
< script >
  var doc = nlp ( 'two bottles of beer' )
  doc . numbers ( ) . minus ( 1 )
  document . body . innerHTML = doc . text ( )
  // 'one bottle of beer'
</ script >

或同样：

 import nlp from 'compromise'

var doc = nlp ( 'London is calling' )
doc . verbs ( ) . toNegative ( )
// 'London is not calling'

妥协是〜250KB （缩小）：

很快。它可以在键盘上运行：

它主要通过结合基本单词列表的所有形式来工作。

最后的词典约为14,000个字：

您可以在此处阅读更多有关其工作原理的信息。很奇怪。

_{好的 -}

`compromise/one`

单词，句子和标点符号的tokenizer 。

 import nlp from 'compromise/one'

let doc = nlp ( "Wayne's World, party time" )
let data = doc . json ( )
/* [{
  normal:"wayne's world party time",
    terms:[{ text: "Wayne's", normal: "wayne" },
      ...
      ]
  }]
*/

令牌文档

妥协/一个人将您的文本拆分，将其包裹在方便的API中，

_{而且什么都不做 -}

/一个是快速的 - 大多数句子要占毫秒的第十千分之一。

它可以执行〜1MB的文本一秒钟 - 或10个Wikipedia页面。

无限的玩笑需要3秒。

您还可以并行化或以折衷速度将文本流式传输。

`compromise/two`

part-of-speech 。

 import nlp from 'compromise/two'

let doc = nlp ( "Wayne's World, party time" )
let str = doc . match ( '#Possessive #Noun' ) . text ( )
// "Wayne's World"

标记文档

妥协/两个自动计算每个单词的基本语法。

_{这比人们有时意识到的更有用。}

轻语法可帮助您编写清洁模板，并更接近信息。

妥协有83个标签，以英俊的图表排列。

#firstname → #person → #propernoun → #noun

您可以通过运行doc.debug()看到每个单词的语法

您可以使用nlp.verbose('tagger')看到每个标签的推理。

如果您喜欢Penn标签，则可以通过以下方式得出以下方式。

 let doc = nlp ( 'welcome thrillho' )
doc . compute ( 'penn' )
doc . json ( )

`compromise/three`

Phrase和句子工具。

 import nlp from 'compromise/three'

let doc = nlp ( "Wayne's World, party time" )
let str = doc . people ( ) . normalize ( ) . text ( )
// "wayne"

选择文档

妥协/三是一组工具，可以放大文本的各个部分。

.numbers() .subtract()

当您有一个短语或一组单词时，您可以使用.json()看到其他元数据

 let doc = nlp ( 'four out of five dentists' )
console . log ( doc . fractions ( ) . json ( ) )
/*[{
    text: 'four out of five',
    terms: [ [Object], [Object], [Object], [Object] ],
    fraction: { numerator: 4, denominator: 5, decimal: 0.8 }
  }
]*/

 let doc = nlp ( '$4.09CAD' )
doc . money ( ) . json ( )
/*[{
    text: '$4.09CAD',
    terms: [ [Object] ],
    number: { prefix: '$', num: 4.09, suffix: 'cad'}
  }
]*/

API

妥协/一个

输出

.Text（） - 将文档返回文本
.json（） - 将文档返回作为数据
.debug（） - 精心打印了解释的文档
.out（） - 指定或自定义输出
.html（{}） - 匹配的输出自定义HTML标签
.wrap（{}） - 生产文档匹配的自定义输出

UTILS

.Found [Getter] - 此文档是空的吗？
.docs [getter]获取术语对象为JSON
。
.isview [Getter] - 识别折衷对象
.compute（） - 在文档上运行命名分析
.clone（） - 文档深编辑，因此没有参考
.termList（） - 返回匹配中所有术语对象的平面列表
。
.uncache（） - 未冻结文档的当前状态，因此可以转换
.freeze（{{}） - 以这些术语防止任何标签被删除
.unfreeze（{}） - 允许标签再次更改，如默认

.all（） - 返回整个原始文档（'Zoom'）
.terms（） - 每个单独的术语分开结果
.first（n） - 仅使用第一个结果（s）
.last（n） - 仅使用最后一个结果（s）
.slice（n，n） - 抓住结果的子集
.eq（n） - 仅使用nth结果
.firstterms（） - 在每场比赛中获取第一个单词
.lastterms（） - 在每场比赛中获取最终单词
.fullsentences（） - 获取每场比赛的整个句子
.groups（） - 从比赛中获取任何命名的捕获组
.WordCount（） - 计算文档中的术语编号
。

匹配

（匹配方法使用Match-Syntax。）

.match（''） - 返回一个新文档，并以父母为父母
.NOT（''） - 返回所有结果，除此之外
。 -matchone（''） - 仅返回第一场比赛
.if（''） - 返回每个当前短语，只有在包含此匹配（'block'）时才返回
.ifno（''） - 过滤带有此匹配的任何当前短语（'notif'）
.has（''） - 如果存在这场比赛，请返回布尔值
。
.Fater（''） - 在比赛后返回所有条款
.Union（） - 返回的合并匹配无重复
.Intersection（） - 仅返回重复匹配项
。 -cymplement（） - 在另一场比赛中没有让一切
.settle（） - 从匹配中删除重叠
.growright（''） - 每次比赛后立即添加任何匹配项
.growleft（''） - 在每次比赛之前立即添加任何匹配项
.grow（''） - 每次比赛之前或之后添加任何匹配项
。
。
。
。
.join（） - 在每场比赛中合并任何相邻术语
。
.lookup（[]） - 快速查找字符串匹配数组
。

案件

.tolowercase（） - 将每个术语的每个字母都转到下cse
.touppercase（） - 将每个术语的每个字母转换为上限
.totitlecase（） - 上库每个项的第一个字母
.tocamelcase（） - 每个学期删除空格和标题案例

空格

.pre（''） - 每次比赛之前添加此标点符号或空格
.post（''） - 每次比赛后添加此标点符号或空格
.trim（） - 删除启动和结束空格
.HYPHENATE（） - 与连字符连接单词，然后去除空格
.deyphenate（） - 在单词之间删除连字符，并设置空格
。
.toparentes（） - 在这些比赛周围添加括号

循环

.map（fn） - 通过函数运行每个短语，并创建一个新文档
。
.filter（fn） - 仅返回返回true的短语
.find（fn） - 返回只有匹配的第一个短语的文档
.Mome（FN） - 如果有一个匹配短语
.random（fn） - 样品结果的子集

插入

.replace（匹配，替换） - 用新内容搜索和替换匹配
.replacewith（替换） - 替换新文本
.remove（） - 完全从文档中删除这些条款
。
.insertafter（str） - 将这些新术语添加到每场比赛的结尾（附加）
.concat（） - 将这些新事物添加到最后
.swap（从lemma，tolemma） - 使用适当的共轭的智能替换根词

转换

.sort（'方法'） - 重新安排比赛的顺序（实现）
。
.normorize（{}） - 以各种方式清理文本
.Unique（） - 删除任何重复匹配

lib

（这些方法在主要的nlp对象上）

nlp.tokenize（str） - 解析文本而无需运行pos -tagging
nlp.lazy（str，匹配） - 通过最少分析的文本扫描
nlp.plugin（{}） - 混合在妥协-plugin中
nlp.parsematch（str） - 将任何匹配语句预先放在JSON中
nlp.world（） - 抓取或更改内部库
NLP.Model（） - 获取所有当前的语言数据
NLP.Methods（） - 抓取或更改内部方法
nlp.hooks（） - 请参阅哪些计算方法自动运行
nlp.verbose（模式） - 记录我们用于调试的决策
nlp.version-库的当前SEMVER版本
nlp.addwords（obj，isfrozen？） - 在词典中添加新单词
NLP.ADDAGS（OBJ） - 在标签集中添加新标签
nlp.typeahead（arr） - 在自动填充词典中添加单词
nlp.buildtrie（arr） - 将单词列表编译成快速查找表单
nlp.buildnet（arr） - 将匹配列表汇编为快速匹配表格

妥协/两个：

收缩

.nartions（） - 诸如“不”之类的东西
。
.contract（） - 诸如“没有”之类的东西

妥协/三：

名词

.nouns（） - 返回标记为名词的任何后续术语
- .nouns（）。json（） - 名词元数据超载输出
- .nouns（）。parse（） - 获取令牌化名词短语
- .nouns（）。iSplural（） - 仅返回复数名词
- .nouns（）。isingular（） - 仅返回单数名词
- .nouns（）。toplural（） - 'football captain' → 'football captains'
- .nouns（）。tosingular（） - 'turnovers' → 'turnover'
- .nouns（）。形容词（） - 获取描述此名词的任何形容词

动词

.verbs（） - 返回标记为动词的任何后续术语
- .verbs（）。json（） - 动词元数据超载输出
- .verbs（）。parse（） - 获得令牌化的动词短语
- .verbs（）。主题（） - 动词动作的做法
- .verbs（）。副词（） - 返回描述该动词的副词。
- .verbs（）。isingular（） - 返回单数动词，例如'spencer walks'
- .verbs（）。iSplural（） - 返回复数动词，例如“我们走路”
- .verbs（）。iSimprative（） - 只有诸如“吃它！”之类的指令动词
- 。 'will go' → 'went'
- 。 'walked' → 'walks'
- 。 'walked' → 'will walk'
- 。 'walks' → 'walk'
- .verbs（）。togerund（） - 'walks' → 'walking'
- 。 'drive' → 'had driven'
- .verbs（）。conjugate（） - 返回这些动词的所有共轭
- 。
- 。
- 。 'went' → 'did not go'
- 。 "didn't study" → 'studied'

数字

.numbers（） - 获取所有书面和数字值
- .numbers（）。parse（） - 获取令牌数字短语
- .numbers（）。get（） - 获取一个简单的JavaScript号码
- .numbers（）。json（） - 数字元数据超载输出
- .numbers（）。tonumber（） - 将“五”转换为5
- 。
- .numbers（）。totext（） - 将'5'转换为five
- .numbers（）。toordinal（） - 将“五”转换为fifth或5th
- .numbers（）。tocardinal（） - 将“第五”转换为five或5
- .numbers（）。isordinal（） - 仅返回顺序数字
- .numbers（）。iscardinal（） - 仅返回基数
- 。
- 。
- 。
- 。
- 。
- .numbers（）。设置（n） - 将数字设置为n
- .numbers（）。添加（n） - 增加数字
- 。
- .numbers（）。递增（） - 增加数字1
- .numbers（）。降低（） - 减少数量1
.money（） - 诸如'$2.50'之类的东西
- .money（）。get（） - 检索分析的金额
- .money（）。json（） - 货币 +数字信息
- .money（）。货币（） - 货币在哪种货币中
.Fractions（） - 喜欢'2/3rds'或'五分之一
- .Fractions（）。parse（） - 获取令牌分数
- .Fractions（）。get（） - 简单分子，分母数据
- .Fractions（）。json（） -JSON方法与分数数据超载
- .fractions（）。todecimal（） - '2/3' - >'0.66'
- 。
- 。
- 。
。
- 。
- 。
- 。

句子

.senes（） - 返回带有其他方法的句子类
- 。
- 。 he walks he walked
- 。 he walked he walks
- 。 he walks he will walk
- 。 he walks he walk
- 。 he walks he didn't walk
- 。 ?
- 。 !
- 。 ?或者!

形容词

。 'quick'
- 。
- 。
- 。
- 。 -jextives（）。
- 。
- 。
- 。

杂项选择

.lauses（） - 将句子分为多项短语
。
.HYPHENATED（） - 所有与连字符或破折号连接的术语（如'wash-out'
.phoneNumbers（） - '(939) 555-0113'之类的东西
.hashtags（） - 诸如'#nlp'之类的东西
.emails（） - '[email protected]'之类的东西
.emoticons（） - 类似的东西:)
.emojis（） - 类似?
.ATMENTIONS（） - 诸如'@nlp_compromise'之类的东西
.urls（） - 诸如'compromise.cool'之类的东西
.pronouns（） - 诸如'he'之类的东西
.conjunctions（） - 诸如'but'类的东西
.prepositions（） - 诸如'of'
.abbreviations（） - 诸如'Mrs.'之类的东西
.people（） - 诸如“约翰·肯尼迪”之类的名字
- .people（）。json（） - 获取个人名称元数据
- .people（）。parse（） - 获取人名解释
.places（） - 喜欢“法国巴黎”
.ormanizations（） - 喜欢“ Google，Inc”
。 people() places() organizations()
.adverbs（） - 诸如'quickly'之类的东西
- .adverbs（）。json（） - 获取副词元数据
.2ronyms（） - 诸如'FBI'之类的东西
- 。
- .2ronyms（）。addperiods（） - 将周期添加到首字母缩写
.parentes（） - 返回内部的任何内容（括号）
- .parentes（）。条纹（） - 卸下括号
.possessives（） - 诸如"Spencer's"之类的东西
- 。
.Quotations（） - 返回配对引号中的任何条款
- .Quotations（）。条纹（） - 删除引号
.slashes（） - 返回按斜线分组的任何条款
- 。

。延长（）：

该库带有英语语法的体贴，常识性的基线。

您可以自由地更改或浪费任何设置 - 这实际上是有趣的部分。

最简单的部分只是建议任何给定单词的标签：

 let myWords = {
  kermit : 'FirstName' ,
  fozzie : 'FirstName' ,
}
let doc = nlp ( muppetText , myWords )

或通过妥协 - 泛滥进行更重的更改。

 import nlp from 'compromise'
nlp . extend ( {
  // add new tags
  tags : {
    Character : {
      isA : 'Person' ,
      notA : 'Adjective' ,
    } ,
  } ,
  // add or change words in the lexicon
  words : {
    kermit : 'Character' ,
    gonzo : 'Character' ,
  } ,
  // change inflections
  irregulars : {
    get : {
      pastTense : 'gotten' ,
      gerund : 'gettin' ,
    } ,
  } ,
  // add new methods to compromise
  api : View => {
    View . prototype . kermitVoice = function ( ) {
      this . sentences ( ) . prepend ( 'well,' )
      this . match ( 'i [(am|was)]' ) . prepend ( 'um,' )
      return this
    }
  } ,
} )

.plugin（）文档

文档：

温柔的介绍：

＃1）输入→输出
＃2）匹配和变换
＃3）进行聊天机器

文档：

概念	API	插件
准确性	登录	形容词
缓存	构造方法方法	日期
案件	收缩	出口
文件大小	插入	哈希
内部	JSON	html
理由	角色偏移	按键
词典	循环	ngrams
匹配syntax	匹配	数字
表现	名词	段落
插件	输出	扫描
项目	选择	句子
标记器	排序	音节
标签	分裂	发音
令牌化	文本	严格的
指定性	UTILS	宾夕法尼亚州
空格	动词	打字
世界数据	正常化	扫
模糊匹配	打字稿	突变
根形

会谈：

语言作为界面- Spencer Kelly撰写
编码聊天机器人- Kahwee Teng
关于打字和数据- 由Spencer Kelly发表

文章：

与NLP和JavaScript进行社交对话- Microsoft
微服务食谱- 通过Eventn
冒险游戏句子以妥协解析
建立基于文本的游戏- 马特·埃兰德（Matt Eland）
在Bigquery与JavaScript一起玩- Felipe Hoffa
自然语言处理...在浏览器中？ - 查尔斯·兰道（Charles Landau）

一些有趣的应用程序：

自动化的Bechdel测试- 守护者
故事生成框架- 何塞·菲洛卡（Jose Phrocca）
列表的Bumbler Blog-类似于马的书籍列表 - 迈克尔·鲍科尼斯（Michael Paulukonis）
转录的视频编辑- 通过新理论
浏览器扩展事实检查- 亚历山大·基德（Alexander Kidd）
Siri快捷方式- 迈克尔·伯恩斯（Michael Byrns）
亚马逊技能- 塔吉丁·马格尼（Tajddin Maghni）
任务Slack -Bot-凯文·苏（Kevin Suh）[请参阅更多]

比较

妥协和兴奋
妥协和NLTK

插件：

这些是一些有用的扩展：

日期

npm install compromise-dates

.dates（） - 查找日期，例如June 8th或03/03/18
- .dates（）。get（） - 简单启动/结束JSON结果
- .dates（）。json（） - 与日期元数据的超载输出
- .dates（）。格式（''） - 将日期转换为特定格式
- 。
- .dates（）。tolongform（） - 将'feb'转换为“ 2月”
.durations（） - 2 weeks或5mins
- .durations（）。get（） - 持续时间返回简单的JSON
- .durations（）。json（） - 持续时间元数据超载输出
.times（） - 4:30pm或half past five
- .times（）。get（） - 返回时间
- .times（）。json（） - 随时间元数据超载输出

统计

npm install compromise-stats

.tfidf（{}） - 按频率和唯一性排名单词
.ngrams（{}） - 列出所有重复子名字，
.omigrams（） - 一个单词
.bigrams（） - 两个单词的n -grams
.trigrams（） - 带有三个单词的n -grams
.startgrams（） - n -grams，包括短语的第一项
.endgrams（） - n -grams，包括短语的最后一项
。

演讲

npm install compromise-syllables

。
.soundslike（） - 产生估计的发音

维基百科

npm install compromise-wikipedia

.Wikipedia（） - 压缩文章对帐

打字稿

我们致力于在Main和官方Plugins中获得打字稿/DENO的支持：

 import nlp from 'compromise'
import stats from 'compromise-stats'

const nlpEx = nlp . extend ( stats )

nlpEx ( 'This is type safe!' ) . ngrams ( { min : 1 } )

打字稿文档

限制：

Slash-Support：我们目前将Slash slash作为不同的单词，就像我们为连字符所做的那样。因此，像这样的事情不起作用： nlp('the koala eats/shoots/leaves').has('koala leaves') //false
句子间匹配：默认情况下，句子是顶级抽象。没有插件的句子间句子或多句子匹配不支持： nlp("that's it. Back to Winnipeg!").has('it back')//false
嵌套匹配语法： Regex的危险之处在于您可以无限期地反复出现。我们的比赛语法要弱得多。 （尚不可能）这样的事情： doc.match('(modern (major|minor))? general')必须通过连续的.match（）语句来实现复杂匹配。
依赖性解析：正确的句子转换需要理解句子的语法树，我们目前不这样做。我们应该！需要帮助。

常问问题

☂️也不是JavaScript ...

？它可以在我的arduino-watch上运行吗？

？其他语言妥协？

部分构建？

（Spencer's Cool）

（Spencer的房子）

参见：

en-pos-亚历克斯·科维（Alex Corvi）
NaturalNode- javaScript中的thaternode-统计NLP
winkjs- pos-tagger，dokenizer，JavaScript中的机器学习
dariusk/pos -js- javaScript中的fasttag fork
Compendium -js- JavaScript中的POS和情感分析
节点语言学- 结合，JavaScript中的变形
retext- JavaScript中的非常令人印象深刻的文本实用程序
上标- JS中的对话引擎
JSPO- javaScript构建经过时间测试的Brill-Tagger
Spacy- c/python中的快速，多语言标记器
散文- Joseph Kato的快速标记
TextBlob -Python Tagger

麻省理工学院

展开

附加信息

版本 14.14.3
类型其他源码
更新时间 2025-04-16
大小 3.41MB
来自于 Github

compromise

compromise/one

compromise/two

compromise/three

API