
[rubyml | RubyDataScience | RubyInterop]

Ruby中文本处理的有用资源
该精选的列表包括具有Ruby编程语言的人类语言的文本计算处理的出色资源,库,信息源。该领域通常称为NLP,计算语言学,HLT(人类语言技术),可以与人工智能,机器学习,信息检索,文本挖掘,知识提取和其他相关学科结合使用。
该列表来自我们在语言模型和NLP工具上的日常工作。阅读为什么此列表很棒。我们的常见问题解答描述了您可能感兴趣的重要决定和有用的答案。
欢迎每一个贡献!通过拉动请求添加链接或创建问题以开始讨论。
在Twitter上关注我们,请使用#RubyNLP hash标签传播单词!
请帮助我们填写本节! ?
NLP管道从纯文本开始。
语言识别是每个NLP管道中的第一个关键步骤之一。
象征化,单词和句子边界检测和歧义的工具。
Stemming是信息检索中用于描述将单词形式减少到某些基本表示的过程的术语。由于stems不一定具有语言动机,因此应将茎与诱饵区分开。
诱饵被认为是找到单词的基本形式的过程。引理通常是在词典中收集的。
String和Hash对象的单词计数器。机器学习算法中的纯露比(Ruby)或用其他编程语言编写,并具有适当的ruby绑定。
有关更多最新列表,请查看带有Ruby List的Awesome ML。
请参阅带有Ruby列表的数据科学的数据可视化部分。
语言意识到字符串操纵的库,即搜索,模式匹配,案例转换,转码,正则表达式,需要有关基础语言的信息。
ActiveSupport GEM具有各种可以处理外壳的字符串扩展。本节中的所有项目对社区都非常重要,但需要更多的关注。如果您有业余时间,并且奉献精神在这里花费几个小时。
Awesome NLP with Ruby和Ruby和贡献者。
根据法律的可能, Awesome NLP with Ruby相关联的人放弃了与Ruby的所有版权以及Awesome NLP with Ruby相关或邻近的邻近权利。
您应该已经收到了CC0 LegalCode的副本以及这项工作。如果没有,请参见https://creativecommons.org/publicdomain/zero/zero/1.0/。