语音技术正在大大启动。对于试图理解语音及其技术体系结构中的组织,企业和个人,了解那里的开源产品确实很困惑。
此存储库是已知的开源语音工具的列表,该工具由这些工具位于语音堆栈中的位置结构。
| 网站 | 工具名称 | 执照 | 描述 |
|---|---|---|---|
| openslr.org | 开放语言资源 | N/A。 | 由@danpovey经营,他还是Kaldi-ASR演讲的主要维护者 |
| kaldi-asr.org | Kaldi自动语音识别工具包。 | Apache 2 | 第一个开源语音识别工具包之一。学术参考为: Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society. |
| 网站 | 工具名称 | 执照 | 描述 |
|---|---|---|---|
| Nvidia的Flowtron | 基于TACOTRON的语音合成工具,可以调整用于音高和韵律,将其与其他基于TACOTRON的TTS实现区分开 | Apache2 | 首次在2020年5月的2020年GTC 2020会议上发行。引用是Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957. |
^这是一篇很棒的文章,解释了文本的演变或文本的差异 - 从串联到统计参数到生成剂。 TACOTRON和WAVENET等更现代的TT方法是生成的方法。
| 网站 | 工具名称 | 执照 | 描述 |
|---|---|---|---|
| 思科的思想 | 。 | Apache2 | Mind-Mind-Meld-Meld-Meld-Ment-Meld-Mentermeld对话AI平台是建立生产质量对话应用程序的最先进的AI平台之一。这是一个基于Python的机器学习框架,它涵盖了为此目的所需的所有算法和实用程序。在数年的建设和部署数十种最先进的对话体验中,MindMeld经过了数十种发展的发展,该MindMeld被优化,用于建立先进的对话助手,这些助理表现出对特定用例或域的深刻了解,同时提供了非常有用且通用的对话体验。该工具的学术参考是: |
Raghuvanshi,A.,Carroll,L。和Raghunathan,K.,2018年11月。开发具有浅色语义解析的生产水平的对话界面。在2018年自然语言处理经验方法会议论文集:系统演示(第157-162页)|
Mycroft.ai-开源的,分层的语音助手,可用于一系列兼容Linux兼容的硬件,例如X86或ARM设备,例如Raspberry Pi。由强大的开源开发人员社区的支持。
斯坦福大学(Stanford)的椭圆形 /精灵项目 - 由阿尔弗雷德·P·斯隆基金会(Alfred P Sloan Foundation)和NIST Grant资助,斯坦福大学的椭圆形项目旨在为商业语音助手提供开源替代品。该项目目前处于起步阶段,并正在尝试建立一个开源社区。
Python自然语言工具包NLTK -NLTK是构建Python程序以使用人类语言数据的领先平台。它为50多个语料库和词汇资源(例如WordNet)提供了易于使用的接口,以及一套用于分类,代币化,词干,标记,解析和语义推理的文本处理库,用于工业强度NLP NLP库的包装器以及一个主动的讨论论坛。
ECCO解释AB -ECCO是一个Python库,可使用交互式可视化为NLP提供解释性。
detext源代码detext是针对NLP相关的排名,分类和语言生成任务的深层文本理解框架。它利用深层神经网络利用语义匹配来了解搜索和推荐系统中的成员意图。作为一般的NLP框架,当前可以将DITEXT应用于许多任务,包括搜索和建议排名,多类分类和查询理解任务。由AI团队在LinkedIn出版。
PGLEX- PGLEX首次在ICLDC 7会议上介绍,是一项“非常好”的词汇服务,旨在促进词典网站的构建和其他包含词汇数据的应用程序。借助PGLEX,研究人员可以将JSON格式的词汇条目提供给PGLEX API的实例,并在不需要特定语言配置的情况下获得“相当好”的搜索结果。建立在Elasticsearch上。
Artie Bias语料库 - 一种用于检测ASR系统中人口偏见的语料库和一组工具。
[Blodgett,SL,Barocas,S.,DauméIII,H。,&Wallach,H。(2020)。语言(技术)是力量:对NLP中“偏见”的批判性调查。 Arxiv预印ARXIV:2005.14050。] https://arxiv.org/pdf/2005.14050.pdf
强制对准器有助于使录音与拼写转录对齐
ActiveClean -ActiveClean是一种迭代清洁框架,可以在清洁数据时正确地重新审阅机器学习模型,并提供一组优化的方法来选择要清洁的最佳数据。这样,您只需要清洁数据的一小部分即可生产类似于清洁完整数据集的模型。用python写。
Datalinter-数据林格在您的ML培训数据中标识了潜在问题(绒毛)。
Holoclean-数据丰富的机器学习系统
_也是哥伦比亚大学的BoostClean ,但我在网上任何地方都找不到代码参考。
开源语音技术中有很多术语和缩写词。本节为每个部分提供了解释。
Cognitive arbitration :语音助手用来了解哪些服务和技能的过程,具体取决于其上下文- 例如在线或离线。
CRF :有条件的随机字段。可以考虑上下文的统计建模方法。用于一些基于神经网络的意图和语义提取软件。
LSTM :长期记忆。在复发性神经网络中使用,以帮助处理数据序列,例如音频或语音。为了知道接下来会发生什么,LSTM记录了以前发生了什么。
LVCSR :大型词汇持续的语音识别。 Used in speech recognition tools to denote that a) the vocabulary on which the recognizer works has not been restricted or constrained - for example if it is deployed on embedded or low-powered hardware which cannot handle the memory or compute requirements of a large vocabulary and b) the recognizer works continuously , in contrast to a Wake Word or Keyword spotter which cedes control to the STT once a Wake Word is detected.