語音技術正在大大啟動。對於試圖理解語音及其技術體系結構中的組織,企業和個人,了解那裡的開源產品確實很困惑。
此存儲庫是已知的開源語音工具的列表,該工具由這些工具位於語音堆棧中的位置結構。
| 網站 | 工具名稱 | 執照 | 描述 |
|---|---|---|---|
| openslr.org | 開放語言資源 | N/A。 | 由@danpovey經營,他還是Kaldi-ASR演講的主要維護者 |
| kaldi-asr.org | Kaldi自動語音識別工具包。 | Apache 2 | 第一個開源語音識別工具包之一。學術參考為: Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society. |
| 網站 | 工具名稱 | 執照 | 描述 |
|---|---|---|---|
| Nvidia的Flowtron | 基於TACOTRON的語音合成工具,可以調整用於音高和韻律,將其與其他基於TACOTRON的TTS實現區分開 | Apache2 | 首次在2020年5月的2020年GTC 2020會議上發行。引用是Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957. |
^這是一篇很棒的文章,解釋了文本的演變或文本的差異 - 從串聯到統計參數到生成劑。 TACOTRON和WAVENET等更現代的TT方法是生成的方法。
| 網站 | 工具名稱 | 執照 | 描述 |
|---|---|---|---|
| 思科的思想 | 。 | Apache2 | Mind-Mind-Meld-Meld-Meld-Ment-Meld-Mentermeld對話AI平台是建立生產質量對話應用程序的最先進的AI平台之一。這是一個基於Python的機器學習框架,它涵蓋了為此目的所需的所有算法和實用程序。在數年的建設和部署數十種最先進的對話體驗中,MindMeld經過了數十種發展的發展,該MindMeld被優化,用於建立先進的對話助手,這些助理表現出對特定用例或域的深刻了解,同時提供了非常有用且通用的對話體驗。該工具的學術參考是: |
Raghuvanshi,A.,Carroll,L。和Raghunathan,K.,2018年11月。開發具有淺色語義解析的生產水平的對話界面。在2018年自然語言處理經驗方法會議論文集:系統演示(第157-162頁)|
Mycroft.ai-開源的,分層的語音助手,可用於一系列兼容Linux兼容的硬件,例如X86或ARM設備,例如Raspberry Pi。由強大的開源開發人員社區的支持。
斯坦福大學(Stanford)的橢圓形 /精靈項目 - 由阿爾弗雷德·P·斯隆基金會(Alfred P Sloan Foundation)和NIST Grant資助,斯坦福大學的橢圓形項目旨在為商業語音助手提供開源替代品。該項目目前處於起步階段,並正在嘗試建立一個開源社區。
Python自然語言工具包NLTK -NLTK是構建Python程序以使用人類語言數據的領先平台。它為50多個語料庫和詞彙資源(例如WordNet)提供了易於使用的接口,以及一套用於分類,代幣化,詞幹,標記,解析和語義推理的文本處理庫,用於工業強度NLP NLP庫的包裝器以及一個主動的討論論壇。
ECCO解釋AB -ECCO是一個Python庫,可使用交互式可視化為NLP提供解釋性。
detext源代碼detext是針對NLP相關的排名,分類和語言生成任務的深層文本理解框架。它利用深層神經網絡利用語義匹配來了解搜索和推薦系統中的成員意圖。作為一般的NLP框架,當前可以將DITEXT應用於許多任務,包括搜索和建議排名,多類分類和查詢理解任務。由AI團隊在LinkedIn出版。
PGLEX- PGLEX首次在ICLDC 7會議上介紹,是一項“非常好”的詞彙服務,旨在促進詞典網站的構建和其他包含詞彙數據的應用程序。借助PGLEX,研究人員可以將JSON格式的詞彙條目提供給PGLEX API的實例,並在不需要特定語言配置的情況下獲得“相當好”的搜索結果。建立在Elasticsearch上。
Artie Bias語料庫 - 一種用於檢測ASR系統中人口偏見的語料庫和一組工具。
[Blodgett,SL,Barocas,S.,DauméIII,H。 ,&Wallach,H。 (2020)。語言(技術)是力量:對NLP中“偏見”的批判性調查。 Arxiv預印ARXIV:2005.14050。 ] https://arxiv.org/pdf/2005.14050.pdf
強制對準器有助於使錄音與拼寫轉錄對齊
ActiveClean -ActiveClean是一種迭代清潔框架,可以在清潔數據時正確地重新審閱機器學習模型,並提供一組優化的方法來選擇要清潔的最佳數據。這樣,您只需要清潔數據的一小部分即可生產類似於清潔完整數據集的模型。用python寫。
Datalinter-數據林格在您的ML培訓數據中標識了潛在問題(絨毛)。
Holoclean-數據豐富的機器學習系統
_也是哥倫比亞大學的BoostClean ,但我在網上任何地方都找不到代碼參考。
開源語音技術中有很多術語和縮寫詞。本節為每個部分提供了解釋。
Cognitive arbitration :語音助手用來了解哪些服務和技能的過程,具體取決於其上下文- 例如在線或離線。
CRF :有條件的隨機字段。可以考慮上下文的統計建模方法。用於一些基於神經網絡的意圖和語義提取軟件。
LSTM :長期記憶。在復發性神經網絡中使用,以幫助處理數據序列,例如音頻或語音。為了知道接下來會發生什麼,LSTM記錄了以前發生了什麼。
LVCSR :大型詞彙持續的語音識別。 Used in speech recognition tools to denote that a) the vocabulary on which the recognizer works has not been restricted or constrained - for example if it is deployed on embedded or low-powered hardware which cannot handle the memory or compute requirements of a large vocabulary and b) the recognizer works continuously , in contrast to a Wake Word or Keyword spotter which cedes control to the STT once a Wake Word is detected.