音声テクノロジーは大きな方法で離陸しています。声を理解しようとしている組織、企業、および個人にとって、それが技術的なアーキテクチャにある場所では、そこにあるオープンソースの提供物を理解することは本当に混乱する可能性があります。
このレポは、これらのツールが音声スタックにある場所によって構成された既知のオープンソース音声ツールのリストです。
| Webサイト | ツール名 | ライセンス | 説明 |
|---|---|---|---|
| openslr.org | スピーチ言語リソースを開きます | n/a | @danpoveyが運営しています。 |
| kaldi-asr.org | Kaldi自動音声認識ツールキット。 | Apache 2 | 最初のオープンソースの音声認識ツールキットの1つ。アカデミックリファレンスは、 Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society. |
| Webサイト | ツール名 | ライセンス | 説明 |
|---|---|---|---|
| NvidiaによるFlowtron | ピッチと韻律のために調整できるタコトロンベースの音声合成ツールで、他のタコトロンベースのTTS実装とは一線を画すことができます | apache2 | 2020年5月のGTC 2020会議で初めてリリースされました。アカデミックペーパーはこちらを利用できます。引用はValle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957. |
^これは、連結から統計的パラメトリック、生成への進化またはテキストの世代の違いを説明する素晴らしい記事です。 TacotronやWavenetなどのより近代的なTTSアプローチは、生成的なアプローチです。
| Webサイト | ツール名 | ライセンス | 説明 |
|---|---|---|---|
| シスコによるマインドメルド | 。 | apache2 | Mindmeldの会話AIプラットフォームは、生産品質の会話アプリケーションを構築するための最も高度なAIプラットフォームの1つです。これは、この目的に必要なすべてのアルゴリズムとユーティリティを含むPythonベースの機械学習フレームワークです。 MindMeldは、数十年にわたって最も高度な会話エクスペリエンスを構築および展開して進化し、非常に有用で多才な会話体験を提供しながら、特定のユースケースまたはドメインの深い理解を示す高度な会話アシスタントの構築に最適化されています。このツールのアカデミックリファレンスは次のとおりです。 |
Raghuvanshi、A.、Carroll、L。and Raghunathan、K.、2018、11月。浅いセマンティック解析を備えた生産レベルの会話インターフェイスを開発します。自然言語処理における経験的方法に関する2018年の会議の議事録:システムデモンストレーション(pp。157-162)|
mycroft.ai- X86などのLinux互換ハードウェアやRaspberry Piなどのアームデバイスで動作するオープンソース、レイヤー音声アシスタント。オープンソース開発者の強力なコミュニティによってサポートされています。
スタンフォードのOval / Genieプロジェクト - Alfred P Sloan FoundationとNIST Grantによって資金提供されたStanford's Oval Projectは、商業音声アシスタントに代わるオープンソースを提供することを目指しています。このプロジェクトは現在初期段階にあり、オープンソースコミュニティの構築を試みています。
Python Natural Language Toolkit NLTK -NLTKは、Pythonプログラムを構築するための主要なプラットフォームです。 WordNetなどの50を超えるコーパスおよび語彙リソースへの使いやすいインターフェイスと、分類、トークン化、ステム、タグ付け、解析、産業強度NLPライブラリのラッパー、積極的なディスカッションフォーラムのための一連のテキスト処理ライブラリを提供します。
ECCO explainab -ECCOは、インタラクティブな視覚化を使用してNLPの説明可能性を提供するPythonライブラリです。
DETEXTソースコードDETEXTは、NLP関連のランキング、分類、および言語生成タスクの深いテキスト理解フレームワークです。深いニューラルネットワークを使用してセマンティックマッチングを活用して、検索および推奨システムのメンバーの意図を理解します。一般的なNLPフレームワークとして、現在、検索と推奨のランキング、マルチクラス分類、クエリ理解タスクなど、多くのタスクにデトキストを適用できます。 LinkedInのAIチームが発行しました。
PGLEX- 2021年のICLDC 7カンファレンスで最初に発表されたPGLEXは、語彙データを組み込んだ辞書Webサイトやその他のアプリケーションの構築を促進するために設計された「かなり良い」語彙サービスです。 PGLEXを使用すると、研究者はJSON形式の語彙エントリをPGLEX APIのインスタンスに提供し、言語固有の構成を必要とせずに「かなり良い」検索結果を取得できます。 ElasticSearchに構築されています。
Artie Bias Corpus- ASRシステムの人口統計学的バイアスを検出するためのコーパスと一連のツール。
[Blodgett、SL、Barocas、S.、DauméIII、H。、&Wallach、H。(2020)。言語(テクノロジー)は力:NLPの「バイアス」の重要な調査です。 arxiv preprint arxiv:2005.14050。] https://arxiv.org/pdf/2005.14050.pdf
強制アライナーは、オーディオ録音を正書法の転写に合わせるのに役立ちます
ActiveCLean -ActiveCLeanは、データがクリーニングされたときに機械学習モデルを正しく再訓練できる反復クリーニングフレームワークであり、クリーニングする最適なデータを選択するための最適化のセットを提供します。このようにして、完全なデータセットがクリーニングされた場合と同様のモデルを生成するために、データの小さなサブセットをクリーニングするだけです。 Pythonで書かれています。
DATALINTER -DATA LINTERは、MLトレーニングデータの潜在的な問題(LINT)を識別します。
ホロクリーン - データ濃縮のための機械学習システム
_コロンビア大学出身のBoostCleanでもありますが、Web上のどこにもコードリファレンスが見つかりません。
オープンソースの音声テクノロジーには、多くの用語と頭字語があります。このセクションは、それぞれの説明を提供します。
Cognitive arbitration :ボイスアシスタントが使用して、オンラインまたはオフラインであるなど、コンテキストに応じて、どのサービスとスキルが利用できるかを理解するために使用します。
CRF :条件付きランダムフィールド。コンテキストを考慮に入れることができる統計モデリング方法。いくつかのニューラルネットワークベースのインテントパッシングおよびセマンティック抽出ソフトウェアで使用されます。
LSTM :長期の長期記憶。再発性ニューラルネットワーク内で使用して、オーディオやスピーチなどのデータシーケンスを処理するのに役立ちます。次に何が来るかを知るために、LSTMは以前に来たものを記録します。
LVCSR :大量の語彙連続音声認識。 Used in speech recognition tools to denote that a) the vocabulary on which the recognizer works has not been restricted or constrained - for example if it is deployed on embedded or low-powered hardware which cannot handle the memory or compute requirements of a large vocabulary and b) the recognizer works continuously , in contrast to a Wake Word or Keyword spotter which cedes control to the STT once a Wake Word is detected.