プロジェクト:Zeroth
- Kaldiに拠点を置く韓国ASRオープンソースプロジェクト
- 今すぐオフサイアルレシピ(https://github.com/kaldi-asr/kaldi/tree/master/egs/zeroth_korean/s5)
- ライセンス:Apache 2.0
- フォーラム:https://groups.google.com/forum/#!forum/zeroth-help
Zerothは、Kaldi Toolkitを使用して実装された韓国の音声認識のためのオープンソースプロジェクトです。
このプロジェクトは、Atlas Labsの(https://www.atlaslabs.ai)言語AIプラットフォームの一部として開発されました。これにより、企業はB2C通信にインテリジェンスを追加できます。
韓国の公式のカルディのレシピを紹介することにより、ゼロスプロジェクトは、韓国の音声認識を誰でもより広くアクセスしやすくすることを目指しています。
ゼロトという名前、または0番目の名前が示唆しているように、このプロジェクトは出発点であり、誰もが音声認識を使用して新製品やサービスを構築できる基本的な部分であることを目的としています。
このプロジェクトが便利であることを願っており、協力したり仕事をしたりする機会を歓迎します。
連絡先:Lucas Jo([email protected])
特別なありがとう
- Zerothは、[Gridspace Inc.](https://www.gridspace.com)でWonkyum Lee([email protected])と共同で開発されました。
言及されたリンク
- [openslr](http://www.openslr.org/40/)
- [データサイエンスセミナー](http://www.fastcampus.co.kr/data_camp_lab/) @ fastcampus
- ワークショップ @ kmobile
- [インタビュー](http://blog.naver.com/fastcampus/221181060609)FastCampusを使用
- [ディープラーニング - 音声認識キャンプ](http://www.fastcampus.co.kr/data_camp_dsr/) @ fastcampus
0。概要

1。オーディオデータ
- 2018年7月16日:95.7時間(46,347発言、181人のスピーカー、27,330UNIQ。SENTENCES)
- 2018年4月9日:76.6時間(35,139発言、137人のスピーカー、16,472UNIQ。SENCENCESS)
- 2018年2月3日:51.6時間トレーニングデータのために韓国のオーディオを転写しました(22,263発言、105人のスピーカー、3000文)
- ライセンス:[CC by 4.0](https://creativecommons.org/licenses/by/4.0/)
- 現在、51.6時間のオーディオとLMデータがOpenSLRで入手できます
- MorecoinのAudio CrowdSourceは成長しています。 70時間のオープンソースオーディオデータベースは、2018年4月頃にオープンします。音声録音アプリで寄付できます
- [morecoin(android)](https://play.google.com/store/apps/details?id=com.goodatlas.morecoin)。
- [Morecoin(iox)](https://apps.apple.com/ph/app/morecoin/id1351621392?ign-mpt=uo%3d2)
音声レコーディングアプリ[Morecoin(Android)] [https://play.google.com/store/apps/details?id=com.goodatlas.morecoin)を提供しています。
2。要件
- [要件] Zerothプロジェクトを実行するために必要なパッケージの説明:https://github.com/goodatlas/zeroth/wiki/requirements)
- [要件-2]言語モデルと音声辞書のコードを実行するための追加パッケージ:(https://github.com/goodatlas/zeroth/wiki/requirement-2)
音響モデル
最新のKaldiレシピは、Zerothの音響モデルに適用されます。
- TDNN(因数分解付き) / TDNN + LSTM / TDNN + OPGRU
- チェーンモデル
- 残響音声のデータ増強
言語モデルとレキシコン
Zerothの言語モデルと音声辞書は、エンドツーエンドのデータ駆動型アプローチを使用します。オープンソースオーディオデータベースへの貢献は、最新の言語モデルと音声辞書に自動的に組み込まれます。
カスタム言語モデルと音声辞書を作成するには:[s5/data/local/lm/readme.md](https://github.com/goodatlas/zeroth/blob/master/s5/data/lm/readme.md)。
コーパス(コーパス)
- トレーニング文:109,037,699
- テスト文:12,115,208
- 合計:121,152,907
音声辞書
- ユニークな言葉:30,064,143
- 98%の頻度が最も高いユニークな単語:8,069,252
- ユニークな形態素:465,253
- 発音の多様性を考慮した音声辞書のサイズ:686,839
言語モデル
- 困惑テスト3グラム:PPL = 221.2969(12,115,208文、194,940,635ワード、0 OOVS)
- 困惑テスト4グラム:PPL = 187.2058(12,115,208文、194,940,635ワード、0 OOVS)
プロジェクト:Zeroth
- 칼디를이용하여이용하여구축하는음성인식
- 이제이제칼디공식(https://github.com/kaldi-asr/kaldi/tree/master/egs/zeroth_korean/s5)
- ライセンス:Apache 2.0
- 포럼:https://groups.google.com/forum/#!forum/zeroth-help
Zeroth프로젝트는Kaldiオープンソースツールキット을사용해서한국어음성인식기를입니다프로젝트。 이프로젝트는프로젝트는ai를를를추가하는추가하는(주)아틀라스가이드의言語ai플랫폼플랫폼일부로서 Kaldiの公式レシピ에、에버전을것을、많은많은사람들의통해누구나누구나사용할있는있는만들어나갈수 제로스라는0-th、즉0번째를의미합니다。 이름이의미하는것처럼의미하는프로젝트를프로젝트를통해만들기필요한모든모든과정을처음부터끝까지함께해보고수
連絡先:Lucas Jo([email protected])
特別なありがとう
言及されたリンク
- openslr
- 데이터사이언스세미나 @ fastcampus
- @ @ kmobile
- FastCampusとのインタビュー
- 딥러닝-음성인식camp @ fastcampus
0。概要

1。オーディオデータ
- 2018.07.16:95.7시간(46,347발화、181年、27,330문장)
- 2018.04.09:76.6시간(35,139발화、137명、16,472))
- 2018.02.03:51.6시간(22,263발화、105명、3000문장)
- ライセンス:CC by 4.0
- 현재openslr
- 모어코인을통한통한기부로오디오가커지고。 4월에는1시간70 모어코인앱을모어코인앱을음성을기부해주세요。
현재제로스제로스프로젝트에는같은음성데이터가포함되어。 db음성db구축에구축에구축에참여할참여할있는음성음성(android) 한번한번資格情報은12시간동안유효합니다。 더내용은자세한aws-pos-prodentially페이지를확인하시기바랍니다
2。要件
- 제로스프로젝트를제로스프로젝트를필요한패키지들에설명은要件위키위키참조하시기
- 언어모델과발음사전을언어모델과발음사전을구현하는코드를직접위해서는要件-2위키위키참조하여추가적인설치하시기설치하시기。
3。音響モデル
현재제로스현재프로젝트음향모델에는아래와최신최신kaldiレシピ가가。
- TDNN(因数分解付き) / TDNN + LSTM / TDNN + OPGRU
- チェーンモデル
- 残響音声のデータ増強
4。言語モデルとレキシコン
제로스프로젝트에제로스사용되는언어모델과끝까지끝까지データ駆動型방식으로방식으로。 aws-tempolary-credential을발급받은경우오디오데이터와함께받아지는발음사전의세부사항입니다。 개인적으로직접직접특화된언어모델과발음사전을
s5/data/local/lm/readme.md
말뭉치(コーパス)
- 훈련된훈련된:109,037,699
- 테스트문장의:12,115,208
- 전:121,152,907
발음사전(レキシコン)
- 고유한단어의:30,064,143
- 상위98%빈도수를수를단어의:8,069,252
- データドライブ방식으로찾은고유한수:465,253
- 발음다양성을다양성을고려한:686,839
언어모델(言語モデル)
- 困惑テスト3グラム:PPL = 221.2969(12,115,208文、194,940,635ワード、0 OOVS)
- 困惑テスト4グラム:PPL = 187.2058(12,115,208文、194,940,635ワード、0 OOVS)