低リソース言語
低リソース(人間)言語の保全、開発、およびドキュメントのためのリソース。
いくつかの推定によると、現在話しかけている7,000〜の言語の半分は、今世紀に絶滅すると予想されています。しかし、学者、独立した学者、組織、コミュニティ、および個人による多くの仕事があり、この傾向を止めたり減速したりすることになります。このリストは、絶滅の危機にedanceした言語の文書化、保存、開発、保存、または作業に役立つオープンソースコードのリストを提供することを目的としています。
スラックグループ
ライブディスカッションのためのスラックグループがあります。ここにご参加ください!
出版
このリポジトリを説明するホワイトペーパーは、LREC 2016 CCURLワークショップ(リソース不足言語のコラボレーションとコンピューティング)で公開されました。このペーパーは、このリポジトリのpapersフォルダーにあります。 Raw Paperをこちらをダウンロードしてください:絶滅の危機にeveredしている言語を提供するオープンソースコード。
貢献する
Githubでこのリストを編集するには、ここをクリックしてください。これに関連することについて何か話し合いたい場合は、問題を開いてください。このリストに載っていないリソースを知っている場合は、上記のリンクを使用するか、プルリクエストを送信して追加してください。
寄稿ガイドには、詳細については詳細があります。
オフラインの容量でリストを議論することに興味がある場合は、 @richardlittに連絡してください。電話や電子メール交換ができてうれしいです。
目次
Doctocで生成された目次
- 定義
- 一般的なリポジトリ
- 単一言語辞書編集プロジェクトとユーティリティ
- ソフトウェア
- キーボードレイアウト構成ヘルパー
- 注釈
- フォーマット仕様
- I18N関連リポジトリ
- オーディオオートメーション
- テキストツースピーチ(TTS)
- 自動音声認識(ASR)
- テキスト自動化
- 実験
- フラッシュカード
- 自然言語生成
- コンピューティングシステム
- Androidアプリケーション
- Chrome拡張機能
- fielddb
- FieldDB WebServices/コンポーネント/プラグイン
- 学術研究論文固有のリポジトリ
- リポジトリの例
- フォント
- コーパス
- 組織
- チュートリアル
- 言語固有のプロジェクト
- アフリカーンス
- アルバニア語
- alutiiq
- アムハラ語
- バスク
- ベンガル語
- チチェワ
- ガリシア語
- ジョージアン
- フォント
- 国際化とローカリゼーション(I18N/L10N)
- グアラニ
- ハウサ
- ヒンディー語
- Høgnorsk
- アイスランド語
- inuktitut
- アイルランド
- キニャルワンダ
- クルド
- リンガラ
- 緑豊か
- マレー
- マラガシー
- マンクス
- Migmaq
- ミンデリコ
- ニシュナベ
- オロモ
- ケチュア
- サミ
- スコットランドのゲール語
- secwepemctsín
- ソマリア
- ティグリニャ
- ウラリック
- ズールー
- ライセンス
定義
絶滅危edageされた言語は、絶滅の危険にさらされている人間の言語です。このリストには、安定した、しかし少数の人口(たとえば、マルタやハワイ人)によって話される言語も含まれています。低いまたは不足している言語は、大勢の人口によって話されるかもしれませんが、デジタルでは過小表現されています(たとえば、Quechua)。これらの言語は、共通の特定の特性を共有しています。最も適切なのは、スペルチェッカーから文法、機械翻訳のコーパスに至るまで、まばらなデータとリソースの不足です。このリストに該当しない他の資料不足の言語には、構築された言語(クリンゴンやナヴィなど)、コンピューター言語(たとえば、javascriptまたはlua)、およびほとんどの目的(たとえば、たとえば、tocharian)で計算的に無関係にレンダリングされるほどまばらになっている絶滅言語が含まれます。
オープンソースは、「製品の設計または青写真への無料ライセンスを介して、そのデザインまたは青写真の普遍的な再分配を介してユニバーサルアクセスを促進します。 (wiki)。これは重要です。なぜなら、オープンソースではない言語やプロジェクトに割り当てられたお金とリソースは、他の場所で可能な拡張性を犠牲にして費やされるからです。
このリストは、以前はendangered-languagesと名付けられていました。危険性は、少数言語を話す言語コミュニティの見解を反映していない可能性があるというロードされた用語であることを反映するように改名されました。 low-resource-languagesこのリストを、他の高リソースの言語と比較してデジタルリソースの不足に焦点を当てています。
これらの言語用に構築されたツールは含まれていません(方言やバリエーションに関連する場合を除く):アラビア語、ブルガリア語、カタロニア語、中国語、クロアチア語、チェコ語、デンマーク語、ダッチ、イギリス、エストニア語、フィンランド語、フリーム。 (ボクマール)、ペルシャ語、ポーランド語、ポリッシュ、ポルトガル語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語、タイ、トルコ語、ウクライナ語、バレンシア語、ベトナム語。このリストは、このWikipediaページのWebサイト用の最も人気のあるコンテンツ言語のリストから掲載されています。他のメトリックを使用できます - 別のメトリックがある場合は、それを提案してください!
このリストは、特に1つのことに優れています。一般的にフィールドに存在するツールの種類を表示します。ただし、特定の言語またはツールスイートの詳細な研究のために、それは例外的にうまく機能しません。たとえば、各低リソース言語のすべてのFirefox言語パックまたはAppertium Languageモジュールをリストすることは役に立たないでしょう。これは、ACL Wikiで注目されているバスクで利用できるすべてのツールを含むように、主にIXAグループを通じてカタログ化されたツールを意味するものであり、一部はオープンソースであり、一部はそうでないものがあります。代わりに、このリストをより多くの研究のための出発点として見てください。
コード言語のリソースをお探しですか? Awesome Lists Collectionをご覧ください。
一般的なリポジトリ
単一言語辞書編集プロジェクトとユーティリティ
ユーティリティ
- 無料の電子辞書のプロジェクトは、携帯電話用のJavaミッドレット用のプロジェクトです。これは、先住民族の言語辞書です。
- 単一言語用のデジタル辞書をホストするWebonaryサイト。
- Wesay-言語コミュニティが独自の辞書を構築できるようにします。 https://software.sil.org/wesay/(SIL International)。
ソフトウェア
- 4Lang-アイレンバーグマシンを使用したコンセプト辞書。
- accentuate.us aka "charlifter"。多くの言語のプレーンテキストの統計的単一化
- Alignment-with-openfst-これは、4つのタスクのCRF自動エンコーダーフレームワークの実装です:Bitext Wordアライメント、スピーチの一部のタグ付け、コードスイッチング、依存関係解析。
- Apertium Atertiumは、特に関連する言語ペアに適したオープンソースの浅い移動機械翻訳システムを構築するためのツールボックスです。いくつかの言語ペアのエンジン、メンテナンスツール、およびオープン言語データが含まれます。
- ARK-TWEET-NLP-CMU ARK Twitter部品タガー(フォーク)。
- artofreading-読書のイラストコレクションの技術に関連するインデックスと処理のスクリプト。
- Bayesline-言語識別のための多項ベイジアン分類。
- Bible-Corpus-Tools-多言語の聖書コーパスを読む/処理するためのツールのコレクション。
- Bloomdesktop -Bloom Desktopは、ハイブリッドC#/JavaScript/HTML/CSS Windowsアプリケーションであり、自分の言語で本を望む言語コミュニティの「バーを下げます」。 Bloomは、母国語の話者とその支持者が協力して、コミュニティの著者と外部マテリアへのアクセスの両方を促進するために協力する低トレーニングの高出力システムを提供します。
- BloomLibrary -AngularJs&Bootstrap、Parse.com BackEndを使用したBloom Libraryシングルページアプリ。 https://bloomlibrary.org/。
- 脳 - JavaScriptのニューラルネットワーク。
- Bristol Uni MT形態ツール - このレポは、以前にhttp://www.cs.bris.ac.uk/research/machinelearning/morphology/resources.jspで以前に入手可能なスクリプトのミラーです。含まれる:ukwabelana-オープンソースの形態学的ズールーコーパスとエマ:形態学的分析のための新しい評価メトリック。
- Brown -Cluster -Brown Word ClusteringアルゴリズムのC ++実装。
- CasuaryCon CasuaryConcは、Mac OS X 10.5 Leopard以降でネイティブに実行される一致プログラムです。もともとはカジュアルな使用のために設計されていました(予備分析または非研究目的)が、[メンテナー]は彼自身の研究のためにそれを使用しています(そして他の人が持っているかもしれません)。 KWIC一致線、単語クラスター、コロケーション分析、および単語数を生成できます。
- CDEC-統計的機械翻訳およびその他の構造化された予測モデルのためのデコーダー、アライナー、およびモデルオプティマイザー(ほとんど)のコンテキストフリー形式。
- Charlint Charlintは、Perlで書かれたキャラクターの正規化/チェックツールです。また、W3C文字モデルの早期均一な正規化のテストプラットフォームとして、Unicode TR 15の正規化フォームCを実装します。
- コーラス - 地理的に分散している典型的な言語開発チームに適したワークフローを可能にするために設計されたバージョン制御システム。
- CLAM-計算言語アプリケーションメディエーター - Webアプリケーションのフロントエンドを使用して、NLPアプリケーションをすばやくRestful Webサービスに変えます。コマンドラインアプリケーションの仕様、その入力、出力、パラメーター、およびクラムラップをアプリケーションの周りにラップして、完全に駆け出しのRestful Webサービスを形成します。
- CMU Sphinx CMusphinxは、BSDスタイルのライセンスに基づいてリリースされたスピーカーに依存しない大型語彙継続音声認識者です。また、研究者と開発者が音声認識システムを構築できるようにするオープンソースツールとリソースのコレクションでもあります。
- cnminlangwebcollect-中国のマイノリティのウェブサイト言語の検出とウェブサイトコレクション。
- COG -COGは、辞書類の言語技術と比較言語技術を使用して言語を比較するためのツールです。さまざまな言語品種の単語リストを比較するプロセスの多くを自動化するために使用できます。 http://sillsdev.github.io/cog/。
- Convertextract-元のファイルのフォーマットを保持しながら、Excel、Word、およびPowerPointファイルを非ユニコードテキスト(SILフォントに必要なテキストなど)をUnicodeに変換します。
- Corpustools -Phonological Corpustools http://phonologicalcorpustools.github.io/corpustools/。
- CTK- LDCのChampollion Sente Aligner Kernelを中心に構築されたChampollion Tool Kit(CTK)は、できるだけ多くの言語ペアに対してすぐに使用できる並列テキスト文アライメントツールを提供することを目指しています。 (元のプロジェクトはSourceForge:http://champollion.sourceforge.netにあります)。
- データタグ - データセットの感度とプライバシーリスクを評価し、タグを割り当てて、データセットを転送、保存、アクセスする方法を説明するタグを割り当てます。 (フォーク)。
- Dataverse-調査データを共有および公開するためのデータリポジトリフレームワーク。
- DATIVE -DATIVE:言語フィールドワークのソフトウェアhttp://www.dative.ca。
- DISAT-複数の言語フィールドワークWebサービスデータベースと対話する単一ページアプリケーション。 Webサイト。
- DeepLearNtoolbox -Matlab/Octave Toolboxディープラーニング用のツールボックス。深い信念網、積み重ねられた自動エンコーダー、畳み込みニューラルネット、畳み込み自動エンコーダー、バニラニューラルネットが含まれます。各メソッドには、開始する例があります。
- Desmeme-言語テンプレートを探索するためのデータベースとツール。
- DICTDB-言語翻訳の辞書データベース。
- Discrosegraphs-多層注釈付き言語データを変換およびマージするPythonベースのツール。
- Divvun-Gramcheck-このプログラムは、制約文法形式の測定値として指定されたフォームでFSTルックアップを行い、人間が読みやすいメッセージを含むXMLファイルでエラータグを検索します。これは、文法チェッカーパイプラインの後期段階として使用することを意図しています。
- Divvun -Keyboard -IOSおよびAndroid用のキーボードアプリは、先住民族および少数言語用のキーボードレイアウトを備えています
- divvunspell -hfst
hfst-ospell (下)錆とメモリ管理のために、錆で書き直されました。 hfst-ospellよりも約10倍高速で使用されています。 Giellalt Github組織のすべての言語で使用できるhfst-ospellと同じZhfstファイルを使用します(以下を参照)。 - DLTK -Deutsch Language Tool Kit。もっと。
- Epitran-多くの低リソース言語での音素変換(G2P)からグラフェム。
- 長老:危険にさらされている言語データ電子リポジトリ - 絶滅危Languageデータ電子リポジトリ:Webベースのオントロジーに準拠した共同言語データカタログツール。
- エンチャント - エンチャントスペルチェックライブラリhttps://abiword.github.io/enchant/。
- exsite9 -exsite9は、研究者が記述的メタデータでデータファイルを簡単かつ迅速にタグ付けし、その後データファイルとリポジトリに提出する準備ができている関連メタデータをパッケージ化するために構築されたデスクトップアプリケーションです。 Exsite9では、実際に物理的な場所をローカルファイルストレージに移動する内で、当該ファイルの構造組織を許可します。パッケージングの準備ができているファイルとメタデータを正しく整理できます。
- fast_align-シンプルで高速な監視なしの単語aligner。
- FastText-高速テキストの表現と分類のためのライブラリ。
- FieldWorks -FieldWorksは、言語と文化データのためのソフトウェアツールのスイートであり、複雑なスクリプトをサポートしています。 https://software.sil.org/fieldworks/ fieldworks Language Explorer(またはFlex、略して)は、フィールドに言語学者が多くの共通言語文書化と分析タスクを実行できるように設計されています。語彙情報の引き出しと記録、辞書の作成、テキストのインターリニア化、談話の特徴の分析、研究の形態の分析などが役立ちます。
- フラン - 自然言語検出https://wooorm.com/franc/。
- FWDocumentation -FieldWorksの開発者ドキュメント(複雑なスクリプトをサポートした言語および文化データのソフトウェアツール)。
- fwlocalizations -fieldworksのローカライズ。
- fwsupporttools-フィールドワークス開発のための追加ツール。
- Gaia -Gaiaは、Boot 2 GeckoプロジェクトのHTML5ベースの電話UIです。注:リリースに使用されるブランチの詳細については、Wikiを参照してください。新しい言語でキーボードのセットアップに興味がある場合は、これを参照してください。
- Giellakbd-android-ラテンタイムのフォーク(Google for Android)は、モバイルオペレーティングシステムで一流のステータスに値する疎外された言語をターゲットにしています。 KBDGenが使用します(このページの他の場所を参照)。
- Giellakbd -Ios-ローカライズされたキーボードのサポートに特に焦点を当てたAppleのネイティブiOSキーボードのオープンソースの再実装。 KBDGenが使用します(このページの他の場所を参照)。
- Giza-PP-GIZA ++は、IBMモデル1-5とHMMワードアライメントモデルのトレーニングに使用される統計的な機械翻訳ツールキットです。このパッケージには、いくつかのアライメントモデルのトレーニングに必要な単語クラスを生成するMKCLSツールのソースも含まれています。
- GV -Crawl -Global Voices Bitext Crawlerを作成するためのBitext Crawler。
- glotlid- 2000を超えるラベルをサポートした高速テキスト言語識別。
- Glottolog Data -Glottologは、世界の言語の包括的な参照情報を提供します。
- Gramadóir-少数言語や限られた計算リソースを備えた他の言語の文法チェッカーの迅速な発展のために設計された文法チェックエンジン。
- GRIND -INDESIGN 5.5プラグインが設計されているため、グラファイトが有効になったスマートフォントをAdobe Indesignで使用できます。このプロジェクトは、SilのGraphite 2 Smart Fontテクノロジーを、パラグラフコンポーザープラグインの独自の実装と統合します。
- Hermitcrab-hermitcrab.netは、アイテムとプロセスのアプローチをとる柔軟な形態学的/音韻パーサーです。
- HFST -SOPELL -HFSTスペルチェッカーライブラリおよびコマンドラインツール。
- HFST-SOSPELL-JS-HFST-SOPELL用のノードバインディング。
- HFST-OPTIMIZED-LOOKUP-HFST最適化されたルックアップスタンドアロンライブラリとコマンドラインツール。
- Hundict-並列コーパスからのバイリンガル辞書抽出器。
- Hunspell-豊富な形態と複雑な単語の複合またはキャラクターエンコーディングを備えた言語向けに設計されたスペルチェッカーと形態学的アナライザーライブラリとプログラム。
- Huntag-最大エントロピー学習と隠されたマルコフモデルを使用したNLPのシーケンシャルタガー。
- ICU -DOTNET -ICU4CのC#ラッパー。
- ICU4C- http://source.icu-project.org/repos/icu/icu/のSVNプロジェクトのミラー。 FieldWorksブランチには、いくつかのFieldWorks固有の拡張機能があります。
- iLanguage-未知の言語テキストを登録するのに役立つ半普及した言語独立した形態学的分析器、または単語で形態素の可能性のある分割の大まかな推定を取得するのに役立ちます。入力:コーパス。圧縮、最大エントロピー、およびフィールドリングスティクスを使用します。
- IPA -HELP -IPAが役立ちます。
- itweets -geodata -jeodata from先住民のツイート。
- jQuery.ime- jQueryベースの入力メソッドライブラリ。
- KBDGEN-さまざまなオペレーティングシステムのキーボードとキーボードレイアウトを生成します。
- Koreksyon-低リソース言語でのスペルチェックおよび文法チェック機能を開発および実装するためのツール。
- L20N.JS -L20Nはソフトウェアのローカリゼーションを再発明します。ユーザーは、自然言語の表現力全体の力から利益を得ることができるはずです。 L20Nはシンプルなものをシンプルに保ち、同時に複雑なことを可能にします。これは、L20NのJavaScript実装です。 http://l20n.org。
- langid.py-スタンドアロン言語識別システム。
- Langtechトロムソ大学がSVNで提供する多くのリソース。詳細はこちらと英語です。
- LEGO Unified Concepticon-レゴユニファイドコンセプトコンに関連する材料。
- Lex4all-低リソース言語http://lex4all.github.io/lex4all/の発音辞書。
- LEXDB -LEXDBは、語彙的な同族追跡データベースです。すべての語彙素と同族の判断の完全な出所を保存し、多くのネクサス方言への輸出を許可します。データベースは、柔軟なPython/Django Webフレームワークで記述されています。
- lfmerge-言語forge.orgの送信/受信。
- liblevenshtein- levenshtein automataに基づいて有限状態トランスデューサーを生成するためのライブラリ。
- Libpalaso -Palaso Library:言語ソフトウェアの開発者に役立つ.NETライブラリのセット。
- Lingo Grammar Matrix Lingo Grammar Matrixは、多様な言語向けに、広範な、精度の実装された文法の開発のためのフレームワークです。
- Lingpy -Lingpy:歴史的言語学の定量的タスクのためのPythonライブラリhttp://lingpy.org。
- Linguistica Linguisticaは、形態に主要な焦点を当てた自然言語の監視されていない学習を探求するために設計されたプログラムです(単語構造)。 Windows、Mac OS X、Linuxの下で実行され、QT開発フレームワーク内のC ++で記述されています。記憶に対する要求は、分析されたコーパスのサイズに依存します。
- ロングプレス-JQueryプラグインは、アクセントまたは珍しい文字の書き込みを容易にします。 http://toki-woki.net/lab/long-press/。
- 低リソース-Pos-Tagging-2014低リソースのポーズタグ:2014
- LRL-低リソース言語に関する作業用。
- Macvoikko-voikkoに基づくOS Xスペルサーバー。
- 機械 - マシンは、リソースの貧しい言語(Flexが使用)の処理用ツールを提供することに焦点を当てた.NET用の自然言語処理ライブラリです。
- Make -Extensions -Hunspellスペルチェック拡張機能を生成するためのスクリプト。
- Mgiza-マルチスレッド、履歴書トレーニング、インクリメンタルトレーニングをサポートするために拡張された有名なGiza ++に基づくワードアライメントツール。
- マイノリティ翻訳マイノリティ翻訳は、他の言語ウィキペディアの既存の記事のポインターを提供することにより、より小さなサイズのウィキペディア(実際にはあらゆるサイズ)でのコンテンツ生成を支援するための簡単なプログラムであり、ユーザーが既存のテキストを簡単に翻訳または調整し、ウィキペディア版のサイズと使いやすさを高めることができます。
- Morfessor -Morfessorは、教師なしで半教師の形態学的セグメンテーションのためのツールです。
- Morpholm-形態認識語モデル。
- モーフテスト-Giellaインフラストラクチャを使用して構築された形態学的トランスデューサーの生成と分析のテストを実行するPythonスクリプト。 HFST、Xerox 'FSTツール、およびFomaで動作します。
- MOSESDECODER -MOSES、機械翻訳システム。
- MOZ-L10N-TIERS-L10Nの文字列の優先順位付けを評価するための擬似ロケールを作成します。
- Mukurtucms -Mukurtuコンテンツ管理システム(CMS)は、デジタル文化リソースのアーカイブを可能にするために設計されたインターネットベースのプラットフォームです
- Mythes -Mythesは、構造化されたテキストデータファイルと、単語やフレーズを検索するバイナリ検索を備えたインデックスファイルを使用し、音声、意味、および同義語の一部に関する情報を返す単純なシソーラスです。
- MyWorksAfe-言語開発労働者向けのスマートでシンプルなバックアップ。 http://software.sil.org/myworksafe/。
- Nabu -Nabuは、オーディオおよびビデオアイテムのカタログ、これらのアイテムのメタデータ、およびアイテムのワークフローステータスに関する情報を提供するデジタルメディアアイテム管理システムです。 www.paradisec.org.au
- ナチュラル-JavaScriptノード用の一般的な自然言語施設。
- NIST 2008オープンマシン翻訳評価
- NLTK -Python Natural Language Tool Kit。 NLTKソースhttp://www.nltk.org/。
- node -panlex -node.js Panlexのクライアント。
- ノーマ - 自動スペルの正規化のためのツール。
- NPLM -https://nlg.isi.edu/software/nplm/のフォークで、Mosesdecoderで使用するための効率の調整と適応。
- Octothorpe -couchdb駆動のwiki。
- odtxslt-パッケージの内容(ODT、DOCXなど)でXSLT変換を実行します。
- Old-Webapp-オンライン言語データベース---言語を文書化するためにWebアプリケーションを作成するためのソフトウェア。http://www.onlineLinguisticdatabase.org。
- 古い - オンライン言語データベース(古い):言語フィールドワーク用のソフトウェア。 http://www.onlinelinguisticdatabase.org。
- オールドピラミッド - オンライン言語データベースは、ピラミッドフレームワークに移行しました。
- Omegat-Hfst-Tokenizer-Omegat-Hfst-Tokenizerは、OmegatでFSTベースのトークン化を提供します。
- Opendatakit Open Data Kit(ODK)は、組織の著者、フィールド、およびモバイルデータ収集ソリューションの管理を支援するオープンソーススイートのツールスイートです。
- OpenNLP -Apache OpenNLPライブラリは、自然言語テキストを処理するための機械学習ベースのツールキットです。 Webサイト。
- Ops -Devbox -(Linux)開発者マシン用のAnsible Playbook。
- Panlex -Tools -このパッケージには、語彙リソースをPanlexにインポートするのに適した形式に変換するスクリプトが含まれています。ドキュメントはhttps://dev.panlex.orgにあります。
- PDSC-Collection-Viewer-Paradisec Collection Browser
- パラダイム - パラダイムは、ジョセフE.グライムズ '1983年の作品の.NET(C#)の実装です。
- 経路 - 公開のための言語データの準備。
- PDFDROPLET -PDFページの賦課のためのライブラリとGUI(例:2 -up)http://software.sil.org/pdfdroplet/。
- ペッパー - ペッパーは、言語データのためのプラグ可能なJavaベースのオープンソースコンバーターフレームワークです。
- 音韻論アシスタント - 音韻アシスタントは発見ツールです。音声データのコーパスが提供され、サウンドを自動的にチャート化し、検索機能を通じて、ユーザーが言語で音のルールを発見してテストするのに役立ちます。
- Pressagio -Pressagioは、N -Gramモデルに基づいてテキストを予測するライブラリです。たとえば、文字列を送信すると、ライブラリは文字列の最後のトークンの最も可能性の高い単語の完成を返します。
- PrimerPro- PrimerProの目的は、特定の言語のプライマーの開発においてリテラシーワーカーを支援することです。
- Pydelphin -Delph -in(Friendly Fork)のPythonライブラリ。
- rbgparser-グラフベースの依存関係パーサー。
- Rosetta Pangloss-ロゼッタプロジェクトのパングロスシステム。
- Salm -Salm:Suffixアレイとそのアプリケーションは、喜びによる経験的言語処理におけるアプリケーションです。
- 塩 - 言語データを保存および操作するためのグラフベースのモデル。
- Saymore-結果のすべてのファイルとメタデータを整理し、ファイルのアーカイブ形式に変換するなど、共通言語ドキュメントタスクを作成するためのツール。
- secwepemc -facebook- Facebookをサポートされていない言語に翻訳します。
- SegParser-共同セグメンテーション、POSタグ付け、依存関係解析のための無作為化貪欲なアルゴリズム。
- 苗 - 人間の言語プロジェクトのために種子コーパスを構築し、使用します。
- あなたの言語のSkype-スカイプをサポートされていない言語に翻訳します。
- SOLID -SOLIDは、標準形式(Toolboxなど)のレキシコンデータのチェック、クリーンアップ、および変換に使用できるソフトウェアツールです。
- 球体変換ツール多くのLDCコーパスには、NIST Sphere形式の音声ファイルが含まれています。以下のプログラムは、Sphere Filesを他の形式に変換します。
- StandardFormatlib-標準形式ライブラリ。
- Stanford Corenlp -Stanford Corenlp:コアNLPツールのJavaスイート。 https://stanfordnlp.github.io/corenlp/。
- Stanford Corenlp Python -Stanford CorenlpツールのPythonラッパー。
- スタンザ - スタンフォードNLPグループの共有Pythonツール。
- STR2IPA-人気のある執筆システムを持つ言語の発音辞書。
- Sugali-これは、ソフトウェアプロジェクトコースの多くの(多くの)言語プロジェクトの言語識別プロジェクトのレガシーリポジトリであり、低資源言語のNLPプロジェクトです。
- シュガーライク - 低リソース言語の言語識別(スザンヌ、ガイ、リリングによる)。
- Syllabipy -Universal Syllabification AlgorithmsのPythonインターフェイス
- Tasty-Imitation-Keyboard-デフォルトのAppleキーボードのおいしい模倣として機能するiOS8+用のカスタムキーボード。 Swiftと最新のApple Technologiesを使用して構築されました。
- Teckit-変換ツールキットをエンコードするテキスト。
- Teny-リソースの低い機械翻訳のためのツール。
- Teradict-英語の単語を何百もの言語に翻訳してください!
- Tesseract.js -62言語用の純粋なJavaScript OCR ?? http://tesseract.projectnaptha.com/。
- TEXNLP -TEXNLP:テキサス自然言語処理ツール。
- TIMBL TIMBLは、いくつかのメモリベースの学習アルゴリズムを実装するオープンソースソフトウェアパッケージであり、その中には、シンボリック機能スペースに適した機能の重み付けとIB1-IGの意思決定ツリー近似に適した機能の重み付けを備えたK-Nearest Neighbor分類の実装です。実装されたすべてのアルゴリズムには、トレーニングセットのいくつかの表現をメモリに明示的に保存することが共通しています。テスト中、新しいケースは、最も類似した保存されたケースからの外挿によって分類されます。
- Toney-トーン分類ソフトウェア。
- フィールド言語学者のツールボックス - ツールボックスは、フィールド言語学者向けのデータ管理および分析ツールです。語彙データを維持したり、テキストを解析したりインターリニア化するのに役立ちますが、事実上あらゆる種類のデータを管理するために使用できます。
- Elanのツールボックススクリプト-Alexander Koenigのミラーのツールボックススクリプトhttps://tla.mpi.nl/tools/tla-tools/elan/thirdparty/。
- ToolsForfieldLinguistics-言語学のためのスクリプトとレシピのコレクション。
- Transcriber -Aikuma用のHTML5転写ツール
- TransitIt -Engine- JavaScriptで書かれた音訳エンジン。
- Tsammalexデータ-Tsammalexは、植物や動物に関する多言語の語彙データベースです。
- tweet2learn -Twitterで母国語を簡単に使用できるようにするアプリ。
- Twitter_langid-言語識別のための階層的な文字単語ニューラルネットワーク。
- Universaldependencies Docs -Universal依存関係オンラインドキュメントhttp://universaldependencies.org/docs/。
- Universaldependenciesツール - データを処理するためのさまざまなユーティリティ。
- Vocbench Vocbenchは、SKOS-XLを使用してシソーリ、権威リスト、用語集を管理するWebベースの多言語、編集、ワークフローツールです。
- wavesurfer.js-ウェブオーディオおよびキャンバスhttps://wavesurfer-js.org/に構築されたナビゲーション波形(Elanプラグインもあります)。
- Web-Template-これは、言語の活性化の取り組みを支援するための言語学習リソースを提示するために使用できるWebベースのテンプレートです。これには、説明辞書と、文章とフレーズを含むフラジコンが含まれています。
- WebCorpus-このプロジェクトは、クロールされたデータからWebCorpusを作成するためのスクリプトとプログラムのコレクションです。
- wikt2dict-多くの言語版のwiktionaryパーサーツール。
- Wikipron- WiktionaryエントリのIPA発音を撤回します
- Word Generator WordGeneratorは、音節構造の仕様から仮想的な単語を生成します。
- ワードバウンダリー - 単語境界の検出とセグメンテーションの実験。
- WordByWord-WordByWordは、Vera Ferreira、Peter Bouda、およびRicardo Filipeが開発したCidlesのRicardo Filipeが開発した無料のオープンソースで使いやすいマルチメディア語彙トレーナーです。
- WSI4URLANG-リソース不足言語(urlang)の単語センス誘導(WSI)。
- XDXF_Makedict -XDXF辞書形式と「Makedict」辞書変換ソフトウェア(公式リポジトリ)。
キーボードレイアウト構成ヘルパー
- jquery.ime-ウィキペディアで使用されるjQuery入力メソッドエディター
- KBDGEN-単一のシンプルなYAMLファイルから、Windows、MacOS、X11、IOS、Android、Chrome用のキーボードとキーボードレイアウトを生成します。また、Windowsに不明な言語を登録するため、インストール後、指定されたBCP 47コード(ISO 639-3の完全なサポートを含む)とキーボード、スペルチェッカー、その他のツールなどのインストールされた言語ツールとの間に正しい堅牢な関連性があります。
- キーボード - jquery〜https://mottie.github.io/keyboard/を使用した仮想キーボード。
- キーボード - オープンソースのキーマンキーボード。
- キーマン - キーマンクロスプラットフォーム入力メソッド。 Keymanは、Windows、iPhone、iPad、Androidタブレット、電話で1,000を超える言語を入力し、さらにはWebブラウザーに入力することを可能にします。 Webサイト。
- keyboardlayouteditor -キーボードレイアウトエディターhttps://code.google.com/archive/p/keyboardlayouteditor/。
- キーボードレイアウトエディター - キーボードレイアウトエディターhttp://www.keyboard-layout-editor.com
- Lipika-ime-すべてのインド言語のサポートが組み込まれたMac OS X用の入力メソッドエンジン(IME)。
- XKEYBOARDCONFIG -Xウィンドウの非アーチキーボード構成データベース。目標は、Xウィンドウシステムの実装(無料、オープンソース、コマーシャル)のXキーボード構成データの一貫した、十分に構造化された、頻繁にリリースされたオープンソースを提供することです。このプロジェクトは、XKBベースのシステムを対象としています。
注釈
- AGTK -AGTKは、言語信号に注釈を付けるためのツールを構築するためのソフトウェアコンポーネントのスイート、あらゆる種類の言語行動を文書化する時系列データ(Audio、ビデオなど)。内部データ構造は、注釈グラフに基づいています。 (元のプロジェクトはSourceForge:https://sourceforge.net/projects/agtk/にあります)。
- Brendano -Graph Fragment Language for Easy Syntactic Annotation https://www.cs.cmu.edu/~ark/fudg/。
- Elan Elanは、ビデオおよびオーディオリソースに複雑な注釈を作成するための専門的なツールです。
- EOPAS -ETHNOERオンラインプレゼンテーションと注釈システム。
- フラット - フォリア言語アノテーションツール - フラットは、言語注釈用の豊富なXMLベースの形式であるFolia形式(http://proycon.github.io/folia/)に基づいたWebベースの言語注釈環境です。 Flatを使用すると、ユーザーは注釈付きのFoliaドキュメントを表示し、これらのドキュメントを新しい注釈で充実させることができます。Foliaパラダイムを通じて、さまざまな言語注釈タイプがサポートされています。ドキュメント構造を完全に保存および視覚化するドキュメント中心のツールです。
- gfl_syntax-簡単な構文アノテーションのためのグラフフラグメント言語https://www.cs.cmu.edu/~ark/fudg/。
- Graf-Python-Library Graf-Pythonは、ISO 24612で説明されているように、GRAF/XMLファイルを解析および書き込むためのオープンソースのPythonインプレメーションです。ライブラリのパーサーは、ファイルから注釈グラフを作成します。ユーザーは、Graf-PythonのAPIを介して注釈グラフを照会することができます。
- KWARAS -Elan Corpus Managementのツール。
- LDC Word Aligner LDC Word Alignerは、アラビア語と中国語と英語の単語アライメントタスクをサポートするために開発された単語アライメントの手動注釈に使用されるソフトウェアツールです。きれいで使いやすいインターフェイスがあります。 2009年の開発以来、LDCはLDC Word Alignerを使用して、ブロードキャスト、ニュースワイヤー、Webベースのソースなど、さまざまなジャンルから1,000,000を超える注釈付きワードアライメントデータを生成しています。 Webサイト。
- Poio -analyzer -Poioは、言語文書、記述的言語学、および/または言語類型で作業する言語学者向けのソフトウェアツールのコレクションです。言語学者がデータを管理および分析することができます。 The Poio Interlinear Editor allows to add morpho-syntactic annotations to transcriptions. It supports various file formats for input, but will only output standardized XML defined by the Corpus Encoding Standard and the Text Encoding Initiative. Several tools for analyzing linguistic data will be made available to further process annotated data. Poio tools are written in Python and are based on PyQt.
- poio-api - Poio API is a free and open source Python library to access and search data from language documentation in your linguistic analysis workflow. It converts file formats like Elan's EAF, Toolbox files, Typecraft XML and others into annotation graphs as defined in ISO 24612. Those graphs, for which we use an implementation called “Graph Annotation F…
- pyannotation - PyAnnotation is a Python Library to access and manipulate linguistically annotated corpus files.
- XTrans Trans is a next generation multi-platform, multilingual, multi-channel transcription tool that supports manual transcription and annotation of audio recordings. The XTrans toolkit provides new and efficient solutions to common transcription challenges and addresses critical gaps in existing tools.Designed with input from experienced human transcribers working with real world data, XTrans provides a flexible and intuitive graphical user interface for a multitude of speech annotation tasks including (virtual) segmentation of audio into smaller units like turns and sentences; speaker identification; orthographic transcription in any language; and labeling of structural elements of the transcript like topics.
Format Specifications
- spec - The official specification for the DLx linguistic data format. https://digitallinguistics.github.io/spec/.
- FoLiA FoLiA: Format for Linguistic Annotation - FoLiA is a rich XML-based annotation format for the representation of language resources (including corpora) with linguistic annotations. A wide variety of linguistic annotations are support, making FoLiA a useful format for NLP tasks and data interchange. http://proycon.github.io/folia/
- xdxf_makedict - XDXF dictionary format and "makedict" dictionary converting software (official repository).
i18n-related Repositories
- Express-Lingua - An i18n middleware for the Express.js framework.
- Polyglot.js Give your JavaScript the ability to speak many languages.
- Transifex - System for providing a nice, userfriendly/project oriented approach to translating
.po files. Great for non-technical users, free for open-source projects, decent for minority languages; however , it can take a while to get a new language added to the Transifex system because the ticketing system Transifex uses results in them losing tickets sometimes. Provides translation memory, ability to appoint reviewers, etc. Transifex used to have an open source system that you could host on your own, but that seems to have disappeared.
Audio automation
- arctic-prompts - Generate prompts PDF for CMU ARCTIC dataset.
- AudioWebService - a simple nodejs server which accepts upload of audio and runs it through praat.
- AuToBI - Automatic prosodic annotation tool written in Java.
- BashScriptsForPhonetics - ( Fork of a dormant project).
- esv-text-audio-aligner - ESV Text/Audio Aligner to programmatically obtain the timings for each word in the corresponding audio.
- html5-audio-read-along - HTML5 Audio Read-Along.
- ipa-chart - International Phonetic Alphabet (IPA) Unicode Chart and Character Picker.
- kaldi-svn-archive - An read-only archive of the original Kaldi SVN repository (mainly to keep sandboxes available).
- lex4all - pronunciation LEXicons for Any Low-resource Language ( Fork of a student project).
- Montreal-Forced-Aligner - Python interface for forced text/speech alignment.
- node-pocketsphinx
- opensauce - GNU Octave-compatible version of VoiceSauce.
- pocketsphinx - PocketSphinx is a lightweight speech recognition engine, specifically tuned for handheld and mobile devices, though it works equally well on the desktop.
- pocketsphinx-ios-demo - Simple demo for iOS.
- pocketsphinx-python - Python module installed with setup.py.
- pocketsphinx-ruby - Ruby speech recognition with Pocketsphinx.
- pocketsphinx-wp-demo - Demo to run pocketsphinx on WP8 platform.
- pocketsphinx.js - Speech recognition in JavaScript.
- praat-py - From my PhD days: Praat-Py is a custom build of Praat, the computer program used by linguists for doing phonetic analysis on sound files, to allow for scripts to be written in the Python programming language, rather than in Praat's built-in language. ( Fork of a dormant project).
- Praat-Scripts - Mietta's Scripts.
- PraatTextGridJS - A small library which can parse TextGrid into json and json into TextGrid.
- PraatontheWeb - Web implementation of Praat. Source code, running demo scripts on web, samples and documentation.
- prosodicParsing - different kinds of HMMs to use for incorporating prosody into basic parsing.
- Prosodylab-Aligner - Python interface for forced audio alignment using HTK and SoX.
- prosodylab.alignertools
- Recordmp3js - Record MP3 files directly from the browser using JS and HTML.
- sphinx4 - Pure Java speech recognition library.
- sphinxbase
- sphinxtrain
- TLSphinx - Swift wrapper around Pocketsphinx.
Text-to-Speech (TTS)
- espeak - eSpeak is a compact open source software speech synthesizer for English and other languages, for Linux and Windows. http://espeak.sourceforge.net.
- MARY TTS - MARY TTS -- an open-source, multilingual text-to-speech synthesis system written in pure java http://mary.dfki.de.
- Ossian - Ossian is a collection of Python code for building text-to-speech (TTS) systems, with an emphasis on easing research into building TTS systems with minimal expert supervision.
Automatic Speech Recognition (ASR)
- Elpis - Elpis is software for creating speech recognition models and applying them to the transcription of audio. As of 2022, it gives access to Kaldi and Huggingface Transformers.
- kaldi - This is now the official location of the Kaldi project.
- Persephone - Persephone aims to make state-of-the-art phonemic transcription accessible to people involved in language documentation, who have a training corpus of about one to four hours of transcribed speech. As of 2022, Persephone is superseded by Elpis.
Text automation
- clld - Cross Linguistic Linked Data python library.
- LaTeX2HTML5 - LaTeX web components.
- MultilingualCorporaExtractor - Node io Spider for extracting multilingual corpora ( Fork of a student project).
- SeedLing - Building and Using A Seed Corpus for the Human Language Project ( Fork of a student project).
実験
- experigen - A framework for creating linguistic experiments.
- GamifyPsycholinguisticsExperiments - A simple node server to gamify linguistics experiments, runs offline on a laptop for small scale experiements and online on a server for large scale experiments. Data is sent to a Google spreadsheet. ( Fork of a dormant project).
- OpenSesame - Graphical experiment builder for the social sciences.
- OPrime - Open Source Experimentation Libraries - Online and Offline for Android and HTML5.
- psychopyMegProsody - Runs MegProsody using PsychoPy.
- PsychScript - A HTML5/Javascript library for running behavioural experiments online.
Flashcards
- Anki - Anki is a program to make and share flaschard decks (including audio) for any language or writing system. https://apps.ankiweb.net/.
- awesome-anki - A curated list of awesome Anki add-ons, decks and resources.
- VocabLift - Language-learning tool that uses vocabulary from LIFT-format dictionaries produced by programs such as Fieldworks Language Explorer and WeSay.
Natural language generation
- OpenCCG - OpenCCG library for parsing and realization with CCG. Includes mini-grammars for Inuit, Nezperce, Basque and others.
Computing systems
- Common Language Resources and Technology Infrastructure Norway / Clarino - One of their projects (not clearly listed here) is about providing an online system for language analysis, so users can connect resources visually, dump in text, and get a result. Kind of like the Yahoo! Pipes but for language processing. Uses the ABEL cluster.
Android Applications
- Aikuma - Android software for recording and translation.
- Android Speech Recognition Trainer - Speech recognition training app for low resource languages which interfaces with FieldDB corpora.
- android-template - This is a template of an Android word-learning app that may be used a way to introduce a language. It includes a quiz. For the documentation, go to http://eddersko.github.io/android-template/.
- AndroidFieldDB - An Android app which lets the user build a custom visual and auditory vocabulary, useful for guided anomia treatment and self designed language lessons by heritage speakers.
- AndroidFieldDBElicitationRecorder - A general purpose video recording tool.
- AndroidLanguageLessons - Lets heritage speakers create self designed language lessons.
- AndroidProductionExperiment - Android App to run perception experiments.
- Bevara - Android Phone Application designed for Linguistic Fieldwork to help preserve, maintain, and save endangered languages.
- ojoVoz - A mobile app for sending georeferenced image and voice recordings from an Adroid phone to an email address. For more information, please go to http://sautiyawakulima.net/ojovoz/.
- pocketsphinx-android - pocketsphinx build for Android.
- pocketsphinx-android-demo
Chrome拡張機能
- babelfrog - Chrome extension to help learn languages as you browse.
- DictionaryChromeExtension - Dictionary for websites in low-resource languages. App and codebase which connects to a Wiktionary to provide definitions of any term on any website (current languages Cherokee 194,426 entries, Inuktitut 251 entries, Kartuli 7,363 entries, Plains Cree (incubation) 0 entries) use.
FieldDB
FieldDB is actively worked on by the FieldDB (Formally known as OpenSourceFieldlinguistics) group. These repos explicitly work with it but could be repurposed for other projects.
- FieldDB - An offline/online field database which adapts to its user's terminology and I-Language, has plugins for various data automation routines along the process of primary data collection to cleaning to publication and archival.使用。
FieldDB Webservices/Components/Plugins
- AndroidLanguageLearningClientForFieldDB-sikuli - Sikuli tests for AndroidLanguageLearningClientForFieldDB.
- AuthenticationWebService - A node.js web service which mananges users and corpora creation and authentication.
- bower-fielddb-angular - A bower repository which hosts fielddb-angular components, bower install fielddb-angular --save.
- bower-fielddb - A bower repository which hosts fielddb core components, bower install fielddb --save.
- fielddb-spreadsheet-sikuli - sikuli tests for the spreadsheet module use.
- FieldDBActivityFeed - A fielddb activity feed widget which can be embedded in other codebases, websites etc use.
- FieldDBGlosser - A semi-unsupervised language independent morphological analyzer useful for stemming unknown language text, or getting a rough estimate of possible parses for morphemes in a word. bower install fielddb-glosser --save.
- FieldDBLexicon - A lexicon browser/editor web widget for FieldDB databases.
- LanguageClassDashboard - App which provides a view of FieldDB corpora for language teachers use.
- LexiconWebService - A node.js ElasticSearch wrapper for indexing/training lexicons from corpora.
- LexiconWebServiceSample - A node.js web server which implements the fieldlinguist's lexicon API for the FieldDB project.
Academic Research Paper-Specific Repositories
- Gargantua - Fast Unsupervised Sentence Aligner described in "Improved unsupervised sentence alignment for symmetrical and asymmetrical parallel corpora", COLING 2010.
- ldc-kiy - Materials for: The experimental state of mind in elicitation: illustrations from tonal fieldwork. Dubmitted to Language Documentation & Conservation, How to study a tone language .
- Learning to map into a Univerisal POS tagset Yuan Zhang, Roi Reichart, Regina Barzilay and Amir Globerson
- low-resource-pos-tagging-2014 and low-resource-pos-tagging-2014 Published in: Learning a Part-of-Speech Tagger from Two Hours of Annotation. Dan Garrette and Jason Baldridge . In Proceedings of NAACL 2013. And in: Real-World Semi-Supervised Learning of POS-Taggers for Low-Resource Languages. Dan Garrette, Jason Mielens, and Jason Baldridge . In Proceedings of ACL 2013.
- orthotree - Linguistic family tree based on orthographic distance.
- type-supervised-tagging-2012emnlp This repository contains the code, scripts, and instructions needed to reproduce the results in the paper: Type-Supervised Hidden Markov Models for Part-of-Speech Tagging with Incomplete Tag Dictionaries. Dan Garrette and Jason Baldridge . In Proceedings of EMNLP 2012. This code is frozen as of the version used to obtain the results in the paper. It will not be maintained. To see the updated code, visit nlp
- visualizing-language - For visualizations of WALS and other typological databases.
- WALS-APiCS - Code for working with WALS-APiCS (Atlas of Pidgin and Creole Language Structures) complexity metrics.
Example Repositories
These are repositories that are generally only interesting for training purposes or seeing how something is done.
- CorpusWebService - über-simple node.js-Proxy to enable CORS request for couchdb.
- CorporaForFieldLinguistics - Small corpora from diverse language typologies, useful for testing scripts.
- startR
- lucenerevolution-2013 - Demo examples for linguistics in Lucene and Solr.
- berlin-buzzwords-2013 - Demo examples for Lucene, Solr, ElasticSearch and OpenNLP from Berlin Buzzwords 2013 talk.
Fonts
- fontinline - Make inline stroke paths from an outline font.
- Noto Fonts - Noto is Google's free font family that aims to support all the world's scripts. Its design goal is to achieve visual harmonization across languages. Noto fonts are under Apache License 2.0.
- Unicodify Unicodify is a suite of programs for converting text in a variety of 8-bit encodings to Unicode (using the UTF-16 encoding). Unicodify was particularly designed to handle HTML-based text using non-ISCII 8-bit fonts to render South Asian scripts. However, elements of the suite can map other types of non-ASCII 8-bit encodings, such as Latin-2, ISCII and PASCII.
Corpora
These corpora are useful for working with tools on endangered languages. Monolingual corpora that are more for archival efforts should most likely not be included here.
- bible-corpus - A multilingual parallel corpus created from translations of the Bible.
- poio-corpus - The Poio Corpus is a freely available collection of language resources for the lesser-used languages. The data is extracted from free sources like Wikipedia, dictionaries, documents, websites and others.
組織
On GitHub
- batumi - Speech recognition and natural language processing for low-resource languages
- BloomBooks
- unicode-cldr - Unicode Common Locale Data Repository (CLDR) Project http://cldr.unicode.org
- cmusphinx - Mirror of the SourceForge repositories
- dativebase - Tools for working with OLD.
- divvun - The Divvun group at UiT develops proofing tools, keyboard apps and other language technology solutions for indigenous and minority languages, especially the Sámi languages. Webサイト。
- FieldDB
- GiellaLT - home for keyboard layouts, lexicons and morphologies for indigenous and minority languages, especially for morphologically complex languages, using mainly rule-based techonlogies. The resources are used by Divvun (above) and Giellatekno (below) to build a number of tools for the language communities. Almost everything is open source.
- HFST - Helsinki Finite-State Technology. Webサイト。
- hunspell
- keymanapp - Website.
- langtech - Language Technology Group, University of Melbourne
- lex4all
- longnow
- MontrealCorpusTools
- moses-smt - Statistical Machine Translation.
- mukurtucms
- NLTK - Natural Language Toolkit.
- PhonologicalCorpusTools)
- Projet de recherche sur l'écriture - Crowdsourcing or conducting large scale psycholinguistics experiments (or statistically significant field linguistics).
- prosodylab - Prosodylab at McGill University, Canada
- SIL International (Dev) SIL International- Another SIL organization, with many repositories.
- SIL International - SIL (originally known as the Summer Institute of Linguistics, Inc.) is probably the leading organization which provides software and tools tailored for use by field linguists and lexicographers working on endangered languages. A little known fact is that much of it's code is open sourced on GitHub and SIL is happy to recieve open source contributions and collaborate on open source projects.
- SIL NRSI - SIL Non-Roman Script Initiative. The NRSI is a department of SIL International, whose task is to provide assistance, research and development for SIL International and its partners to support the use of non-Roman and complex scripts in language development.
- StanfordNLP https://nlp.stanford.edu
- ucsd-field-lab - University of California, San Diego
- UniversalDependencies - Universal Dependencies (UD) is a project that is developing cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on an evolution of (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008). The general philosophy is to provide a universal inventory of categories and guidelines to facilitate consistent annotation of similar constructions across languages, while allowing language-specific extensions when necessary.
- utcompling - The University of Texas at Austin's Computational Linguistics Lab. Webサイト。
Other OSS Organizations
- Giellatekno - Giellatekno combines cutting-edge linguistic and computational research into the analysis of Saami and other morphologically-rich languages, with the development of practical applications. We focus on deep linguistic modeling and on highly efficient and robust computational analysis with a wide empirical coverage. They use svn for their code: all of it can be found here, sorted by language.
- LOWLANDS - LOWLANDS – Parsing low-resource languages and domains https://ccc.ku.dk/research/lowlands/
- LTRC: Language Technologies Research Center IIIT Hyderabad LTRC addresses the complex problem of understanding and processing natural languages in both speech and text mode. LTRC conducts research on both basic and applied aspects of language technology. It is the largest academic centre of speech and language technology in South Asia. LTRC carries out its work through four labs, which work in synergy with each other, as listed above.
- The Language Archive Part of the MPI
チュートリアル
- How to Write a Spelling Corrector by Peter Norvig.
Language Specific Projects
For each language, we include the ISO 639-3 code, and the main autonym for that language.
アフリカーンス
afr :: Afrikaans
- Afrikaanse rekenaarlinguïstiek (Afrikaans computational linguistics) — wordlists, corpora, morphological analyser, tagger, word decompounder. Available upon email.
アルバニア語
sqi :: shqip
- Apertium rules for Albanian - Machine Translation rules
- out-of-copyright-albanian-authors - authors scraped from the albanian language wikipedia who are out of copyright.
- Plis keyboard - The Plis keyboard is a keyboard or computer keyboard layout for the Albanian language.
- spell checking - Here you find a collection of Albanian words and information about them. Aspell, Ispell, and MySpell are included.
Alutiiq
ems :: sugpiaq
- wiinaq - Word Wiinaq is a Kodiak Alutiiq dictionary web application with automatically generated ending tables and souped-up search capabilities. It is written in Python using Django.
アムハラ語
amh :: አማርኛ
- HornMorpho - Morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs
バスク
eus :: euskara
- Matxin - An open-source transfer machine translation engine. Linguistic information for the translation from Spanish and Basque (es-eu) is included.
ベンガル語
ben :: বাংলা
- Bangla-অঙ্কুর for Mac This project aims to develop a phonetic based Bangla typing system for Macintosh computer which can be developed into a transliteration technique in the future.
- Bengali Writer - `Bengali Writer' is a set of utilities for computerized editing and typesetting in Bengali, a language of India and Bangladesh. It comprises a set of fonts for Bengali in several formats (METAFONT, BDF, PS), a text editor with spell-cheking, export, and more. (Original project is on SourceForge: https://sourceforge.net/projects/bengaliwriter/).
- Ekushey Bangla Computing and Localization Project for the Bangla speaking people.
- Lekho - A collection of tools and resources for using bangla on computers (Original project is on SourceForge: https://sourceforge.net/projects/lekho/).
チチェワ
nya :: chicheŵa
- Chichewa - NLP resources for Chichewa.
ガリシア語
glg :: galego
- an-metri-gal - Análise métrico de texto en verso en lingua galega (Galician language) gl-ES
- android_gl_dict - Android Galician (gl_ES) Keyboard Dictionary
- aspell-gl - Galician dictionary for aspell
- CitiusSentiment - Sentiment analysis (opinion mining) for Portuguese, English, Spanish, and Galician
- CitiusTagger - A PoS-Tagger and Named Entity Classification tool for Portuguese, English, Galician, and Spanish
- Conshuga - Galician verb conjugator
- corpora - This is a collection of corpus of Galician (or related to Galicia) words / Colección de corpus de palabras en galego (ou relacionadas con Galicia)
- DepPattern - Dependency Syntactic Parsing for Portuguese, Spanish, English, and Galician, including MetaRomance parser
- DOGA_scraper - Galician Official journal scraper
- elFinder-language - Galician - Gallego / language for elFinder
- EuroWordNetLemon - EuroWordNet lemon lexicons generated from the LMF versions of the Multilingual Central Repository (MCR) EuroWordNet lexicons. It includes lexicons for Spanish, Catalan, Basque & Galician.
- GalegoDroid - Galician Translator for Android
- galeXtra - Multiword Extractor for Portuguese, English, Spanish, Galician, French
- Galician-Dependency-Treebank - This Galician Dependency Treebank has been developed by transliterating and adapting lexically the Portuguese part (Bosque 7.3 by the Floresta sintá(c)tica project) of the CONLL-X 2006.
- Galician-Fuzzy-Text-watch - Based on Fuzzy Text International by Jesse Hallett, uses the galician language to display time.
- galician-locale-for-mac - Galician locale for Mac OS X
- gl-syllabler - Split galician language words into syllables
- gl- Galician OmegaT Localisation
- hunspell-gl-ciencias - Project oriented into developing a science and maths Galician language Hunspell dictionary
- hunspell-gl - Galician hunspell dictionaries
- hyphen-gl - Galician hyphenation rules
- javagalician-java6 - The Java Galician Locale is an implementation of Java localization SPIs which will allow the Java VM to use the Galician Language (locales "gl" and "gl_ES"), one of the official languages of Spain, which is not included in Sun's JVM distribution.
- Linguakit - Multilingual toolkit for NLP: dependency parser, PoS tagger, NERC, multiword extractor, sentiment analysis, etc.
- ParlamentoGalicia - Project based on the information extracted from the transcriptions of the sessions held in the Galician Parlament
- poss-gl - Galician translation of Producing Open Source Software, by Karl Fogel
- rima - Find rhyming words in galician language.
- stopwords-gl - Galician stopwords collection
- texlive-babel-galician - TeXLive babel-galician package
- UD_Galician-CTG - The Galician UD treebank is based on the automatic parsing of the Galician Technical Corpus created at the University of Vigo by the the TALG NLP research group.
- UD_Galician-TreeGal - The Galician-TreeGal is a treebank for Galician developed at LyS Group (Universidade da Coruña).
- UL_Galician-TreeGal - CoNLL-UL Repository for UD_Galician-TreeGal
Apertium
- apertium-cat-glg - Apertium translation pair for Catalan and Galician
- apertium-dict-en-gl - English-Galician language pair for Apertium
- apertium-dict-es-gl - Spanish-Galician language pair for Apertium
- apertium-dict-pt-gl - Portuguese-Galician language pair for Apertium
- apertium-en-gl - Apertium translation pair for English and Galician
- apertium-es-gl - Apertium translation pair for Spanish and Galician
- apertium-glg - Apertium linguistic data for Galician
- Apertium-pt-gl.pt-gl-LMF - This is the LMF version of the Apertium bilingual ditionary for Portugues and Galician languages
- apertium-pt-gl - Apertium translation pair for Portuguese and Galician
ジョージアン
kat :: ქართული
- awesome-georgia - A curated list of awesome libraries and packages specific/related to Georgia (country).
- Gadatsqvetilebebi - გადაწყვეტილებები; Web spider and corpora importer for public legal decisions.
- GeoWordsDatabase - Around 310 000 unique Georgian words https://bumbeishvili.github.io/GeoWordsDatabase/.
- Kartuli Speech Recognition - ანდროიდის ქართველი მომხმარებლებისთვის სიტყვის ამოცნობის სისტემის შექმნა. Codebase to turn any webpage from any alphabet into another alphabet, the default is to turn latin letters into Kartuli. use "Do your friends keep commenting on Facebook with English keyboards (either because they forgot to switch, or because they didn't/can't install a Georgian keyboard)? Now you can read the web through კართული eyes.".
- KartuliChromeExtension - Chrome აპლიკაცია, რომელიც ყველა ინგლისურ ასო-ბგერას აჩვენებს ქართულ ასო-ბგერად.
- QartuliDaBunebismetkveleba - მათემატიკისა და ბუნებისმეტყველების ინტერაქტიული სახელმძღვანელო მე-2 - მე-3 კლასის მოსწავლეებისათვის.
- SakartvelosUzenaesiSasamartloSarke - საქართველოს უზენაესი სასამართლო სარკე.
- SamartlosSakonstitutsioSasamartdoSarke - სამართლოს საკონსტიტუციო სასამართდო სარკე.
- translitit-latin-to-mkhedruli-georgian - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- translitit-mkhedruli-georgian-to-ipa - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- Declensions - Methods to generate declensions for Georgian language
Fonts
- Stichoza/font-larisome - Iconic font for Georgian currency inspired by Font-Awesome (CSS).
- Lotuashvili/BPGNateli - Bower package for BPG Nateli font (CSS).
- thecotne/georgian-webfonts - Package for georgian fonts (CSS).
Internationalization and Localization (i18n/l10n)
- Stichoza/money-num-to-string - Convert a number/money to localized string (PHP, JavaScript).
- natchkebiailia/NumberToWord - Convert numbers to localized strings (JavaScript).
- d0ragon/number-to-words-ka - Convert numbers to localized strings (PHP).
- dimakura/ka - Common functionality for georgian projects (Ruby).
- dimakura/ka.js - Georgian language support for node and browser (JavaScript).
- akalongman/kautilities - Convert Georgian letters to Latin and vice-versa (PHP).
- Landish/Laravel-Ka - Laravel Georgian Language Pack.
- Landish/RedactorJS-GE - Redactor WYSIWYG HTML Editor Georgian Language Pack (JavaScript).
- wenzhixin/bootstrap-table - Bootstrap table with extra features. l10n by @Lotuashvili and @Stichoza.
- moment/moment - A lightweight date library (JavaScript).
- ioseb/geokbd - Georgian keyboard library (JavaScript).
Guarani
grn :: Guarani
- ParaMorfo - morphological analysis and generation of Spanish and Guarani verbs, nouns, and adjectives.
ハウサ
hau :: هَرْشَن هَوْسَ
- Hausa - Repository for Hausa NLP tools.
ヒンディー語
hin :: हिन्दी
- hindi-morph - An open source morphological analyzer for Hindi.
Høgnorsk
nno :: Høgnorsk
- hunspell-hn_NO - A beginning to a spellchecking tool for Høgnorsk, a conservative variant of Norwegian Nynorsk, based on a set of corpuses.
アイスランド語
isl :: íslenska
- IceNLP - IceNLP is an open source Natural Language Processing (NLP) toolkit for analyzing and processing Icelandic text. The toolkit is implemented in Java.
Inuktitut
iku :: Inuktitut
- InuktitutAlignerData - Scripts for alignment of laboratory speech production data.
- InuktitutComputing - Inuktitut Morphological Analyser, transcoder, transliterator, corpus tools, and lexical lists for working with Inuktitut. Usable online at http://inuktitutcomputing.ca/index.php.
アイルランド
gle :: Gaeilge
- aimsigh - Source for the now-defunct aimsigh.com Irish search engine.
- caighdean - Code for standardizing Irish language text.
- fleiscin - Irish hyphenation patterns for TeX https://cadhan.com/fleiscin/.
- GaelSpell - Sources for an Irish language spell checker.
- tesseract-gle-uncial - OCR for old Irish fonts.
キニャルワンダ
kin :: Ikinyarwanda
- kin-morph-fst - Kinyarwanda morphological analyzer.
- TurboTagger & TurboParser for Kinyarwanda (download) TurboTagger & TurboParser for Kinyarwanda
クルド
kur :: Kurdî
- Kurlex - Morphological analyser and lexicon, written in the Alexina framework, licensed under the LGPL-LR.
- kurmanji-stemmer - NLTK based kurmanji stemmer
Lingala
lin :: Lingála
- Lingala NLP NLP tools and resources for Lingala
Lushootseed
lut :: Lushootseed
- Lushootseed - Joshua Crowgey's work on Lushootseed http://students.washington.edu/jcrowgey/lushootseed/.
マレー
msa :: Bahasa Melayu
- MorfoMalayu - morphological analysis of Malay words.
マラガシー
mlg :: Malagasy
- Global Voices Malagasy Project This page provides a link to a corpus of parallel news articles in Malagasy and English from the Global Voices project. This corpus was collected and aligned at the sentence level by Victor Chahuneau.
Manx
glv :: Gaelg
- aspell-gv - Manx Gaelic dictionary for aspell.
- gaelg - NLP resources for Manx Gaelic, mainly in support of the gv2ga MT engine.
Migmaq
mic :: Mi'kmaq
- migmaq-lessons - Repository for website building Mi'gmaq language lessons.
Minderico
drc :: Piação do Ninhou
- fredericajordarzambarino - A web based game for mobile devices in minderico based in the "Who Wants to be a Millionaire" TV show.
Nishnaabe
oji :: Ojibwe, Oddawa, Chippewa, Anishinaabemowin, ᐊᓂᔑᓈᐯᒧᐎᓐ
- Ojibway-iphone-app - An iPhone app with audio and images for learning the Ojibway language.
- OjibwayMap - An iPhone app with audio and images for learning Ojibway language and culture.
- nishanimate - A desktop app to facilitate Nishnaabe-language acquisition via animations produced by the natural language processing of audio-accompanied text.
Oromo
orm :: Oromo
- hornmorpho - morphological analysis and generation of amharic and oromo verbs and nouns. and tigrinya verbs
Quechua
que :: Runa Simi
- AntiMorfo - morphological analysis and generation of Quechua nouns, adjectives, and verbs and Spanish verbs.
- Morphology, spellchecker - XFST and FOMA, plus OpenOffice plugin.
Sami
sma :: Sámi/Saami
- divvun-webdemo - simple webdemo for divvun grammar checker. Webサイト。
- Giellatekno A host of Sámi tools.
- Mobile keyboards (iOS and Android), learning apps, dictionaries, morphologies, syntax disambiguators, some amount of project collaboration with Apertium on shallow translation between Saami languages, and
- Oahpa! - A learning portal for Saami languages. Includes WordPress based, media rich lesson-based learning, and morphological and syntactic exercizes generated from the morphological and syntactic tools
- Neahttadigisánit - A morphologically sensitive dictionary, with modes for 'social media input' (which allows users to type a 'relaxed' version of the orthography ( acdnstz will be recognized also as áčđŋšŧz̄ ), and also includes a JavaScript bookmarklet to offer click-to-read dictionary lookup functionality. Also available for other Uralic, and non-Uralic languages. Giellatekno does a lot for other minority Uralic languages. Following are some keywords for CTRL+F friendliness:
- Saami languages: North Saami, Lule Saami, South Saami // Inari Saami, Kildin Saami, Pite Saami, Skolt Saami.
- Other Uralic languages: Erzya, Finnish, Hill Mari, Ingrian, Khanty, Kven, Komi, Livonian, Meadow Mari, Moksha, Nenets, Nganasan, Olonetsian, Udmurt, Veps.
- Other languages: Buriat, Cornish, Faroese, Greenlandic, Iñupiaq, Northern Haida, Ojibwe, Plains Cree, Russian.
スコットランドのゲール語
gla :: Gàidhlig
- aspell-gd - Scottish Gaelic dictionary for aspell.
- briathrachan - This is the source code to Briathrachan, a Gaelic-English dictionary app for iOS.
- gaidhlig - NLP resources for Scottish Gaelic, mainly in support of gd2ga/ga2gd MT engines.
- gd-fcfg - Context-free feature-based grammar of Scottish Gaelic in the NLTK format.
- gdbank - Some tools and resources for natural language processing of Scottish Gaelic. https://www.tantallon.org.uk/cggblog/.
- hunspell-gd - Files for building Scottish Gaelic spell checkers.
Secwepemctsín
shs :: Secwepemctsín
- secwepemctsnem - A project to help people learn Secwepemctsín.
ソマリア
som :: Soomaaliga
- somorph - Somali morphological and syntactic analyzers and generators built on XFST and VISL-CG Constraint Grammar. Up to date version checked in on Giellatekno's repository.
- qaamuus.net morphologically aware dictionary based on lexical resources found online, and the somali morphology.
Tigrinya
tir :: ትግርኛ
- HornMorpho - morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs.
Uralic
urj :: Uralic languages
- UralicNLP - A Python library for processing Uralic languages (Finnish, Skolt Sami, Erzya, Moksha, Komi-Zyrian and so on). The library provides an easy programmatic access to Giellatekno resources such as FST morphology and CG disambiguators. Other functionalities include UD parser, API for the Online Dictionary of Uralic Languages and interface to SemFi and SemUr semantic databases. The library is under active development and new features are added from time to time.
ズールー
zul :: zulu
- Ukwabelana An open-source morphological Zulu corpus
ライセンス
© Richard Littauer 2014-2017