awesome japanese nlp resourcesダウンロード - awesome japanese nlp resourcesソースコードダウンロード

素晴らしい日本-NLPリソース

Pythonライブラリ、LLM、辞書、および日本語のNLPのコーパス専用のリソースのキュレーションリスト

653 Githubリポジトリのリストされた情報
フェイスリポジトリの抱擁1503のリストされた情報（モデルとデータセット）
ツールをリリースしましたか？多数のリポジトリ情報を検索するため

英語| 日本語（日本）| 繁體中文（中国語）| 简体中文（中国語）

コンテンツ

顔を抱き締める
- モデル
- データセット
Pythonライブラリ
- 形態分析
- 解析
- コンバータ
- プリプロセッサ
- 文の分裂
- 感情分析
- 機械翻訳
- 名前付きエンティティ認識
- OCR
- 前処理されたモデル用のツール
- その他
C ++
- 形態分析
- 解析
- その他
さびたクレート
- 形態分析
- コンバータ
- 検索エンジンライブラリ
- その他
JavaScript
- 形態分析
- コンバータ
- その他
行く
- 形態分析
- その他
Java
- 形態分析
- その他
事前に保護されたモデル
- word2vec
- トランスベースのモデル
chatgpt
辞書とIME
コーパス
- 一部のスピーチタグ付け /名前付きエンティティ認識
- テキスト分類
- 平行コーパス
- ダイアログコーパス
- その他
チュートリアル
研究の概要
参照
貢献者

Pythonライブラリ

形態分析

sudachi.rs -sudachipy 0.6*以上はsudachi.rsとして開発されています。
ジャノメ - 純粋なパイソンで書かれた日本の形態分析エンジン
mecab-python3-mecab-python。 Mecab-Python。元のバージョンはこちらをご覧ください：http：//taku910.github.io/mecab/
MECAB-このリポジトリは、Windows 64ビットMECABバイナリを構築し、MECAB Python結合を改善するためのものです。
Fugashi-高速でピトニックな日本のトークン化と形態学的分析のためのCython Mecabラッパー。
ナギサ - 再発性ニューラルネットワークに基づく日本のトークナザー
PYKNP -Juman ++/KNP用のPythonモジュール
Mykytea -Python -KyteaのPythonラッパー
木の葉 - 木の葉：日本のトークンザーのシンプルなラッパー
Natto-Py-Natto-Pyは、Pythonプログラミング言語と、日本語用の品物および形態学的分析装置であるMecabと組み合わせています。
Rakutenma -Python -Rakuten MA（Pythonバージョン）
Python -Vaporetto -Vaporettoは、高速で軽量のポイントワイズ予測ベースのトークン剤です。これはVaporettoのPythonラッパーです。
Dango-言語学習者と非言語学者を対象とした日本のテキストに使用しやすいトークイザー
rhoknp-ジュマン++/KNPのためのさらに別のPythonバインディング
Python-vibrato-ヴィタビベースの加速トークンザー（Pythonラッパー）
Jagger-Python-JaggerのPythonバインディング（パターンベースの日本の形態分析装置のC ++実装）

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

解析

ginza-普遍的な依存関係に基づくフレームワークとしてスペイシーを使用する日本のNLPライブラリ
カボチャ - さらに別の日本の依存構造分析装置
unidic2ud-Tokenizer Pos-Tagger Lemmatizerおよび依存関係者向けの依存関係者
Camphr -Camphr -Pipelineコンポーネントを作成するためのNLP Libary
supar-unidic-バートモデルを備えた現代および現代の日本人向けのトークンザーPOS-TAGGAL lemmatizerおよび依存関係者
DEPCCG -A* SuperTagおよび依存関係因子モデルを備えたA* CCGパーサー
BERTKNP-バートに基づく日本の依存関係パーサー
Esupar-Bert/Roberta/Debertaモデルを備えたTokenizer Pos-Taggerと依存関係者
Yomikata-微調整されたBERTモデルを使用したヘテロニム除去ライブラリ。
Jdepp -Python -J.DeppのPythonバインディング（日本の依存関係パーサーのC ++実装）
LightBlue- DTS表現を備えた日本語用のCCGパーサー
Natsume-Simple-natsume-simplet

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

コンバータ

Pykakasi-日本のKana-Kanjiの文からKana-Romanへの軽量コンバーター。
カットレット - Pythonの日本語からRomaji Converter
alphabet2kana-英語のアルファベットをカタカナに変換します
Numbers-to-Apaneseを変換 - アラビア語の数字、または「西」スタイルの数字を日本の文脈に変換します。
Mozcpy -Mozc for Python：Kana -Kanji Converter
Jamorasep-日本のテキストパーサーヒラガナ/カタカナの弦をモラエ（音節）に分離します。
text2phoneme -日本語文を音素列へ変換するスクリプト
Jntajis -Python-日本国家税務機関（国税庁）のために定義されたスキームに基づいた高速キャラクター変換および音訳ライブラリ
Wiredify-Ba-bi-bu-be-boから日本のkanaをVa-vi-vu-vo-voに変換します
Mecab-text-cleaner-日本の測定値（Yomigana）を取得するためのシンプルなPythonパッケージ（CLI/Python API）およびMecabを使用したアクセント。
pynormalizenumexp -数量表現や時間表現の抽出・正規化を行う normalizenumexp
ジュショー - 日本の郵便番号データの簡単なラッパー
YureNizer-スペルの矛盾を解決する日本のテキストノーマライザー。（日本語表記揺れ解消ツール）

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

プリプロセッサ

Neologdn -Mecab -Neologdの日本のテキストNormalizer
jaconv-ヒラガナ、カタカナ、ハンカク、Zenkakuのための純粋なパイソン日本語キャラクターインターバーター
モヒモジ - 日本の園とゼンカクのキャラクターの間の高速コンバーター
テキストクリーニング - 日本のWebテキスト用の強力なテキストクリーナー
Hojichar -複数の前処理を構成して管理するテキスト前処理ツール
utsuho-utsuhoは、日本語の半幅のカタカナと全幅のカタカナ間の双方向変換を促進するPythonモジュールです。
Python -Habachen-さらに別の速い日本の弦楽器

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

文の分裂

Bunkai-日本のテキスト用の文の境界分解ツール（日本語文境界判定器）
日本語センテンスブレーカー - 日本の文章
Sengiri-日本のテキストのためのさらに別の文レベルのトークナー
Budoux-スタンドアロン。小さい。言語中立。 Budouxは、機械学習式のラインブレイクオーガナイザーツールであるBudouの後継者です。
JA_SENTENCE_SEGMENTER -Pythonの日本語セグメンテーションライブラリ
hasami-日本のテキストで文のセグメンテーションを実行するツール
Kuzukiri-錆で書かれたPython用の日本のテキストセグメントター
JA-Senterベンチマーク - 日本の文のセグメンテーションツールの比較

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

感情分析

OSETI-日本語の辞書ベースのセンチメント分析
ネガポジ - 日本の否定的な陽性分類。
Pymlask-日本のテキストの感情分析器
Asari -Pythonに実装された日本のセンチメントアナライザー。

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

機械翻訳

JPARACRAWL-FINETUNE- JPARACRAWL事前訓練を受けたニューラル機械翻訳（NMT）モデルの使用例。
JASS-JASS：神経機械翻訳の前トレーニング前のシーケンスの日本固有のシーケンス（LREC2020）および低リソース神経機械翻訳（ACMノリップ）のための言語駆動型マルチタスク前トレーニング
Phemt-日本語と英語の機械翻訳の堅牢性の現象の評価データセット。データセットはMTNTデータセットに基づいており、4つの言語現象の追加注釈があります。固有の名詞、省略名詞、口語表現、バリアント。 COLING 2020。
Visa-視覚的なシーンを認識している機械翻訳のための曖昧な字幕データセット

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

名前付きエンティティ認識

ナマコ - キャラクターベースの名前付きエンティティ認識。
EntityPedia -EntityPediaは、ウィキペディアの拡張名前付きEntity Dictionaryです。
Noyaki-文字スパンラベル情報をトークン化されたテキストベースのラベル情報に変換します。
BERT-JAPANEES-NER-FINETUNING-BERTモデルの微調整を実行するコード。バートモデルのファインチューニングで固有表現抽出用タスクのモデルを作成・使用するサンプルです
共同情報 - 抽出-HS-詳細なアノテーション基準に基づく症例報告コーパスからの固有表現及び関係の抽出精度の推論を行うコード
pygeonlp -pygeonlp、日本のテキストをジオタグするためのPythonモジュール。
Bert-ner-Japanese-bertによる日本語固有表現抽出のファインチューニング用プログラム
Huggingface-finetune-Japanese-日本語用のエンコーダーのみおよびエンコーダデコーダートランス

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

OCR

マンガOCR-日本のテキストの光学的文字認識について、主な焦点は日本の漫画です
長石 - 選択可能なテキストでブラウザ内で日本の漫画を読んでください。
手書き - 日本 - occ-タッチパネルを使用した手書きの日本のOCRデモは、Intel OpenVinoツールキットを使用して入力テキストを描画する
ocr_japanease -ocr
ndlocr_cli -ndlocrのアプリケーション
ドーナツ - OCRフリードキュメント理解トランス（ドーナツ）および合成文書ジェネレーター（Synthdog）の公式実装、ECCV 2022
JMTRANS-マンガ翻訳者 - ムンガの画像を翻訳するためにURLから日本の漫画を入手する
Kindai -ocr-現代の日本の雑誌を認識するためのOCRシステム
text_recognition -ndlocr用テキスト認識モジュール
Poricom-マンガ画像の光学文字認識。 Manga OCRデスクトップアプリケーション
OWOCR-日本のテキストの光学文字認識
Yomitoku -Yomitokuは、日本語向けに特別に設計されたAI駆動のドキュメント画像分析パッケージです。

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

前処理されたモデル用のツール

JGlue -JGlue：日本の一般的な言語理解評価
Ginza-Transformers-Spacy-Transformersでカスタムトークンザーを使用します
T5_JAPANESE_DIALOGUE_GENERATION -T5による会話生成
日本語_text_classification- MLP、CNN、RNN、BERTアプローチなど、さまざまなDNNテキスト分類子を調査します。
Japanybert-Sentiment-analyzer- FastapiとBertを使用してSentiment Analysis Serverを展開する
JMLM_SCORING-日本とベトナムのマスクされた言語モデルベースのスコアリング
allennlp-shiba-model-chibaのallennlp統合：日本の犬モデル
evaluate_japanese_w2v-日本の類似性データセットで事前に訓練された日本のword2vecモデルを評価するスクリプト
Gector-JA-日本語のBERTベースのGECタグ付け
日本 - bpeencoder-日本 - bpeencoder
Japany-Bpeencoder_v2-日本語Bpeencoderバージョン2
トランスコピー - 日本語文法誤り訂正ツール
日本の安定拡散 - 日本の安定した拡散は、テキスト入力を考慮して写真と現実的な画像を生成できる日本固有の潜在的なテキストから画像への拡散モデルです。
nagisa_bert-ナギサのバートモデル
プレフィックス-Tuning-GPT-プレフィックスチューニングGPT/GPT-NEOXモデルの例と、訓練されたプレフィックスを使用した推論のためのコード
jglue -benchmark-日本語の理解ベンチマークであるJglueのトレーニングと評価スクリプト
JPTRANSTOKENIZER-トランスフォーマーライブラリ用の日本のトークンザー
JP -Stable -JP言語モデル評価ハーネス
比較jaトコーネザ - Scriptio Continua言語のダウンストリームタスクでさまざまなトークンザーがどのように機能しますか？：日本ACL SRW 2023のケーススタディ
LM-Evaluation-Harness-JP-Stable-自己回帰言語モデルの少数のショット評価のフレームワーク。
LLM-Lora-Classification-LLM-Lora-Classification
JP -Stable -JP言語モデル評価ハーネス
rinna_gpt-neox_ggml-lora-リポジトリにはスクリプトが含まれており、「Rinna/Japanine-Gpt-Neox ...」[GPT-Neox]モデルをGGMLに変換した場合に、LORAチューニング用のAlpaca-Loraアダプターを適応するように変更されたスクリプトとマージスクリプトが含まれています。
日本-llm-roleplay-benchmark-このリポジトリは日本語llmのキャラクターロールプレイに関する性能を評価するために作成しました。
日本語ランク - このリポジトリは、LMSYSのVicuna Evalの日本に焦点を当てたアナログであるYuzuaiの日本のLLMSのRakudaリーダーボードをサポートしています。
LLM-JP-EVAL-このツールは、複数のデータセットを横断して日本語の大規模言語モデルを自動評価するものです．
LLM-JP-SFT-このリポジトリには、LLM-JPモデルの監視付き微調整のコードが含まれています。
LLM-JPトコーネザ-LLM
日本-LM-fin-harness-日本語モデルの財務評価ハーネス
Ja-vicuna-qa-benchmark-日本のVicuna qaベンチマーク
飲み込み式 - 飲み込みプロジェクトプロジェクト評価スクリプト

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

その他

Angimingivider -Python-日本のフルネームを姓と特定の名前に分割するためのツール。
ASA -Python-日本語のためのNLPのPythonライブラリに特化したリソースのキュレーションリスト
python_asa -python
Toiro-日本のトークンザーの比較ツール
JA -TIMEX -自然言語で書かれた時間情報表現を抽出/規格化するルールベースの解析器
Japanesetokenizers-テキストデータからの機能選択のメトリックのセット
DAAJA-このリポジトリには、日本語のNLPのデータ増強の実装があります。
Accel-Brain-Code-このリポジトリの目的は、私が自分のウェブサイトで書いた概念実証（POC）と研究開発（R＆D）のコンテキストでケーススタディとしてプロトタイプを作成することです。主な研究トピックは、表現学習、エネルギーベースのモデルの統計機械学習、敵対的な生成ネットに関連する自動エンコーダーです…
Kyoto -Reader -Kyotocorpus、Kwdlc、およびAnnotatedFkcccorpusのプロセッサ
NLPLOT-自然言語処理用の視覚化モジュール
Rake -JA-日本語用の迅速な自動キーワード抽出アルゴリズム
JEL-日本のエンティティリンカー。
Medner -J -Medex/Jの最新バージョン（日本の病気の名前抽出器）
Zunda -Python -Zunda：Python用の日本の強化モダリティアナライザークライアント。
AIO2_DPR_BASELINE -https：//www.nlp.ecei.tohoku.ac.jp/projects/aio/
ショーケース-matsubayashi＆Inui（2018）の論文で提示された日本の述語argument構造（PAS）アナライザーのPytorchの実装。いくつかの改善があります。
Darts-Clone-Python-Darts-Clone Pythonバインディング
jrte -corpus_example-日本の現実的なテキスト密集コーパスの例のコード
Desuwa- KNPルールファイル（Pure -Python）に基づく形態素とフレーズへのアノテーター機能
hotpeppergourmetdialogue-日本語での対話を通じてレストラン検索システム。
NLP-RECIPES-JA-日本語の自然言語処理のコードをサンプル
日本語_nlp_scripts -pythonで日本のテキストを操作するための小さな例スクリプト
Dnorm -J-日本語版Dnorm
Pyknp-Eventgraph-EventGraphは、日本語の高レベルNLPアプリケーションの開発プラットフォームです。
ISHI -ISHI：日本語のボリューション分類器
python -npylm -ベイズ階層言語モデルによる教師なし形態素解析
python -npycrf -条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析
監視されていないPOSタグ - 教師なし品詞タグ推定
Negima-Negimaは、定義した一部のスピーチベースのルールを使用して、日本のテキストでフレーズを抽出するPythonパッケージです。
youyakuman-要約モデルとしてBertsumを使用した抽出要約
日本語数-Python-自然言語の日本語数（漢字、アラビア語）のパーサー。
カンタン - 急進的なパターンによる日本語の単語を検索します
Make-Meidai-Dialogue-日本の対話コーパスを入手してください
日本語_summarizer-日本の記事の要約。
Chirptext -Chirptextは、Python用のテキスト処理ツールのコレクションです。
Yubin-日本の住所Munger
Jawiki -Cleaner-日本のウィキペディアクリーナー
Japanes2Phoneme-日本語を音素に変換するためのPythonライブラリ。
ANLP_NLP2021_D3-1-このリポジトリには、「センチメントベースのテキスト分類のための日本のトークンザーの実験的評価」の実験に関連するコードが含まれています。
aozora_classification-このプロジェクトについては、日本の文章を、Soseki natsume、ogai mori、akutagawaの龍一など、日本の古典作家とどれほどよく似たものに分類することを目指しています。
aozora-corpus-generator- aozora bunkoからプレーンまたはトークン化されたテキストファイルを生成します
JLM-日本や中国語のような大規模な語彙言語のための高速LSTM言語モデル
NTM-日本の記事の神経トピックモデリングのテスト
EN-JP-ML-Lexicon-これは、機械学習と深い学習用語のための英語と日本語の辞書です。
テキストジェネレーション - 独自のテキストでGPT-2-JAを微調整し、文を生成し、自動的にツイートするための使いやすいスクリプト。
Chainer_nic -Neural Image Caption（nic）Chainer、英語と日本の画像キャプションデータセットの前提型モデル。
Unihan-LM-「Unihanlm：Unihanデータベースを使用した粗から洗練された中国語 - 日本語モデルの前登録」の公式リポジトリ、AACL-IJCNLP 2020
MBART -FINETUNING -MBARTモデルのFinetuningを実行するコード。
xvector_jtubespeech -jtubespeech上のxvectorモデル
TinySegmentermaker -TinySegmenter 用の学習モデルを自作するためのツール．
grongish-日本語とグロンギ語の相互変換スクリプト
wordcloud -apanese -wordcloudでの日本語文章をmecab （形態素解析エンジン）を使用せずに形態素解析チックな表示を実現するスクリプト
スナーク - 日本語ワードネットを利用したdbアクセスライブラリ
Toemoji -日本語文を絵文字だけの文に変換するなにか
termextract--専門用語抽出アルゴリズムの実装の練習
jdt-with-kenlm-scoring-Japanady-dialog-transformer
混合混合-Unigram-Model-ユニグラムモデルの混合とPythonのUnigramモデルの無限の混合物。（混合ユニグラムモデルと無限混合ユニグラムモデル）
Hidden-Markov-Model-PythonのHidden Markov Model（HMM）およびInfinite Hidden Markov Model（IHMM）。（隠れマルコフモデルと無限隠れマルコフモデル）
Ngram-Language-Model-PythonのNgram Language Model。（nグラム言語モデル）
asrdeepspeech -Zakuro AIのサポートを受けたPytorchのDeepspeech2モデルを使用した自動音声認識。
Neural_ime-ニューラルIME：ニューラル入力メソッドエンジン
neural_japanese_transliterator-ニューラルネットワークはロマジを正しく日本語に変換することができますか？
TinySegmenter-日本語用に指定されたトークンザー
Augly -JP- Ouglyの日本のテキストのデータ増強
Furigana4epub-メカブとUnidicを使用して、日本のepub本にFuriganaを追加するためのPythonスクリプト。
Pykatsuyou-日本の動詞/形容詞変曲ツール
JageoCoder -Pure Python日本語アドレスジオコーダー
pygeonlp -pygeonlp、日本のテキストをジオタグするためのPythonモジュール。
NKSND -New Kana -Kanji Conversion Engine
ジェイミー - 日本の医療情報抽出ツールキット
FastText-VS-Word2Vec-on-Twitter-Data-fastText とword2vecの比較と、実行スクリプト、学習スクリプトです
Minimal-search-engine-最小のサーチエンジン/pagerank/tf-idf
5CH分析-5CH の過去ログをスクレイピングして、過去流行った単語（ex、香具師、orz）などを追跡調査
tweet_extructor -twitter日本語評判分析データセットのためのツイートダウンローダ
日本語と凝集 - Juman ++とConceptNet5.5に基づいて日本語の単語を集約する
JINF-日本の変曲変換器
KWJA-日本語の統一言語分析器
MLMスコアリングトランスフォーラー - マスクされた言語モデルスコアリング（ACL2020）に基づいて再現されたパッケージ。
Japane-for-Japanese-clipcap-for-apaneseのためのクリップキャップ
日本 - 日本 - [Pytorch]日本語に出席し、伝える
CIHAI -CJK用のPythonライブラリ（中国語、日本、韓国語）言語辞書
マリン - マリン：マルチタスク学習ベースの日本アクセントの推定
whisper-asr-finetune-微調整されたささやきASRモデル
Japany_chatbot -BertとTransformer's Decoderを使用した日本のチャットボットのPytorch実装
RadicalChar -部首文字正規化ライブラリ
Akaza-イブス/Linuxのもう1つの日本のIME
Posuto-日本の郵便番号データ。
Tacotron2 -Japanese -Tacotron2日本語の実装
Ibus -hiragana -ひらがなイブスのime
Furiganapad -ふりがなパッド
Chikkarpy-日本の同義語ライブラリ
Ja-Tokenizer-Docker-Py-Mecab + Neologd + docker + python3
日本造影val-日本造影val
gptuber-by-langchain-gptあなたYoutuberをやります
Shuwa-入力方法のためにGNOMEオンスクリーンキーボードを拡張します
Japany-Nli-Model-このリポジトリは、微調整されたマスク言語モデルである日本のNLIモデルのコードを提供します。
Tra-Fugu- fugumtを使用した日本語翻訳と英語と日本の翻訳のためのツール
fugumt -ぷるーふおぶこんせぷとで公開した機械翻訳エンジンを利用する翻訳環境です。フォームに入力された文字列の翻訳、 pdfの翻訳が可能です。
Jaspice -jaspice：画像キャプションモデルの述語argument構造を使用した自動評価メトリック
検索ベースのVoice-Conversion-Webui-JP-Localization-JP-Localization
Pyopenjtalk -OpenJTalkのPythonラッパー
Yomigana -ebook-電子ブック内のすべての漢字の読み物を追加することで、日本語の学習を簡単にします
N46Whisper-ささやきベースの日本の字幕ジェネレーター
日本_llm_simple_webui -rinna -3.6b
PDF-Translator-PDF-Translatorは、英語のPDFファイルを日本語に変換し、元のレイアウトを保存します。
日本語_qa_demo_with_haystack_and_es -haystack + elasticsearch + wikipedia（ja）を用いた、日本語の質問応答システムのサンプル
mozc-devices-code.google.com/p/mozc-morseから自動的にエクスポート
natsume-日本のテキストフロントエンド処理ツールキット
Vits-japros-webui-日本語tts（ vits ）の学習と音声合成のグラデーションWebui
Ja-Law-Parser-日本の法律パーサー
ディクテーションキット - ジュリアスを使用した日本の口述キット
julius4seg -juliusを使ったセグメンテーション支援ツール
VoiceVox_Engine -無料で使える中品質なテキスト読み上げソフトウェア、 VoiceVoxの音声合成エンジン
llava-jp-llava-jpはLlavaメソッドによって訓練された日本のVLMです
Rag -Japanese-低リソースの日本のLLMのLlamaインデックスを備えたオープンソースのぼろきれ
BERTJSC- BERT（マスクされた言語モデル）を使用した日本のスペルエラー補正装置。バートに基づいて日本語校正
LLM -Leaderboard-日本のタスクに対するLLM評価のプロジェクト
jglue-evaluation-scripts-日本語理解ベンチマークであるJglueのトレーニングと評価スクリプトについて
BLIP2-JAPANES-日本のデータセットで前提条件のモデルを備えたLavisのBlip2 Q-Formerを変更します。
Wikipedia-Passages -Jawiki-embeddings-utils-Wikipedia
Simple-Simcse-Ja-日本のSimcseの探索
Wikipedia-Japanese-Open-Rag-Wikipedia
gpt4-autoeval-gpt-4を用いて、言語モデルの応答を自動評価するスクリプト
T5 -JAPANESE -日本語T5モデル
日本語_llm_eval-日本のllmsを評価するためのレポ
JMTEB -JMTEBの評価スクリプト（日本の大規模なテキスト埋め込みベンチマーク）
Pydomino -日本語音声に対して音素ラベルをアラインメントするためのツールです
EasyNovelassistant -軽量で規制も検閲もない日本語ローカルLLM
Clip -Japanese -日本語データセットでのQlora命令チューニング学習サンプルコード
Rime -Jaroomaji-ライムIME用の日本のroōmaji入力スキーマ
深い質問 - 深層学習を用いたクイズ自動生成（日本語 T5 モデル）
Magpie-Nemotron-Magpieという手法とnemotron-4-340b-instructを用いて合成対話データセットを作るコード
qlora_ja -日本語データセットでのqlora命令チューニング学習サンプルコード
Mozcdic-ut-jawiki-Mozc Ut Jawiki辞書は、Mozcの日本のウィキペディアから生成された辞書です。
Shisa -V2-日本 /英語バイリンガルLLM
LLM-Translator-MixTralベースのJA-EN（EN-JA）翻訳モデル
LLM-JP-ASR-WhisperのデコーダをLLM-JP-1.3B-V1.0
Rag -Japanese-低リソースの日本のLLMのLlamaインデックスを備えたオープンソースのぼろきれ
モナカ - 日本のパーサー（歴史的な日本人を含む）
jp-translate.cloud-最新のNMT研究に基づいた最先端のオープンソース日本<->英語の機械翻訳システム。
Substring-word-finder-連続部分文字列の単語判定を行います
Heron-VLM-Leaderboard-このプロジェクトは、さまざまなビジョン言語モデル（VLM）のパフォーマンスを評価および比較するためのベンチマークツールです。 2つのデータセットを使用しています：Llava-bench-in-the-Wildと日本のヘロンベンチは、モデルのパフォーマンスを測定します。
Text2Dataset-オープンLLMを使用して、大きな英語のテキストデータセットを簡単に日本のテキストデータセットに変えます。
mecab-web-api-mecabを利用した日本語形態素解析webapi
Mecab_Controller -MecabラッパーFuriganaの測定値を生成します。
vits -vitsによるテキスト読み上げ器＆ボイスチェンジャー
akari_chatgpt_bot -音声認識、文章生成、音声合成を使って対話するチャットボットアプリ

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

C ++

形態分析

Mecab-さらに別の日本の形態分析装置
Jumanpp -Juman ++（形態学的分析装置ツールキット）
Kytea-単語のセグメンテーションと発音の推定などのための京都テキスト分析ツールキット

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

解析

カボチャ - さらに別の日本の依存構造分析装置
KNP-日本のパーサー

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

その他

JSC-日本のカナカンジ変換、中国のピンイン入力、CJE混合入力のためのジョイントソースチャネルモデル。
Aquaskk-形態学的解析のない入力方法。
MOZC -MOZC-マルチプラットフォーム向けに設計された日本の入力メソッドエディター
Trimatch -Trimatch：an（Exact | Prefix | Amproximate）文字列マッチングライブラリ
repembla -repembla：Wordベースの日本の類似文検索ライブラリ
corvusskk -▽▼skk -like日本の入力方法編集者Windowsの編集者

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

さびたクレート

形態分析

Lindera-形態学的分析ライブラリ。
Vaporetto -Vaporetto：非常に加速された点ワイズ予測ベースのトークネザー
Goya-錆で書かれた日本の形態分析
ビブラート - ビブラート：Viterbiベースの加速トークネイザー
ヨイン - 純粋な錆で書かれた日本の形態学的分析装置
mecab-rs-メカブ用の安全な錆のバインディングは、物語の一部と形態学的アナライザーライブラリのためのバインディング
AWABI- MECAB辞書を使用した形態学的分析器
Kanpyo-錆で書かれた日本の形態分析器

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

コンバータ

wana_kana_rust-日本語のキャラクター間のチェックと変換のためのユーティリティライブラリ - ヒラガナ、カタカナ - 、ロマジ
Unicode-JP-RS-日本の半幅川径[半角ｶﾅ]と広いαの[全角英数]を通常のものに変換する錆ライブラリ
kana- [ミラー]ヒラガナまたはカタカナのいずれかにロマジのテキストを音訳するためのCLIプログラム
カナリア - このライブラリは、ひらがな・カタカナ、半角・全角の相互変換や判別を始めとした機能を提供します。
日本 - アドレスパーサー-日本の住所を都道府県/市区町村/町名/その他に分割するライブラリです

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

検索エンジンライブラリ

Lindera -Tantivy -Tantivy用のLinderaトークネザー。
Tantivy -Bibrato-ビブラートを使用したタンティビートークネザー。

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

その他

Daachorse-Rustのコンパクトなダブルアレイデータ構造を使用したAho-Corasickアルゴリズムの高速実装。
find-simdoc-同様のドキュメントのすべてのペアを時間とメモリ効率を高める
Crawdad-文字ごとのダブルアレイトライを使用した自然言語辞書の錆ライブラリ。
トークンザー - スピードベンチ - さまざまなトークナザーの比較コード
StringMatch -Bench-ここでは、文字列マッチングのデータ構造のパフォーマンスを比較するためのベンチマークツールを提供します。
Vime- X11アプリの入力方法としてVIMを使用する
Voicevox_core -無料で使える中品質なテキスト読み上げソフトウェア、 voicevoxのコア
Akaza-イブス/Linuxのもう1つの日本のIME
Jotoba-無料のオンライン、自己ホースト可能なマルチラング日本の辞書。
dvorakjp -romantable -google日本語入力用dvorakjpローマ字テーブル / dvorakjpローマ日本語入力
niinii-イチランを使用したテキストを読むのに役立つ日本のグロセーター
CSKK -SKK（Simple Kana Kanji Henkan）ライブラリ
ジャパンキ - 日本の音声を学ぶ?? CLIでクイズをすることによって！
JPREPROCESS-テキストからスピーチへのアプリケーション用の日本のテキストプリプロセッサ（OpenJTalk Rust Lauth Lanudtaing）
listup_precedent-裁判例のデータ一覧を裁判所のホームページ（https://www.courts.go.jp/index.html）をスクレイピングして生成するソフトウェア
Jisho -Jishoは、日本語と英語の辞書を提供するCLIツール＆Rustライブラリです。

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

JavaScript

形態分析

Kuromoji.js -JavaScript日本の形態分析装置の実装
Rakutenma -Rakuten MA-純粋にJavaScriptで書かれた中国語と日本のモルフォロジー分析装置（Word Samegortor + POS Tagger）。リソース
node-mecab-ya- nodejsのもう1つのメカブラッパー
Juman-Bin-日本語用のユーザー拡張可能な形態分析装置。日本語形態素解析システム
Node-Mecab-async- Mecabを使用した非同期の日本の形態分析器。

統計テーブル（github星/ダウンロード）を確認するには、このページを参照してください。？トップに戻ります

コンバータ

黒島 - 日本語の文章を、日本の文章をヒラガナ、カタカナ、またはロマジに変換して、フリガナとオクリガナのモードをサポートしています。
黒島 - アナリゼル・クロモジ - 黒子岩の黒子形態分析装置。
hepburn -node.jsモジュール日本のヒラガナとカタカナのスクリプトをhepburn romanisationを使用してロマジーに変換するためのモジュール
日本語から数字まで - 日本の数字を数に変換します
Jslingua -JavaScriptライブラリテキストを処理する：アラビア語、日本語など。
ワナカナ-hiraganaを検出して音訳するためのJavascriptライブラリ< - > katakana <-> Romaji
Node-Romaji-name-ロマジに基づく日本名で一般的な問題を正常化および修正します。
kyujitai.js-日本のテキストを昔ながらにするためのユーティリティコレクション
normalize-japanese-addresses - オープンソースの住所正規化ライブラリ。
jaconv - 日本語文字変換ライブラリ (javascript)
romaji-conv - Convert romaji into hiragana
japanese-addresses-v2 - 全国の住所データAPI
jptext-to-emoji - テキストの単語を絵文字に変換する

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

その他

bangumi-data - Raw data for Japanese Anime
yomichan - Japanese pop-up dictionary extension for Chrome and Firefox.
proofreading-tool - GUIで動作する文書校正ツール GUI tool for textlinting.
kanjigrid - A web-app displaying the 2200 kanji characters taught in James Heisig's "Remembering the Kanji", 6th edition.
japanese-toolkit - Monorepo for Kanji, Furigana, Japanese DB, and others
analyze-desumasu-dearu - 文の敬体(ですます調)、常体(である調)を解析するJavaScriptライブラリ
hatsuon - Japanese pitch accent utils
sentiment_ja_js - Sentiment Analysis in Japanese. sentiment_ja with JavaScript
mecab-ipadic-seed - mecab-ipadic seed dictionary reader
Japanese-Word-Of-The-Day - Well, a different Japanese word everyday.
oskim - Extend GNOME On-Screen Keyboard for Input Methods
tweetMapping - 東日本大震災発生から24時間以内につぶやかれたジオタグ付きツイートのデジタルアーカイブです。
pitch-accent - Predict pitch accent in Japanese
kana2ipa - 「ひらがな」または「カタカナ」を日本語で発音する際の音声記号(IPA)に変換するコマンド
voicevox - 無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのエディター

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

行く

Morphology analysis

kagome - Self-contained Japanese Morphological Analyzer written in pure Go

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

その他

ojosama - テキストを壱百満天原サロメお嬢様風の口調に変換します
nihongo - Japanese Dictionary
yomichan-import - External dictionary importer for Yomichan.
imas-ime-dic - THE IDOLM@STER words dictionary for Japanese IME (by imas-db.jp)
go-kakasi - Kanji transliteration to hiragana/katakana/romaji, in Go
go-moji - A Go library for Zenkaku/Hankaku conversion
ojichat - おじさんがLINEやメールで送ってきそうな文を生成する
name - Name Searcher in Japanese

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

Java

Morphology analysis

kuromoji - Kuromoji is a self-contained and very easy to use Japanese morphological analyzer designed for search
Sudachi - A Japanese Tokenizer for Business
SudachiDict - A lexicon for Sudachi
meval - 形態素解析器性能評価システム MevAL

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

その他

kanjitomo-ocr - Java library for identifying Japanese characters from images
jakaroma - Java library and command-line tool to transliterate Japanese kanji to romaji (Latin alphabet)
kakasi-java - Kanji transliteration to hiragana/katakana/romaji, in Java
Kamite - A desktop language immersion companion for learners of Japanese
react-native-japanese-tokenizer - Async Japanese Tokenizer Native Plugin for React Native for iOS and Android
elasticsearch-analysis-japanese - Japanese analyzer uses kuromoji japanese tokenizer for ElasticSearch
moji4j - A Java library to converts between Japanese Hiragana, Katakana, and Romaji scripts.
neologdn-java - Japanese text normalizer for mecab-neologd
elasticsearch-sudachi - The Japanese analysis plugin for elasticsearch

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

Pretrained model

Word2Vec

japanese-words-to-vectors - Word2vec (word to vectors) approach for Japanese language using Gensim and Mecab.
chiVe - Japanese word embedding with Sudachi and NWJC
elmo-japanese - elmo-japanese
embedrank - Python Implementation of EmbedRank
aovec - Easy aozorabunko Word2Vec Builder - 青空文庫全書籍のWord2Vecビルダー+構築済みモデル
dependency-based-japanese-word-embeddings - This is a repository for the AI LAB article "係り受けに基づく日本語単語埋込 (Dependency-based Japanese Word Embeddings)" ( Article URL https://ai-lab.lapras.com/nlp/japanese-word-embedding/)
jawikivec - Yet Another Japanese-Wikipedia Entity Vectors
jawiki_word_vector_updater - 最新の日本語Wikipediaのダンプデータから，MeCabを用いてIPA辞書と最新のNeologd辞書の両方で形態素解析を実施し，その結果に基づいた word2vec，fastText，GloVeの単語分散表現を学習するためのスクリプト

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

Transformer based models

bert-japanese - BERT models for Japanese text.
japanese-pretrained-models - Code for producing Japanese pretrained models provided by rinna Co., Ltd.
bert-japanese - BERT with SentencePiece for Japanese text.
SudachiTra - Japanese tokenizer for Transformers
japanese-dialog-transformers - Code for evaluating Japanese pretrained models provided by NTT Ltd.
shiba - Pytorch implementation and pre-trained Japanese model for CANINE, the efficient character-level transformer.
Dialog - A PyTorch Implementation of japanese chatbot using BERT and Transformer's decoder
language-pretraining - BERT and ELECTRA models of PyTorch implementations for Japanese text.
medbertjp - Trials of pre-trained BERT models for the medical domain in Japanese.
ILYS-aoba-chatbot - ILYS-aoba-chatbot
t5-japanese - Codes to pre-train Japanese T5 models
pytorch_bert_japanese - PytorchでBERTの日本語学習済みモデルを利用する
Laboro-BERT-Japanese - Laboro BERT Japanese: Japanese BERT Pre-Trained With Web-Corpus
RoBERTa-japanese - Japanese BERT Pretrained Model
aMLP-japanese - aMLP Transformer Model for Japanese
bert-japanese-aozora - Japanese BERT trained on Aozora Bunko and Wikipedia, pre-tokenized by MeCab with UniDic & SudachiPy
sbert-ja - Code to train Sentence BERT Japanese model for Hugging Face Model Hub
BERT-Japan-vaccination - Official fine-tuning code for "Emotion Analysis of Japanese Tweets and Comparison to Vaccinations in Japan"
gpt2-japanese - Japanese GPT2 Generation Model
text2text-japanese - gpt-2 based text2text conversion model
gpt-ja - GPT-2 Japanese model for HuggingFace's transformers
friendly_JA-Model - MT model trained using the friendly_JA Corpus attempting to make Japanese easier/more accessible to occidental people by using the Latin/English derived katakana lexicon instead of the standard Sino-Japanese lexicon
albert-japanese - BERT with SentencePiece for Japanese text.
ja_text_bert - 日本語WikipediaコーパスでBERTのPre-Trainedモデルを生成するためのリポジトリ
DistilBERT-base-jp - A Japanese DistilBERT pretrained model, which was trained on Wikipedia.
bert - This repository provides snippets to use RoBERTa pre-trained on Japanese corpus. Our dataset consists of Japanese Wikipedia and web-scrolled articles, 25GB in total. The released model is built based on that from HuggingFace.
Laboro-DistilBERT-Japanese - Laboro DistilBERT Japanese
luke - LUKE -- Language Understanding with Knowledge-based Embeddings
GPTSAN - General-purpose Swich transformer based Japanese language mode
japanese-clip - Japanese CLIP by rinna Co., Ltd.
AcademicBART - We pretrained a BART-based Japanese masked language model on paper abstracts from the academic database CiNii Articles
AcademicRoBERTa - We pretrained a RoBERTa-based Japanese masked language model on paper abstracts from the academic database CiNii Articles.
LINE-DistilBERT-Japanese - DistilBERT model pre-trained on 131 GB of Japanese web text. The teacher model is BERT-base that built in-house at LINE.
Japanese-Alpaca-LoRA - 日本語に翻訳したStanford Alpacaのデータセットを用いてLLaMAをファインチューニングし作成したLow-Rank AdapterのリンクとGenerateサンプルコード
albert-japanese-tinysegmenter - Pretrained models, codes and guidances to pretrain official ALBERT(https://github.com/google-research/albert) on Japanese Wikipedia Resources
japanese-llama-experiment - Japanese LLaMa experiment
easylightchatassistant - EasyLightChatAssistant は軽量で検閲や規制のないローカル日本語モデルのLightChatAssistant を、KoboldCpp で簡単にお試しする環境です。

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

chatgpt

VRChatGPT - ChatGPTを使ってVRChat上でお喋り出来るようにするプログラム。
AITuberDegikkoMirii - AITuberの基礎となる部分を開発しています
wanna - Shell command launcher with natural language
ChatdollKit - ChatdollKit enables you to make your 3D model into a chatbot
ChuanhuChatGPTJapanese - GUI for ChatGPT API For Japanese
AISisterAIChan - ChatGPT3.5を搭載した伺かゴースト「AI妹アイちゃん」です。利用には別途ChatGPTのAPIキーが必要です。
vrchatbot - VRChatにAI Botを作るためのリポジトリ
gptuber-by-langchain - GPTがYouTuberをやります
openai-chatfriend - A chatbox application built using Nuxt 3 powered by Open AI Text completion endpoint. You can select different personality of your AI friend. The default will respond in Japanese. You can use this app to practice your Nihongo skills!
chrome-ext-translate-to-hiragana-with-chatgpt - This Chrome extension can translate selected Japanese text to Hiragana by using ChatGPT.
azure-search-openai-demo - このサンプルでは、Retrieval Augmented Generation パターンを使用して、独自のデータに対してChatGPT のような体験を作成するためのいくつかのアプローチを示しています。
chatvrm - ChatVRMはブラウザで簡単に3Dキャラクターと会話ができるデモアプリケーションです。
sftly-replace - A Chrome extention to replace the selected text softly
summarize_arxv - Summarize arXiv paper with figures
aiavatarkit - Building AI-based conversational avatars lightning fast
pva-aoai-integration-solution - このリポジトリは、神戸市役所でのChatGPTの試行利用に向けて作成したフロー等をソリューション化し公開するものです。
jp-azureopenai-samples - Azure OpenAIを活用したアプリケーション実装のリファレンスを目的として、アプリのサンプル（リファレンスアーキテクチャ、サンプルコードとデプロイ手順）を無償提供しています。
character_chat - OpenAIのAPIを利用して、設定したキャラクターと日本語で会話するチャットスクリプトです。
chatgpt-slackbot - OpenAIのChatGPT APIをSlack上で利用するためのSlackbotスクリプト (日本語での利用が前提)
chatgpt-prompt-sample-japanese - ChatGPT の Prompt のサンプルです。
kanji-flashcard-app-gpt4 - A Japanese Kanji Flashcard App built using Python and Langchain, enhanced with the intelligence of GPT-4.
IgakuQA - Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations
japagen - 日本語タスクにおけるLLMを用いた疑似学習データ生成の検討

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

Dictionary and IME

mecab-ipadic-neologd - Neologism dictionary based on the language resources on the Web for mecab-ipadic
tdmelodic - A Japanese accent dictionary generator
jamdict - Python 3 library for manipulating Jim Breen's JMdict, KanjiDic2, JMnedict and kanji-radical mappings
unidic-py - Unidic packaged for installation via pip.
Japanese-Company-Lexicon - Japanese Company Lexicon (JCLdic)
manbyo-sudachi - Sudachi向け万病辞書
jawiki-kana-kanji-dict - Generate SKK/MeCab dictionary from Wikipedia(Japanese edition)
JIWC-Dictionary - dictionary to find emotion related to text
JumanDIC - This repository contains source dictionary files to build dictionaries for JUMAN and Juman++.
ipadic-py - IPAdic packaged for easy use from Python.
unidic-lite - A small version of UniDic for easy pip installs.
emoji-ime-dictionary - 日本語で絵文字入力をするための IME 追加辞書 orange_book Google 日本語入力などで日本語から絵文字への変換を可能にする IME 拡張辞書
google-ime-dictionary - 日英変換・英語略語展開のための IME 追加辞書 orange_book 日本語から英語への和英変換や英語略語の展開を Google 日本語入力や ATOK などで可能にする IME 拡張辞書
dic-nico-intersection-pixiv - ニコニコ大百科とピクシブ百科事典の共通部分のIME辞書
google-ime-user-dictionary-ja-en - GoogleIME用カタカナ語辞書プロジェクトのアーカイブです。Project archive of Google IME user dictionary from Katakana word ( Japanese loanword ) to English.
emoticon - Google日本語入力の顔文字辞書∩(,,Ò‿Ó,,)∩
mecab-mozcdic - open source mozc dictionaryをMeCab辞書のフォーマットに変換したものです。
denonbu-ime-dic - 電音IME: Microsoft IMEなどで利用することを想定した「電音部」関連用語の辞書
nijisanji-ime-dic - Microsoft IMEなどで利用することを想定した「にじさんじ」関連用語の用語辞書です。
pokemon-ime-dic - Microsoft IMEなどで利用することを想定した、現状判明している全てのポケモンの名前を網羅した用語辞書です。
EJDict - English-Japanese Dictionary data (Public Domain) EJDict-hand
Ayashiy-Nipongo-Dic - 贵樣ばこゐ辞畫を使て正レい日本语を使ラことが出來ゑ。
genshin-dict - Windows/macOSで使える原神の単語辞書です
jmdict-simplified - JMdict and JMnedict in JSON format
mozcdict-ext - Convert external words into Mozc system dictionary
mh-dict-jp - MonsterHunterのユーザー辞書を作りたい…
jitenbot - Convert data from Japanese dictionary websites and applications into portable file formats
mecab-unidic-neologd - Neologism dictionary based on the language resources on the Web for mecab-unidic
hololive-dictionary - ホロライブ（ホロライブプロダクション）に関する辞書ファイルです。./dictionary フォルダ内のテキストファイルを使って、IMEに単語を追加できます。詳細はREADME.mdをご覧ください。
jmdict-yomitan - JMdict, JMnedict, KANJIDIC for Yomitan/Yomichan.
yomichan-jlpt-vocab - JLPT level tags for words in Yomichan
Jitendex - A free and openly licensed Japanese-to-English dictionary compatible with multiple dictionary clients
jiten - japanese android/cli/web dictionary based on jmdict/kanjidic — 日本語辞典和英辞典漢英字典和独辞典和蘭辞典
pixiv-yomitan - Pixiv Encyclopedia Dictionary for Yomitan
uchinaaguchi_dict - うちなーぐち辞典（沖縄語辞典）
yomitan-dictionaries - Japanese and Chinese dictionaries for Yomitan.
mouse_over_dictionary - マウスオーバーした単語を自動で読み取る汎用辞書ツール
jisyo - かな漢字変換エンジン SKKのための新しい辞書形式
skk-jisyo.emoji-ja - 日本語の読みから Emoji に変換するための SKK 辞書 ?
anthy - Anthy is a kana-kanji conversion engine for Japanese. It converts roma-ji to kana, and the kana text to a mixed kana and kanji.
aws_dic_for_google_ime - AWSサービス名のGoogle日本語入力向けの辞書
cl-skkserv - Common LispによるSKK辞書サーバーとその拡張
anthy - Anthy maintenance
anthy-unicode - Anthy Unicode - Another Anthy
azooKey - azooKey: A Japanese Keyboard iOS Application Fully Developed in Swift
azookey-desktop - Japanese Input Method "azooKey" for Desktop, supporting macOS
fcitx5-hazkey - Japanese input method for fcitx5, powered by azooKey engine
mozcdic-ut-place-names - Mozc UT Place Name Dictionary is a dictionary converted from the Japan Post's ZIP code data for Mozc.
azookeykanakanjiconverter - Kana-Kanji Conversion Module written in Swift
libkkc - Japanese Kana Kanji conversion input method library
libskk - Japanese SKK input method library
kanayomi-dict - openjtalk形式のユーザー辞書
cjkvi-dict - 漢字データベースの辞書関連データ
wlsp-classical - 古典日本語の分類語彙表データ
kanji-dict - 漢字の書き順(筆順)・読み方・画数・部首・用例・成り立ちを調べるための漢字辞書です。Unicode 15.1 のすべての漢字 98,682字を収録しています。
Kaomoji_proj - (๑ ᴖ ᴑ ᴖ ๑)みょんかおもじ（旧Kaomoji_proj）はMicrosoft社の入力ソフト、Microsoft IME向けの顔文字の辞書を作成するプロジェクトです。
kotlin-kana-kanji-converter - Kotlin かな漢字変換プログラム
alfred-japanese-dictionary - Japanese-English Dictionary using jisho.org with audio, csv export of entries, and preview of dictionary sites.
ichiran - Linguistic tools for texts in Japanese language
mikan - A Japanese input method.
colloquial-kansai-dictionary - A quick reference for the material taught in Colloquial Kansai Japanese.

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

Corpus

Part-of-speech tagging / Named entity recognition

ner-wikipedia-dataset - Wikipediaを用いた日本語の固有表現抽出データセット
IOB2Corpus - Japanese IOB2 tagged corpus for Named Entity Recognition.
TwitterCorpus - 首都大日本語 Twitter コーパス
UD_Japanese-PUD - Parallel Universal Dependencies.
UD_Japanese-GSD - Japanese data from the Google UDT 2.0.
KWDLC - Kyoto University Web Document Leads Corpus
AnnotatedFKCCorpus - Annotated Fuman Kaitori Center Corpus

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

Parallel corpus

small_parallel_enja - 50k English-Japanese Parallel Corpus for Machine Translation Benchmark.
Web-Crawled-Corpus-for-Japanese-Chinese-NMT - A Web Crawled Corpus for Japanese-Chinese NMT
CourseraParallelCorpusMining - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures Translation
JESC - A large parallel corpus of English and Japanese
AMI-Meeting-Parallel-Corpus - AMI Meeting Parallel Corpus
giant_ja-en_parallel_corpus - This directory includes a giant Japanese-English subtitle corpus. The raw data comes from the Stanford's JESC project.
jesc_small - Small Japanese-English Subtitle Corpus
graded-enja-corpus - 禁止用語や単語レベルを考慮した日英対訳コーパスです。
cjk-compsci-terms - CJK computer science terms comparison / 中日韓電腦科學術語對照 / 日中韓のコンピュータ科学の用語対照 / 한·중·일 전산학 용어 대조
Laboro-ParaCorpus - Scripts for creating a Japanese-English parallel corpus and training NMT models
google-vs-deepl-je - google-vs-deepl-je

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

Dialog corpus

JMRD - Japanese Movie Recommendation Dialogue dataset
open2ch-dialogue-corpus - おーぷん2ちゃんねるをクロールして作成した対話コーパス
BSD - The Business Scene Dialogue corpus
asdc - Accommodation Search Dialog Corpus (宿泊施設探索対話コーパス)
japanese-corpus - 日本語の対話データ for seq2seq etc
BPersona-chat - This repository contains the Japanese–English bilingual chat corpus BPersona-chat published in the paper Chat Translation Error Detection for Assisting Cross-lingual Communications at AACL-IJCNLP 2022's Workshop Eval4NLP 2022.
japanese-daily-dialogue - Japanese Daily Dialogue, or 日本語日常対話コーパス in Japanese, is a high-quality multi-turn dialogue dataset containing daily conversations on five topics: dailylife, school, travel, health, and entertainment.
llm-japanese-dataset - LLM構築用の日本語チャットデータセット

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

その他

jrte-corpus - Japanese Realistic Textual Entailment Corpus (NLP 2020, LREC 2020)
kanji-data - A JSON kanji dataset with updated JLPT levels and WaniKani information
JapaneseWordSimilarityDataset - Japanese Word Similarity Dataset
simple-jppdb - A paraphrase database for Japanese text simplification
chABSA-dataset - chakki's Aspect-Based Sentiment Analysis dataset
JaQuAD - JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension (2022, Skelter Labs)
JaNLI - Japanese Adversarial Natural Language Inference Dataset
ebe-dataset - Evidence-based Explanation Dataset (AACL-IJCNLP 2020)
emoji-ja - UNICODE絵文字の日本語読み/キーワード/分類辞書
nayose-wikipedia-ja - Wikipediaから作成した日本語名寄せデータセット
ja.text8 - Japanese text8 corpus for word embedding.
ThreeLineSummaryDataset - 3行要約データセット
japanese - This repo contains a list of the 44,998 most common Japanese words in order of frequency, as determined by the University of Leeds Corpus.
kanji-frequency - Kanji usage frequency data collected from various sources
TEDxJP-10K - TEDxJP-10K ASR Evaluation Dataset
CoARiJ - Corpus of Annual Reports in Japan
technological-book-corpus-ja - 日本語で書かれた技術書を収集した生コーパス/ツール
ita-corpus-chuwa - Chunked word annotation for ITA corpus
wikipedia-utils - Utility scripts for preprocessing Wikipedia texts for NLP
inappropriate-words-ja - 日本語における不適切表現を収集します。自然言語処理の時のデータクリーニング用等に使えると思います。
house-of-councillors - 参議院の公式ウェブサイトから会派、議員、議案、質問主意書のデータを整理しました。
house-of-representatives - 国会議案データベース：衆議院
STAIR-captions - STAIR captions: large-scale Japanese image caption dataset
Winograd-Schema-Challenge-Ja - Japanese Translation of Winograd Schema Challenge
speechBSD - An extension of the BSD corpus with audio and speaker attribute information
ita-corpus - ITAコーパスの文章リスト
rohan4600 - モーラバランス型日本語コーパス
anlp-jp-history - 言語処理学会年次大会講演の全リスト・機械可読版など
keigo_transfer_task - 敬語変換タスクにおける評価用データセット
loanwords_gairaigo - English loanwords in Japanese
jawikicorpus - Japanese-Wikipedia Wikification Corpus
GeneralPolicySpeechOfPrimeMinisterOfJapan - This is the corpus of Japanese Text that general policy speech of prime minister of Japan
wrime - WRIME: 主観と客観の感情分析データセット
jtubespeech - JTubeSpeech: Corpus of Japanese speech collected from YouTube
WikipediaWordFrequencyList - 日本語Wikipediaで使用される頻出単語のリスト
kokkosho_data - 車両不具合情報に関するデータセット
pdmocrdataset-part1 - デジタル化資料OCRテキスト化事業において作成されたOCR学習用データセット
huriganacorpus-ndlbib - 全国書誌データから作成した振り仮名のデータセット
jvs_hiho - JVS (Japanese versatile speech) コーパスの自作のラベル
hirakanadic - Allows Sudachi to normalize from hiragana to katakana from any compound word list
animedb - 約100年に渡るアニメ作品リストデータベース
security_words - サイバーセキュリティに関連する公的な組織の日英対応
Data-on-Japanese-Diet-Members - 日本の国会議員のデータ
honkoku-data - 歴史資料の市民参加型翻刻プラットフォーム「みんなで翻刻」のテキストデータ置き場です。 / Transcription texts created on Minna de Honkoku (https://honkoku.org), a crowdsourced transcription platform for historical Japanese documents.
wikihow_japanese - wikiHow dataset (Japanese version)
engineer-vocabulary-list - Engineer Vocabulary List in Japanese/English
JSICK - Japanese Sentences Involving Compositional Knowledge (JSICK) Dataset/JSICK-stress Test Set
phishurl-list - Phishing URL dataset from JPCERT/CC
jcms - A Japanese Corpus of Many Specialized Domains (JCMS)
aozorabunko_text - text-only archives of www.aozora.gr.jp
friendly_JA-Corpus - friendly_JA is a parallel Japanese-to-Japanese corpus aimed at making Japanese easier by using the Latin/English derived katakana lexicon instead of the standard Sino-Japanese lexicon
topokanji - Topologically ordered lists of kanji for effective learning
isbn4groups - ISBN-13における日本語での出版物 (978-4-XXXXXXXXX) に関するデータ等
NMeCab - NMeCab: About Japanese morphological analyzer on .NET
ndlngramdata - デジタル化資料から作成したOCRテキストデータのngram頻度統計情報のデータセット
ndlngramviewer_v2 - 2023年1月にリニューアルしたNDL Ngram Viewerのソースコード等一式
data_set - 法律・判例関係のデータセット
huggingface-datasets_wrime - WRIME for huggingface datasets
ndl-minhon-ocrdataset - NDL古典籍OCR学習用データセット（みんなで翻刻加工データ）
PAX_SAPIENTICA - GIS & Archaeological Simulator. 2023 in development.
j-liwc2015 - Japanese version of LIWC2015
huggingface-datasets_livedoor-news-corpus - Japanese Livedoor news corpus for huggingface datasets
huggingface-datasets_JGLUE - JGLUE: Japanese General Language Understanding Evaluation for huggingface datasets
commonsense-moral-ja - JCommonsenseMorality is a dataset created through crowdsourcing that reflects the commonsense morality of Japanese annotators.
comet-atomic-ja - COMET-ATOMIC ja
dcsg-ja - Dialogue Commonsense Graph in Japanese
japanese-toxic-dataset - "Proposal and Evaluation of Japanese Toxicity Schema" provides a schema and dataset for toxicity in the Japanese language.
camera - CAMERA (CyberAgent Multimodal Evaluation for Ad Text GeneRAtion) is the Japanese ad text generation dataset.
Japanese-Fakenews-Dataset - 日本語フェイクニュースデータセット
jpn_explainable_qa_dataset - jpn_explainable_qa_dataset
copa-japanese - COPA Dataset in Japanese
WLSP-familiarity - Word Familiarity Rate for 'Word List by Semantic Principles (WLSP)'
ProSub - A cross-linguistic study of pronoun substitutes and address terms
commonsense-moral-ja - JCommonsenseMorality is a dataset created through crowdsourcing that reflects the commonsense morality of Japanese annotators.
ramendb - なんとかデータベース( https://supleks.jp/ )からのスクレイピングツールと収集データ
huggingface-datasets_CAMERA - CAMERA (CyberAgent Multimodal Evaluation for Ad Text GeneRAtion) for huggingface datasets
FactCheckSentenceNLI-FCSNLI- - FactCheckSentenceNLIデータセット
databricks-dolly-15k-ja - databricks/dolly-v2-12b の学習データに使用されたdatabricks-dolly-15k.jsonl を日本語に翻訳したデータセットになります。
EaST-MELD - EaST-MELD is an English-Japanese dataset for emotion-aware speech translation based on MELD.
meconaudio - Mecon Audio(Medical Conference Audio)は厚生労働省主催の先進医療会議の議事録の読み上げデータセットです。
japanese-addresses - 全国の町丁目レベル（277,191件）の住所データのオープンデータ
aozorasearch - The full-text search system for Aozora Bunko by Groonga. 青空文庫全文検索ライブラリ兼Webアプリ。
llm-jp-corpus - This repository contains scripts to reproduce the LLM-jp corpus.
alpaca_ja - alpacaデータセットを日本語化したものです
instruction_ja - Japanese instruction data (日本語指示データ)
japanese-family-names - Top 5000 Japanese family names, with readings, ordered by frequency.
kanji-data-media - Japanese language data on kanji, radicals, media files, fonts and related resources from Kanji alive
reazonspeech - Construct large-scale Japanese audio corpus at home
huriganacorpus-aozora - 青空文庫及びサピエの点字データから作成した振り仮名のデータセット
koniwa - An open collection of annotated voices in Japanese language
JMMLU - 日本語マルチタスク言語理解ベンチマーク Japanese Massive Multitask Language Understanding Benchmark
hurigana-speech-corpus-aozora - 青空文庫振り仮名注釈付き音声コーパスのデータセット
jqara - JQaRA: Japanese Question Answering with Retrieval Augmentation - 検索拡張(RAG)評価のための日本語Q&Aデータセット
jemhopqa - JEMHopQA (Japanese Explainable Multi-hop Question Answering) is a Japanese multi-hop QA dataset that can evaluate internal reasoning.
jacred - Repository for Japanese Document-level Relation Extraction Dataset (plan to be released in March).
jades - JADES is a dataset for text simplification in Japanese, described in "JADES: New Text Simplification Dataset in Japanese Targeted at Non-Native Speakers" (the paper will be available soon).
do-not-answer-ja - 2023年8月にメルボルン大学から公開された安全性評価データセット『Do-Not-Answer』を日本語LLMの評価においても使用できるように日本語に自動翻訳し、さらに日本文化も考慮して修正したデータセット。
oasst1-89k-ja - OpenAssistant のオープンソースデータ OASST1 を日本語に翻訳したデータセットになります。
jacwir - JaCWIR: Japanese Casual Web IR - 日本語情報検索評価のための小規模でカジュアルなWebタイトルと概要のデータセット
japanese-technical-dict - 日本語学習者のための科学技術業界でよく使われる片仮名と元の単語対照表
j-unimorph - Dataset of UniMorph in Japanese
GazeVQA - Dataset for the LREC-COLING 2024 paper "A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions"
J-CRe3 - Code for J-CRe3 experiments (Ueda et al., LREC-COLING, 2024)
jmed-llm - JMED-LLM: Japanese Medical Evaluation Dataset for Large Language Models
lawtext - Plain text format for Japanese law
pdmocrdataset-part2 - OCR処理プログラム研究開発事業において作成されたOCR学習用データセット
japanesetopicwsd - 話題に基づく語義曖昧性解消評価セット
temporalNLI_dataset - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating Generalization Capacity of Language Models
JSeM - Japanese semantic test suite (FraCaS counterpart and extensions)
niilc-qa - NIILC QA data
chain-of-thought-ja-dataset - Dataset of paper "Verification of Chain-of-Thought Prompting in Japanese"
WikipediaAnnotatedCorpus - This is a Japanese text corpus that consists of Wikipedia articles with various linguistic annotations.
elaws-history - e-Gov 法令検索で配布されている「全ての法令データ」を定期的にダウンロードし、アーカイブしています
Japanese-RP-Bench - Japanese-RP-BenchはLLMの日本語ロールプレイ能力を測定するためのベンチマークです。

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

チュートリアル

spacy_tutorial - spaCy tutorial in English and Japanese. spacy-transformers, BERT, GiNZA.
fastTextJapaneseTutorial - Tutorial to train fastText with Japanese corpus
allennlp-NER-ja - AllenNLP-NER-ja: AllenNLP による日本語を対象とした固有表現抽出
chariot-PyTorch-Japanese-text-classification - Experiment for Japanese Text classification using chariot and PyTorch
ginza-examples - 日本語NLPライブラリGiNZAのすゝめ
DocumentClassificationUsingBERT-Japanese - DocumentClassificationUsingBERT-Japanese
BERT_Japanese_Google_Colaboratory - Google Colaboratoryで日本語のBERTを動かす方法です。
bert-book - 「BERTによる自然言語処理入門: Transformersを使った実践プログラミング」サポートページ
janome-tutorial - Janome を使ったテキストマイニング入門チュートリアルです。
handson-language-models - 日本語の言語モデルのハンズオン資料です
JapaneseNLI - Google Colabで日本語テキスト推論を試す
deep-learning-with-pytorch-ja - deep-learning-with-pytorchの日本語版repositoryです。
bert-classification-tutorial -【2023年版】BERTによるテキスト分類
python-nlp-book - ディープラーニングによる自然言語処理（共立出版）のサポートページです
llm-book - 「大規模言語モデル入門」（技術評論社, 2023）のGitHubリポジトリ
nlp2024-tutorial-3 - NLP2024 チュートリアル３作って学ぶ日本語大規模言語モデル - 環境構築手順とソースコード
japanese-ir-tutorial - 日本語情報検索チュートリアル
nlpbook - 「自然言語処理の教科書」サポートサイト
kantan-regex-book - 作って学ぶ正規表現エンジン
bert-classification-tutorial-2024 - 【2024年版】BERTによるテキスト分類
Gemma2_2b_Japanese_finetuning_colab.ipynb - Fine-Tuning Google Gemma for Japanese Instructions
nlp100v2020 - 「言語処理100本ノック 2020」をPythonで解く

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

Research summary

awesome-bert-japanese - A list of pre-trained BERT models for Japanese with word/subword tokenization + vocabulary construction algorithm information
GEC-Info-ja - 文法誤り訂正に関する日本語文献を収集・分類するためのリポジトリ
dataset-list - lists of text corpus and more (mainly Japanese)
tuning_playbook_ja - ディープラーニングモデルの性能を体系的に最大化するためのプレイブック
japanese-pitch-accent-resources - Trying to consolidate japanese phonetic, and in particular pitch accent resources into one list
awesome-japanese-llm - オープンソースの日本語LLMまとめ

To check the statistics table (GitHub stars/Downloads), please refer to this page. ？トップに戻ります

参照

自然言語処理の餅屋
yasuokaの日記：日本語係り受け解析器「2020年の総ざらえ」
yasuokaの日記：日本語係り受け解析器「2021年の総ざらえ」
https://github.com/topics/japanese?l=python
https://github.com/topics/japanese-language?l=python
https://github.com/search?o=desc&q=corpus+japanese&s=&type=Repositories
https://paperswithcode.com/datasets?lang=japanese
https://github.com/himkt/awesome-bert-japanese
Awesome-Rust-MachineLearning-日本語向けのrustクレートや記事等をまとめたもの
大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価

貢献者

kaisugi - website
bomin0624 - twitter
passaglia - twitter

拡大する

awesome japanese nlp resources

素晴らしい日本-NLPリソース

最新の追加？

コンテンツ

Pythonライブラリ

形態分析

解析

コンバータ

プリプロセッサ

文の分裂

感情分析

機械翻訳

名前付きエンティティ認識

OCR

前処理されたモデル用のツール

その他

C ++

形態分析

解析

その他

さびたクレート

形態分析

コンバータ

検索エンジンライブラリ

その他

JavaScript

形態分析

コンバータ

その他

行く

Morphology analysis

その他

Java

Morphology analysis

その他

Pretrained model

Word2Vec

Transformer based models

chatgpt

Dictionary and IME

Corpus

Part-of-speech tagging / Named entity recognition

Parallel corpus

Dialog corpus

その他

チュートリアル

Research summary

参照

貢献者