令人敬畏的日本NLP資源
專門用於Python圖書館,LLM,字典和NLP Corpora的策劃資源清單
- 有關653個GitHub存儲庫的列出信息
- 列出了1503個擁抱面孔存儲庫(型號和數據集)的信息
- 發布了工具?搜索大量存儲庫信息
英語| 日本語(日語)| 繁體中文(中文)| 簡體中文(中文)
最新添加?
擁抱臉?
去
於2024年12月24日更新
內容
- 擁抱臉
- Python圖書館
- 形態分析
- 解析
- 轉換器
- 預處理器
- 句子分解器
- 情感分析
- 機器翻譯
- 命名實體識別
- OCR
- 預告片模型的工具
- 其他的
- C ++
- 生鏽的箱子
- JavaScript
- 去
- 爪哇
- 預驗證的模型
- chatgpt
- 字典和IME
- 語料庫
- 言論的一部分標記 /命名實體識別
- 文本分類
- 平行語料庫
- 對話語料庫
- 其他的
- 教程
- 研究摘要
- 參考
- 貢獻者
Python圖書館
形態分析
- sudachi.rs -sudachipy 0.6*及以上是作為sudachi.rs開發的。
- Janome-日本形態分析引擎用純Python寫
- mecab-python3-mecab-python。 Mecab-Python。您可以在此處找到原始版本:http://taku910.github.io/mecab/
- MeCab-此存儲庫用於構建Windows 64位MeCab二進製文件並改善Mecab Python綁定。
- Fugashi-一款用於快速的,Pythonic日本令牌化和形態學分析的Cython Mecab包裝紙。
- Nagisa-基於經常性神經網絡的日本令牌
- pyknp- juman ++/knp的Python模塊
- mykytea -python- Kytea的Python包裝紙
- Konoha -Konoha:日語引物的簡單包裝紙
- Natto-Py-Natto-Py將Python編程語言與MeCab(日語語言的詞性和形態分析儀)結合在一起。
- Rakutenma -Python -Rakuten MA(Python版本)
- Python -vaporetto -Vaporetto是基於標記的快速且輕巧的點。這是Vaporetto的Python包裝紙。
- dango-易於使用的日語文本,針對語言學習者和非語言學家
- 俄羅斯 - juman ++/knp的另一種python結合
- Python-Vibrato-基於Viterbi的加速令牌(Python包裝器)
- Jagger-Python-Python綁定Jagger(基於模式的日本形態分析儀的C ++實施)
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
解析
- Ginza-基於通用依賴項的日本NLP庫,使用Spacy作為框架
- cabocha-另一個日本依賴結構分析儀
- Unidic2ud-代幣機pos-tagger lematizer和依賴性份額現代和現代日本人
- Camphr -Camphr -NLP Libary創建管道組件
- supar-unidic-代幣pos-tagger lemmatizer和依賴性的現代和現代日本的依賴者與伯特模型
- DEPCCG -A* CCG解析器帶有超級和依賴關係的模型
- BERTKNP-基於Bert的日本依賴解析器
- Esupar-用BERT/ROBERTA/DEBERTA模型的日語和其他語言的dekenizer pos-tagger和依賴者
- Yomikata-使用微調的BERT模型進行異義歧義庫。
- Jdepp -python- jdepp的python結合J.DEPP(日語依賴解析器的C ++實施)
- LightBlue- CCG用DTS代理的日語解析器
- Natsume-simple-Natsume-simpleは日本語の系り受け關係検索システム
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
轉換器
- pykakasi-日本卡納 - 坎吉(Kana-Kanji)句子的輕量級轉換器到卡納 - 羅馬(Kana-Roman)。
- 肉餅 - 日本人到python中的romaji轉換器
- Alphabet2Kana-將英語字母轉換為katakana
- 轉換為數字到日本 - 將阿拉伯數字或“西方”風格數字轉換為日本背景。
- Mozcpy -Mozc for Python:Kana -Kanji轉換器
- Jamorasep-日本文本解析器將Hiragana/Katakana弦分為Morae(音節)。
- text2phoneme -日本語文を音素列へ変換するスクリプト
- Jntajis -Python-基於日本國家稅務局(國稅庁)的計劃的快速角色轉換和音譯庫
- 有效的 - 將日本卡納從ba-bi-be-bo轉換為va-vi-vu-ve-vo
- mecab-text-cleaner-簡單的Python軟件包(CLI/Python API)用於使用MeCab獲取日本讀數(Yomigana)和口音。
- pynormalizenumexp -數量表現や時間表現の抽出・正規化を行う unaryizenumexpのpython実裝
- Jusho-日本郵政編碼數據的簡易包裝器
- Yurenizer-解決拼寫不一致的日本文本標準器。 ((()
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
預處理器
- Neologdn-日本文本標準器用於mecab -neologd
- jaconv-純淨的日本角色互換者,用於Hiragana,Katakana,Hankaku和Zenkaku
- Mojimoji-日本漢庫和Zenkaku角色之間的快速轉換器
- 文本清潔 - 日本網絡文本的功能強大的文本清潔劑
- Hojichar-複數の前處理を構成して管理するテキスト前處理ツール
- Utsuho-Utsuho是一個Python模塊,可促進半寬Katakana和日語中的全寬Katakana之間的雙向轉換。
- Python -Habachen-另一個快速的日本弦樂轉換器
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
句子分解器
- bunkai-日語文本的句子邊界排列工具(日本語文境界判定器)
- 日語句子 - 破壞者 - 日本句子斷路器
- Sengiri-日語文本的另一個句子級令牌
- budoux-獨立。小的。語言中立。 Budoux是Budou的繼任者,Budou是機器學習動力的線路斷路組織者工具。
- ja_sentence_sementer- python的日語句子細分庫
- hasami-在日語文本上執行句子細分的工具
- kuzukiri-日語文本細分器,用於python用銹編寫
- JA-Sender-Benchmark-日語句子細分工具的比較
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
情感分析
- Oseti-日語基於字典的情感分析
- Negapoji-日本負面的陽性分類。
- PyMlask-日語文本的情感分析儀
- Asari-日本情感分析儀在Python實施。
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
機器翻譯
- JPARACRAWL-FINETUNE- JPARACRAWL預先訓練的神經機器翻譯(NMT)模型的示例用法。
- JASS - JASS:神經機器翻譯(LREC2020)的序列預訓練的日語特定序列(LREC2020)和語言驅動的多任務預訓練,用於低資源神經機器翻譯(ACM tallip)
- Phemt-日語 - 英語機器翻譯魯棒性的現象評估數據集。該數據集基於MTNT數據集,並具有四種語言現象的其他註釋;專有名詞,縮寫名詞,俗語表達和變體。殖民地2020。
- Visa-視覺場景吸引機器翻譯的模棱兩可的字幕數據集
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
命名實體識別
- namaco-基於字符的名稱實體識別。
- EntityPedia -EntityPedia是Wikipedia的擴展名稱詞典。
- Noyaki-將字符跨度標籤信息轉換為基於文本的標籤信息。
- BERT-JAPANESE-NER-FINETUNING-執行BERT模型的填充代碼。伯特モデルのファインチューニングで固有表現抽出用タスクのモデルを作成・使用するサンプルです
- 聯合信息萃取hs-詳細なアノテーション基準に基づく症例報告コーパスからの固有表現及び關係の抽出精度の推論を行うコード
- Pygeonlp -Pygeonlp,用於地理標記日本文本的Python模塊。
- 伯特納 - 日本 - 伯特
- HuggingFace-FineTune-Japanese-僅賦予芬太尼的示例,僅編碼和編碼器decoder transformers日語(擁抱面)資源
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
OCR
- 漫畫OCR-關於日語文本的光學特徵識別,主要重點是日本漫畫
- Mokuro - 讀取可選文本的瀏覽器中的日本漫畫。
- 用觸摸面板使用觸摸面板手寫的日本OCR-OR-OR-OR-OR-OR-OR-ORTER繪製輸入文本
- ocr_japanease -日本語ocr
- ndlocr_cli -ndlocrのアプリケーション
- Donut-無OCR文檔理解變壓器(Donut)和合成文件生成器(SynthDog)的官方實施,ECCV 2022
- JMTRANS-漫畫翻譯 - 從URL獲取日本漫畫以翻譯漫畫圖像
- KINDAI -OR -OCR系統,用於識別現代日本雜誌
- text_recognition -ndlocr用テキスト認識モジュール
- Poricom-漫畫圖像中的光學特徵識別。漫畫OCR桌面應用程序
- Owocr-日語文本的光學特徵識別
- Yomitoku -Yomitoku是專為日語設計的AI驅動文檔圖像分析軟件包。
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
預告片模型的工具
- JGLUE -JGLUE:日本通用語言理解評估
- Ginza-Transformer-在Spacy-Transformer中使用自定義令牌
- t5_japanese_dialogue_generation -t5による會話生成
- 日本_text_classification-調查各種DNN文本分類器,包括MLP,CNN,RNN,BERT方法。
- 日本 - 伯特 - 索取 - 分析儀 - 使用FastApi和Bert部署情感分析服務器
- JMLM_SCOIN-日語和越南的基於蒙版的基於語言模型的評分
- Allennlp-Shiba-Model-Allennlp集成Shiba:日本犬類模型
- evaluate_japanese_w2v-腳本評估日本相似性數據集的預訓練的日本詞2VEC模型
- gector-ja-日語的基於伯特的GEC標記
- 日本bpeencoder-japesent-bpeencoder
- 日語bpeencoder_v2-日語-bpeencoder版本2
- 變壓器拷貝 - 日本語文法誤り訂正ツール
- 日本穩定擴散 - 日本穩定的擴散是一種日本特定的潛在文本對圖像擴散模型,能夠在任何文本輸入下生成照片現實圖像。
- nagisa_bert-納吉薩(Nagisa)的BERT模型
- 前綴調整-GPT-示例示例代碼GPT/GPT-NEOX型號以及用於訓練有素的前綴的推斷
- JGLUE基準測試 - JGLUE的培訓和評估腳本,一種日語理解基準
- jptranstokenizer-變形金剛庫的日語令牌
- JP穩定 - JP語言模型評估安全帶
- 比較ja-tokenizer-不同的引導者如何在scriptio continua語言中執行下游任務?
- LM評估harness-jp stable-用於幾次評估自回歸語言模型的框架。
- LLM-LORA分類-LLM-Lora-Crassiency
- JP穩定 - JP語言模型評估安全帶
- rinna_gpt-neox_ggml-lora-存儲庫包含腳本和合併腳本,這些腳本已修改以適應羊駝毛適配器,以便在使用“ rinna/pastery-gpt-neox ...”使用轉換為GGML的“ Rinna/pastery-gpt-neox ...”。
- 日語-Llm-roleplay基準-LLMのキャラクターロールプレイに關する性能を評価するために作成しました。
- 日語升級 - 該存儲庫支持Yuzuai的Rakuda日本LLMS的排行榜,這是LMSYS的Vicuna評估的日本類似物。
- llm-jp-eval-このツールは、複數のデータセットを橫斷して日本語の大規模言語モデルを自動評価するものです.
- LLM-JP-SFT-此存儲庫包含用於監督LLM-JP模型進行微調的代碼。
- LLM-JP-Tokenizer-LLM 勉強會(LLM-JP)で開発しているLLM用のトークナイザー關連をまとめたリポジトリです.
- 日語-LM-FIN-HARNESS-日語語言模型財務評估安全帶
- JA-Vicuna-QA基準 - 日本Vicuna QA基準測試
- 燕子評估 - 燕子プロジェクトプロジェクト大規模言語モデル評価スクリプト
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
其他的
- 名為派森(Pyivider -Python) - 將日語全名分為姓氏和給定名稱的工具。
- ASA -PYTHON-策劃的資源列表,專門用於日本NLP的Python庫
- python_asa- python 版日本語意味役割付與システム( a asa)
- toiro-日語引物的比較工具
- ja timex -自然言語で書かれた時間情報表現を抽出/規格化するルールベースの解析器
- JapanSetokenizer-一組從文本數據中選擇功能選擇的指標
- daaja-該存儲庫具有日語NLP的數據增強實現。
- Accel-Brain-Code-該存儲庫的目的是在我在網站上寫的概念證明(POC)和研發證明(POC)和研發證明(POC),將原型作為案例研究。主要的研究主題是與表示學習的自動編碼器,基於能量的模型的統計機器學習,對抗生成網…
- 京都讀取器 - 京東普斯,kwdlc和Antotatedfkccorpus的處理器
- NLPLOT-自然語言處理的可視化模塊
- Rake -ja-日語的快速自動關鍵字提取算法
- JEL-日本實體鏈接器。
- Medner -J-最新版本的MEDEX/J(日本疾病名稱提取器)
- Zunda -Python -Zunda:Python的日本增強模式分析儀客戶端。
- aio2_dpr_baseline -https://www.nlp.ecei.tohoku.ac.ac.jp/projects/aio/
- Showcase- Matsubayashi&Inui(2018)論文中提出的日本謂詞Argument結構(PAS)分析儀的Pytorch實施,並進行了一些改進。
- 飛鏢 - 克隆 - 佩頓 - 飛鏢 - 克隆python結合
- JRTE -CORPUS_EXAMPER-日語現實的文本組件的示例代碼
- desuwa-基於KNP規則文件(純Python)的詞素和短語的特徵註釋者
- HOTPEPEPERGORMETDIALOGOY-日語對話通過對話。
- NLP-RECIPES-JA-日語中自然語言處理的樣品代碼
- 日語_nlp_scripts-用於使用日語文本的小示例腳本
- DNORM -J-日語版本的DNORM
- PYKNP-EVENTGRAPH-EVENTGRAPH是日語高級NLP應用程序的開發平台。
- ishi- ishi:日語的意志分類器
- python -npylm -ベイズ階層言語モデルによる教師なし形態素解析
- python -npycrf -條件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析
- 無監督的pos-教師なし品詞タグ推定-教師なし品詞タグ推定
- negima-negima是使用您定義的基於詞性的規則來提取日語文本中的短語的Python軟件包。
- youyakuman-使用bertsum作為摘要模型的提取摘要
- 日本人 - 派森 - 自然語言中日語編號(漢字)的解析器。
- Kantan-通過激進模式查找日語單詞
- make-meidai-Dialogue-獲取日本對話語料庫
- Japany_summarizer-日語文章的摘要。
- Chirptext -Chirptext是Python的文本處理工具的集合。
- Yubin-日本地址Munger
- Jawiki -cleaner-日本維基百科清潔劑
- 日本2Phoneme-一個Python庫,可將日語轉換為Phoneme。
- ANLP_NLP2021_D3-1-此存儲庫包含與“對基於情感的文本分類的日本引物的實驗評估”中的實驗相關的代碼。
- Aozora_classification-關於該項目的旨在將日本句子分類為與一些日本古典作家的相似之處,例如Soseki Natsume,Ogai Mori,Ryunosuke Akutagawa等。
- aozora-corpus-generator-從Aozora Bunko生成普通或令牌的文本文件
- JLM-一種快速的LSTM語言模型,用於大型詞彙,例如日語和中文
- NTM-日本文章的神經主題建模測試
- EN-JP-ML-LEXICON-這是一種用於機器學習和深度學習術語的英文詞典。
- 文本產生 - 易於使用的腳本,用自己的文本微調GPT-2-JA,生成句子並自動鳴叫。
- Chaine_nic- Chainer上的神經圖像標題(NIC),其在英語和日本圖像標題數據集上易於驗證的模型。
- Unihan-LM-“ Unihanlm:用Unihan數據庫進行預處理的中文 - 日本語言模型”的官方存儲庫,AACL-IJCNLP 2020
- MBART -FINETUNNING-執行MBART模型的填充代碼。
- xvector_jtubespeech -jtubespeech上的xvector模型
- 微小的製造商-TinySegmenter 用の學習モデルを自作するためのツール.
- grongish -日本語とグロンギ語の相互変換スクリプト
- wordcloud -higapanese -wordcloudでの日本語文章をmecab (形態素解析エンジン)
- snark -日本語ワードネットを利用したdbアクセスライブラリ
- toemoji -日本語文を絵文字だけの文に変換するなにか
- TERSEXTRACT--専門用語抽出アルゴリズムの実裝の練習
- jdt-with-kenlm得分 - 日本鍵盤轉換器の応答候補に対して、 kenlmによるn-gram 言語モデルでスコアリングし、フィルタリング若しくはリランキングを行う。
- Unigram模型的混合物 - 在Python中的Unigram模型和Unigram模型的無限混合物的混合物。 (混合ユニグラムモデルと無限混合ユニグラムモデル)
- Hidden-Markov模型 - 隱藏的Markov模型(HMM)和Python中的無限隱藏Markov模型(IHMM)。 (隠れマルコフモデルと無限隠れマルコフモデル)
- ngram語言模型 - python中的ngram語言模型。 (nグラム言語モデル)
- Asrdeepspeech- Zakuro AI的支持,在Pytorch中使用DeepSpeech2模型的自動語音識別。
- Neural_ime-神經IME:神經輸入方法引擎
- Neural_japanese_transliterator-神經網絡可以正確地譯成日語嗎?
- Tiny Sementemer-為日語指定的令牌
- augly -jp-日語文本的數據增強
- Furigana4Epub-使用Mecab和Unidic向日本Epub書籍中添加Furigana的Python腳本。
- Pykatsuyou-日本動詞/形容詞拐點工具
- Jageocoder-純Python日語地址地理編碼器
- Pygeonlp -Pygeonlp,用於地理標記日本文本的Python模塊。
- NKSND-新的Kana -Kanji轉換引擎
- 傑米 - 日本醫學信息提取工具包
- fastText-vs-word2vec-on-twitter-data-fastTextとword2vec の比較と、実行スクリプト、學習スクリプトです
- 最小搜索引擎 - 最小のサーチエンジン/pagerank/tf-idf
- 5CH分析-5CH の過去ログをスクレイピングして、過去流行った単語(ex,香具師,Orz)などを追跡調查
- Tweet_Extructor -Twitter日本語評判分析データセットのためのツイートダウンローダ
- 日語詞 - 聚集 - 基於Juman ++和ConceptNet5.5的日語單詞
- JINF-日本拐點轉換器
- KWJA-日語的統一語言分析儀
- MLM得分轉換器 - 基於蒙版語言模型評分的複制軟件包(ACL2020)。
- 日本剪貼畫 - [pytorch]日語的剪貼畫
- 日本衛星 - [Pytorch]表演,參加並告訴日語
- Cihai- CJK(中文,日語和韓語)語言詞典的Python圖書館
- 海洋 - 海洋:基於多任務的日本口音估計
- hisper-asr-finetune-芬特式耳語ASR模型
- 日語chatbot-使用Bert和Transformer的解碼器的日語聊天機器人實現日語聊天機器人
- 自由基 - 部首文字正規化ライブラリ
- Akaza-又是IBUS/Linux的另一個日本IME
- Postuto-日本郵政編碼數據。
- tacotron2-日本 - tacotron2日語實施
- ibus -hiragana-ひらがなibus ibus
- Furiganapad -ふりがなパッド
- chikkarpy-日本同義詞庫
- JA-Tokenizer-Docker-Py-Mecab + Neologd + Docker + Python3
- Japationembeddingeval-日本培訓
- gptuber-by-langchain-gptがYoutuberをやります
- shuwa-擴展gnome屏幕鍵盤用於輸入方法
- 日本NLI模型 - 此存儲庫為日本NLI模型提供了代碼,這是一種微調的掩蓋語言模型。
- tra-fugu-使用fugumt的日語 - 英語翻譯和英文 - 日本翻譯的工具
- fugumt -ぷるーふおぶこんせぷとぷるーふおぶこんせぷとで公開した機械翻訳エンジンを利用する翻訳環境です。 pdfの翻訳が可能です。
- jaspice- jaspice:使用謂詞題材結構進行圖像字幕模型的自動評估度量
- 基於檢索的voice-conversion-webui-jp-localization- jp-localization
- pyopenjtalk- python包裝器for OpenJtalk
- Yomigana -ebook-通過為電子書中的每個漢字添加讀數,使學習日語更容易
- N46 Whisper-基於耳語的日本字幕發電機
- japese_llm_simple_webui -rinna -3.6b,opencalm等の日本語対応llm(大規模言語モデル)用の簡易web
- PDF-Translator-PDF-Translator將英文PDF文件轉換為日語,並保留原始佈局。
- 日本_QA_DEMO_WITH_HAYSTACK_AND_ES- HAYSTACK + ELASTICSEARCH + WIKIPEDIA(JA)を用いた、日本語の質問応答システムのサンプル
- mozc-devices-自動從code.google.com/p/mozc-morse導出
- Natsume-日語文本前端處理工具包
- vits-japros-webui-日本語tts(vits)の學習と音聲合成のgradio webui
- JA-LAW-PARSER-日本法律解析器
- 命令 - 日本聽寫套件使用朱利葉斯
- Julius4Seg -Juliusを使ったセグメンテーション支援ツール
- VoiceVox_Engine -無料で使える中品質なテキスト読み上げソフトウェア、語音Voxの音聲合成エンジン
- llava-jp-llava-jp是由llava方法培訓的日本VLM
- rag -ishapaness-日本LLM的開源抹布與低資源結束的日語LLM
- BERTJSC-日語拼寫錯誤使用BERT(蒙版語言模型)。伯特に基づいて日本語校正
- LLM -Leaderboard- LLM評估項目對日本任務的項目
- jglue-heagaluation-scripts-關於jglue的培訓和評估腳本,日語理解基準
- Blip2-JEAMENES-通過在日本數據集上預測的型號修改Lavis的Blip2 Q-Former。
- wikipedia-passages-jawiki-embeddings-utils-wikipedia 日本語の文を、各種日本語の嵌入やfaiss索引へと変換するスクリプト等。
- Simple-Simcse-Ja-探索日本Simcse
- wikipedia-japanese-open-rag-wikipedia の日本語記事を元に、ユーザの質問に回答する gradioベースのrag
- GPT4-AutoEval-GPT-4 を用いて、言語モデルの応答を自動評価するスクリプト
- T5-日本 - 日本語t5モデル
- 日本_llm_eval-評估日本LLMS的存儲庫・llmを評価するレポ
- JMTEB- JMTEB的評估腳本(日本大規模文本嵌入基準)
- pydomino-日本語音聲に対して音素ラベルをアラインメントするためのツールです
- easynovelassistant -llm『lightchatassistant -typeb 』による、簡単なノベル生成アシスタントです。ローカル特権の永続生成永遠生成で、當たりガチャを積み上げます。読み上げにも対応。
- 夾式日本 - 日本語データセットでのQlora指令調整學習サンプルコード
- rime -jaroomaji-日本rōmaji輸入架構rime ime
- 深度疑問 - 深層學習を用いたクイズ自動生成(日本語 t5モデル)
- 喜pie-Nemotron-Magpieという手法とnemotron-4-340b-instructを用いて合成対話データセットを作るコード
- qlora_ja-日本語データセットでのQlora指令調整學習サンプルコード
- mozcdic-ut-jawiki-mozc ut jawiki詞典是由日本維基百科生成的詞典。
- SHISA -V2-日語 /英語雙語LLM
- LLM-Translator-基於混合的JA-EN(EN-JA)翻譯模型
- LLM-JP-ASR-竊竊私語のデコーダをLLM-JP-1.3B-V1.0に置き換えた音聲認識モデルを學習させるためのコード
- rag -ishapaness-日本LLM的開源抹布與低資源結束的日語LLM
- 莫納卡 - 日本解析器(包括歷史日本)
- JP-Translate.Cloud-基於最新NMT研究的最先進的開源日語<->英語機器翻譯系統。
- substring-word-finder-連続部分文字列の単語判定を行います
- HERON-VLM-LEADERBOARD-該項目是用於評估和比較各種視覺語言模型(VLM)的性能的基準測試工具。它使用兩個數據集:Llava-Bench-in-the-wild和日本蒼鷺台,以衡量模型性能。
- Text2DataSet-輕鬆使用Open LLMS將大型英語文本數據集變成日本文本數據集。
- mecab-web-api-mecabを利用した日本語形態素解析webapi
- mecab_controller- mecab包裝器生成furigana讀數。
- vits -vitsによるテキスト読み上げ器&ボイスチェンジャー
- akari_chatgpt_bot- 音聲認識、文章生成、音聲合成を使って対話するチャットボットアプリ
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
C ++
形態分析
- mecab-另一個日本形態分析儀
- Jumanpp -Juman ++(形態分析儀工具包)
- Kytea-京都文本分析工具包用於單詞分割和發音估計等等。
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
解析
- cabocha-另一個日本依賴結構分析儀
- KNP-日本解析器
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
其他的
- JSC-日本Kana Kanji轉換,中國拼音輸入和CJE混合輸入的聯合源通道模型。
- Aquaskk-無形態分析的輸入方法。
- MOZC -MOZC-一種日語輸入方法編輯器,專為多平台設計
- trimatch -trimatch:an(精確|前綴|近似)字符串匹配庫
- emembla- emembla:基於單詞的日語類似句子搜索庫
- corvusskk-▽▼窗口的類似Skk的日語輸入方法編輯器
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
生鏽的箱子
形態分析
- Lindera-形態分析庫。
- Vaporetto -Vaporetto:非常加速的基於標記的點數
- 戈雅 - 日本形態分析用鏽蝕寫
- 顫音 - 顫音:基於Viterbi的加速令牌
- Yoin-日本形態分析儀,用純銹
- mecab-rs- MeCab的安全生鏽綁定詞和形態分析儀庫
- AWABI-使用MeCab詞典的形態分析儀
- Kanpyo-日本形態分析儀用鏽蝕寫
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
轉換器
- WANA_KANA_RUST-用於檢查和轉換日語角色之間的公用事業庫-Hiragana,Katakana-和Romaji
- Unicode-jp-rs-一個生鏽庫將日本半寬 - kana [半角カナ]和寬αLumeric[全角英數]轉化為普通的庫
- KANA- [鏡子] CLI計劃,用於譯為Romaji文本到Hiragana或Katakana
- 卡納里亞 - このライブラリは、ひらがな・カタカナ、半角・全角の相互変換や判別を始めとした機能を提供します。
- 日語地址 - parser-日本の住所を都道府県/市區町村/町名/その他に分割するライブラリです
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
搜索引擎庫
- Lindera -Tantivy -Lindera Tokenizer for Tantivy。
- Tantivy -Vibrato-使用顫音的誘使令牌。
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
其他的
- Daachorse-使用Rust中的緊湊型雙陣列數據結構的Aho-Corasick算法快速實現。
- Find-simdoc-時間和內存有效地查找所有相似文檔
- crawdad-使用角色雙方陣列嘗試的天然語言詞典庫。
- Tokenizer-Speed台式 - 各種標記器的比較代碼
- StringMatch -Bench-提供基準工具來比較用於字符串匹配的數據結構的性能。
- VIME-使用VIM作為X11應用程序的輸入方法
- VoiceVox_Core -無料で使える中品質なテキスト読み上げソフトウェア、語音Voxのコア
- Akaza-又是IBUS/Linux的另一個日本IME
- Jotoba-免費的在線,可自主,多章日本詞典。
- dvorakjp -romantable -google日本語入力用dvorakjpローマ字テーブル / dvorakjp roman table for Google日語輸入
- niinii-日本詞彙機,用於使用Ichiran輔助閱讀文本
- CSKK- SKK(簡單的Kana Kanji Henkan)圖書館
- japanki-學習日本詞彙?通過在CLI上進行測驗!
- jpreprocess-用於文本到語音應用程序的日語文本預處理器(用銹語重寫OpenJtalk)
- listup_predent -裁判例のデータ一覧を裁判所のホームページ(https://www.courts.go.jp/index.html)をスクレイピングして生成するソフトウェア
- Jisho -Jisho是一個CLI工具和Rust庫,提供了日語詞典。
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
JavaScript
形態分析
- kuromoji.js-日本形態分析儀的JavaScript實施
- Rakutenma -Rakuten MA-純粹用JavaScript編寫的中文和日語的形態分析儀(單詞段 + POS標記)。資源
- Node-mecab-ya- nodejs的另一個mecab包裝器
- Juman-bin-日語的用戶可擴展的形態分析儀。 日本語形態素解析システム
- node-mecab-assync-使用mecab的異步日本形態分析儀。
要檢查統計表(GitHub星星/下載),請參閱此頁面。 ?回到頂部
轉換器
- KUROSHIRO-日語圖書館將日語句子轉換為Hiragana,Katakana或Romaji,並獲得了Furigana和Okurigana模式。
- Kuroshiro-Analyzer-Kuromoji-Kuroshiro的kuromoji形態分析儀。
- Hepburn -Node.js模塊,用於將日本Hiragana和Katakana腳本轉換為Romaji,使用hepburn Romanation
- 日本數 - 數字 - 將日本數字轉換為數字
- jslingua- javascript庫處理文本:阿拉伯語,日語,等。
- Wanakana-JavaScript圖書館用於檢測和音譯Hiragana <-> katakana <-> romaji
- Node-Romaji-name-用基於Romaji的日語名稱正常化並解決常見問題。
- kyujitai.js-製作日語文字的實用程序集
- 歸一化的日本 - 地址 - オープンソースの住所正規化ライブラリ。
- jaconv -日本語文字変換ライブラリ(JavaScript)
- romaji-conv - Convert romaji into hiragana
- japanese-addresses-v2 - 全国の住所データAPI
- jptext-to-emoji - テキストの単語を絵文字に変換する
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
其他的
- bangumi-data - Raw data for Japanese Anime
- yomichan - Japanese pop-up dictionary extension for Chrome and Firefox.
- proofreading-tool - GUIで動作する文書校正ツール GUI tool for textlinting.
- kanjigrid - A web-app displaying the 2200 kanji characters taught in James Heisig's "Remembering the Kanji", 6th edition.
- japanese-toolkit - Monorepo for Kanji, Furigana, Japanese DB, and others
- analyze-desumasu-dearu - 文の敬体(ですます調)、常体(である調)を解析するJavaScriptライブラリ
- hatsuon - Japanese pitch accent utils
- sentiment_ja_js - Sentiment Analysis in Japanese. sentiment_ja with JavaScript
- mecab-ipadic-seed - mecab-ipadic seed dictionary reader
- Japanese-Word-Of-The-Day - Well, a different Japanese word everyday.
- oskim - Extend GNOME On-Screen Keyboard for Input Methods
- tweetMapping - 東日本大震災発生から24時間以内につぶやかれたジオタグ付きツイートのデジタルアーカイブです。
- pitch-accent - Predict pitch accent in Japanese
- kana2ipa - 「ひらがな」または「カタカナ」を日本語で発音する際の音声記号(IPA)に変換するコマンド
- voicevox - 無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのエディター
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
去
Morphology analysis
- kagome - Self-contained Japanese Morphological Analyzer written in pure Go
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
其他的
- ojosama - テキストを壱百満天原サロメお嬢様風の口調に変換します
- nihongo - Japanese Dictionary
- yomichan-import - External dictionary importer for Yomichan.
- imas-ime-dic - THE IDOLM@STER words dictionary for Japanese IME (by imas-db.jp)
- go-kakasi - Kanji transliteration to hiragana/katakana/romaji, in Go
- go-moji - A Go library for Zenkaku/Hankaku conversion
- ojichat - おじさんがLINEやメールで送ってきそうな文を生成する
- name - Name Searcher in Japanese
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
爪哇
Morphology analysis
- kuromoji - Kuromoji is a self-contained and very easy to use Japanese morphological analyzer designed for search
- Sudachi - A Japanese Tokenizer for Business
- SudachiDict - A lexicon for Sudachi
- meval - 形態素解析器性能評価システム MevAL
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
其他的
- kanjitomo-ocr - Java library for identifying Japanese characters from images
- jakaroma - Java library and command-line tool to transliterate Japanese kanji to romaji (Latin alphabet)
- kakasi-java - Kanji transliteration to hiragana/katakana/romaji, in Java
- Kamite - A desktop language immersion companion for learners of Japanese
- react-native-japanese-tokenizer - Async Japanese Tokenizer Native Plugin for React Native for iOS and Android
- elasticsearch-analysis-japanese - Japanese analyzer uses kuromoji japanese tokenizer for ElasticSearch
- moji4j - A Java library to converts between Japanese Hiragana, Katakana, and Romaji scripts.
- neologdn-java - Japanese text normalizer for mecab-neologd
- elasticsearch-sudachi - The Japanese analysis plugin for elasticsearch
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
Pretrained model
Word2Vec
- japanese-words-to-vectors - Word2vec (word to vectors) approach for Japanese language using Gensim and Mecab.
- chiVe - Japanese word embedding with Sudachi and NWJC
- elmo-japanese - elmo-japanese
- embedrank - Python Implementation of EmbedRank
- aovec - Easy aozorabunko Word2Vec Builder - 青空文庫全書籍のWord2Vecビルダー+構築済みモデル
- dependency-based-japanese-word-embeddings - This is a repository for the AI LAB article "係り受けに基づく日本語単語埋込 (Dependency-based Japanese Word Embeddings)" ( Article URL https://ai-lab.lapras.com/nlp/japanese-word-embedding/)
- jawikivec - Yet Another Japanese-Wikipedia Entity Vectors
- jawiki_word_vector_updater - 最新の日本語Wikipediaのダンプデータから,MeCabを用いてIPA辞書と最新のNeologd辞書の両方で形態素解析を実施し,その結果に基づいた word2vec,fastText,GloVeの単語分散表現を学習するためのスクリプト
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
Transformer based models
- bert-japanese - BERT models for Japanese text.
- japanese-pretrained-models - Code for producing Japanese pretrained models provided by rinna Co., Ltd.
- bert-japanese - BERT with SentencePiece for Japanese text.
- SudachiTra - Japanese tokenizer for Transformers
- japanese-dialog-transformers - Code for evaluating Japanese pretrained models provided by NTT Ltd.
- shiba - Pytorch implementation and pre-trained Japanese model for CANINE, the efficient character-level transformer.
- Dialog - A PyTorch Implementation of japanese chatbot using BERT and Transformer's decoder
- language-pretraining - BERT and ELECTRA models of PyTorch implementations for Japanese text.
- medbertjp - Trials of pre-trained BERT models for the medical domain in Japanese.
- ILYS-aoba-chatbot - ILYS-aoba-chatbot
- t5-japanese - Codes to pre-train Japanese T5 models
- pytorch_bert_japanese - PytorchでBERTの日本語学習済みモデルを利用する
- Laboro-BERT-Japanese - Laboro BERT Japanese: Japanese BERT Pre-Trained With Web-Corpus
- RoBERTa-japanese - Japanese BERT Pretrained Model
- aMLP-japanese - aMLP Transformer Model for Japanese
- bert-japanese-aozora - Japanese BERT trained on Aozora Bunko and Wikipedia, pre-tokenized by MeCab with UniDic & SudachiPy
- sbert-ja - Code to train Sentence BERT Japanese model for Hugging Face Model Hub
- BERT-Japan-vaccination - Official fine-tuning code for "Emotion Analysis of Japanese Tweets and Comparison to Vaccinations in Japan"
- gpt2-japanese - Japanese GPT2 Generation Model
- text2text-japanese - gpt-2 based text2text conversion model
- gpt-ja - GPT-2 Japanese model for HuggingFace's transformers
- friendly_JA-Model - MT model trained using the friendly_JA Corpus attempting to make Japanese easier/more accessible to occidental people by using the Latin/English derived katakana lexicon instead of the standard Sino-Japanese lexicon
- albert-japanese - BERT with SentencePiece for Japanese text.
- ja_text_bert - 日本語WikipediaコーパスでBERTのPre-Trainedモデルを生成するためのリポジトリ
- DistilBERT-base-jp - A Japanese DistilBERT pretrained model, which was trained on Wikipedia.
- bert - This repository provides snippets to use RoBERTa pre-trained on Japanese corpus. Our dataset consists of Japanese Wikipedia and web-scrolled articles, 25GB in total. The released model is built based on that from HuggingFace.
- Laboro-DistilBERT-Japanese - Laboro DistilBERT Japanese
- luke - LUKE -- Language Understanding with Knowledge-based Embeddings
- GPTSAN - General-purpose Swich transformer based Japanese language mode
- japanese-clip - Japanese CLIP by rinna Co., Ltd.
- AcademicBART - We pretrained a BART-based Japanese masked language model on paper abstracts from the academic database CiNii Articles
- AcademicRoBERTa - We pretrained a RoBERTa-based Japanese masked language model on paper abstracts from the academic database CiNii Articles.
- LINE-DistilBERT-Japanese - DistilBERT model pre-trained on 131 GB of Japanese web text. The teacher model is BERT-base that built in-house at LINE.
- Japanese-Alpaca-LoRA - 日本語に翻訳したStanford Alpacaのデータセットを用いてLLaMAをファインチューニングし作成したLow-Rank AdapterのリンクとGenerateサンプルコード
- albert-japanese-tinysegmenter - Pretrained models, codes and guidances to pretrain official ALBERT(https://github.com/google-research/albert) on Japanese Wikipedia Resources
- japanese-llama-experiment - Japanese LLaMa experiment
- easylightchatassistant - EasyLightChatAssistant は軽量で検閲や規制のないローカル日本語モデルのLightChatAssistant を、KoboldCpp で簡単にお試しする環境です。
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
chatgpt
- VRChatGPT - ChatGPTを使ってVRChat上でお喋り出来るようにするプログラム。
- AITuberDegikkoMirii - AITuberの基礎となる部分を開発しています
- wanna - Shell command launcher with natural language
- ChatdollKit - ChatdollKit enables you to make your 3D model into a chatbot
- ChuanhuChatGPTJapanese - GUI for ChatGPT API For Japanese
- AISisterAIChan - ChatGPT3.5を搭載した伺かゴースト「AI妹アイちゃん」です。利用には別途ChatGPTのAPIキーが必要です。
- vrchatbot - VRChatにAI Botを作るためのリポジトリ
- gptuber-by-langchain - GPTがYouTuberをやります
- openai-chatfriend - A chatbox application built using Nuxt 3 powered by Open AI Text completion endpoint. You can select different personality of your AI friend. The default will respond in Japanese. You can use this app to practice your Nihongo skills!
- chrome-ext-translate-to-hiragana-with-chatgpt - This Chrome extension can translate selected Japanese text to Hiragana by using ChatGPT.
- azure-search-openai-demo - このサンプルでは、Retrieval Augmented Generation パターンを使用して、独自のデータに対してChatGPT のような体験を作成するためのいくつかのアプローチを示しています。
- chatvrm - ChatVRMはブラウザで簡単に3Dキャラクターと会話ができるデモアプリケーションです。
- sftly-replace - A Chrome extention to replace the selected text softly
- summarize_arxv - Summarize arXiv paper with figures
- aiavatarkit - Building AI-based conversational avatars lightning fast
- pva-aoai-integration-solution - このリポジトリは、神戸市役所でのChatGPTの試行利用に向けて作成したフロー等をソリューション化し公開するものです。
- jp-azureopenai-samples - Azure OpenAIを活用したアプリケーション実装のリファレンスを目的として、アプリのサンプル(リファレンスアーキテクチャ、サンプルコードとデプロイ手順)を無償提供しています。
- character_chat - OpenAIのAPIを利用して、設定したキャラクターと日本語で会話するチャットスクリプトです。
- chatgpt-slackbot - OpenAIのChatGPT APIをSlack上で利用するためのSlackbotスクリプト (日本語での利用が前提)
- chatgpt-prompt-sample-japanese - ChatGPT の Prompt のサンプルです。
- kanji-flashcard-app-gpt4 - A Japanese Kanji Flashcard App built using Python and Langchain, enhanced with the intelligence of GPT-4.
- IgakuQA - Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations
- japagen - 日本語タスクにおけるLLMを用いた疑似学習データ生成の検討
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
Dictionary and IME
- mecab-ipadic-neologd - Neologism dictionary based on the language resources on the Web for mecab-ipadic
- tdmelodic - A Japanese accent dictionary generator
- jamdict - Python 3 library for manipulating Jim Breen's JMdict, KanjiDic2, JMnedict and kanji-radical mappings
- unidic-py - Unidic packaged for installation via pip.
- Japanese-Company-Lexicon - Japanese Company Lexicon (JCLdic)
- manbyo-sudachi - Sudachi向け万病辞書
- jawiki-kana-kanji-dict - Generate SKK/MeCab dictionary from Wikipedia(Japanese edition)
- JIWC-Dictionary - dictionary to find emotion related to text
- JumanDIC - This repository contains source dictionary files to build dictionaries for JUMAN and Juman++.
- ipadic-py - IPAdic packaged for easy use from Python.
- unidic-lite - A small version of UniDic for easy pip installs.
- emoji-ime-dictionary - 日本語で絵文字入力をするための IME 追加辞書 orange_book Google 日本語入力などで日本語から絵文字への変換を可能にする IME 拡張辞書
- google-ime-dictionary - 日英変換・英語略語展開のための IME 追加辞書 orange_book 日本語から英語への和英変換や英語略語の展開を Google 日本語入力や ATOK などで可能にする IME 拡張辞書
- dic-nico-intersection-pixiv - ニコニコ大百科とピクシブ百科事典の共通部分のIME辞書
- google-ime-user-dictionary-ja-en - GoogleIME用カタカナ語辞書プロジェクトのアーカイブです。Project archive of Google IME user dictionary from Katakana word ( Japanese loanword ) to English.
- emoticon - Google日本語入力の顔文字辞書∩(,,Ò‿Ó,,)∩
- mecab-mozcdic - open source mozc dictionaryをMeCab辞書のフォーマットに変換したものです。
- denonbu-ime-dic - 電音IME: Microsoft IMEなどで利用することを想定した「電音部」関連用語の辞書
- nijisanji-ime-dic - Microsoft IMEなどで利用することを想定した「にじさんじ」関連用語の用語辞書です。
- pokemon-ime-dic - Microsoft IMEなどで利用することを想定した、現状判明している全てのポケモンの名前を網羅した用語辞書です。
- EJDict - English-Japanese Dictionary data (Public Domain) EJDict-hand
- Ayashiy-Nipongo-Dic - 贵樣ばこゐ辞畫を使て正レい日本语を使ラことが出來ゑ。
- genshin-dict - Windows/macOSで使える原神の単語辞書です
- jmdict-simplified - JMdict and JMnedict in JSON format
- mozcdict-ext - Convert external words into Mozc system dictionary
- mh-dict-jp - MonsterHunterのユーザー辞書を作りたい…
- jitenbot - Convert data from Japanese dictionary websites and applications into portable file formats
- mecab-unidic-neologd - Neologism dictionary based on the language resources on the Web for mecab-unidic
- hololive-dictionary - ホロライブ(ホロライブプロダクション)に関する辞書ファイルです。./dictionary フォルダ内のテキストファイルを使って、IMEに単語を追加できます。詳細はREADME.mdをご覧ください。
- jmdict-yomitan - JMdict, JMnedict, KANJIDIC for Yomitan/Yomichan.
- yomichan-jlpt-vocab - JLPT level tags for words in Yomichan
- Jitendex - A free and openly licensed Japanese-to-English dictionary compatible with multiple dictionary clients
- jiten - japanese android/cli/web dictionary based on jmdict/kanjidic — 日本語 辞典 和英辞典 漢英字典 和独辞典 和蘭辞典
- pixiv-yomitan - Pixiv Encyclopedia Dictionary for Yomitan
- uchinaaguchi_dict - うちなーぐち辞典(沖縄語辞典)
- yomitan-dictionaries - Japanese and Chinese dictionaries for Yomitan.
- mouse_over_dictionary - マウスオーバーした単語を自動で読み取る汎用辞書ツール
- jisyo - かな漢字変換エンジン SKKのための新しい辞書形式
- skk-jisyo.emoji-ja - 日本語の読みから Emoji に変換するための SKK 辞書 ?
- anthy - Anthy is a kana-kanji conversion engine for Japanese. It converts roma-ji to kana, and the kana text to a mixed kana and kanji.
- aws_dic_for_google_ime - AWSサービス名のGoogle日本語入力向けの辞書
- cl-skkserv - Common LispによるSKK辞書サーバーとその拡張
- anthy - Anthy maintenance
- anthy-unicode - Anthy Unicode - Another Anthy
- azooKey - azooKey: A Japanese Keyboard iOS Application Fully Developed in Swift
- azookey-desktop - Japanese Input Method "azooKey" for Desktop, supporting macOS
- fcitx5-hazkey - Japanese input method for fcitx5, powered by azooKey engine
- mozcdic-ut-place-names - Mozc UT Place Name Dictionary is a dictionary converted from the Japan Post's ZIP code data for Mozc.
- azookeykanakanjiconverter - Kana-Kanji Conversion Module written in Swift
- libkkc - Japanese Kana Kanji conversion input method library
- libskk - Japanese SKK input method library
- kanayomi-dict - openjtalk形式のユーザー辞書
- cjkvi-dict - 漢字データベースの辞書関連データ
- wlsp-classical - 古典日本語の分類語彙表データ
- kanji-dict - 漢字の書き順(筆順)・読み方・画数・部首・用例・成り立ちを調べるための漢字辞書です。Unicode 15.1 のすべての漢字 98,682字を収録しています。
- Kaomoji_proj - (๑ ᴖ ᴑ ᴖ ๑)みょんかおもじ(旧Kaomoji_proj)はMicrosoft社の入力ソフト、Microsoft IME向けの顔文字の辞書を作成するプロジェクトです。
- kotlin-kana-kanji-converter - Kotlin かな漢字変換プログラム
- alfred-japanese-dictionary - Japanese-English Dictionary using jisho.org with audio, csv export of entries, and preview of dictionary sites.
- ichiran - Linguistic tools for texts in Japanese language
- mikan - A Japanese input method.
- colloquial-kansai-dictionary - A quick reference for the material taught in Colloquial Kansai Japanese.
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
語料庫
Part-of-speech tagging / Named entity recognition
- ner-wikipedia-dataset - Wikipediaを用いた日本語の固有表現抽出データセット
- IOB2Corpus - Japanese IOB2 tagged corpus for Named Entity Recognition.
- TwitterCorpus - 首都大日本語 Twitter コーパス
- UD_Japanese-PUD - Parallel Universal Dependencies.
- UD_Japanese-GSD - Japanese data from the Google UDT 2.0.
- KWDLC - Kyoto University Web Document Leads Corpus
- AnnotatedFKCCorpus - Annotated Fuman Kaitori Center Corpus
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
Parallel corpus
- small_parallel_enja - 50k English-Japanese Parallel Corpus for Machine Translation Benchmark.
- Web-Crawled-Corpus-for-Japanese-Chinese-NMT - A Web Crawled Corpus for Japanese-Chinese NMT
- CourseraParallelCorpusMining - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures Translation
- JESC - A large parallel corpus of English and Japanese
- AMI-Meeting-Parallel-Corpus - AMI Meeting Parallel Corpus
- giant_ja-en_parallel_corpus - This directory includes a giant Japanese-English subtitle corpus. The raw data comes from the Stanford's JESC project.
- jesc_small - Small Japanese-English Subtitle Corpus
- graded-enja-corpus - 禁止用語や単語レベルを考慮した日英対訳コーパスです。
- cjk-compsci-terms - CJK computer science terms comparison / 中日韓電腦科學術語對照 / 日中韓のコンピュータ科学の用語対照 / 한·중·일 전산학 용어 대조
- Laboro-ParaCorpus - Scripts for creating a Japanese-English parallel corpus and training NMT models
- google-vs-deepl-je - google-vs-deepl-je
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
Dialog corpus
- JMRD - Japanese Movie Recommendation Dialogue dataset
- open2ch-dialogue-corpus - おーぷん2ちゃんねるをクロールして作成した対話コーパス
- BSD - The Business Scene Dialogue corpus
- asdc - Accommodation Search Dialog Corpus (宿泊施設探索対話コーパス)
- japanese-corpus - 日本語の対話データ for seq2seq etc
- BPersona-chat - This repository contains the Japanese–English bilingual chat corpus BPersona-chat published in the paper Chat Translation Error Detection for Assisting Cross-lingual Communications at AACL-IJCNLP 2022's Workshop Eval4NLP 2022.
- japanese-daily-dialogue - Japanese Daily Dialogue, or 日本語日常対話コーパス in Japanese, is a high-quality multi-turn dialogue dataset containing daily conversations on five topics: dailylife, school, travel, health, and entertainment.
- llm-japanese-dataset - LLM構築用の日本語チャットデータセット
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
其他的
- jrte-corpus - Japanese Realistic Textual Entailment Corpus (NLP 2020, LREC 2020)
- kanji-data - A JSON kanji dataset with updated JLPT levels and WaniKani information
- JapaneseWordSimilarityDataset - Japanese Word Similarity Dataset
- simple-jppdb - A paraphrase database for Japanese text simplification
- chABSA-dataset - chakki's Aspect-Based Sentiment Analysis dataset
- JaQuAD - JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension (2022, Skelter Labs)
- JaNLI - Japanese Adversarial Natural Language Inference Dataset
- ebe-dataset - Evidence-based Explanation Dataset (AACL-IJCNLP 2020)
- emoji-ja - UNICODE絵文字の日本語読み/キーワード/分類辞書
- nayose-wikipedia-ja - Wikipediaから作成した日本語名寄せデータセット
- ja.text8 - Japanese text8 corpus for word embedding.
- ThreeLineSummaryDataset - 3行要約データセット
- japanese - This repo contains a list of the 44,998 most common Japanese words in order of frequency, as determined by the University of Leeds Corpus.
- kanji-frequency - Kanji usage frequency data collected from various sources
- TEDxJP-10K - TEDxJP-10K ASR Evaluation Dataset
- CoARiJ - Corpus of Annual Reports in Japan
- technological-book-corpus-ja - 日本語で書かれた技術書を収集した生コーパス/ツール
- ita-corpus-chuwa - Chunked word annotation for ITA corpus
- wikipedia-utils - Utility scripts for preprocessing Wikipedia texts for NLP
- inappropriate-words-ja - 日本語における不適切表現を収集します。自然言語処理の時のデータクリーニング用等に使えると思います。
- house-of-councillors - 参議院の公式ウェブサイトから会派、議員、議案、質問主意書のデータを整理しました。
- house-of-representatives - 国会議案データベース:衆議院
- STAIR-captions - STAIR captions: large-scale Japanese image caption dataset
- Winograd-Schema-Challenge-Ja - Japanese Translation of Winograd Schema Challenge
- speechBSD - An extension of the BSD corpus with audio and speaker attribute information
- ita-corpus - ITAコーパスの文章リスト
- rohan4600 - モーラバランス型日本語コーパス
- anlp-jp-history - 言語処理学会年次大会講演の全リスト・機械可読版など
- keigo_transfer_task - 敬語変換タスクにおける評価用データセット
- loanwords_gairaigo - English loanwords in Japanese
- jawikicorpus - Japanese-Wikipedia Wikification Corpus
- GeneralPolicySpeechOfPrimeMinisterOfJapan - This is the corpus of Japanese Text that general policy speech of prime minister of Japan
- wrime - WRIME: 主観と客観の感情分析データセット
- jtubespeech - JTubeSpeech: Corpus of Japanese speech collected from YouTube
- WikipediaWordFrequencyList - 日本語Wikipediaで使用される頻出単語のリスト
- kokkosho_data - 車両不具合情報に関するデータセット
- pdmocrdataset-part1 - デジタル化資料OCRテキスト化事業において作成されたOCR学習用データセット
- huriganacorpus-ndlbib - 全国書誌データから作成した振り仮名のデータセット
- jvs_hiho - JVS (Japanese versatile speech) コーパスの自作のラベル
- hirakanadic - Allows Sudachi to normalize from hiragana to katakana from any compound word list
- animedb - 約100年に渡るアニメ作品リストデータベース
- security_words - サイバーセキュリティに関連する公的な組織の日英対応
- Data-on-Japanese-Diet-Members - 日本の国会議員のデータ
- honkoku-data - 歴史資料の市民参加型翻刻プラットフォーム「みんなで翻刻」のテキストデータ置き場です。 / Transcription texts created on Minna de Honkoku (https://honkoku.org), a crowdsourced transcription platform for historical Japanese documents.
- wikihow_japanese - wikiHow dataset (Japanese version)
- engineer-vocabulary-list - Engineer Vocabulary List in Japanese/English
- JSICK - Japanese Sentences Involving Compositional Knowledge (JSICK) Dataset/JSICK-stress Test Set
- phishurl-list - Phishing URL dataset from JPCERT/CC
- jcms - A Japanese Corpus of Many Specialized Domains (JCMS)
- aozorabunko_text - text-only archives of www.aozora.gr.jp
- friendly_JA-Corpus - friendly_JA is a parallel Japanese-to-Japanese corpus aimed at making Japanese easier by using the Latin/English derived katakana lexicon instead of the standard Sino-Japanese lexicon
- topokanji - Topologically ordered lists of kanji for effective learning
- isbn4groups - ISBN-13における日本語での出版物 (978-4-XXXXXXXXX) に関するデータ等
- NMeCab - NMeCab: About Japanese morphological analyzer on .NET
- ndlngramdata - デジタル化資料から作成したOCRテキストデータのngram頻度統計情報のデータセット
- ndlngramviewer_v2 - 2023年1月にリニューアルしたNDL Ngram Viewerのソースコード等一式
- data_set - 法律・判例関係のデータセット
- huggingface-datasets_wrime - WRIME for huggingface datasets
- ndl-minhon-ocrdataset - NDL古典籍OCR学習用データセット(みんなで翻刻加工データ)
- PAX_SAPIENTICA - GIS & Archaeological Simulator. 2023 in development.
- j-liwc2015 - Japanese version of LIWC2015
- huggingface-datasets_livedoor-news-corpus - Japanese Livedoor news corpus for huggingface datasets
- huggingface-datasets_JGLUE - JGLUE: Japanese General Language Understanding Evaluation for huggingface datasets
- commonsense-moral-ja - JCommonsenseMorality is a dataset created through crowdsourcing that reflects the commonsense morality of Japanese annotators.
- comet-atomic-ja - COMET-ATOMIC ja
- dcsg-ja - Dialogue Commonsense Graph in Japanese
- japanese-toxic-dataset - "Proposal and Evaluation of Japanese Toxicity Schema" provides a schema and dataset for toxicity in the Japanese language.
- camera - CAMERA (CyberAgent Multimodal Evaluation for Ad Text GeneRAtion) is the Japanese ad text generation dataset.
- Japanese-Fakenews-Dataset - 日本語フェイクニュースデータセット
- jpn_explainable_qa_dataset - jpn_explainable_qa_dataset
- copa-japanese - COPA Dataset in Japanese
- WLSP-familiarity - Word Familiarity Rate for 'Word List by Semantic Principles (WLSP)'
- ProSub - A cross-linguistic study of pronoun substitutes and address terms
- commonsense-moral-ja - JCommonsenseMorality is a dataset created through crowdsourcing that reflects the commonsense morality of Japanese annotators.
- ramendb - なんとかデータベース( https://supleks.jp/ )からのスクレイピングツールと収集データ
- huggingface-datasets_CAMERA - CAMERA (CyberAgent Multimodal Evaluation for Ad Text GeneRAtion) for huggingface datasets
- FactCheckSentenceNLI-FCSNLI- - FactCheckSentenceNLIデータセット
- databricks-dolly-15k-ja - databricks/dolly-v2-12b の学習データに使用されたdatabricks-dolly-15k.jsonl を日本語に翻訳したデータセットになります。
- EaST-MELD - EaST-MELD is an English-Japanese dataset for emotion-aware speech translation based on MELD.
- meconaudio - Mecon Audio(Medical Conference Audio)は厚生労働省主催の先進医療会議の議事録の読み上げデータセットです。
- japanese-addresses - 全国の町丁目レベル(277,191件)の住所データのオープンデータ
- aozorasearch - The full-text search system for Aozora Bunko by Groonga. 青空文庫全文検索ライブラリ兼Webアプリ。
- llm-jp-corpus - This repository contains scripts to reproduce the LLM-jp corpus.
- alpaca_ja - alpacaデータセットを日本語化したものです
- instruction_ja - Japanese instruction data (日本語指示データ)
- japanese-family-names - Top 5000 Japanese family names, with readings, ordered by frequency.
- kanji-data-media - Japanese language data on kanji, radicals, media files, fonts and related resources from Kanji alive
- reazonspeech - Construct large-scale Japanese audio corpus at home
- huriganacorpus-aozora - 青空文庫及びサピエの点字データから作成した振り仮名のデータセット
- koniwa - An open collection of annotated voices in Japanese language
- JMMLU - 日本語マルチタスク言語理解ベンチマーク Japanese Massive Multitask Language Understanding Benchmark
- hurigana-speech-corpus-aozora - 青空文庫振り仮名注釈付き音声コーパスのデータセット
- jqara - JQaRA: Japanese Question Answering with Retrieval Augmentation - 検索拡張(RAG)評価のための日本語Q&Aデータセット
- jemhopqa - JEMHopQA (Japanese Explainable Multi-hop Question Answering) is a Japanese multi-hop QA dataset that can evaluate internal reasoning.
- jacred - Repository for Japanese Document-level Relation Extraction Dataset (plan to be released in March).
- jades - JADES is a dataset for text simplification in Japanese, described in "JADES: New Text Simplification Dataset in Japanese Targeted at Non-Native Speakers" (the paper will be available soon).
- do-not-answer-ja - 2023年8月にメルボルン大学から公開された安全性評価データセット『Do-Not-Answer』を日本語LLMの評価においても使用できるように日本語に自動翻訳し、さらに日本文化も考慮して修正したデータセット。
- oasst1-89k-ja - OpenAssistant のオープンソースデータ OASST1 を日本語に翻訳したデータセットになります。
- jacwir - JaCWIR: Japanese Casual Web IR - 日本語情報検索評価のための小規模でカジュアルなWebタイトルと概要のデータセット
- japanese-technical-dict - 日本語学習者のための科学技術業界でよく使われる片仮名と元の単語対照表
- j-unimorph - Dataset of UniMorph in Japanese
- GazeVQA - Dataset for the LREC-COLING 2024 paper "A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions"
- J-CRe3 - Code for J-CRe3 experiments (Ueda et al., LREC-COLING, 2024)
- jmed-llm - JMED-LLM: Japanese Medical Evaluation Dataset for Large Language Models
- lawtext - Plain text format for Japanese law
- pdmocrdataset-part2 - OCR処理プログラム研究開発事業において作成されたOCR学習用データセット
- japanesetopicwsd - 話題に基づく語義曖昧性解消評価セット
- temporalNLI_dataset - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating Generalization Capacity of Language Models
- JSeM - Japanese semantic test suite (FraCaS counterpart and extensions)
- niilc-qa - NIILC QA data
- chain-of-thought-ja-dataset - Dataset of paper "Verification of Chain-of-Thought Prompting in Japanese"
- WikipediaAnnotatedCorpus - This is a Japanese text corpus that consists of Wikipedia articles with various linguistic annotations.
- elaws-history - e-Gov 法令検索で配布されている「全ての法令データ」を定期的にダウンロードし、アーカイブしています
- Japanese-RP-Bench - Japanese-RP-BenchはLLMの日本語ロールプレイ能力を測定するためのベンチマークです。
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
教程
- spacy_tutorial - spaCy tutorial in English and Japanese. spacy-transformers, BERT, GiNZA.
- fastTextJapaneseTutorial - Tutorial to train fastText with Japanese corpus
- allennlp-NER-ja - AllenNLP-NER-ja: AllenNLP による日本語を対象とした固有表現抽出
- chariot-PyTorch-Japanese-text-classification - Experiment for Japanese Text classification using chariot and PyTorch
- ginza-examples - 日本語NLPライブラリGiNZAのすゝめ
- DocumentClassificationUsingBERT-Japanese - DocumentClassificationUsingBERT-Japanese
- BERT_Japanese_Google_Colaboratory - Google Colaboratoryで日本語のBERTを動かす方法です。
- bert-book - 「BERTによる自然言語処理入門: Transformersを使った実践プログラミング」サポートページ
- janome-tutorial - Janome を使ったテキストマイニング入門チュートリアルです。
- handson-language-models - 日本語の言語モデルのハンズオン資料です
- JapaneseNLI - Google Colabで日本語テキスト推論を試す
- deep-learning-with-pytorch-ja - deep-learning-with-pytorchの日本語版repositoryです。
- bert-classification-tutorial -【2023年版】BERTによるテキスト分類
- python-nlp-book - ディープラーニングによる自然言語処理(共立出版)のサポートページです
- llm-book - 「大規模言語モデル入門」(技術評論社, 2023)のGitHubリポジトリ
- nlp2024-tutorial-3 - NLP2024 チュートリアル3 作って学ぶ日本語大規模言語モデル - 環境構築手順とソースコード
- japanese-ir-tutorial - 日本語情報検索チュートリアル
- nlpbook - 「自然言語処理の教科書」サポートサイト
- kantan-regex-book - 作って学ぶ正規表現エンジン
- bert-classification-tutorial-2024 - 【2024年版】BERTによるテキスト分類
- Gemma2_2b_Japanese_finetuning_colab.ipynb - Fine-Tuning Google Gemma for Japanese Instructions
- nlp100v2020 - 「言語処理100本ノック 2020」をPythonで解く
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
研究摘要
- awesome-bert-japanese - A list of pre-trained BERT models for Japanese with word/subword tokenization + vocabulary construction algorithm information
- GEC-Info-ja - 文法誤り訂正に関する日本語文献を収集・分類するためのリポジトリ
- dataset-list - lists of text corpus and more (mainly Japanese)
- tuning_playbook_ja - ディープラーニングモデルの性能を体系的に最大化するためのプレイブック
- japanese-pitch-accent-resources - Trying to consolidate japanese phonetic, and in particular pitch accent resources into one list
- awesome-japanese-llm - オープンソースの日本語LLMまとめ
To check the statistics table (GitHub stars/Downloads), please refer to this page. ?回到頂部
參考
- 自然言語処理の餅屋
- yasuokaの日記: 日本語係り受け解析器「2020年の総ざらえ」
- yasuokaの日記: 日本語係り受け解析器「2021年の総ざらえ」
- https://github.com/topics/japanese?l=python
- https://github.com/topics/japanese-language?l=python
- https://github.com/search?o=desc&q=corpus+japanese&s=&type=Repositories
- https://paperswithcode.com/datasets?lang=japanese
- https://github.com/himkt/awesome-bert-japanese
- Awesome-Rust-MachineLearning-日本語向けのrustクレートや記事等をまとめたもの
- 大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価
貢獻者
- kaisugi - website
- bomin0624 - twitter
- passaglia - twitter