awesome japanese nlp resources herunterladen - awesome japanese nlp resources herunterladen

Deutsch

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

Startseite>Programmierbezogen>Anderer Quellcode

awesome japanese nlp resources

Anderer Quellcode

1.0.0

Herunterladen

Awesome-Japanese-NLP-Ressourcen

Eine kuratierte Liste von Ressourcen, die Python Libraries, LLMs, Wörterbüchern und Korpora von NLP für Japanisch gewidmet sind

Auflistete Informationen zu 653 Github -Repositories
Auflistete Informationen zu 1503 Umarmung von Gesichtsrepositories (Modelle und Datensätze)
Ein Werkzeug veröffentlicht? Für die Suche durch eine große Anzahl von Repository -Informationen

Englisch | 日本語 (Japanisch) | 繁體中文 (Chinesisch) | 简体中文 (Chinesisch)

Die neuesten Ergänzungen?

Umarmen Gesicht?

5 neue Modelle und 11 neue Datensätze zu Harmingface -Seiten hinzugefügt

Gehen

Name - Name Sucher auf Japanisch

Aktualisiert am 24. Dezember 2024

Inhalt

Umarmtes Gesicht
- Modelle
- Datensätze
Python Library
- Morphologieanalyse
- Parsing
- Konverter
- Präprozessor
- Satzsplitter
- Stimmungsanalyse
- Maschinelle Übersetzung
- Genannte Entitätserkennung
- OCR
- Werkzeug für vorbereitete Modelle
- Andere
C ++
- Morphologieanalyse
- Parsing
- Andere
Rostkiste
- Morphologieanalyse
- Konverter
- Suchmaschinenbibliothek
- Andere
JavaScript
- Morphologieanalyse
- Konverter
- Andere
Gehen
- Morphologieanalyse
- Andere
Java
- Morphologieanalyse
- Andere
Vorbereitetes Modell
- Word2Vec
- Transformatorbasierte Modelle
Chatgpt
Wörterbuch und IME
Korpus
- Anerkennung von Speech-Tagging / benannte Entität
- Textklassifizierung
- Parallelkorpus
- Dialogkorpus
- Andere
Tutorial
Forschungszusammenfassung
Referenz
Mitwirkende

Python Library

Morphologieanalyse

Sudachi.rs - Sudachipy 0,6* und höher werden als sudachi.rs entwickelt.
Janome - Japanische morphologische Analyse Motor in reinem Python geschrieben
Mecab-Python3-Mecab-Python. Mecab-Python. Hier finden Sie die Originalversion: http: //taku910.github.io/mecab/
Mecab - Dieses Repository dient zum Aufbau von Windows 64 -Bit -Mecab -Binary und zur Verbesserung der Mecab -Python -Bindung.
Fugashi - Eine Cython Mecab -Wrapper für schnelle, pythonische japanische Tokenisierung und morphologische Analyse.
Nagisa - Ein japanischer Tokenzader, der auf wiederkehrenden neuronalen Netzwerken basiert
PyKNP - Ein Python -Modul für Juman ++/KNP
Mykytea -Python - Python -Wrapper für Kytea
Konoha - Konoha: Einfache Wrapper japanischer Tokenizer
Natto-Py-Natto-Py kombiniert die Python-Programmiersprache mit Mecab, dem Teil der Sprache und des morphologischen Analysators für die japanische Sprache.
Rakutenma -Python - Rakuten MA (Python -Version)
Python -Vaporetto - Vaporetto ist eine schnelle und leichte punktweise Vorhersage auf Tokenizer. Dies ist ein Python -Wrapper für Vaporetto.
Dango - Ein einfach zu bedienender Tokenizer für japanisch
RHOKNP - Eine weitere Python -Bindung für Juman ++/KNP
Python-Vibrato-Basierte beschleunigte Tokenizer auf Viterbi (Python Wrapper)
Jagger-Python-Python-Bindung für Jagger (C ++ Implementierung des musterbasierten japanischen morphologischen Analysators)

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Parsing

Ginza - Eine japanische NLP -Bibliothek, die Spacy als Framework verwendet, basierend auf universellen Abhängigkeiten
Cabocha - Ein weiterer japanischer Abhängigkeitsstrukturanalysator
UNIDIC2UD-Tokenizer Pos-Tagger Lemmatizer und Abhängigkeits-Parser für modernes und zeitgenössisches Japanisch
CAMPHR - CAMPHR - NLP LIBARY zum Erstellen von Pipeline -Komponenten
SUAL-Unidic-Tokenizer Pos-Tagger Lemmatizer und Abhängigkeits-Parser für moderne und zeitgenössische Japaner mit Bert-Modellen
DEPCCG - A* CCG -Parser mit einem Supertag und Abhängigkeitsmodell
BertknP - Ein japanischer Abhängigkeits -Parser basierend auf Bert
ESUPAR-Tokenizer POS-Tagger und Abhängigkeits-Parser mit Bert/Roberta/DeBerta-Modellen für japanische und andere Sprachen
Yomikata - Heteronym -Disambiguationsbibliothek unter Verwendung eines fein abgestimmten Bert -Modells.
Jdepp -Python - Python -Bindung für J.DEPP (C ++ Implementierung japanischer Abhängigkeitsparser)
Lightblue - Ein CCG -Parser für Japanisch mit DTS -Repräsentationen
Natsume-Simple-Natsume-Simple は日本語の係り受け関係検索システム

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Konverter

Pykakasi-Leichter Konverter aus japanischen Kana-Kanji-Sätzen nach Kana-roman.
Schnitzel - Japanisch -Romaji -Konverter in Python
Alphabet2Kana - Konvertieren Sie das englische Alphabet nach Katakana
Konvertiten zu Japanern-konvertiert arabische Ziffern oder "westliche" Stilzahlen in einen japanischen Kontext.
Mozcpy - Mozc für Python: Kana -Kanji -Konverter
JAMORASEP - Japanischer Text Parser, um die Hiragana/Katakana -Saite in Morae (Silben) zu trennen.
text2Phonem - 日本語文を音素列へ変換するスクリプト
JNTAJIS -PYTHON - Eine schnelle Bibliothek zur Umstellung und Transliteration von Charakteren, die auf dem für die Japan National Tax Agency (国税庁) definierten Programm basiert
Wiredify-Japanische Kana aus Ba-bi-bu-be-bo in va-vi-vu-ve-Vo konvertieren
Mecab-Text-Cleaner-Einfaches Python-Paket (CLI/Python-API) zum Erhalten japanischer Messwerte (Yomigana) und Akzente mit Mecab.
PynormalisenumExp - 数量表現や時間表現の抽出・正規化を行う Normalizexp の Python 実装
Jusho - Einfache Wrapper für die Postleitzahldaten Japans
Yurenizer - Japanischer Textnormalizer, der die Rechtschreibkonsistenzen auflöst. （日本語表記揺れ解消ツール）

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Präprozessor

Neologdn - Japanischer Textnormalizer für Mecab -Neologd
Jaconv - Pure -Python Japanische Charakter -Interkonverter für Hiragana, Katakana, Hankaku und Zenkaku
Mojimoji - Ein schneller Konverter zwischen japanischen Hankaku und Zenkaku -Charakteren
Textreinigung - Ein leistungsstarker Textreiniger für japanische Webtexte
Hojichar - 複数の前処理を構成して管理するテキスト前処理ツール
UTSUHO-UTSUHO ist ein Python-Modul, das die bidirektionale Umwandlung zwischen Katakana und Japanisch mit voller Breite erleichtert.
Python -Habachen - Ein weiterer schneller japanischer String -Konverter

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Satzsplitter

Bunkai - Satzgrenze Disambiguationsinstrument für japanische Texte (日本語文境界判定器)
Japaner-Sentenz-Breaker-Japanischer Satz Breaker
SENGIRI - Ein weiterer Tokenizer auf Satzebene für den japanischen Text
Budoux - Standalone. Klein. Sprachneutral. Budoux ist der Nachfolger von Budou, dem Werkzeug für maschinelles Lernen, Line Break Organizer.
JA_SENTENCE_SEGENTER - Japanische Satzsegmentierungsbibliothek für Python
HaSami - Ein Werkzeug zur Durchführung von Satzsegmentierung im japanischen Text
Kuzukiri - Japanischer Textsegmentierer für Python in Rost geschrieben
Ja-Senter-Benchmark-Vergleich der japanischen Satzsegmentierungswerkzeuge

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Stimmungsanalyse

Oseti - Dictionary -basierte Stimmungsanalyse für Japanisch
Negapoji - Japanische negative positive Klassifizierung. 日本語文書のネガポジを判定。
Pymlask - Emotionsanalysator für den japanischen Text
ASARI - Japanischer Sentiment Analyzer in Python implementiert.

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Maschinelle Übersetzung

JPARACRAWL-FINETUNE-Eine Beispielverwendung von JParacrawl-Modellen für Neuralmaschinenübersetzungen (NMT).
JASS-JASS: Japanisch-spezifische Sequenz zur Sequenz vor dem Training für neuronale Maschinenübersetzungen (LREC2020) und sprachlich angetriebener Multi-Task-Pre-Training für Neuralmaschinenübersetzungen mit niedriger Ressourcen (ACM-Tallip)
PHEMT-Ein phänomener Bewertungsdatensatz für japanische Robustheit für maschinelle Übersetzungen. Der Datensatz basiert auf dem MTNT -Datensatz mit zusätzlichen Anmerkungen von vier sprachlichen Phänomenen. Richtiges Substantiv, abgekürztes Substantiv, umgangssprachliche Expression und Variante. Coling 2020.
Visum - ein mehrdeutiger Untertitel -Datensatz für visuelle szenenbewusste maschinelle Übersetzung

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Genannte Entitätserkennung

NAMACO - Charakterbasierte namens Entitätserkennung.
Entitypedia - Entitypedia ist ein erweitertes genanntes Entitätswörterbuch aus Wikipedia.
Noyaki - Konvertiert Charakterspannen -Etiketteninformationen in tokenisierte textbasierte Etiketteninformationen.
Bert-japanische Nerven-Finetuning-Code zur Durchführung einer Finetuning des Bert-Modells. Bert モデルのファインチューニングで固有表現抽出用タスクのモデルを作成・使用するサンプルです
Gelenkinformations-Extraktion-HS-詳細なアノテーション基準に基づく症例報告コーパスからの固有表現及び関係の抽出精度の推論を行うコード
Pygeonlp - Pygeonlp, ein Python -Modul für geotagende japanische Texte.
BERT-NER-JAPANESE-BERT による日本語固有表現抽出のファインチューニング用プログラム
Huggingface-Finetune-Japanesen-Beispiele für nur Finetune-Encoder- und Encoder-Decoder-Transformatoren für japanische Sprachressourcen (Ressourcen für japanische Sprache)

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

OCR

Manga OCR - Über optische Charaktererkennung für den japanischen Text, wobei der Schwerpunkt der japanische Manga liegt
MOKURO - Lesen Sie den japanischen Manga im Browser mit wählbarem Text.
handgeschriebene Japanese-OCR-handgeschriebene japanische OCR-Demo Verwenden des Touchpanel
OCR_JAPANEASE - 日本語 OCR
ndlocr_cli - ndlocr のアプリケーション
Donut - Offizielle Implementierung des OCR -freien Dokumentenverständnisses Transformator (Donut) und Synthetic Dokumentgenerator (Synthdog), ECCV 2022
JMtrans - Manga -Übersetzer - Holen Sie sich japanische Manga von der URL, um Manga -Bild zu übersetzen
Kindai -Ocr - OCR -System zur Erkennung moderner japanischer Magazine
text_recognition - ndlocr 用テキスト認識モジュール
Poricom - OPTISCHE Charaktererkennung in Manga -Bildern. Manga OCR -Desktop -Anwendung
OWOCR - OPTISCHE Charaktererkennung für den japanischen Text
Yomitoku - Yomitoku ist ein KI -angetriebenes Dokumentbildanalysepaket, das speziell für die japanische Sprache entwickelt wurde.

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Werkzeug für vorbereitete Modelle

JGLE - JGLE: Japanische Bewertung des allgemeinen Sprachverständnisses
Ginza-Transformatoren-Verwenden Sie benutzerdefinierte Tokenisierer in Spacy-Transformers
t5_japanese_dialogue_generation - t5 による会話生成
japanisch_text_classification - Untersuchung verschiedener DNN -Textklassifizierer, einschließlich MLP, CNN, RNN, Bert -Ansätze.
Japanisch-Bert-Sentiment-Analyzer-Bereitstellung der Stimmungsanalyseserver mit Fastapi und Bert
JMLM_CORING - Masked Langused Modell -basierte Bewertung für Japanisch und Vietnamesisch
Allennlp-Shiba-Model-Allennlp-Integration für Shiba: Japanisches Hundemodell
evaluate_japanese_w2v - Skript zur Bewertung des vorgebildeten japanischen Word2VEC -Modells im japanischen Ähnlichkeitsdatensatz
Gector-Ja-Bert-basiertes GEC-Tagging für Japanisch
Japanisch-Bpeencoder-Japanisch-BpeenCodier
Japanisch-bpeencoder_v2-Japanisch-Bpeencoder Version 2
Transformator -Kopie - 日本語文法誤り訂正ツール
Japanische stabile Diffusion-Japanische stabile Diffusion ist ein japanisches spezifisches latentes Text-zu-Image-Diffusionsmodell, das foto-realistische Bilder erzeugen kann, die eine beliebige Texteingabe besitzen.
Nagisa_bert - Ein Bert -Modell für Nagisa
Präfix-Tuning-GPT-Beispielcode für Präfix-Tuning-GPT/GPT-NeOX-Modelle und für Inferenz mit geschulten Präfixen
JGLE -Benchmark - Trainings- und Evaluierungsskripte für JGLE, eine japanische Verständnisverständnis -Benchmark
JPTRANSTOKEIZER - Japanischer Tokenizer für Transformers Library
JP -Stabil - JP -Sprachmodellbewertungsgurt
Compare-ja-tokenizer-Wie können verschiedene Tokenizer bei nachgeschalteten Aufgaben in den SPRICTIO-Kontinua-Sprachen erfolgen ?: Eine Fallstudie in Japanisch-ACL SRW 2023
LM-Evaluation-HARDES-JP-Stabil-Ein Rahmen für die Bewertung von autoregressiven Sprachmodellen für wenige Schüsse.
LLM-Lora-Klasse-LLM-Lora-Klasse
JP -Stabil - JP -Sprachmodellbewertungsgurt
RINNA_GPT-NEOX_GGML-LORA-Das Repository enthält Skripte und Zusammenführungsskripte, die so modifiziert wurden, dass ein Alpaka-Lora-Adapter für die Lora-Abstimmung angepasst wurde, wenn die Verwendung des "Rinna/Japanisch-GPT-NeoX ..." [GPT-NEOX] -Model zu GGML konvertiert wurde.
Japanisch-LlM-Rollenspiel-Benchmark-このリポジトリは日本語 LLM のキャラクターロールプレイに関する性能を評価するために作成しました。
Japanisch-llM-Ranking-Dieses Repository unterstützt Yuzuais Rakuda-Rangliste der japanischen LLMs, ein japanisch-fokussiertes Analogon von LMSYS 'Vicuna Eval.
LLM-JP-EVAL-このツールは、複数のデータセットを横断して日本語の大規模言語モデルを自動評価するものです．
LLM-JP-SFT-Dieses Repository enthält den Code für die beaufsichtigte Feinabstimmung von LLM-JP-Modellen.
llm-jp-tokenizer-llm 勉強会（ llm-jp ）で開発している llm 用のトークナイザー関連をまとめたリポジトリです．
Japanisch-LM-Fin-Halt-Japanische Sprachmodell Finanzbewertungsgurt
Ja-Vicuna-QA-Benchmark-Japanische Vicuna-QA-Benchmark
Schwalbe -Evaluation - Swallow プロジェクト大規模言語モデル評価スクリプト評価スクリプト評価スクリプト

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Andere

NAMEIVIDER -PYTHON - Ein Werkzeug zum Teilen des japanischen vollständigen Namens in einen Familiennamen und einen bestimmten Namen.
ASA -Python - Eine kuratierte Liste von Ressourcen, die Python -Bibliotheken von NLP für Japanisch gewidmet sind
python_asa - python 版日本語意味役割付与システム（ asa））
Toiro - Ein Vergleichsinstrument japanischer Tokenisierer
Ja -Timex - 自然言語で書かれた時間情報表現を抽出/規格化するルールベースの解析器
Japanesetokenizer - eine Reihe von Metriken für die Feature -Auswahl aus Textdaten
DAAJA - Dieses Repository verfügt über Implementierungen der Datenerweiterung für NLP für Japanisch.
Accel-Hirn-Code-Der Zweck dieses Repositorys ist es, Prototypen als Fallstudie im Kontext des Proof of Concept (POC) und der Forschung und Entwicklung (F & E) zu erstellen, die ich auf meiner Website geschrieben habe. Die wichtigsten Forschungsthemen sind automatische Encoder in Bezug auf das Repräsentationslernen, das statistische maschinelle Lernen für energiebasierte Modelle und das Netto der kontroversen Generation…
Kyoto -Reader - ein Prozessor für Kyotocorpus, KWDLC und AnnotatedfkcCcorpus
NLPlot - Visualisierungsmodul für die Verarbeitung natürlicher Sprache
Rake -ja - Schneller automatischer Keyword -Extraktionsalgorithmus für Japanisch
Jel - Linker für japanische Entität.
Medner -J - Neueste Version von Medex/J (Japaner Krankheitsname -Extraktor)
Zunda -Python - Zunda: Japaner Client Analysator Client für Python.
AIO2_DPR_BASELINE - https://www.nlp.ecei.tohoku.ac.jp/projects/aio/
Showcase - Eine Pytorch -Implementierung des Analysators der japanischen Prädikat -Argument -Struktur (PAS), der im Papier von Matsubayashi & Inui (2018) mit einigen Verbesserungen vorgestellt wurde.
Darts-Clone-Python-Darts-Clone Python Bindung
jrte -corpus_example - Beispielcodes für japanische realistische Textverbotskorpus
Desuwa - Feature Annotator zu Morphemen und Phrasen basierend auf KNP -Regeldateien (Pure -Python)
HotpeppergourmetDialogue - Restaurantsuchsystem durch Dialog auf Japanisch.
NLP-Recipes-ja-Beispielcodes für die Verarbeitung natürlicher Sprache auf Japanisch
Japanisch_nlp_scripts - Kleine Beispielskripte für die Arbeit mit japanischen Texten in Python
DNORM -J - Japanische Version von DNORM
PyknP-Eventgraph-Eventgraph ist eine Entwicklungsplattform für NLP-Anwendungen auf hoher Ebene auf Japanisch.
Ishi - Ishi: Ein Willensklassifizierer für Japanisch
Python -npylm - ベイズ階層言語モデルによる教師なし形態素解析
Python -npycrf - 条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析
unbeaufsichtigtes Pos-Taging-教師なし品詞タグ推定
Negima-Negima ist ein Python-Paket zum Extrahieren von Phrasen im japanischen Text mithilfe der von Ihnen definierten von den von den Bewertungen basierenden Regeln.
Youyakuman - Extraktiver Zusammenfassung mit Bertsum als Summar -Modell
Japanische Zahlen-Python-Ein Parser für die japanische Zahl (Kanji, Arabisch) in der natürlichen Sprache.
KANTAN - Japanische Wörter nach radikalen Mustern suchen
Make-Meidai-Dialogue-Holen Sie sich den japanischen Dialog Corpus
JAPALE_SUMMARISCH - Ein Zusammenfassungspunkt für japanische Artikel.
Chirptext - Chirptext ist eine Sammlung von Textverarbeitungswerkzeugen für Python.
Yubin - Japanische Adresse Munger
Jawiki -Cleaner - japanischer Wikipedia -Reiniger
Japanisch2Phonem - Eine Python -Bibliothek, um Japanisch in Phonem umzuwandeln.
ANLP_NLP2021_D3-1-Dieses Repository enthält Codes im Zusammenhang mit den Experimenten in "Eine experimentelle Bewertung japanischer Tokenisierer für die klassifizierte Textklassifizierung".
Aozora_Classification - Über dieses Projekt zielt darauf ab, den japanischen Satz so gut zu klassifizieren, wie gut sie einigen japanischen klassischen Schriftstellern wie Sooseki Natsume, Ogai Mori, Ryunosuke Akutagawa usw. ähnlich sind.
Aozora-Corpus-Generator-generiert einfache oder tokenisierte Textdateien aus dem Aozora-Bunko
JLM - Ein schnelles LSTM -Sprachmodell für große Vokabeln wie Japanisch und Chinesisch
NTM - Testen des neuronalen Themas Modellierung für japanische Artikel
EN-JP-ML-LEXICON-Dies ist ein englisch-japanisches Lexikon für maschinelles Lernen und Deep-Learning-Terminologie.
Text-Generation-Einfach zu bedienende Skripte, um GPT-2-Ja mit Ihren eigenen Texten zu optimieren, Sätze zu generieren und sie automatisch zu twittern.
Chainer_nic - Neuronale Bildunterschrift (NIC) auf Chainer, seine vorbereiteten Modelle für englische und japanische Bildunterschriftendatensätze.
Unihan-lm-Das offizielle Repository für "Unihanlm: Grob-zu-Fine-Chinesisch-Japaner-Sprachmodell Vorabbau mit der Unihan-Datenbank", AACL-IJCNLP 2020
MBART -FINETUNING - Code zur Durchführung einer Finetuning des MBART -Modells.
xVector_jtubespeech - XVector -Modell auf JTubeSpeech
TinysegmenterMaker - TinySegmenter 用の学習モデルを自作するためのツール．
Grongisch - 日本語とグロンギ語の相互変換スクリプト
Wordcloud -japanisch - wordcloud での日本語文章を mecab （形態素解析エンジン）を使用せずに形態素解析チックな表示を実現するスクリプト
Snark - 日本語ワードネットを利用した db アクセスライブラリ
Toemoji - 日本語文を絵文字だけの文に変換するなにか
TermExtrahiert - - 専門用語抽出アルゴリズムの実装の練習
Jdt-with-Kenlm-Scoring-Japanisch-Dialog-Transformator の応答候補に対して、 Kenlm による n-Gram 言語モデルでスコアリングし、フィルタリング若しくはリランキングを行う。
Mischung aus Unigrammmodell-Mischung aus Unigrammmodell und unendlicher Mischung aus Unigram-Modell in Python. (混合ユニグラムモデルと無限混合ユニグラムモデル)
Hidden-Markov-Modell-Hidden Markov Model (HMM) und Infinite Hidden Markov Model (IHMM) in Python. (隠れマルコフモデルと無限隠れマルコフモデル)
Ngram-Sprachmodell-Ngram-Sprachmodell in Python. (N グラム言語モデル)
ASRDeepSpeech - Automatische Spracherkennung mit DeepSpeech2 -Modell in Pytorch mit Unterstützung von Zakuro AI.
Neural_ime - Neural IME: Neuraleingangsmethode Engine
neural_japanese_transliterator - Können neuronale Netze Romaji richtig in Japanisch umwandeln?
TinySegmenter - Tokenizer für Japanisch angegeben
Augly -JP - Datenvergrößerung für den japanischen Text auf Augly
Furigana4epub - Ein Python -Drehbuch zum Hinzufügen von Furigana zu japanischen Epub -Büchern mit Mecab und Unidic.
Pykatsuyou - Tool für japanisches Verb/Adjektivfischung
JAGEOCODER - PURE Python Japanische Adresse Geocoder
Pygeonlp - Pygeonlp, ein Python -Modul für geotagende japanische Texte.
NKSND - neuer Kana -Kanji -Konvertierungsmotor
Jamie - Ein Toolkit für japanische medizinische Informationsextraktion
FastText-VS-Word2Vec-on-Twitter-Data-FastText と Word2VEC の比較と、実行スクリプト、学習スクリプトです
Minimal-Search-Engine-最小のサーチエンジン/Pagerank/TF-IDF
5Ch -Analyse - 5Ch の過去ログをスクレイピングして、過去流行った単語 (Ex, 香具師, Orz) などを追跡調査
tweet_extructor - Twitter 日本語評判分析データセットのためのツイートダウンローダ
Japanisch-Wort-Aggregation-aggregieren japanische Wörter basierend auf Juman ++ und ConceptNet5.5
Jinf - Ein japanischer Wendeumwandler
KWJA - Ein einheitlicher Sprachanalysator für Japanisch
MLM-Scoring-Transformatoren-Reproduziertes Paket basierend auf maskierter Sprachmodellbewertung (ACL2020).
Clipcap-for-japanisch-[pytorch] clipcap für japanisch
Sat-for-japanisch-[Pytorch] Show, teilnehmen und für Japanisch erzählen
Cihai - Python Library für CJK -Sprachwörterbuch für CJK (chinesische, japanische und koreanische)
Marine-Marine: Multi-Task-Lernbasis-japanischer Akzentschätzung
flüstere-asr-finetune-Finetuning Whisper ASR-Modell
Japanisch_Chatbot - Eine Pytorch -Implementierung japanischer Chatbot mit Bert und Transformers Decoder
RadicalChar - 部首文字正規化ライブラリ
Akaza - Noch ein japanischer IME für Ibus/Linux
POSUTO - Japanische Postleitzahldaten.
Tacotron2 -japanisch - Tacotron2 -Implementierung von Japanisch
Ibus -Hiragana - ひらがな IME für Ibus
Furiganapad - ふりがなパッド
Chikkarpy - Japanische Synonymbibliothek
Ja-Tokenizer-Docker-Py-Mecab + Neologd + Docker + Python3
JapanischembedingVal - Japanischembedingung
gptuber-by-langchain-gpt が youtuber をやります
Shuwa - Erweitern Sie die GNOME -Tastatur auf dem Bildschirm für Eingabetastaturen
Japanisch-NLI-Model-Dieses Repository bietet den Code für japanisches NLI-Modell, ein fein abgestimmeltes maskiertes Sprachmodell.
Tra-Fugu-Ein Werkzeug für japanische Englischübersetzung und englisch-japanische Übersetzung mit Fugumt
Fugumt - ぷるーふおぶこんせぷとで公開した機械翻訳エンジンを利用する翻訳環境です。フォームに入力された文字列の翻訳、 PDF の翻訳が可能です。
Jaspice - Jaspice: Automatische Bewertungsmetrik unter Verwendung von Prädikat -Argument -Strukturen für Bildunterschriftenmodelle
Abrufbasierte Voice-Conversion-Webui-JP-Lokalisierung-JP-Lokalisierung
Pyopenjtalk - Python -Wrapper für OpenJtalk
Yomigana -Buch - Erleichterung Japanisch Erleichterung durch Hinzufügen von Lesungen für jeden Kanji im eBook
N46WHISPER - Japaner Untertitelgenerator auf flüsterischer Basis
japanisch_llm_simple_webui - rinna -3.6b 、 opencalm 等の日本語対応 llm (大規模言語モデル) 用の簡易 Web インタフェースです
PDF-Translator-PDF-Translator übersetzt englische PDF-Dateien in Japanisch und bewahrt das ursprüngliche Layout.
japanisch_qa_demo_with_haystack_and_es - haystack + elasticsearch + wikipedia (ja) を用いた、日本語の質問応答システムのサンプル
MOZC-Devices-automatisch von code.google.com/p/mozc-morse exportiert
Natsume - Ein japanisches Text -Frontend -Verarbeitungs -Toolkit
vits-japros-webui-日本語 tts （vits ）の学習と音声合成の gradio webui
Ja-Law-Parser-ein japanischer Rechtsparser
Diktat -Kit - Japanisches Diktatkit mit Julius
Julius4seg - Julius を使ったセグメンテーション支援ツール
Voicevox_Engine - 無料で使える中品質なテキスト読み上げソフトウェア、 Voicevox の音声合成エンジン
LLAVA-JP-LLAVA-JP ist eine japanische VLM, die von der Llava-Methode ausgebildet wurde
Rag -Japaner - Open Source Rag mit Lama -Index für japanische LLM bei niedriger Ressourcensiedlung
BERTJSC - Japanischer Rechtschreibfehlerkorrektur unter Verwendung von Bert (maskiertes Modell). Bert に基づいて日本語校正
LLM -Leaderboard - Projekt der LLM -Bewertung zu japanischen Aufgaben
JGLE-EVALION-SCRIPTS-Über Schulungs- und Bewertungsskripte für JGLE, eine japanische Redeverständnis-Benchmark
BLIP2-JAPANESE-Modifizierung von Lavis 'Blip2 Q-Former mit Modellen, die auf japanischen Datensätzen vorbereitet sind.
Wikipedia-Passages-Jawiki-embeddings-utils-Wikipedia 日本語の文を、各種日本語の Einbettung や Faiss Index へと変換するスクリプト等。
Einfach-Simcse-Ja-Erforschung japanischer Simcse
Wikipedia-japanese-öffnen-Rag-Wikipedia の日本語記事を元に、ユーザの質問に回答する Gradio ベースの Rag のサンプル
gpt4-autoeval-gpt-4 を用いて、言語モデルの応答を自動評価するスクリプト
t5 -japanisch - 日本語 t5 モデル
japanisch_llm_eval - ein Repo zur Bewertung von japanischen LLMs ・日本語 LLM を評価するレポ
JMTEB - Die Bewertungsskripte von JMTEB (japanische massive Texteinbettungsbenchmark)
Pydomino - 日本語音声に対して音素ラベルをアラインメントするためのツールです
EasyNovelassistant - 軽量で規制も検閲もない日本語ローカル llm 『lightchatassistant -Typ 』による、簡単なノベル生成アシスタントです。ローカル特権の永続生成 für immer erzeugen で、当たりガチャを積み上げます。読み上げにも対応。
Clip -Japanese - 日本語データセットでの Qlora -Anweisung Tuning 学習サンプルコード
Rime -Jaroomaji - Japanisches Rōmaji -Eingangsschema für Rime IME
Deep-Frage-Generation-深層学習を用いたクイズ自動生成（日本語 T5 モデル）
Magpie-Nemotron-Magpie という手法と Nemotron-4-340b-in-struktur を用いて合成対話データセットを作るコード
qlora_ja - 日本語データセットでの Qlora Anweisung Tuning 学習サンプルコード
Mozcdic-ut-Jawiki-Mozc UT Jawiki Dictionary ist ein Wörterbuch, das aus der japanischen Wikipedia für MOZC erzeugt wird.
Shisa -V2 - Zweisprachiger japanischer / englischer LLM
LLM-Translator-Mixtral-basiertes JA-EN-Übersetzungsmodell (EN-JA)
LLM-JP-ASR-Whisper のデコーダを LLM-JP-1.3B-V1.0 に置き換えた音声認識モデルを学習させるためのコード
Rag -Japaner - Open Source Rag mit Lama -Index für japanische LLM bei niedriger Ressourcensiedlung
Monaka - ein japanischer Parser (einschließlich historischer Japaner)
JP-translate.cloud-Ein hochmodernes Open-Source-Japaner <--> englisches maschinelles Übersetzungssystem basiert auf der neuesten NMT-Forschung.
Substring-Wort-Finder-連続部分文字列の単語判定を行います
Heron-VLM-Leaderboard-Dieses Projekt ist ein Benchmarking-Tool zum Bewerten und Vergleich der Leistung verschiedener Vision-Sprachmodelle (VLMs). Es verwendet zwei Datensätze: Llava-Bank-in-the-wild und japanische Heron Bench, um die Modellleistung zu messen.
text2Dataset - Verwandeln Sie mit offenen LLMs einfach große englische Textdatensätze in japanische Textdatensätze.
mecab-web-api-mecab を利用した日本語形態素解析 webapi
mecab_controller - Mecab -Wrapper, um Furigana -Lesungen zu erzeugen.
vits - vits によるテキスト読み上げ器 & ボイスチェンジャー
AKari_Chatgpt_bot - 音声認識、文章生成、音声合成を使って対話するチャットボットアプリ

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

C ++

Morphologieanalyse

Mecab - Ein weiterer japanischer morphologischer Analysator
Jumanpp - Juman ++ (ein morphologisches Analysator -Toolkit)
Kytea - Das Kyoto -Textanalyse -Toolkit zur Wortsegmentierung und Ausspracheschätzung usw.

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Parsing

Cabocha - Ein weiterer japanischer Abhängigkeitsstrukturanalysator
KNP - ein japanischer Parser

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Andere

JSC - Joint Quell -Kanalmodell für die japanische Kanji -Umwandlung, chinesische Pinyin -Eingabe und CJE gemischte Eingabe.
Aquaskk - Eine Eingangsmethode ohne morphologische Analyse.
MOZC - MOZC - Ein japanischer Eingangsmethode -Editor für Multi -Plattform
Trimatch - Trimatch: An (exakt | Präfix | ungefähre) Zeichenfolge -Matching -Bibliothek
Reembla - Reembla: wortbasierte japanische ähnliche Satzsuchbibliothek
Corvusskk - ▽ ▼ skk -ähnlicher japanischer Eingangsmethode -Editor für Windows

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Rostkiste

Morphologieanalyse

LINDERA - Eine morphologische Analysebibliothek.
Vaporetto - Vaporetto: Sehr beschleunigte punktuelle Vorhersage -basierte Tokenizer
Goya - Japanische morphologische Analyse in Rost geschrieben
Vibrato - Vibrato: Beschleunigter Tokenizer auf Viterbi -Basis
Yoin - Ein japanischer morphologischer Analysator, der in reinem Rost geschrieben wurde
MECAB-RS-sichere Rostbindungen für Mecab einer Bibliothek zur Sprach- und Morphologische Analyse
Awabi - Ein morphologischer Analysator mit Mecab -Wörterbuch
Kanpyo - Japanischer morphologischer Analysator in Rost geschrieben

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Konverter

Wana_kana_rust - Dienstprogrammbibliothek zum Überprüfen und Umwandeln zwischen japanischen Zeichen - Hiragana, Katakana - und Romaji
Unicode-JP-Rs-Eine Rostbibliothek, um die japanische Halbbreite-Kana [半角ｶﾅ] und breitalphanumerische [全角英数] in normale Umwandlung umzuwandeln
Kana - [Mirror] CLI -Programm zum transliterieren Romaji -Text an Hiragana oder Katakana
Kanaria - このライブラリは、ひらがな・カタカナ、半角・全角の相互変換や判別を始めとした機能を提供します。
Japanisch-Adress-Parser-日本の住所を都道府県/市区町村/町名/その他に分割するライブラリです

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Suchmaschinenbibliothek

LINDERA -TANTIVY - LINDERA -Tokenizer für Tantivy.
Tantivy -Vibrato - Ein tantivischer Tokenizer mit Vibrato.

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Andere

DAACHORDE-Eine schnelle Implementierung des AHO-Korasick-Algorithmus unter Verwendung der kompakten Doppelarray-Datenstruktur in Rost.
Find-Simdoc- Finden Sie alle Paare ähnlicher Dokumente zeit- und speichereffizient
Crawdad-Rust Library of Natural Language Wörterbücher mit charakterweisen Doppelarray-Versuchen.
Tokenizer-Speed-Bench-Vergleichscode verschiedener Tokenisierer
StringMatch -Bench - Bietet hier Benchmark -Tools, um die Leistung von Datenstrukturen für die String -Matching zu vergleichen.
VIME - Verwenden Sie VIM als Eingabemethode für X11 -Apps
Voicevox_core - 無料で使える中品質なテキスト読み上げソフトウェア、 Voicevox のコア
Akaza - Noch ein japanischer IME für Ibus/Linux
JOTOBA - Ein kostenloses Online -Wörterbuch für selbsthohen, multilang -japanische Wörterbuch.
dvorakjp -romantable - Google 日本語入力用 Dvorakjp ローマ字テーブル / dvorakjp römische Tabelle für Google Japanische Eingabe
Niinii - Japanischer Glossator für das assistierte Textlesen mit Ichiran
CSKK - SKK (einfache Kanji Henkan) Bibliothek
Japanki - Japanische Vokabeln lernen? Durch die CLI -Quizfragen!
JPREPROCESS-Japanischer Textpräprozessor für Text-to-Speech-Anwendungen (OpenJtalk-Umschreiben in Rostsprache)
listup_precedent - 裁判例のデータ一覧を裁判所のホームページ (https://www.courts.go.jp/index.html) をスクレイピングして生成するソフトウェア
Jisho - Jisho ist eine CLI -Tool & Rust -Bibliothek, die ein japanisch -englisches Wörterbuch bietet.

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

JavaScript

Morphologieanalyse

Kuromoji.js - JavaScript -Implementierung des japanischen morphologischen Analysators
Rakutenma - Rakuten MA - Morphologischer Analysator (Word -Segmentor + POS -Tagger) für Chinesisch und Japanisch, die nur in JavaScript geschrieben wurden. Ressourcen
Node-Mecab-ya-Ein weiterer Mecab-Wrapper für NodeJs
Juman-Bin-Ein benutzerfreundlicher morphologischer Analysator für Japanisch. 日本語形態素解析システム
Node-Mecab-Async-Asynchroner japanischer morphologischer Analysator mit Mecab.

Um die Statistiktabelle (Github Stars/Downloads) zu überprüfen, finden Sie diese Seite. ? Zurück nach oben

Konverter

Kuroshiro - Japanische Sprachbibliothek für die Konvertierung des japanischen Satzes in Hiragana, Katakana oder Romaji mit unterstützten Furigana- und Okriganan -Modi.
Kuroshiro-Analyzer-Kuromoji-Kuromoji Morphologischer Analysator für Kuroshiro.
Hepburn - Node.js Modul zum Konvertieren japanischer Hiragana und Katakana -Skript in und von Romaji mithilfe der Hepburn -Romanisierung
Japanische Numerale-Zahlen-Umwandelt japanische Ziffern in die Anzahl
JSLINGUA - JavaScript -Bibliotheken zur Verarbeitung von Text: Arabisch, Japanisch usw.
Wanakana-JavaScript-Bibliothek zur Erkennung und Übersetzung von Hiragana <--> Katakana <--> Romaji
Node-romaji-name-Normalisieren und beheben Sie gemeinsame Probleme mit auf Romaji-basierten japanischen Namen.
Kyujitai.js - Versorgungskollektionen, um den japanischen Text altmodisch zu machen
normalize-japanese-addresses - オープンソースの住所正規化ライブラリ。
jaconv - 日本語文字変換ライブラリ (javascript)
romaji-conv - Convert romaji into hiragana
japanese-addresses-v2 - 全国の住所データAPI
jptext-to-emoji - テキストの単語を絵文字に変換する

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Andere

bangumi-data - Raw data for Japanese Anime
yomichan - Japanese pop-up dictionary extension for Chrome and Firefox.
proofreading-tool - GUIで動作する文書校正ツール GUI tool for textlinting.
kanjigrid - A web-app displaying the 2200 kanji characters taught in James Heisig's "Remembering the Kanji", 6th edition.
japanese-toolkit - Monorepo for Kanji, Furigana, Japanese DB, and others
analyze-desumasu-dearu - 文の敬体(ですます調)、常体(である調)を解析するJavaScriptライブラリ
hatsuon - Japanese pitch accent utils
sentiment_ja_js - Sentiment Analysis in Japanese. sentiment_ja with JavaScript
mecab-ipadic-seed - mecab-ipadic seed dictionary reader
Japanese-Word-Of-The-Day - Well, a different Japanese word everyday.
oskim - Extend GNOME On-Screen Keyboard for Input Methods
tweetMapping - 東日本大震災発生から24時間以内につぶやかれたジオタグ付きツイートのデジタルアーカイブです。
pitch-accent - Predict pitch accent in Japanese
kana2ipa - 「ひらがな」または「カタカナ」を日本語で発音する際の音声記号(IPA)に変換するコマンド
voicevox - 無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのエディター

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Gehen

Morphology analysis

kagome - Self-contained Japanese Morphological Analyzer written in pure Go

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Andere

ojosama - テキストを壱百満天原サロメお嬢様風の口調に変換します
nihongo - Japanese Dictionary
yomichan-import - External dictionary importer for Yomichan.
imas-ime-dic - THE IDOLM@STER words dictionary for Japanese IME (by imas-db.jp)
go-kakasi - Kanji transliteration to hiragana/katakana/romaji, in Go
go-moji - A Go library for Zenkaku/Hankaku conversion
ojichat - おじさんがLINEやメールで送ってきそうな文を生成する
name - Name Searcher in Japanese

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Java

Morphology analysis

kuromoji - Kuromoji is a self-contained and very easy to use Japanese morphological analyzer designed for search
Sudachi - A Japanese Tokenizer for Business
SudachiDict - A lexicon for Sudachi
meval - 形態素解析器性能評価システム MevAL

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Andere

kanjitomo-ocr - Java library for identifying Japanese characters from images
jakaroma - Java library and command-line tool to transliterate Japanese kanji to romaji (Latin alphabet)
kakasi-java - Kanji transliteration to hiragana/katakana/romaji, in Java
Kamite - A desktop language immersion companion for learners of Japanese
react-native-japanese-tokenizer - Async Japanese Tokenizer Native Plugin for React Native for iOS and Android
elasticsearch-analysis-japanese - Japanese analyzer uses kuromoji japanese tokenizer for ElasticSearch
moji4j - A Java library to converts between Japanese Hiragana, Katakana, and Romaji scripts.
neologdn-java - Japanese text normalizer for mecab-neologd
elasticsearch-sudachi - The Japanese analysis plugin for elasticsearch

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Pretrained model

Word2Vec

japanese-words-to-vectors - Word2vec (word to vectors) approach for Japanese language using Gensim and Mecab.
chiVe - Japanese word embedding with Sudachi and NWJC
elmo-japanese - elmo-japanese
embedrank - Python Implementation of EmbedRank
aovec - Easy aozorabunko Word2Vec Builder - 青空文庫全書籍のWord2Vecビルダー+構築済みモデル
dependency-based-japanese-word-embeddings - This is a repository for the AI LAB article "係り受けに基づく日本語単語埋込 (Dependency-based Japanese Word Embeddings)" ( Article URL https://ai-lab.lapras.com/nlp/japanese-word-embedding/)
jawikivec - Yet Another Japanese-Wikipedia Entity Vectors
jawiki_word_vector_updater - 最新の日本語Wikipediaのダンプデータから，MeCabを用いてIPA辞書と最新のNeologd辞書の両方で形態素解析を実施し，その結果に基づいた word2vec，fastText，GloVeの単語分散表現を学習するためのスクリプト

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Transformer based models

bert-japanese - BERT models for Japanese text.
japanese-pretrained-models - Code for producing Japanese pretrained models provided by rinna Co., Ltd.
bert-japanese - BERT with SentencePiece for Japanese text.
SudachiTra - Japanese tokenizer for Transformers
japanese-dialog-transformers - Code for evaluating Japanese pretrained models provided by NTT Ltd.
shiba - Pytorch implementation and pre-trained Japanese model for CANINE, the efficient character-level transformer.
Dialog - A PyTorch Implementation of japanese chatbot using BERT and Transformer's decoder
language-pretraining - BERT and ELECTRA models of PyTorch implementations for Japanese text.
medbertjp - Trials of pre-trained BERT models for the medical domain in Japanese.
ILYS-aoba-chatbot - ILYS-aoba-chatbot
t5-japanese - Codes to pre-train Japanese T5 models
pytorch_bert_japanese - PytorchでBERTの日本語学習済みモデルを利用する
Laboro-BERT-Japanese - Laboro BERT Japanese: Japanese BERT Pre-Trained With Web-Corpus
RoBERTa-japanese - Japanese BERT Pretrained Model
aMLP-japanese - aMLP Transformer Model for Japanese
bert-japanese-aozora - Japanese BERT trained on Aozora Bunko and Wikipedia, pre-tokenized by MeCab with UniDic & SudachiPy
sbert-ja - Code to train Sentence BERT Japanese model for Hugging Face Model Hub
BERT-Japan-vaccination - Official fine-tuning code for "Emotion Analysis of Japanese Tweets and Comparison to Vaccinations in Japan"
gpt2-japanese - Japanese GPT2 Generation Model
text2text-japanese - gpt-2 based text2text conversion model
gpt-ja - GPT-2 Japanese model for HuggingFace's transformers
friendly_JA-Model - MT model trained using the friendly_JA Corpus attempting to make Japanese easier/more accessible to occidental people by using the Latin/English derived katakana lexicon instead of the standard Sino-Japanese lexicon
albert-japanese - BERT with SentencePiece for Japanese text.
ja_text_bert - 日本語WikipediaコーパスでBERTのPre-Trainedモデルを生成するためのリポジトリ
DistilBERT-base-jp - A Japanese DistilBERT pretrained model, which was trained on Wikipedia.
bert - This repository provides snippets to use RoBERTa pre-trained on Japanese corpus. Our dataset consists of Japanese Wikipedia and web-scrolled articles, 25GB in total. The released model is built based on that from HuggingFace.
Laboro-DistilBERT-Japanese - Laboro DistilBERT Japanese
luke - LUKE -- Language Understanding with Knowledge-based Embeddings
GPTSAN - General-purpose Swich transformer based Japanese language mode
japanese-clip - Japanese CLIP by rinna Co., Ltd.
AcademicBART - We pretrained a BART-based Japanese masked language model on paper abstracts from the academic database CiNii Articles
AcademicRoBERTa - We pretrained a RoBERTa-based Japanese masked language model on paper abstracts from the academic database CiNii Articles.
LINE-DistilBERT-Japanese - DistilBERT model pre-trained on 131 GB of Japanese web text. The teacher model is BERT-base that built in-house at LINE.
Japanese-Alpaca-LoRA - 日本語に翻訳したStanford Alpacaのデータセットを用いてLLaMAをファインチューニングし作成したLow-Rank AdapterのリンクとGenerateサンプルコード
albert-japanese-tinysegmenter - Pretrained models, codes and guidances to pretrain official ALBERT(https://github.com/google-research/albert) on Japanese Wikipedia Resources
japanese-llama-experiment - Japanese LLaMa experiment
easylightchatassistant - EasyLightChatAssistant は軽量で検閲や規制のないローカル日本語モデルのLightChatAssistant を、KoboldCpp で簡単にお試しする環境です。

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Chatgpt

VRChatGPT - ChatGPTを使ってVRChat上でお喋り出来るようにするプログラム。
AITuberDegikkoMirii - AITuberの基礎となる部分を開発しています
wanna - Shell command launcher with natural language
ChatdollKit - ChatdollKit enables you to make your 3D model into a chatbot
ChuanhuChatGPTJapanese - GUI for ChatGPT API For Japanese
AISisterAIChan - ChatGPT3.5を搭載した伺かゴースト「AI妹アイちゃん」です。利用には別途ChatGPTのAPIキーが必要です。
vrchatbot - VRChatにAI Botを作るためのリポジトリ
gptuber-by-langchain - GPTがYouTuberをやります
openai-chatfriend - A chatbox application built using Nuxt 3 powered by Open AI Text completion endpoint. You can select different personality of your AI friend. The default will respond in Japanese. You can use this app to practice your Nihongo skills!
chrome-ext-translate-to-hiragana-with-chatgpt - This Chrome extension can translate selected Japanese text to Hiragana by using ChatGPT.
azure-search-openai-demo - このサンプルでは、Retrieval Augmented Generation パターンを使用して、独自のデータに対してChatGPT のような体験を作成するためのいくつかのアプローチを示しています。
chatvrm - ChatVRMはブラウザで簡単に3Dキャラクターと会話ができるデモアプリケーションです。
sftly-replace - A Chrome extention to replace the selected text softly
summarize_arxv - Summarize arXiv paper with figures
aiavatarkit - Building AI-based conversational avatars lightning fast
pva-aoai-integration-solution - このリポジトリは、神戸市役所でのChatGPTの試行利用に向けて作成したフロー等をソリューション化し公開するものです。
jp-azureopenai-samples - Azure OpenAIを活用したアプリケーション実装のリファレンスを目的として、アプリのサンプル（リファレンスアーキテクチャ、サンプルコードとデプロイ手順）を無償提供しています。
character_chat - OpenAIのAPIを利用して、設定したキャラクターと日本語で会話するチャットスクリプトです。
chatgpt-slackbot - OpenAIのChatGPT APIをSlack上で利用するためのSlackbotスクリプト (日本語での利用が前提)
chatgpt-prompt-sample-japanese - ChatGPT の Prompt のサンプルです。
kanji-flashcard-app-gpt4 - A Japanese Kanji Flashcard App built using Python and Langchain, enhanced with the intelligence of GPT-4.
IgakuQA - Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations
japagen - 日本語タスクにおけるLLMを用いた疑似学習データ生成の検討

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Dictionary and IME

mecab-ipadic-neologd - Neologism dictionary based on the language resources on the Web for mecab-ipadic
tdmelodic - A Japanese accent dictionary generator
jamdict - Python 3 library for manipulating Jim Breen's JMdict, KanjiDic2, JMnedict and kanji-radical mappings
unidic-py - Unidic packaged for installation via pip.
Japanese-Company-Lexicon - Japanese Company Lexicon (JCLdic)
manbyo-sudachi - Sudachi向け万病辞書
jawiki-kana-kanji-dict - Generate SKK/MeCab dictionary from Wikipedia(Japanese edition)
JIWC-Dictionary - dictionary to find emotion related to text
JumanDIC - This repository contains source dictionary files to build dictionaries for JUMAN and Juman++.
ipadic-py - IPAdic packaged for easy use from Python.
unidic-lite - A small version of UniDic for easy pip installs.
emoji-ime-dictionary - 日本語で絵文字入力をするための IME 追加辞書 orange_book Google 日本語入力などで日本語から絵文字への変換を可能にする IME 拡張辞書
google-ime-dictionary - 日英変換・英語略語展開のための IME 追加辞書 orange_book 日本語から英語への和英変換や英語略語の展開を Google 日本語入力や ATOK などで可能にする IME 拡張辞書
dic-nico-intersection-pixiv - ニコニコ大百科とピクシブ百科事典の共通部分のIME辞書
google-ime-user-dictionary-ja-en - GoogleIME用カタカナ語辞書プロジェクトのアーカイブです。Project archive of Google IME user dictionary from Katakana word ( Japanese loanword ) to English.
emoticon - Google日本語入力の顔文字辞書∩(,,Ò‿Ó,,)∩
mecab-mozcdic - open source mozc dictionaryをMeCab辞書のフォーマットに変換したものです。
denonbu-ime-dic - 電音IME: Microsoft IMEなどで利用することを想定した「電音部」関連用語の辞書
nijisanji-ime-dic - Microsoft IMEなどで利用することを想定した「にじさんじ」関連用語の用語辞書です。
pokemon-ime-dic - Microsoft IMEなどで利用することを想定した、現状判明している全てのポケモンの名前を網羅した用語辞書です。
EJDict - English-Japanese Dictionary data (Public Domain) EJDict-hand
Ayashiy-Nipongo-Dic - 贵樣ばこゐ辞畫を使て正レい日本语を使ラことが出來ゑ。
genshin-dict - Windows/macOSで使える原神の単語辞書です
jmdict-simplified - JMdict and JMnedict in JSON format
mozcdict-ext - Convert external words into Mozc system dictionary
mh-dict-jp - MonsterHunterのユーザー辞書を作りたい…
jitenbot - Convert data from Japanese dictionary websites and applications into portable file formats
mecab-unidic-neologd - Neologism dictionary based on the language resources on the Web for mecab-unidic
hololive-dictionary - ホロライブ（ホロライブプロダクション）に関する辞書ファイルです。./dictionary フォルダ内のテキストファイルを使って、IMEに単語を追加できます。詳細はREADME.mdをご覧ください。
jmdict-yomitan - JMdict, JMnedict, KANJIDIC for Yomitan/Yomichan.
yomichan-jlpt-vocab - JLPT level tags for words in Yomichan
Jitendex - A free and openly licensed Japanese-to-English dictionary compatible with multiple dictionary clients
jiten - japanese android/cli/web dictionary based on jmdict/kanjidic — 日本語辞典和英辞典漢英字典和独辞典和蘭辞典
pixiv-yomitan - Pixiv Encyclopedia Dictionary for Yomitan
uchinaaguchi_dict - うちなーぐち辞典（沖縄語辞典）
yomitan-dictionaries - Japanese and Chinese dictionaries for Yomitan.
mouse_over_dictionary - マウスオーバーした単語を自動で読み取る汎用辞書ツール
jisyo - かな漢字変換エンジン SKKのための新しい辞書形式
skk-jisyo.emoji-ja - 日本語の読みから Emoji に変換するための SKK 辞書 ?
anthy - Anthy is a kana-kanji conversion engine for Japanese. It converts roma-ji to kana, and the kana text to a mixed kana and kanji.
aws_dic_for_google_ime - AWSサービス名のGoogle日本語入力向けの辞書
cl-skkserv - Common LispによるSKK辞書サーバーとその拡張
anthy - Anthy maintenance
anthy-unicode - Anthy Unicode - Another Anthy
azooKey - azooKey: A Japanese Keyboard iOS Application Fully Developed in Swift
azookey-desktop - Japanese Input Method "azooKey" for Desktop, supporting macOS
fcitx5-hazkey - Japanese input method for fcitx5, powered by azooKey engine
mozcdic-ut-place-names - Mozc UT Place Name Dictionary is a dictionary converted from the Japan Post's ZIP code data for Mozc.
azookeykanakanjiconverter - Kana-Kanji Conversion Module written in Swift
libkkc - Japanese Kana Kanji conversion input method library
libskk - Japanese SKK input method library
kanayomi-dict - openjtalk形式のユーザー辞書
cjkvi-dict - 漢字データベースの辞書関連データ
wlsp-classical - 古典日本語の分類語彙表データ
kanji-dict - 漢字の書き順(筆順)・読み方・画数・部首・用例・成り立ちを調べるための漢字辞書です。Unicode 15.1 のすべての漢字 98,682字を収録しています。
Kaomoji_proj - (๑ ᴖ ᴑ ᴖ ๑)みょんかおもじ（旧Kaomoji_proj）はMicrosoft社の入力ソフト、Microsoft IME向けの顔文字の辞書を作成するプロジェクトです。
kotlin-kana-kanji-converter - Kotlin かな漢字変換プログラム
alfred-japanese-dictionary - Japanese-English Dictionary using jisho.org with audio, csv export of entries, and preview of dictionary sites.
ichiran - Linguistic tools for texts in Japanese language
mikan - A Japanese input method.
colloquial-kansai-dictionary - A quick reference for the material taught in Colloquial Kansai Japanese.

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Korpus

Part-of-speech tagging / Named entity recognition

ner-wikipedia-dataset - Wikipediaを用いた日本語の固有表現抽出データセット
IOB2Corpus - Japanese IOB2 tagged corpus for Named Entity Recognition.
TwitterCorpus - 首都大日本語 Twitter コーパス
UD_Japanese-PUD - Parallel Universal Dependencies.
UD_Japanese-GSD - Japanese data from the Google UDT 2.0.
KWDLC - Kyoto University Web Document Leads Corpus
AnnotatedFKCCorpus - Annotated Fuman Kaitori Center Corpus

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Parallel corpus

small_parallel_enja - 50k English-Japanese Parallel Corpus for Machine Translation Benchmark.
Web-Crawled-Corpus-for-Japanese-Chinese-NMT - A Web Crawled Corpus for Japanese-Chinese NMT
CourseraParallelCorpusMining - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures Translation
JESC - A large parallel corpus of English and Japanese
AMI-Meeting-Parallel-Corpus - AMI Meeting Parallel Corpus
giant_ja-en_parallel_corpus - This directory includes a giant Japanese-English subtitle corpus. The raw data comes from the Stanford's JESC project.
jesc_small - Small Japanese-English Subtitle Corpus
graded-enja-corpus - 禁止用語や単語レベルを考慮した日英対訳コーパスです。
cjk-compsci-terms - CJK computer science terms comparison / 中日韓電腦科學術語對照 / 日中韓のコンピュータ科学の用語対照 / 한·중·일 전산학 용어 대조
Laboro-ParaCorpus - Scripts for creating a Japanese-English parallel corpus and training NMT models
google-vs-deepl-je - google-vs-deepl-je

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Dialog corpus

JMRD - Japanese Movie Recommendation Dialogue dataset
open2ch-dialogue-corpus - おーぷん2ちゃんねるをクロールして作成した対話コーパス
BSD - The Business Scene Dialogue corpus
asdc - Accommodation Search Dialog Corpus (宿泊施設探索対話コーパス)
japanese-corpus - 日本語の対話データ for seq2seq etc
BPersona-chat - This repository contains the Japanese–English bilingual chat corpus BPersona-chat published in the paper Chat Translation Error Detection for Assisting Cross-lingual Communications at AACL-IJCNLP 2022's Workshop Eval4NLP 2022.
japanese-daily-dialogue - Japanese Daily Dialogue, or 日本語日常対話コーパス in Japanese, is a high-quality multi-turn dialogue dataset containing daily conversations on five topics: dailylife, school, travel, health, and entertainment.
llm-japanese-dataset - LLM構築用の日本語チャットデータセット

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Andere

jrte-corpus - Japanese Realistic Textual Entailment Corpus (NLP 2020, LREC 2020)
kanji-data - A JSON kanji dataset with updated JLPT levels and WaniKani information
JapaneseWordSimilarityDataset - Japanese Word Similarity Dataset
simple-jppdb - A paraphrase database for Japanese text simplification
chABSA-dataset - chakki's Aspect-Based Sentiment Analysis dataset
JaQuAD - JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension (2022, Skelter Labs)
JaNLI - Japanese Adversarial Natural Language Inference Dataset
ebe-dataset - Evidence-based Explanation Dataset (AACL-IJCNLP 2020)
emoji-ja - UNICODE絵文字の日本語読み/キーワード/分類辞書
nayose-wikipedia-ja - Wikipediaから作成した日本語名寄せデータセット
ja.text8 - Japanese text8 corpus for word embedding.
ThreeLineSummaryDataset - 3行要約データセット
japanese - This repo contains a list of the 44,998 most common Japanese words in order of frequency, as determined by the University of Leeds Corpus.
kanji-frequency - Kanji usage frequency data collected from various sources
TEDxJP-10K - TEDxJP-10K ASR Evaluation Dataset
CoARiJ - Corpus of Annual Reports in Japan
technological-book-corpus-ja - 日本語で書かれた技術書を収集した生コーパス/ツール
ita-corpus-chuwa - Chunked word annotation for ITA corpus
wikipedia-utils - Utility scripts for preprocessing Wikipedia texts for NLP
inappropriate-words-ja - 日本語における不適切表現を収集します。自然言語処理の時のデータクリーニング用等に使えると思います。
house-of-councillors - 参議院の公式ウェブサイトから会派、議員、議案、質問主意書のデータを整理しました。
house-of-representatives - 国会議案データベース：衆議院
STAIR-captions - STAIR captions: large-scale Japanese image caption dataset
Winograd-Schema-Challenge-Ja - Japanese Translation of Winograd Schema Challenge
speechBSD - An extension of the BSD corpus with audio and speaker attribute information
ita-corpus - ITAコーパスの文章リスト
rohan4600 - モーラバランス型日本語コーパス
anlp-jp-history - 言語処理学会年次大会講演の全リスト・機械可読版など
keigo_transfer_task - 敬語変換タスクにおける評価用データセット
loanwords_gairaigo - English loanwords in Japanese
jawikicorpus - Japanese-Wikipedia Wikification Corpus
GeneralPolicySpeechOfPrimeMinisterOfJapan - This is the corpus of Japanese Text that general policy speech of prime minister of Japan
wrime - WRIME: 主観と客観の感情分析データセット
jtubespeech - JTubeSpeech: Corpus of Japanese speech collected from YouTube
WikipediaWordFrequencyList - 日本語Wikipediaで使用される頻出単語のリスト
kokkosho_data - 車両不具合情報に関するデータセット
pdmocrdataset-part1 - デジタル化資料OCRテキスト化事業において作成されたOCR学習用データセット
huriganacorpus-ndlbib - 全国書誌データから作成した振り仮名のデータセット
jvs_hiho - JVS (Japanese versatile speech) コーパスの自作のラベル
hirakanadic - Allows Sudachi to normalize from hiragana to katakana from any compound word list
animedb - 約100年に渡るアニメ作品リストデータベース
security_words - サイバーセキュリティに関連する公的な組織の日英対応
Data-on-Japanese-Diet-Members - 日本の国会議員のデータ
honkoku-data - 歴史資料の市民参加型翻刻プラットフォーム「みんなで翻刻」のテキストデータ置き場です。 / Transcription texts created on Minna de Honkoku (https://honkoku.org), a crowdsourced transcription platform for historical Japanese documents.
wikihow_japanese - wikiHow dataset (Japanese version)
engineer-vocabulary-list - Engineer Vocabulary List in Japanese/English
JSICK - Japanese Sentences Involving Compositional Knowledge (JSICK) Dataset/JSICK-stress Test Set
phishurl-list - Phishing URL dataset from JPCERT/CC
jcms - A Japanese Corpus of Many Specialized Domains (JCMS)
aozorabunko_text - text-only archives of www.aozora.gr.jp
friendly_JA-Corpus - friendly_JA is a parallel Japanese-to-Japanese corpus aimed at making Japanese easier by using the Latin/English derived katakana lexicon instead of the standard Sino-Japanese lexicon
topokanji - Topologically ordered lists of kanji for effective learning
isbn4groups - ISBN-13における日本語での出版物 (978-4-XXXXXXXXX) に関するデータ等
NMeCab - NMeCab: About Japanese morphological analyzer on .NET
ndlngramdata - デジタル化資料から作成したOCRテキストデータのngram頻度統計情報のデータセット
ndlngramviewer_v2 - 2023年1月にリニューアルしたNDL Ngram Viewerのソースコード等一式
data_set - 法律・判例関係のデータセット
huggingface-datasets_wrime - WRIME for huggingface datasets
ndl-minhon-ocrdataset - NDL古典籍OCR学習用データセット（みんなで翻刻加工データ）
PAX_SAPIENTICA - GIS & Archaeological Simulator. 2023 in development.
j-liwc2015 - Japanese version of LIWC2015
huggingface-datasets_livedoor-news-corpus - Japanese Livedoor news corpus for huggingface datasets
huggingface-datasets_JGLUE - JGLUE: Japanese General Language Understanding Evaluation for huggingface datasets
commonsense-moral-ja - JCommonsenseMorality is a dataset created through crowdsourcing that reflects the commonsense morality of Japanese annotators.
comet-atomic-ja - COMET-ATOMIC ja
dcsg-ja - Dialogue Commonsense Graph in Japanese
japanese-toxic-dataset - "Proposal and Evaluation of Japanese Toxicity Schema" provides a schema and dataset for toxicity in the Japanese language.
camera - CAMERA (CyberAgent Multimodal Evaluation for Ad Text GeneRAtion) is the Japanese ad text generation dataset.
Japanese-Fakenews-Dataset - 日本語フェイクニュースデータセット
jpn_explainable_qa_dataset - jpn_explainable_qa_dataset
copa-japanese - COPA Dataset in Japanese
WLSP-familiarity - Word Familiarity Rate for 'Word List by Semantic Principles (WLSP)'
ProSub - A cross-linguistic study of pronoun substitutes and address terms
commonsense-moral-ja - JCommonsenseMorality is a dataset created through crowdsourcing that reflects the commonsense morality of Japanese annotators.
ramendb - なんとかデータベース( https://supleks.jp/ )からのスクレイピングツールと収集データ
huggingface-datasets_CAMERA - CAMERA (CyberAgent Multimodal Evaluation for Ad Text GeneRAtion) for huggingface datasets
FactCheckSentenceNLI-FCSNLI- - FactCheckSentenceNLIデータセット
databricks-dolly-15k-ja - databricks/dolly-v2-12b の学習データに使用されたdatabricks-dolly-15k.jsonl を日本語に翻訳したデータセットになります。
EaST-MELD - EaST-MELD is an English-Japanese dataset for emotion-aware speech translation based on MELD.
meconaudio - Mecon Audio(Medical Conference Audio)は厚生労働省主催の先進医療会議の議事録の読み上げデータセットです。
japanese-addresses - 全国の町丁目レベル（277,191件）の住所データのオープンデータ
aozorasearch - The full-text search system for Aozora Bunko by Groonga. 青空文庫全文検索ライブラリ兼Webアプリ。
llm-jp-corpus - This repository contains scripts to reproduce the LLM-jp corpus.
alpaca_ja - alpacaデータセットを日本語化したものです
instruction_ja - Japanese instruction data (日本語指示データ)
japanese-family-names - Top 5000 Japanese family names, with readings, ordered by frequency.
kanji-data-media - Japanese language data on kanji, radicals, media files, fonts and related resources from Kanji alive
reazonspeech - Construct large-scale Japanese audio corpus at home
huriganacorpus-aozora - 青空文庫及びサピエの点字データから作成した振り仮名のデータセット
koniwa - An open collection of annotated voices in Japanese language
JMMLU - 日本語マルチタスク言語理解ベンチマーク Japanese Massive Multitask Language Understanding Benchmark
hurigana-speech-corpus-aozora - 青空文庫振り仮名注釈付き音声コーパスのデータセット
jqara - JQaRA: Japanese Question Answering with Retrieval Augmentation - 検索拡張(RAG)評価のための日本語Q&Aデータセット
jemhopqa - JEMHopQA (Japanese Explainable Multi-hop Question Answering) is a Japanese multi-hop QA dataset that can evaluate internal reasoning.
jacred - Repository for Japanese Document-level Relation Extraction Dataset (plan to be released in March).
jades - JADES is a dataset for text simplification in Japanese, described in "JADES: New Text Simplification Dataset in Japanese Targeted at Non-Native Speakers" (the paper will be available soon).
do-not-answer-ja - 2023年8月にメルボルン大学から公開された安全性評価データセット『Do-Not-Answer』を日本語LLMの評価においても使用できるように日本語に自動翻訳し、さらに日本文化も考慮して修正したデータセット。
oasst1-89k-ja - OpenAssistant のオープンソースデータ OASST1 を日本語に翻訳したデータセットになります。
jacwir - JaCWIR: Japanese Casual Web IR - 日本語情報検索評価のための小規模でカジュアルなWebタイトルと概要のデータセット
japanese-technical-dict - 日本語学習者のための科学技術業界でよく使われる片仮名と元の単語対照表
j-unimorph - Dataset of UniMorph in Japanese
GazeVQA - Dataset for the LREC-COLING 2024 paper "A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions"
J-CRe3 - Code for J-CRe3 experiments (Ueda et al., LREC-COLING, 2024)
jmed-llm - JMED-LLM: Japanese Medical Evaluation Dataset for Large Language Models
lawtext - Plain text format for Japanese law
pdmocrdataset-part2 - OCR処理プログラム研究開発事業において作成されたOCR学習用データセット
japanesetopicwsd - 話題に基づく語義曖昧性解消評価セット
temporalNLI_dataset - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating Generalization Capacity of Language Models
JSeM - Japanese semantic test suite (FraCaS counterpart and extensions)
niilc-qa - NIILC QA data
chain-of-thought-ja-dataset - Dataset of paper "Verification of Chain-of-Thought Prompting in Japanese"
WikipediaAnnotatedCorpus - This is a Japanese text corpus that consists of Wikipedia articles with various linguistic annotations.
elaws-history - e-Gov 法令検索で配布されている「全ての法令データ」を定期的にダウンロードし、アーカイブしています
Japanese-RP-Bench - Japanese-RP-BenchはLLMの日本語ロールプレイ能力を測定するためのベンチマークです。

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Tutorial

spacy_tutorial - spaCy tutorial in English and Japanese. spacy-transformers, BERT, GiNZA.
fastTextJapaneseTutorial - Tutorial to train fastText with Japanese corpus
allennlp-NER-ja - AllenNLP-NER-ja: AllenNLP による日本語を対象とした固有表現抽出
chariot-PyTorch-Japanese-text-classification - Experiment for Japanese Text classification using chariot and PyTorch
ginza-examples - 日本語NLPライブラリGiNZAのすゝめ
DocumentClassificationUsingBERT-Japanese - DocumentClassificationUsingBERT-Japanese
BERT_Japanese_Google_Colaboratory - Google Colaboratoryで日本語のBERTを動かす方法です。
bert-book - 「BERTによる自然言語処理入門: Transformersを使った実践プログラミング」サポートページ
janome-tutorial - Janome を使ったテキストマイニング入門チュートリアルです。
handson-language-models - 日本語の言語モデルのハンズオン資料です
JapaneseNLI - Google Colabで日本語テキスト推論を試す
deep-learning-with-pytorch-ja - deep-learning-with-pytorchの日本語版repositoryです。
bert-classification-tutorial -【2023年版】BERTによるテキスト分類
python-nlp-book - ディープラーニングによる自然言語処理（共立出版）のサポートページです
llm-book - 「大規模言語モデル入門」（技術評論社, 2023）のGitHubリポジトリ
nlp2024-tutorial-3 - NLP2024 チュートリアル３作って学ぶ日本語大規模言語モデル - 環境構築手順とソースコード
japanese-ir-tutorial - 日本語情報検索チュートリアル
nlpbook - 「自然言語処理の教科書」サポートサイト
kantan-regex-book - 作って学ぶ正規表現エンジン
bert-classification-tutorial-2024 - 【2024年版】BERTによるテキスト分類
Gemma2_2b_Japanese_finetuning_colab.ipynb - Fine-Tuning Google Gemma for Japanese Instructions
nlp100v2020 - 「言語処理100本ノック 2020」をPythonで解く

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Research summary

awesome-bert-japanese - A list of pre-trained BERT models for Japanese with word/subword tokenization + vocabulary construction algorithm information
GEC-Info-ja - 文法誤り訂正に関する日本語文献を収集・分類するためのリポジトリ
dataset-list - lists of text corpus and more (mainly Japanese)
tuning_playbook_ja - ディープラーニングモデルの性能を体系的に最大化するためのプレイブック
japanese-pitch-accent-resources - Trying to consolidate japanese phonetic, and in particular pitch accent resources into one list
awesome-japanese-llm - オープンソースの日本語LLMまとめ

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? Zurück nach oben

Referenz

自然言語処理の餅屋
yasuokaの日記：日本語係り受け解析器「2020年の総ざらえ」
yasuokaの日記：日本語係り受け解析器「2021年の総ざらえ」
https://github.com/topics/japanese?l=python
https://github.com/topics/japanese-language?l=python
https://github.com/search?o=desc&q=corpus+japanese&s=&type=Repositories
https://paperswithcode.com/datasets?lang=japanese
https://github.com/himkt/awesome-bert-japanese
Awesome-Rust-MachineLearning-日本語向けのrustクレートや記事等をまとめたもの
大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価

Contributors

kaisugi - website
bomin0624 - twitter
passaglia - twitter

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-17
Größe 842.45KB
Kommt von Github

Ähnliche Anwendungen

awesome citygml

2024-11-13
EMIT Data Resources

2024-11-09
awesome generative ai guide

2024-11-05
awesome swift

2024-11-03
Tolles Teufelsspiel

2023-04-16
Die tolle Anzeige

2022-08-08

Empfohlen für Sie

chat.petals.dev

Anderer Quellcode

1.0.0
GPT Prompt Templates

Anderer Quellcode

1.0.0
GPTyped

Anderer Quellcode

GPTyped 1.0.5
Google Dorks

Anderer Quellcode

1.0
shepherd

Anderer Quellcode

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Anderer Quellcode

v1.1.0-rc-3
Google Dorks

Anderer Quellcode

1.0
shepherd

Anderer Quellcode

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Anderer Quellcode

v1.1.0-rc-3

Ähnliche Nachrichten Alle