awesome japanese nlp resources 다운로드 - awesome japanese nlp resources 소스 코드 다운로드

굉장한 일본-자원

Python Libraries, LLM, 사전 및 Corpora of NLP 전용 리소스 목록

653 Github 리포지토리에 대한 정보
1503 Hugging Face Repositories (모델 및 데이터 세트)에 대한 나열된 정보
도구를 공개 하시겠습니까? 많은 수의 저장소 정보를 검색합니다

영어 | 日本語 (일본어) | 繁體中文 (중국어) | 简体中文 (중국어)

내용물

포옹 얼굴
- 모델
- 데이터 세트
파이썬 라이브러리
- 형태 분석
- 구문 분석
- 변환기
- 사전 처리기
- 문장 spliter
- 감정 분석
- 기계 번역
- 지명 된 엔티티 인식
- OCR
- 사전 예방 모델을위한 도구
- 기타
C ++
- 형태 분석
- 구문 분석
- 기타
녹 상자
- 형태 분석
- 변환기
- 검색 엔진 라이브러리
- 기타
자바 스크립트
- 형태 분석
- 변환기
- 기타
가다
- 형태 분석
- 기타
자바
- 형태 분석
- 기타
사방 모델
- Word2vec
- 변압기 기반 모델
chatgpt
사전과 iMe
신체
- 부품 태그 / 이름 지정 엔터티 인식
- 텍스트 분류
- 평행 코퍼스
- 대화 코퍼스
- 기타
지도 시간
연구 요약
참조
기고자

파이썬 라이브러리

형태 분석

Sudachi.rs -Sudachipy 0.6* 이상은 Sudachi.rs로 개발되었습니다.
Janome- 순수한 파이썬으로 작성된 일본 형태 학적 분석 엔진
Mecab-Python3- 메카-파이썬. 메카-파이썬. http : //taku910.github.io/mecab/에서는 오리지널 버전을 찾을 수 있습니다.
MECAB-이 저장소는 Windows 64 비트 Mecab 바이너리를 구축하고 Mecab Python 바인딩을 개선하기위한 것입니다.
FUGASHI- 빠른 파이낸스 일본 토큰 화 및 형태 학적 분석을위한 Cython Mecab 래퍼.
Nagisa- 재발 신경 네트워크를 기반으로 한 일본 토큰 화기
PYKNP- Juman ++/Knp 용 Python 모듈
Mykytea -Python- Kytea의 파이썬 포장지
KONOHA -KONOHA : 일본 토큰 화제의 간단한 포장지
Natto-Py-Natto-Py는 Python 프로그래밍 언어와 일본어의 부품 및 형태 분석기 인 Mecab과 결합합니다.
Rakutenma -Python -Rakuten MA (Python 버전)
Python -vaporetto -Vaporetto는 빠르고 가벼운 포인트 와이드 예측 기반 토큰 화제입니다. Vaporetto의 파이썬 래퍼입니다.
Dango- 언어 학습자 및 비 언어 학자를 대상으로 일본어 텍스트에 사용하기 쉬운 토큰 화기
Rhoknp- Juman ++/Knp에 대한 또 다른 파이썬 바인딩
Python-Vibrato-Viterbi 기반 가속 토큰 화기 (Python Wapper)
Jagger-Python- 재거를위한 파이썬 바인딩 (패턴 기반 일본 형태 분석기의 C ++ 구현)

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

구문 분석

GINZA- 보편적 의존성을 기반으로 한 프레임 워크로 스파크를 사용하는 일본 NLP 라이브러리
Cabocha- 또 다른 일본 의존성 구조 분석기
UNIDIC2UD- 현대 및 현대 일본인을위한 토 케이저 Pos-Tagger Lemmatizer 및 의존성 부서
Camphr -Camphr -Pipeline 구성 요소 생성을위한 NLP Libary
Supar-Unidic- 토큰 화기 Pos-tagger lemmatizer 및 Bert 모델이있는 현대 및 현대 일본의 종속성 패러
DEPCCG -A* CCG 파서가 슈퍼 태그 및 종속성 고려 된 모델
Bertknp- Bert를 기반으로 한 일본 의존성 파서
ESUPAR- 일본어 및 기타 언어를위한 Bert/Roberta/Deberta 모델이있는 토큰 화기 Pos-Tagger 및 의존성 패러
YOMIKATA- 미세 조정 된 버트 모델을 사용한 이종 명확한 라이브러리.
jdepp -python- j.depp에 대한 파이썬 바인딩 (일본 의존성 파서의 C ++ 구현)
LightBlue- DTS- 표현이있는 일본어를위한 CCG 파서
Natsume-Simple-Natsume-Simple は日本語の係り受け関係検索システム

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

변환기

PYKAKASI- 일본 카나 카지 (Kana-Kanji) 문장에서 카나 로마 (Kana-Roman)로 가벼운 컨버터.
커틀 - 파이썬의 일본어에서 로마 지 컨버터
알파벳 2kana- 영어 알파벳을 카타 카나로 변환하십시오
햄버스-일본-일본-아랍어 숫자 또는 '서부'스타일 숫자를 일본의 맥락으로 변환합니다.
Mozcpy -Python 용 Mozc : Kana -Kanji 컨버터
JAMORASEP- 일본어 텍스트 파서는 히라가나/카타 카나 끈을 모라 (음절)로 분리합니다.
Text2phoneme -on on
Jntajis -Python- 일본 세금 기관 (国税庁国税庁)의 제도를 기반으로 한 빠른 캐릭터 변환 및 음역 라이브러리
Wiredify- 일본 카나를 BA-BI-BU-BE-BO에서 VA-VI-VU-VE-VO로 변환하십시오
MECAB-TEXT-CLEANER- 일본어 판독 값 (Yomigana) 및 MeCAB를 사용한 악센트를 얻기위한 간단한 파이썬 패키지 (CLI/Python API).
pynormalizenumexp -数量表現や時間表現の抽出・正規化を行う ormalizenumexp の python 実装
Jusho- 일본의 우편 번호 데이터를위한 쉬운 래퍼
Yurenizer- 철자 불일치를 해결하는 일본어 텍스트 정상화. (日本語表記揺れ解消ツール)

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

사전 처리기

Neologdn- Mecab -Neologd의 일본어 텍스트 정상화
JACONV- 히라 가나, 카타 카나, 한카 쿠 및 젠카 쿠의 순수한 파이썬 일본 캐릭터 상호 연결
Mojimoji- 일본 한카 쿠와 Zenkaku 캐릭터 사이의 빠른 변환기
텍스트 청소 - 일본 웹 텍스트를위한 강력한 텍스트 클리너
Hojichar- -
Utsuho-Utsuho는 일본어의 반 폭의 카타 카나와 전체 폭 스카 타나 사이의 양방향 변환을 용이하게하는 파이썬 모듈입니다.
Python -Habachen- 또 다른 빠른 일본어 문자열 변환기

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

문장 spliter

Bunkai- 일본어 텍스트를위한 문장 경계 명확한 도구 (日本語文境界判定器)
일본 서문 차단기-일본 문장 차단기
SENGIRI- 일본어 텍스트에 대한 또 다른 문장 수준 토큰 화기
Budoux- 독립형. 작은. 언어 중립. Budoux는 머신 러닝 전원 라인 브레이크 주최자 도구 인 Budou의 후임자입니다.
JA_SENTENCE_SEGMERTER- 파이썬에 대한 일본 문장 세분화 라이브러리
Hasami- 일본어 텍스트에서 문장 세분화를 수행하는 도구
Kuzukiri- 녹으로 작성된 파이썬 용 일본어 텍스트 세그먼트
JA-SENTER-BENCHMARK- 일본 문장 세분화 도구 비교

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

감정 분석

OSETI- 일본어에 대한 사전 기반 정서 분석
Negapoji- 일본 부정적인 긍정적 분류.
Pymlask- 일본어 텍스트를위한 감정 분석기
ASARI- 파이썬에서 구현 된 일본 감정 분석기.

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

기계 번역

JPARACRAWL-FINETUNE- JPARACRAWL 사전 훈련 된 신경 기계 번역 (NMT) 모델의 예제.
JASS-JASS : 신경 기계 번역을위한 시퀀스 사전 훈련 (LREC2020) 및 저주적 신경 기계 번역 (ACM TallIP)을위한 언어 적으로 구동되는 멀티 태스크 사전 훈련에 대한 일본 특정 시퀀스 (ACM Tallip)
PHEMT- 일본어-영어 기계 번역 견고성을위한 현상 현상 평가 데이터 세트. 데이터 세트는 MTNT 데이터 세트를 기반으로하며 4 개의 언어 현상에 대한 추가 주석이 있습니다. 적절한 명사, 약식 명사, 구어체 발현 및 변형. Coling 2020.
비자 - 시각 장면 인식 기계 번역을위한 모호한 자막 데이터 세트

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

지명 된 엔티티 인식

NAMACO- 캐릭터 기반 명명 된 엔티티 인식.
EntityPedia -EntityPedia는 Wikipedia의 확장 된 명명 된 엔티티 사전입니다.
Noyaki- 문자 범위 레이블 정보를 토큰 화 된 텍스트 기반 레이블 정보로 변환합니다.
Bert-Japanese-Fer-Finetuning- Bert 모델의 Finetuning을 수행하는 코드. 버트 モデルのファインチューニングで固有表現抽出用タスクのモデルを作成・使用するサンプルです
공동 정보 -Extraction-HS- 詳細なアノテーション基準に基づく症例報告コーパスからの固有表現及び関係の抽出精度の推論を行うコード
PYGEONLP -PYGEONLP, 일본어 텍스트를 지정하기위한 파이썬 모듈.
Bert-ner-Japanese-Bert による日本語固有表現抽出のファインチューニング用プログラム
Huggingface-Finetune-Japanese- 일본어를위한 인코더 전용 및 인코더 디코더 변압기 (Hugging Face) 리소스를위한 예제

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

OCR

만화 OCR- 일본어 텍스트에 대한 광학 문자 인식에 대한 주요 초점은 일본 만화입니다.
Mokuro- 선택 가능한 텍스트가있는 브라우저 내부의 일본 만화를 읽으십시오.
손으로 쓴 일본-초기-손으로 쓴 일본 OCR 데모 터치 패널을 사용하여 Intel OpenVino 툴킷을 사용하여 입력 텍스트를 그려
OCR_JAPANEASE- 日本語 OCR
ndlocr_cli -ndlocr のアプリケーション
DONUT- OCR -FREE DOCUTER의 공식 구현 변압기 (DONUT) 및 합성 문서 생성기 (SynthDog), ECCV 2022의 공식 구현
jmtrans -manga translator- 만화 이미지를 번역하기 위해 URL에서 일본 만화 가져 오기
Kindai -Acr- 현대 일본 잡지를 인식하기위한 OCR 시스템
Text_recognition -ndlocr 用テキスト認識モジュール
Poricom- 만화 이미지의 광학 문자 인식. 만화 OCR 데스크탑 응용 프로그램
Owocr- 일본어 텍스트에 대한 광학 문자 인식
YOMITOKU -YOMITOKU는 AI 기반 문서 이미지 분석 패키지로 일본어를 위해 특별히 설계되었습니다.

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

사전 예방 모델을위한 도구

JGLUE -JGLUE : 일본 일반 언어 이해 평가
Ginza-Transformers- 스파크 트랜스 포어에 맞춤형 토큰 화제를 사용하십시오
t5_japanese_dialogue_generation -t5 による会話生成
일본식 _text_classification- MLP, CNN, RNN, Bert 접근법을 포함한 다양한 DNN 텍스트 분류기를 조사합니다.
일본-베르트 서식-애널러-Fastapi 및 Bert를 사용하여 감정 분석 서버 배포
JMLM_SCORING- 일본어와 베트남을위한 가면 언어 모델 기반 점수
Allennlp-Shiba-Model-Shiba 용 Allennlp 통합 : 일본 송곳니 모델
Evaluate_japanese_w2v- 일본 유사성 데이터 세트에서 미리 훈련 된 일본어 Word2VEC 모델 평가 스크립트
Gector-JA- 일본어에 대한 버트 기반 GEC 태그
일본-비코 코더-일본-비코 코더
일본-bpeencoder_v2- 일본-bpeencoder 버전 2
변압기 - 코피 - op
일본-안정적인 확산-일본 안정적인 확산은 텍스트 입력이 주어진 사진 현실 이미지를 생성 할 수있는 일본의 특정 잠재 텍스트-이미지 확산 모델입니다.
NAGISA_BERT- Nagisa의 버트 모델
접두사 튜닝 GPT- 접두사 조정 GPT/GPT-Neox 모델 및 숙련 된 접두사와의 추론에 대한 예제 코드
JGLUE -BENCHMARM- 일본어 이해 벤치 마크 인 JGLUE를위한 교육 및 평가 스크립트
JPTRANSTOKENIGER- 트랜스포머 라이브러리를위한 일본 토큰 화기
JP -Stable- JP 언어 모델 평가 하네스
비교-자 토코네이저-Scriptio Continua 언어의 다운 스트림 작업에서 다양한 토큰 화제가 어떻게 수행됩니까? : 일본어 ACL SRW 2023의 사례 연구
LM-Evaluation-Harness-JP-Stable- 자동 회귀 언어 모델의 소수의 평가를위한 프레임 워크.
LLM-LORA 급식-LLM-LORA 급
JP -Stable- JP 언어 모델 평가 하네스
RINNA_GPT-NEOX_GGML-LORA- 저장소에는 "Rinna/Japanese-Gpt-Neox ..."[GPT-Neox] 모델을 GGML로 변환했을 때 LORA 튜닝을위한 알파카-로라 어댑터를 조정하도록 수정 된 스크립트 및 병합 스크립트가 포함되어 있습니다.
일본어 -lm-loleplay-benchmark-このリポジトリは日本語 llm のキャラクターロールプレイに関する性能を評価するために作成しました。
일본식 -Llm-ranking-이 저장소는 일본 중심의 LMSYS의 Vicuna Eval.
llm-jp-eval- このツールは、複数のデータセットを横断して日本語の大規模言語モデルを自動評価するものです．
LLM-JP-SFT-이 저장소에는 LLM-JP 모델의 감독 된 미세 조정 코드가 포함되어 있습니다.
llm-jp-tokenizer-llm 勉強会 − (llm-jp) で開発している llm 用のトークナイザー関連をまとめたリポジトリです．
일본 LM-Fin-Harness- 일본어 모델 금융 평가 하네스
JA-VICUNA-QA-BENCHMARM- 일본 VICUNA QA 벤치 마크
삼키기 - 삼키기 - 삼키기 プロジェクト大規模言語モデル評価スクリプト

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

기타

명명 된 Iver -Python- 일본 이름을 가족 이름과 주어진 이름으로 나누기위한 도구.
ASA -PYTHON- 일본어를위한 NLP의 파이썬 라이브러리 전용 리소스 목록
Python_ASA -Python 版日本語意味役割付与システム版日本語意味役割付与システム (ASA)
Toiro- 일본 토큰 화제의 비교 도구
Ja -Timex - -/規格化するルールベースの解析器
Japanesokenizers- 텍스트 데이터에서 기능 선택을위한 일련의 메트릭 세트
DAAJA-이 저장소에는 일본어의 NLP에 대한 데이터 확대 구현이 있습니다.
Accel-Brain-Code-이 저장소의 목적은 웹 사이트에 작성한 개념 증명 (POC) 및 연구 개발 (R & D)의 맥락에서 사례 연구로 프로토 타입을 만드는 것입니다. 주요 연구 주제는 표현 학습과 관련하여 자동 인코더, 에너지 기반 모델을위한 통계 기계 학습, 적대적 생성 순…
Kyoto -Reader- Kyotocorpus, KWDLC 및 AnnotatedFKCCorpus의 프로세서
NLPLOT- 자연어 처리를위한 시각화 모듈
Rake -JA- 일본어에 대한 빠른 자동 키워드 추출 알고리즘
JEL- 일본 엔티티 링커.
Medner -J- Medex/J의 최신 버전 (일본 질병 이름 추출기)
Zunda -Python -Zunda : Python 용 일본식 Modality Analyzer 클라이언트.
aio2_dpr_baseline- https://www.nlp.ecei.tohoku.ac.jp/projects/aio/
쇼케이스 - Matsubayashi & Inui (2018)의 논문에 제시된 일본 술어 관절 구조 (PAS) 분석기의 Pytorch 구현.
다트-클론-파이썬-다트-클론 파이썬 바인딩
jrte-corpus_example- 일본의 현실적인 텍스트 수입 코퍼스의 예제 코드
DESUWA- KNP 규칙 파일을 기반으로 한 형태소 및 문구에 대한 주석이 있습니다 (Pure -Python)
Hotppergourmetdialogue- 일본어의 대화를 통한 식당 검색 시스템.
NLP-Recipes-JA- 일본어의 자연 언어 처리 용 샘플 코드
일본어
DNORM -J- 일본어 버전의 dnorm
pyknp-eventgraph- 이벤트 그래프는 일본어로 된 고급 NLP 응용 프로그램을위한 개발 플랫폼입니다.
ISHI -ISHI : 일본어의 의지 분류기
Python -npylm- ベイズ階層言語モデルによる教師なし形態素解析
Python -npeycrf- 条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析
감독되지 않은 포스 태깅-教師なし品詞タグ推定
NEGIMA-NEGIMA는 정의한 부분-연설 기반 규칙을 사용하여 일본어 텍스트로 문구를 추출하는 파이썬 패키지입니다.
Youyakuman- 요약 모델로서 Bertsum을 사용한 추출 요약기
일본-햄버스-파이썬-자연어로 일본인 수 (칸지, 아랍어)를위한 파서.
칸탄 - 급진적 인 패턴으로 일본어 단어 조회
Make-Meidai-Dialogue- 일본 대화 코퍼스를 얻으십시오
일본식 _summarizer- 일본 기사를위한 요약자.
Chirptext -Chirptext는 Python 용 텍스트 처리 도구 모음입니다.
Yubin- 일본 주소 Munger
Jawiki -Cleaner- 일본 Wikipedia Cleaner
일본어 2PHONEME- 일본어를 음소로 변환하는 파이썬 라이브러리.
ANLP_NLP2021_D3-1-이 저장소는 "감정 기반 텍스트 분류를위한 일본 토큰 화제의 실험적 평가"에서 실험과 관련된 코드가 포함되어 있습니다.
Aozora_classification-이 프로젝트에 대한이 프로젝트는 Soseki Natsume, Ogai Mori, Ryunosuke Akutagawa와 같은 일부 일본 클래식 작가들과 얼마나 유사한 지에 대한 일본 문장을 분류하는 것을 목표로합니다.
Aozora-Corpus-Generator- Aozora Bunko에서 일반 또는 토큰 화 된 텍스트 파일을 생성합니다.
JLM- 일본어 및 중국어와 같은 대형 어휘를위한 빠른 LSTM 언어 모델
NTM- 일본 기사에 대한 신경 주제 모델링 테스트
EN-JP-ML-Flexicon- 기계 학습 및 딥 러닝 용어를위한 영어-일본 어휘입니다.
텍스트 생성-사용하기 쉬운 스크립트는 자신의 텍스트로 GPT-2-JA를 미세 조정하고 문장을 생성하고 자동으로 트윗합니다.
Chainer_nic- 신경 이미지 캡션 (NIC)의 체인, 영어 및 일본 이미지 캡션 데이터 세트에서 사전 모델링 된 모델.
UNIHAN-LM- "UNIHANLM : UNIHAN 데이터베이스와의 사전 여지가있는"UNIHANLM : CUARSE-TO-FINE 중국어 언어 모델 ", AACL-IJCNLP 2020의 공식 저장소 공식 저장소
MBART -FINETUNING- MBART 모델의 결합을 수행하는 코드.
xvector_jtubespeech -jtubespeech의 xvector 모델
TinySegmenterMaker -TinySegmenter 用の学習モデルを自作するためのツール．
grongish- 日本語とグロンギ語の相互変換スクリプト
WordCloud -Japanese- WordCloud での日本語文章を mecab − (形態素解析エンジン) を使用せずに形態素解析チックな表示を実現するスクリプト
Snark -b db アクセスライブラリ
Toemoji- j
Termextract-- -
JDT-with-Kenlm-Scoring- 일본-디 알로그-트랜스 포어 の応答候補に対して、 kenlm による n-gram 言語モデルでスコアリングし、フィルタリング若しくはリランキングを行う。
혼합-유니 그램 모델-유니그램 모델의 혼합물과 파이썬에서 유니그램 모델의 무한 혼합. (混合ユニグラムモデルと無限混合ユニグラムモデル)
Hidden-Markov-Model-Python의 숨겨진 Markov 모델 (HMM) 및 Infinite Hidden Markov Model (IHMM). (隠れマルコフモデルと無限隠れマルコフモデル)
Ngram-Language-Model-Python의 Ngram 언어 모델. (n グラム言語モデル)
ASRDEEPSPEECH- Zakuro AI의 지원을 가진 Pytorch의 DeepSpeech2 모델을 사용한 자동 음성 인식.
Neural_ime- 신경 IME : 신경 입력 방법 엔진
neural_japanese_transliterator- 신경망이 로마지를 일본어로 올바르게 번역 할 수 있습니까?
TinySegmenter- 일본어 용으로 지정된 토 케이저
Augly -JP- Augly의 일본어 텍스트에 대한 데이터 증강
Furigana4epub- 메카브와 단일성을 사용하여 일본 에브럽 서적에 furigana를 추가하기위한 파이썬 스크립트.
Pykatsuyou- 일본 동사/형용사 변곡 도구
Jageocoder- 순수한 파이썬 일본어 주소 지오 코더
PYGEONLP -PYGEONLP, 일본어 텍스트를 지정하기위한 파이썬 모듈.
NKSND -NEW KANA -KANJI 변환 엔진
Jamie- 일본 의료 정보 추출 툴킷
FastText-VS-Word2Vec-on-Twitter-Data-FastText と Word2Vec の比較と、実行スクリプト、学習スクリプトです
최소 검색 엔진-最小のサーチエンジン/PageRank/TF-IDF
5CH- 분석 -5CH の過去ログをスクレイピングして、過去流行った単語 (EX, 香具師, ORZ) などを追跡調査
Tweet_Extructor -Twitter 日本語評判分析データセットのためのツイートダウンローダ
일본 단어 응집-Juman ++ 및 Conceptnet을 기반으로 일본어 단어 집계 5.5
JINF- 일본 변곡 변환기
KWJA- 일본어를위한 통일 언어 분석기
MLM-Scoring-Transformers- 마스크 언어 모델 스코어링 (ACL2020)을 기반으로 재생산 된 패키지.
일본인을위한 클립 캡-일본-[Pytorch] Clipcap
일본어-[Pytorch] 쇼, 일본어에 참석하고 말하십시오
CIHAI- CJK (중국어, 일본어 및 한국)를위한 파이썬 도서관 언어 사전
해양-해양 : 멀티 태스킹 학습 기반 일본 악센트 추정
Whisper-Asr-Finetune- Finetuning Whisper ASR 모델
일본어 _chatbot- Bert 및 Transformer 's Decoder를 사용하여 일본 챗봇의 Pytorch 구현
Radicalchar- 部首文字正規化ライブラリ
Akaza- Ibus/Linux의 또 다른 일본 IME
POSUTO- 일본 우편 번호 데이터.
타코 트론 2- 일본 - 일본어의 타코 트론 구현
IBUS -HIRAGANA -IBUS를위한 IME
Furiganapad- ap
Chikkarpy- 일본 동의어 도서관
Ja-Tokenizer-Docker-Py-Mecab + Neologd + Docker + Python3
일본식 베드 딩 val- 일본식 베드 딩 벤
gptuber-by-langchain-gpt が youtuber をやります
Shuwa- 입력 메소드를 위해 그놈 내 화면 키보드를 확장하십시오
일본식 NLI 모델-이 저장소는 미세 조정 된 마스크 언어 모델 인 일본 NLI 모델에 대한 코드를 제공합니다.
TRA-FUGU- FUGUMT를 사용하여 일본어-영어 번역 및 영어-일본어 번역 도구
fugumt - -で公開した機械翻訳エンジンを利用する翻訳環境です。で公開した機械翻訳エンジンを利用する翻訳環境です。フォームに入力された文字列の翻訳、 pdf の翻訳が可能です。
Jaspice -Jaspice : 이미지 캡션 모델을위한 술어 관절 구조 사용 자동 평가 지표
검색 기반-보이스-수정-부부 -JP- 국소화-JP- 국소화
pyopenjtalk- OpenJtalk의 파이썬 래퍼
Yomigana -ebook- eBook의 모든 칸 지에 대한 독서를 추가하여 일본어 학습을 더 쉽게 배우게합니다.
N46WHISPER- Whisper 기반 일본 자막 발전기
일본식 _llm_simple_webui -rinna -3.6b 、 Opencalm 等の日本語対応 llm (大規模言語モデル用の簡易) 用の簡易 web インタフェースです
PDF-Translator-PDF-Translator는 영어 PDF 파일을 일본어로 변환하여 원래 레이아웃을 보존합니다.
일본식 _QA_DEMO_WITH_HAYSTACK_AND_ES- HAYSTACK + ELASTICSEARCH + WIKIPEDIA (JA) を用いた、日本語の質問応答システムのサンプル
MOZC-DEVICES- 코드에서 자동으로 내보내기
Natsume- 일본어 텍스트 프론트 엔드 처리 툴킷
vits-japros-webui-日本語 tts 균 (vits) の学習と音声合成の gradio webui
JA-LAW-PARSER- 일본 법률 파서
Dictation -Kit- 줄리어스를 사용한 일본어 받아 들인 키트
Julius4Seg -Julius を使ったセグメンテーション支援ツール
VoiceVox_Engine -無料で使える中品質なテキスト読み上げソフトウェア、 Voyvox の音声合成エンジン
llava-jp-llava-jp는 llava method가 훈련 한 일본 VLM입니다.
RAG -JAPANESE- 낮은 자원 정착에서 일본 LLM에 대한 라마 인덱스가 포함 된 오픈 소스 헝겊
BERTJSC- BERT (MASKED -LANGURAGE MODEL)를 사용한 일본 철자 오류 교정기. 버트 に基づいて日本語校正
LLM -Leaderboard- 일본 작업에 대한 LLM 평가 프로젝트
Jglue-Evaluation-Scripts- 일본어 이해 벤치 마크 인 Jglue의 교육 및 평가 스크립트에 관한
Blip2-Japanese- 일본 데이터 세트에 사전에 사전 된 모델로 Lavis의 Blip2 Q- 형성 수정.
Wikipedia-passages-jawiki-embeddings-utils-wikipedia 日本語の文を、各種日本語の 준비 や faiss index へと変換するスクリプト等。
간단한 simcse-Ja- 일본 심스 탐험
Wikipedia-Japanese-Open-Rag-Wikipedia の日本語記事を元に、ユーザの質問に回答する gradio ベースの rag のサンプル
gpt4-autoeval-gpt-4 を用いて、言語モデルの応答を自動評価するスクリプト
T5 -Japanese- 日本語 t5 モデル
일본어 _llm_eval- 일본어 LLMS 평가를위한 리포
JMTEB- JMTEB의 평가 스크립트 (일본어 대규모 텍스트 임베딩 벤치 마크)
Pydomino- -
easynovelassistant -軽量で規制も検閲もない日本語ローカル llm 『lightchatassistant -typeb 』による、簡単なノベル生成アシスタントです。ローカル特権の永続生成 영원히 생성
Clip -Japanese- 日本語データセットでの Qlora 명령 튜닝 学習サンプルコード
RIME -JAROOMAJI- 일본 ROMAJI 입력 스키마를위한 RIME IME
깊은 질문 생성-深層学習を用いたクイズ自動生成深層学習を用いたクイズ自動生成 (日本語 t5 モデル） ←)
Magpie-Nemotron-Magpie という手法と Nemotron-4-340B-비 구역 を用いて合成対話データセットを作るコード
qlora_ja -日本語データセットでの qlora 명령 튜닝 学習サンプルコード
Mozcdic-ut-Jawiki-Mozc Ut Jawiki Dictionary는 Mozc의 일본 Wikipedia에서 생성 된 사전입니다.
SHISA -V2- 일본 / 영어 이중 언어 LLM
LLM-Translator- 믹스 트랄 기반 JA-EN (EN-JA) 번역 모델
LLM-JP-ASR- Whisper のデコーダを llm-jp-1.3b-v1.0 に置き換えた音声認識モデルを学習させるためのコード
RAG -JAPANESE- 낮은 자원 정착에서 일본 LLM에 대한 라마 인덱스가 포함 된 오픈 소스 헝겊
모나카 - 일본 파서 (역사적인 일본어 포함)
JP-Translate.Cloud- 최신 NMT 연구를 기반으로 한 최첨단 오픈 소스 일본어 <-> 영어 기계 번역 시스템.
서브 스트링 워드-파인더-連続部分文字列の単語判定を行います
Heron-VLM-Leaderboard-이 프로젝트는 다양한 비전 언어 모델 (VLMS)의 성능을 평가하고 비교하기위한 벤치마킹 도구입니다. 모델 성능을 측정하기 위해 Llava-Bench-in-the-Wild와 일본 Heron 벤치의 두 가지 데이터 세트를 사용합니다.
Text2dataset- 열린 LLM을 사용하여 대형 영어 텍스트 데이터 세트를 일본어 텍스트 데이터 세트로 쉽게 전환합니다.
Mecab-Web-Api-Mecab を利用した日本語形態素解析 webapi
mecab_controller- 푸리 가나 판독 값을 생성하는 메카 래퍼.
vits -vits its & ボイスチェンジャー
akari_chatgpt_bot- 音声認識、文章生成、音声合成を使って対話するチャットボットアプリ

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

C ++

형태 분석

Mecab- 또 다른 일본 형태 분석기
jumanpp -juman ++ (형태 학적 분석기 툴킷)
KYTEA- 단어 세분화 및 발음 추정을위한 교토 텍스트 분석 툴킷 등

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

구문 분석

Cabocha- 또 다른 일본 의존성 구조 분석기
KNP- 일본 파서

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

기타

JSC- 일본 카나 칸지 전환, 중국 피니 인 입력 및 CJE 혼합 입력을위한 공동 소스 채널 모델.
Aquaskk- 형태 학적 분석이없는 입력 방법.
MOZC -MOZC- 다중 플랫폼 용으로 설계된 일본 입력 방법 편집기
Trimatch -Trimatch : (정확한 | 접두사 | 대략적인) 문자열 일치 라이브러리
RESEMBLA -SEMBLA : Word 기반 일본 유사한 문장 검색 라이브러리
Corvusskk- k ▼ windows 용 SKK와 같은 일본 입력 메소드 편집기

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

녹 상자

형태 분석

Lindera- 형태 학적 분석 라이브러리.
Vaporetto -Vaporetto : 매우 가속화 된 Pointwise Prediction Based Tokenizer
GOYA- 녹으로 작성된 일본 형태 학적 분석
Vibrato -Vibrato : Viterbi 기반 가속 토큰 화기
Yoin- 순수한 녹로 쓰여진 일본 형태 분석기
MECAB-RS- MECAB에 대한 안전한 녹 바인딩 부분-연설 및 형태 분석기 라이브러리
Awabi- Mecab 사전을 사용한 형태 분석기
KANPYO- 녹로 쓰여진 일본 형태 분석기

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

변환기

WANA_KANA_RUST- 일본어 문자를 점검하고 전환하기위한 유틸리티 라이브러리 -Hiragana, Katakana 및 Romaji
유니 코드 -jp-rs- 일본의 반 넓이 카나 [半角ｶﾅ]와 넓은 알파 늄 [全角英数]을 일반적인 것로 변환하는 녹 라이브러리
카나 - [미러] 로마 자나 또는 카타 카나에 로마 지 텍스트를 음역하는 CLI 프로그램
카나리아 - -
일본어 주소-파서-日本の住所を都道府県/市区町村/町名/その他に分割するライブラリです

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

검색 엔진 라이브러리

Lindera -Tantivy -Tantivy를위한 Lindera 토큰 화기.
Tantivy -Vibrato- 비브라토를 사용한 탄티 비 토 케이저.

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

기타

DAACHORSE- 녹에서 소형 이중 배열 데이터 구조를 사용하여 AHO-CORASICK 알고리즘의 빠른 구현.
SIMDOC 찾기- 비슷한 문서의 모든 쌍 찾기 시간과 메모리 효율적으로 메모리
크로다드-캐릭터 별 이중 배열을 사용하는 자연 언어 사전의 녹 도서관.
토큰 화기 속도 벤치-다양한 토큰 화제의 비교 코드
StringMatch -Bench- 여기서 문자열 일치에 대한 데이터 구조의 성능을 비교하는 벤치 마크 도구를 제공합니다.
vime- x11 앱의 입력 메소드로 vim 사용
VoiceVox_core -無料で使える中品質なテキスト読み上げソフトウェア、 Voyvox のコア
Akaza- Ibus/Linux의 또 다른 일본 IME
JOTOBA- 무료 온라인, 자체 주최, 멀티 랭 일본 사전.
dvorakjp -romantable -Google dvorakjp ローマ字テーブル / dvorakjp Google 일본어 입력 용 로마 테이블
niinii- Ichiran을 사용하여 텍스트를 읽는 데 도움이되는 일본 광택기
CSKK -SKK (Simple Kana Kanji Henkan) 도서관
Japanki- 일본어 어휘를 배우십시오 ?? CLI에서 퀴즈를 작성함으로써!
JPREPROCESS- 텍스트 음성 연설 응용 프로그램을위한 일본어 텍스트 전 처리기 (OpenJtalk Rust Language)
listup_precedent- 裁判例のデータ一覧を裁判所のホームページ (https://www.courts.go.jp/index.html) をスクレイピングして生成するソフトウェア
Jisho -Jisho는 일본어 - 영어 사전을 제공하는 CLI 도구 및 Rust 라이브러리입니다.

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

자바 스크립트

형태 분석

Kuromoji.js- 일본 형태 분석기의 JavaScript 구현
RAKUTENMA -RAKUTEN MA- 중국어와 일본인을위한 형태 학적 분석기 (Word Segmentor + POS Tagger)는 순전히 자바 스크립트로 작성되었습니다. 자원
Node-Mecab-Ya- Nodejs 용 또 다른 메카 래퍼
Juman-Bin- 일본어를위한 사용자 확장 가능한 형태 분석기. 日本語形態素解析システム
Node-Mecab-Async- MECAB를 사용한 비동기 일본 형태 분석기.

통계 테이블 (GitHub Stars/Downloads)을 확인하려면이 페이지를 참조하십시오. ? 위로 돌아갑니다

변환기

KUROSHIRO- 일본 문장을 히라 가나, 카타 카나 또는 로마 지로 전환하기위한 일본어 도서관은 푸리 가나 및 오쿠리 가나 모드를 지원합니다.
Kuroshiro-Analyzer-Kuromoji- Kuroshiro의 Kuromoji 형태 분석기.
Hepburn -Node.js 일본 Hiragana 및 Katakana 스크립트를 Hepburn Romanisation을 사용하여 Romaji로 변환하기위한 Node.js 모듈
일본-수상자-수-숫자-일본 숫자를 숫자로 변환합니다
JSLINGUA- 텍스트를 처리하기위한 JavaScript 라이브러리 : 아랍어, 일본어 등
Wanakana-Hiragana를 탐지하고 음역을위한 JavaScript 라이브러리 <--> Katakana <--> Romaji
Node-Romaji-Name- 로마지 기반 일본어 이름으로 일반적인 문제를 정상화하고 수정합니다.
kyujitai.js- 일본어 텍스트를 구식으로 만들기위한 유틸리티 컬렉션
정상화-일본 주소-オープンソースの住所正規化ライブラリ。
jaconv - 日本語文字変換ライブラリ (javascript)
romaji-conv - Convert romaji into hiragana
japanese-addresses-v2 - 全国の住所データAPI
jptext-to-emoji - テキストの単語を絵文字に変換する

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

기타

bangumi-data - Raw data for Japanese Anime
yomichan - Japanese pop-up dictionary extension for Chrome and Firefox.
proofreading-tool - GUIで動作する文書校正ツール GUI tool for textlinting.
kanjigrid - A web-app displaying the 2200 kanji characters taught in James Heisig's "Remembering the Kanji", 6th edition.
japanese-toolkit - Monorepo for Kanji, Furigana, Japanese DB, and others
analyze-desumasu-dearu - 文の敬体(ですます調)、常体(である調)を解析するJavaScriptライブラリ
hatsuon - Japanese pitch accent utils
sentiment_ja_js - Sentiment Analysis in Japanese. sentiment_ja with JavaScript
mecab-ipadic-seed - mecab-ipadic seed dictionary reader
Japanese-Word-Of-The-Day - Well, a different Japanese word everyday.
oskim - Extend GNOME On-Screen Keyboard for Input Methods
tweetMapping - 東日本大震災発生から24時間以内につぶやかれたジオタグ付きツイートのデジタルアーカイブです。
pitch-accent - Predict pitch accent in Japanese
kana2ipa - 「ひらがな」または「カタカナ」を日本語で発音する際の音声記号(IPA)に変換するコマンド
voicevox - 無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのエディター

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

가다

Morphology analysis

kagome - Self-contained Japanese Morphological Analyzer written in pure Go

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

기타

ojosama - テキストを壱百満天原サロメお嬢様風の口調に変換します
nihongo - Japanese Dictionary
yomichan-import - External dictionary importer for Yomichan.
imas-ime-dic - THE IDOLM@STER words dictionary for Japanese IME (by imas-db.jp)
go-kakasi - Kanji transliteration to hiragana/katakana/romaji, in Go
go-moji - A Go library for Zenkaku/Hankaku conversion
ojichat - おじさんがLINEやメールで送ってきそうな文を生成する
name - Name Searcher in Japanese

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

자바

Morphology analysis

kuromoji - Kuromoji is a self-contained and very easy to use Japanese morphological analyzer designed for search
Sudachi - A Japanese Tokenizer for Business
SudachiDict - A lexicon for Sudachi
meval - 形態素解析器性能評価システム MevAL

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

기타

kanjitomo-ocr - Java library for identifying Japanese characters from images
jakaroma - Java library and command-line tool to transliterate Japanese kanji to romaji (Latin alphabet)
kakasi-java - Kanji transliteration to hiragana/katakana/romaji, in Java
Kamite - A desktop language immersion companion for learners of Japanese
react-native-japanese-tokenizer - Async Japanese Tokenizer Native Plugin for React Native for iOS and Android
elasticsearch-analysis-japanese - Japanese analyzer uses kuromoji japanese tokenizer for ElasticSearch
moji4j - A Java library to converts between Japanese Hiragana, Katakana, and Romaji scripts.
neologdn-java - Japanese text normalizer for mecab-neologd
elasticsearch-sudachi - The Japanese analysis plugin for elasticsearch

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

Pretrained model

Word2vec

japanese-words-to-vectors - Word2vec (word to vectors) approach for Japanese language using Gensim and Mecab.
chiVe - Japanese word embedding with Sudachi and NWJC
elmo-japanese - elmo-japanese
embedrank - Python Implementation of EmbedRank
aovec - Easy aozorabunko Word2Vec Builder - 青空文庫全書籍のWord2Vecビルダー+構築済みモデル
dependency-based-japanese-word-embeddings - This is a repository for the AI LAB article "係り受けに基づく日本語単語埋込 (Dependency-based Japanese Word Embeddings)" ( Article URL https://ai-lab.lapras.com/nlp/japanese-word-embedding/)
jawikivec - Yet Another Japanese-Wikipedia Entity Vectors
jawiki_word_vector_updater - 最新の日本語Wikipediaのダンプデータから，MeCabを用いてIPA辞書と最新のNeologd辞書の両方で形態素解析を実施し，その結果に基づいた word2vec，fastText，GloVeの単語分散表現を学習するためのスクリプト

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

Transformer based models

bert-japanese - BERT models for Japanese text.
japanese-pretrained-models - Code for producing Japanese pretrained models provided by rinna Co., Ltd.
bert-japanese - BERT with SentencePiece for Japanese text.
SudachiTra - Japanese tokenizer for Transformers
japanese-dialog-transformers - Code for evaluating Japanese pretrained models provided by NTT Ltd.
shiba - Pytorch implementation and pre-trained Japanese model for CANINE, the efficient character-level transformer.
Dialog - A PyTorch Implementation of japanese chatbot using BERT and Transformer's decoder
language-pretraining - BERT and ELECTRA models of PyTorch implementations for Japanese text.
medbertjp - Trials of pre-trained BERT models for the medical domain in Japanese.
ILYS-aoba-chatbot - ILYS-aoba-chatbot
t5-japanese - Codes to pre-train Japanese T5 models
pytorch_bert_japanese - PytorchでBERTの日本語学習済みモデルを利用する
Laboro-BERT-Japanese - Laboro BERT Japanese: Japanese BERT Pre-Trained With Web-Corpus
RoBERTa-japanese - Japanese BERT Pretrained Model
aMLP-japanese - aMLP Transformer Model for Japanese
bert-japanese-aozora - Japanese BERT trained on Aozora Bunko and Wikipedia, pre-tokenized by MeCab with UniDic & SudachiPy
sbert-ja - Code to train Sentence BERT Japanese model for Hugging Face Model Hub
BERT-Japan-vaccination - Official fine-tuning code for "Emotion Analysis of Japanese Tweets and Comparison to Vaccinations in Japan"
gpt2-japanese - Japanese GPT2 Generation Model
text2text-japanese - gpt-2 based text2text conversion model
gpt-ja - GPT-2 Japanese model for HuggingFace's transformers
friendly_JA-Model - MT model trained using the friendly_JA Corpus attempting to make Japanese easier/more accessible to occidental people by using the Latin/English derived katakana lexicon instead of the standard Sino-Japanese lexicon
albert-japanese - BERT with SentencePiece for Japanese text.
ja_text_bert - 日本語WikipediaコーパスでBERTのPre-Trainedモデルを生成するためのリポジトリ
DistilBERT-base-jp - A Japanese DistilBERT pretrained model, which was trained on Wikipedia.
bert - This repository provides snippets to use RoBERTa pre-trained on Japanese corpus. Our dataset consists of Japanese Wikipedia and web-scrolled articles, 25GB in total. The released model is built based on that from HuggingFace.
Laboro-DistilBERT-Japanese - Laboro DistilBERT Japanese
luke - LUKE -- Language Understanding with Knowledge-based Embeddings
GPTSAN - General-purpose Swich transformer based Japanese language mode
japanese-clip - Japanese CLIP by rinna Co., Ltd.
AcademicBART - We pretrained a BART-based Japanese masked language model on paper abstracts from the academic database CiNii Articles
AcademicRoBERTa - We pretrained a RoBERTa-based Japanese masked language model on paper abstracts from the academic database CiNii Articles.
LINE-DistilBERT-Japanese - DistilBERT model pre-trained on 131 GB of Japanese web text. The teacher model is BERT-base that built in-house at LINE.
Japanese-Alpaca-LoRA - 日本語に翻訳したStanford Alpacaのデータセットを用いてLLaMAをファインチューニングし作成したLow-Rank AdapterのリンクとGenerateサンプルコード
albert-japanese-tinysegmenter - Pretrained models, codes and guidances to pretrain official ALBERT(https://github.com/google-research/albert) on Japanese Wikipedia Resources
japanese-llama-experiment - Japanese LLaMa experiment
easylightchatassistant - EasyLightChatAssistant は軽量で検閲や規制のないローカル日本語モデルのLightChatAssistant を、KoboldCpp で簡単にお試しする環境です。

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

chatgpt

VRChatGPT - ChatGPTを使ってVRChat上でお喋り出来るようにするプログラム。
AITuberDegikkoMirii - AITuberの基礎となる部分を開発しています
wanna - Shell command launcher with natural language
ChatdollKit - ChatdollKit enables you to make your 3D model into a chatbot
ChuanhuChatGPTJapanese - GUI for ChatGPT API For Japanese
AISisterAIChan - ChatGPT3.5を搭載した伺かゴースト「AI妹アイちゃん」です。利用には別途ChatGPTのAPIキーが必要です。
vrchatbot - VRChatにAI Botを作るためのリポジトリ
gptuber-by-langchain - GPTがYouTuberをやります
openai-chatfriend - A chatbox application built using Nuxt 3 powered by Open AI Text completion endpoint. You can select different personality of your AI friend. The default will respond in Japanese. You can use this app to practice your Nihongo skills!
chrome-ext-translate-to-hiragana-with-chatgpt - This Chrome extension can translate selected Japanese text to Hiragana by using ChatGPT.
azure-search-openai-demo - このサンプルでは、Retrieval Augmented Generation パターンを使用して、独自のデータに対してChatGPT のような体験を作成するためのいくつかのアプローチを示しています。
chatvrm - ChatVRMはブラウザで簡単に3Dキャラクターと会話ができるデモアプリケーションです。
sftly-replace - A Chrome extention to replace the selected text softly
summarize_arxv - Summarize arXiv paper with figures
aiavatarkit - Building AI-based conversational avatars lightning fast
pva-aoai-integration-solution - このリポジトリは、神戸市役所でのChatGPTの試行利用に向けて作成したフロー等をソリューション化し公開するものです。
jp-azureopenai-samples - Azure OpenAIを活用したアプリケーション実装のリファレンスを目的として、アプリのサンプル（リファレンスアーキテクチャ、サンプルコードとデプロイ手順）を無償提供しています。
character_chat - OpenAIのAPIを利用して、設定したキャラクターと日本語で会話するチャットスクリプトです。
chatgpt-slackbot - OpenAIのChatGPT APIをSlack上で利用するためのSlackbotスクリプト (日本語での利用が前提)
chatgpt-prompt-sample-japanese - ChatGPT の Prompt のサンプルです。
kanji-flashcard-app-gpt4 - A Japanese Kanji Flashcard App built using Python and Langchain, enhanced with the intelligence of GPT-4.
IgakuQA - Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations
japagen - 日本語タスクにおけるLLMを用いた疑似学習データ生成の検討

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

Dictionary and IME

mecab-ipadic-neologd - Neologism dictionary based on the language resources on the Web for mecab-ipadic
tdmelodic - A Japanese accent dictionary generator
jamdict - Python 3 library for manipulating Jim Breen's JMdict, KanjiDic2, JMnedict and kanji-radical mappings
unidic-py - Unidic packaged for installation via pip.
Japanese-Company-Lexicon - Japanese Company Lexicon (JCLdic)
manbyo-sudachi - Sudachi向け万病辞書
jawiki-kana-kanji-dict - Generate SKK/MeCab dictionary from Wikipedia(Japanese edition)
JIWC-Dictionary - dictionary to find emotion related to text
JumanDIC - This repository contains source dictionary files to build dictionaries for JUMAN and Juman++.
ipadic-py - IPAdic packaged for easy use from Python.
unidic-lite - A small version of UniDic for easy pip installs.
emoji-ime-dictionary - 日本語で絵文字入力をするための IME 追加辞書 orange_book Google 日本語入力などで日本語から絵文字への変換を可能にする IME 拡張辞書
google-ime-dictionary - 日英変換・英語略語展開のための IME 追加辞書 orange_book 日本語から英語への和英変換や英語略語の展開を Google 日本語入力や ATOK などで可能にする IME 拡張辞書
dic-nico-intersection-pixiv - ニコニコ大百科とピクシブ百科事典の共通部分のIME辞書
google-ime-user-dictionary-ja-en - GoogleIME用カタカナ語辞書プロジェクトのアーカイブです。Project archive of Google IME user dictionary from Katakana word ( Japanese loanword ) to English.
emoticon - Google日本語入力の顔文字辞書∩(,,Ò‿Ó,,)∩
mecab-mozcdic - open source mozc dictionaryをMeCab辞書のフォーマットに変換したものです。
denonbu-ime-dic - 電音IME: Microsoft IMEなどで利用することを想定した「電音部」関連用語の辞書
nijisanji-ime-dic - Microsoft IMEなどで利用することを想定した「にじさんじ」関連用語の用語辞書です。
pokemon-ime-dic - Microsoft IMEなどで利用することを想定した、現状判明している全てのポケモンの名前を網羅した用語辞書です。
EJDict - English-Japanese Dictionary data (Public Domain) EJDict-hand
Ayashiy-Nipongo-Dic - 贵樣ばこゐ辞畫を使て正レい日本语を使ラことが出來ゑ。
genshin-dict - Windows/macOSで使える原神の単語辞書です
jmdict-simplified - JMdict and JMnedict in JSON format
mozcdict-ext - Convert external words into Mozc system dictionary
mh-dict-jp - MonsterHunterのユーザー辞書を作りたい…
jitenbot - Convert data from Japanese dictionary websites and applications into portable file formats
mecab-unidic-neologd - Neologism dictionary based on the language resources on the Web for mecab-unidic
hololive-dictionary - ホロライブ（ホロライブプロダクション）に関する辞書ファイルです。./dictionary フォルダ内のテキストファイルを使って、IMEに単語を追加できます。詳細はREADME.mdをご覧ください。
jmdict-yomitan - JMdict, JMnedict, KANJIDIC for Yomitan/Yomichan.
yomichan-jlpt-vocab - JLPT level tags for words in Yomichan
Jitendex - A free and openly licensed Japanese-to-English dictionary compatible with multiple dictionary clients
jiten - japanese android/cli/web dictionary based on jmdict/kanjidic — 日本語辞典和英辞典漢英字典和独辞典和蘭辞典
pixiv-yomitan - Pixiv Encyclopedia Dictionary for Yomitan
uchinaaguchi_dict - うちなーぐち辞典（沖縄語辞典）
yomitan-dictionaries - Japanese and Chinese dictionaries for Yomitan.
mouse_over_dictionary - マウスオーバーした単語を自動で読み取る汎用辞書ツール
jisyo - かな漢字変換エンジン SKKのための新しい辞書形式
skk-jisyo.emoji-ja - 日本語の読みから Emoji に変換するための SKK 辞書 ?
anthy - Anthy is a kana-kanji conversion engine for Japanese. It converts roma-ji to kana, and the kana text to a mixed kana and kanji.
aws_dic_for_google_ime - AWSサービス名のGoogle日本語入力向けの辞書
cl-skkserv - Common LispによるSKK辞書サーバーとその拡張
anthy - Anthy maintenance
anthy-unicode - Anthy Unicode - Another Anthy
azooKey - azooKey: A Japanese Keyboard iOS Application Fully Developed in Swift
azookey-desktop - Japanese Input Method "azooKey" for Desktop, supporting macOS
fcitx5-hazkey - Japanese input method for fcitx5, powered by azooKey engine
mozcdic-ut-place-names - Mozc UT Place Name Dictionary is a dictionary converted from the Japan Post's ZIP code data for Mozc.
azookeykanakanjiconverter - Kana-Kanji Conversion Module written in Swift
libkkc - Japanese Kana Kanji conversion input method library
libskk - Japanese SKK input method library
kanayomi-dict - openjtalk形式のユーザー辞書
cjkvi-dict - 漢字データベースの辞書関連データ
wlsp-classical - 古典日本語の分類語彙表データ
kanji-dict - 漢字の書き順(筆順)・読み方・画数・部首・用例・成り立ちを調べるための漢字辞書です。Unicode 15.1 のすべての漢字 98,682字を収録しています。
Kaomoji_proj - (๑ ᴖ ᴑ ᴖ ๑)みょんかおもじ（旧Kaomoji_proj）はMicrosoft社の入力ソフト、Microsoft IME向けの顔文字の辞書を作成するプロジェクトです。
kotlin-kana-kanji-converter - Kotlin かな漢字変換プログラム
alfred-japanese-dictionary - Japanese-English Dictionary using jisho.org with audio, csv export of entries, and preview of dictionary sites.
ichiran - Linguistic tools for texts in Japanese language
mikan - A Japanese input method.
colloquial-kansai-dictionary - A quick reference for the material taught in Colloquial Kansai Japanese.

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

신체

Part-of-speech tagging / Named entity recognition

ner-wikipedia-dataset - Wikipediaを用いた日本語の固有表現抽出データセット
IOB2Corpus - Japanese IOB2 tagged corpus for Named Entity Recognition.
TwitterCorpus - 首都大日本語 Twitter コーパス
UD_Japanese-PUD - Parallel Universal Dependencies.
UD_Japanese-GSD - Japanese data from the Google UDT 2.0.
KWDLC - Kyoto University Web Document Leads Corpus
AnnotatedFKCCorpus - Annotated Fuman Kaitori Center Corpus

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

Parallel corpus

small_parallel_enja - 50k English-Japanese Parallel Corpus for Machine Translation Benchmark.
Web-Crawled-Corpus-for-Japanese-Chinese-NMT - A Web Crawled Corpus for Japanese-Chinese NMT
CourseraParallelCorpusMining - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures Translation
JESC - A large parallel corpus of English and Japanese
AMI-Meeting-Parallel-Corpus - AMI Meeting Parallel Corpus
giant_ja-en_parallel_corpus - This directory includes a giant Japanese-English subtitle corpus. The raw data comes from the Stanford's JESC project.
jesc_small - Small Japanese-English Subtitle Corpus
graded-enja-corpus - 禁止用語や単語レベルを考慮した日英対訳コーパスです。
cjk-compsci-terms - CJK computer science terms comparison / 中日韓電腦科學術語對照 / 日中韓のコンピュータ科学の用語対照 / 한·중·일 전산학 용어 대조
Laboro-ParaCorpus - Scripts for creating a Japanese-English parallel corpus and training NMT models
google-vs-deepl-je - google-vs-deepl-je

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

Dialog corpus

JMRD - Japanese Movie Recommendation Dialogue dataset
open2ch-dialogue-corpus - おーぷん2ちゃんねるをクロールして作成した対話コーパス
BSD - The Business Scene Dialogue corpus
asdc - Accommodation Search Dialog Corpus (宿泊施設探索対話コーパス)
japanese-corpus - 日本語の対話データ for seq2seq etc
BPersona-chat - This repository contains the Japanese–English bilingual chat corpus BPersona-chat published in the paper Chat Translation Error Detection for Assisting Cross-lingual Communications at AACL-IJCNLP 2022's Workshop Eval4NLP 2022.
japanese-daily-dialogue - Japanese Daily Dialogue, or 日本語日常対話コーパス in Japanese, is a high-quality multi-turn dialogue dataset containing daily conversations on five topics: dailylife, school, travel, health, and entertainment.
llm-japanese-dataset - LLM構築用の日本語チャットデータセット

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

기타

jrte-corpus - Japanese Realistic Textual Entailment Corpus (NLP 2020, LREC 2020)
kanji-data - A JSON kanji dataset with updated JLPT levels and WaniKani information
JapaneseWordSimilarityDataset - Japanese Word Similarity Dataset
simple-jppdb - A paraphrase database for Japanese text simplification
chABSA-dataset - chakki's Aspect-Based Sentiment Analysis dataset
JaQuAD - JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension (2022, Skelter Labs)
JaNLI - Japanese Adversarial Natural Language Inference Dataset
ebe-dataset - Evidence-based Explanation Dataset (AACL-IJCNLP 2020)
emoji-ja - UNICODE絵文字の日本語読み/キーワード/分類辞書
nayose-wikipedia-ja - Wikipediaから作成した日本語名寄せデータセット
ja.text8 - Japanese text8 corpus for word embedding.
ThreeLineSummaryDataset - 3行要約データセット
japanese - This repo contains a list of the 44,998 most common Japanese words in order of frequency, as determined by the University of Leeds Corpus.
kanji-frequency - Kanji usage frequency data collected from various sources
TEDxJP-10K - TEDxJP-10K ASR Evaluation Dataset
CoARiJ - Corpus of Annual Reports in Japan
technological-book-corpus-ja - 日本語で書かれた技術書を収集した生コーパス/ツール
ita-corpus-chuwa - Chunked word annotation for ITA corpus
wikipedia-utils - Utility scripts for preprocessing Wikipedia texts for NLP
inappropriate-words-ja - 日本語における不適切表現を収集します。自然言語処理の時のデータクリーニング用等に使えると思います。
house-of-councillors - 参議院の公式ウェブサイトから会派、議員、議案、質問主意書のデータを整理しました。
house-of-representatives - 国会議案データベース：衆議院
STAIR-captions - STAIR captions: large-scale Japanese image caption dataset
Winograd-Schema-Challenge-Ja - Japanese Translation of Winograd Schema Challenge
speechBSD - An extension of the BSD corpus with audio and speaker attribute information
ita-corpus - ITAコーパスの文章リスト
rohan4600 - モーラバランス型日本語コーパス
anlp-jp-history - 言語処理学会年次大会講演の全リスト・機械可読版など
keigo_transfer_task - 敬語変換タスクにおける評価用データセット
loanwords_gairaigo - English loanwords in Japanese
jawikicorpus - Japanese-Wikipedia Wikification Corpus
GeneralPolicySpeechOfPrimeMinisterOfJapan - This is the corpus of Japanese Text that general policy speech of prime minister of Japan
wrime - WRIME: 主観と客観の感情分析データセット
jtubespeech - JTubeSpeech: Corpus of Japanese speech collected from YouTube
WikipediaWordFrequencyList - 日本語Wikipediaで使用される頻出単語のリスト
kokkosho_data - 車両不具合情報に関するデータセット
pdmocrdataset-part1 - デジタル化資料OCRテキスト化事業において作成されたOCR学習用データセット
huriganacorpus-ndlbib - 全国書誌データから作成した振り仮名のデータセット
jvs_hiho - JVS (Japanese versatile speech) コーパスの自作のラベル
hirakanadic - Allows Sudachi to normalize from hiragana to katakana from any compound word list
animedb - 約100年に渡るアニメ作品リストデータベース
security_words - サイバーセキュリティに関連する公的な組織の日英対応
Data-on-Japanese-Diet-Members - 日本の国会議員のデータ
honkoku-data - 歴史資料の市民参加型翻刻プラットフォーム「みんなで翻刻」のテキストデータ置き場です。 / Transcription texts created on Minna de Honkoku (https://honkoku.org), a crowdsourced transcription platform for historical Japanese documents.
wikihow_japanese - wikiHow dataset (Japanese version)
engineer-vocabulary-list - Engineer Vocabulary List in Japanese/English
JSICK - Japanese Sentences Involving Compositional Knowledge (JSICK) Dataset/JSICK-stress Test Set
phishurl-list - Phishing URL dataset from JPCERT/CC
jcms - A Japanese Corpus of Many Specialized Domains (JCMS)
aozorabunko_text - text-only archives of www.aozora.gr.jp
friendly_JA-Corpus - friendly_JA is a parallel Japanese-to-Japanese corpus aimed at making Japanese easier by using the Latin/English derived katakana lexicon instead of the standard Sino-Japanese lexicon
topokanji - Topologically ordered lists of kanji for effective learning
isbn4groups - ISBN-13における日本語での出版物 (978-4-XXXXXXXXX) に関するデータ等
NMeCab - NMeCab: About Japanese morphological analyzer on .NET
ndlngramdata - デジタル化資料から作成したOCRテキストデータのngram頻度統計情報のデータセット
ndlngramviewer_v2 - 2023年1月にリニューアルしたNDL Ngram Viewerのソースコード等一式
data_set - 法律・判例関係のデータセット
huggingface-datasets_wrime - WRIME for huggingface datasets
ndl-minhon-ocrdataset - NDL古典籍OCR学習用データセット（みんなで翻刻加工データ）
PAX_SAPIENTICA - GIS & Archaeological Simulator. 2023 in development.
j-liwc2015 - Japanese version of LIWC2015
huggingface-datasets_livedoor-news-corpus - Japanese Livedoor news corpus for huggingface datasets
huggingface-datasets_JGLUE - JGLUE: Japanese General Language Understanding Evaluation for huggingface datasets
commonsense-moral-ja - JCommonsenseMorality is a dataset created through crowdsourcing that reflects the commonsense morality of Japanese annotators.
comet-atomic-ja - COMET-ATOMIC ja
dcsg-ja - Dialogue Commonsense Graph in Japanese
japanese-toxic-dataset - "Proposal and Evaluation of Japanese Toxicity Schema" provides a schema and dataset for toxicity in the Japanese language.
camera - CAMERA (CyberAgent Multimodal Evaluation for Ad Text GeneRAtion) is the Japanese ad text generation dataset.
Japanese-Fakenews-Dataset - 日本語フェイクニュースデータセット
jpn_explainable_qa_dataset - jpn_explainable_qa_dataset
copa-japanese - COPA Dataset in Japanese
WLSP-familiarity - Word Familiarity Rate for 'Word List by Semantic Principles (WLSP)'
ProSub - A cross-linguistic study of pronoun substitutes and address terms
commonsense-moral-ja - JCommonsenseMorality is a dataset created through crowdsourcing that reflects the commonsense morality of Japanese annotators.
ramendb - なんとかデータベース( https://supleks.jp/ )からのスクレイピングツールと収集データ
huggingface-datasets_CAMERA - CAMERA (CyberAgent Multimodal Evaluation for Ad Text GeneRAtion) for huggingface datasets
FactCheckSentenceNLI-FCSNLI- - FactCheckSentenceNLIデータセット
databricks-dolly-15k-ja - databricks/dolly-v2-12b の学習データに使用されたdatabricks-dolly-15k.jsonl を日本語に翻訳したデータセットになります。
EaST-MELD - EaST-MELD is an English-Japanese dataset for emotion-aware speech translation based on MELD.
meconaudio - Mecon Audio(Medical Conference Audio)は厚生労働省主催の先進医療会議の議事録の読み上げデータセットです。
japanese-addresses - 全国の町丁目レベル（277,191件）の住所データのオープンデータ
aozorasearch - The full-text search system for Aozora Bunko by Groonga. 青空文庫全文検索ライブラリ兼Webアプリ。
llm-jp-corpus - This repository contains scripts to reproduce the LLM-jp corpus.
alpaca_ja - alpacaデータセットを日本語化したものです
instruction_ja - Japanese instruction data (日本語指示データ)
japanese-family-names - Top 5000 Japanese family names, with readings, ordered by frequency.
kanji-data-media - Japanese language data on kanji, radicals, media files, fonts and related resources from Kanji alive
reazonspeech - Construct large-scale Japanese audio corpus at home
huriganacorpus-aozora - 青空文庫及びサピエの点字データから作成した振り仮名のデータセット
koniwa - An open collection of annotated voices in Japanese language
JMMLU - 日本語マルチタスク言語理解ベンチマーク Japanese Massive Multitask Language Understanding Benchmark
hurigana-speech-corpus-aozora - 青空文庫振り仮名注釈付き音声コーパスのデータセット
jqara - JQaRA: Japanese Question Answering with Retrieval Augmentation - 検索拡張(RAG)評価のための日本語Q&Aデータセット
jemhopqa - JEMHopQA (Japanese Explainable Multi-hop Question Answering) is a Japanese multi-hop QA dataset that can evaluate internal reasoning.
jacred - Repository for Japanese Document-level Relation Extraction Dataset (plan to be released in March).
jades - JADES is a dataset for text simplification in Japanese, described in "JADES: New Text Simplification Dataset in Japanese Targeted at Non-Native Speakers" (the paper will be available soon).
do-not-answer-ja - 2023年8月にメルボルン大学から公開された安全性評価データセット『Do-Not-Answer』を日本語LLMの評価においても使用できるように日本語に自動翻訳し、さらに日本文化も考慮して修正したデータセット。
oasst1-89k-ja - OpenAssistant のオープンソースデータ OASST1 を日本語に翻訳したデータセットになります。
jacwir - JaCWIR: Japanese Casual Web IR - 日本語情報検索評価のための小規模でカジュアルなWebタイトルと概要のデータセット
japanese-technical-dict - 日本語学習者のための科学技術業界でよく使われる片仮名と元の単語対照表
j-unimorph - Dataset of UniMorph in Japanese
GazeVQA - Dataset for the LREC-COLING 2024 paper "A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions"
J-CRe3 - Code for J-CRe3 experiments (Ueda et al., LREC-COLING, 2024)
jmed-llm - JMED-LLM: Japanese Medical Evaluation Dataset for Large Language Models
lawtext - Plain text format for Japanese law
pdmocrdataset-part2 - OCR処理プログラム研究開発事業において作成されたOCR学習用データセット
japanesetopicwsd - 話題に基づく語義曖昧性解消評価セット
temporalNLI_dataset - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating Generalization Capacity of Language Models
JSeM - Japanese semantic test suite (FraCaS counterpart and extensions)
niilc-qa - NIILC QA data
chain-of-thought-ja-dataset - Dataset of paper "Verification of Chain-of-Thought Prompting in Japanese"
WikipediaAnnotatedCorpus - This is a Japanese text corpus that consists of Wikipedia articles with various linguistic annotations.
elaws-history - e-Gov 法令検索で配布されている「全ての法令データ」を定期的にダウンロードし、アーカイブしています
Japanese-RP-Bench - Japanese-RP-BenchはLLMの日本語ロールプレイ能力を測定するためのベンチマークです。

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

지도 시간

spacy_tutorial - spaCy tutorial in English and Japanese. spacy-transformers, BERT, GiNZA.
fastTextJapaneseTutorial - Tutorial to train fastText with Japanese corpus
allennlp-NER-ja - AllenNLP-NER-ja: AllenNLP による日本語を対象とした固有表現抽出
chariot-PyTorch-Japanese-text-classification - Experiment for Japanese Text classification using chariot and PyTorch
ginza-examples - 日本語NLPライブラリGiNZAのすゝめ
DocumentClassificationUsingBERT-Japanese - DocumentClassificationUsingBERT-Japanese
BERT_Japanese_Google_Colaboratory - Google Colaboratoryで日本語のBERTを動かす方法です。
bert-book - 「BERTによる自然言語処理入門: Transformersを使った実践プログラミング」サポートページ
janome-tutorial - Janome を使ったテキストマイニング入門チュートリアルです。
handson-language-models - 日本語の言語モデルのハンズオン資料です
JapaneseNLI - Google Colabで日本語テキスト推論を試す
deep-learning-with-pytorch-ja - deep-learning-with-pytorchの日本語版repositoryです。
bert-classification-tutorial -【2023年版】BERTによるテキスト分類
python-nlp-book - ディープラーニングによる自然言語処理（共立出版）のサポートページです
llm-book - 「大規模言語モデル入門」（技術評論社, 2023）のGitHubリポジトリ
nlp2024-tutorial-3 - NLP2024 チュートリアル３作って学ぶ日本語大規模言語モデル - 環境構築手順とソースコード
japanese-ir-tutorial - 日本語情報検索チュートリアル
nlpbook - 「自然言語処理の教科書」サポートサイト
kantan-regex-book - 作って学ぶ正規表現エンジン
bert-classification-tutorial-2024 - 【2024年版】BERTによるテキスト分類
Gemma2_2b_Japanese_finetuning_colab.ipynb - Fine-Tuning Google Gemma for Japanese Instructions
nlp100v2020 - 「言語処理100本ノック 2020」をPythonで解く

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

연구 요약

awesome-bert-japanese - A list of pre-trained BERT models for Japanese with word/subword tokenization + vocabulary construction algorithm information
GEC-Info-ja - 文法誤り訂正に関する日本語文献を収集・分類するためのリポジトリ
dataset-list - lists of text corpus and more (mainly Japanese)
tuning_playbook_ja - ディープラーニングモデルの性能を体系的に最大化するためのプレイブック
japanese-pitch-accent-resources - Trying to consolidate japanese phonetic, and in particular pitch accent resources into one list
awesome-japanese-llm - オープンソースの日本語LLMまとめ

To check the statistics table (GitHub stars/Downloads), please refer to this page. ? 위로 돌아갑니다

참조

自然言語処理の餅屋
yasuokaの日記：日本語係り受け解析器「2020年の総ざらえ」
yasuokaの日記：日本語係り受け解析器「2021年の総ざらえ」
https://github.com/topics/japanese?l=python
https://github.com/topics/japanese-language?l=python
https://github.com/search?o=desc&q=corpus+japanese&s=&type=Repositories
https://paperswithcode.com/datasets?lang=japanese
https://github.com/himkt/awesome-bert-japanese
Awesome-Rust-MachineLearning-日本語向けのrustクレートや記事等をまとめたもの
大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価

기고자

kaisugi - website
bomin0624 - twitter
passaglia - twitter

확장하다

awesome japanese nlp resources

굉장한 일본-자원

최신 추가?

내용물

파이썬 라이브러리

형태 분석

구문 분석

변환기

사전 처리기

문장 spliter

감정 분석

기계 번역

지명 된 엔티티 인식

OCR

사전 예방 모델을위한 도구

기타

C ++

형태 분석

구문 분석

기타

녹 상자

형태 분석

변환기

검색 엔진 라이브러리

기타

자바 스크립트

형태 분석

변환기

기타

가다

Morphology analysis

기타

자바

Morphology analysis

기타

Pretrained model

Word2vec

Transformer based models

chatgpt

Dictionary and IME

신체

Part-of-speech tagging / Named entity recognition

Parallel corpus

Dialog corpus

기타

지도 시간

연구 요약

참조

기고자