رهيبة-اليابانية NLP- الموارد
قائمة منسقة من الموارد المخصصة لمكتبات بيثون ، LLMS ، قواميس ، وشركات NLP لليابانية
- معلومات مدرجة عن 653 مستودعات جيثب
- معلومات مدرجة عن 1503 مستودعات الوجه (النماذج ومجموعات البيانات)
- أصدرت أداة؟ للبحث من خلال عدد كبير من معلومات المستودع
الإنجليزية | 日本語 (ياباني) | 繁體中文 (الصينية) | 简体中文 (صينية)
أحدث الإضافات؟
عانق الوجه؟
- تمت إضافة 5 نماذج جديدة و 11 مجموعة بيانات جديدة إلى صفحات Huggingface
يذهب
- الاسم - أسماء الباحث باللغة اليابانية
تم تحديثه في 24 ديسمبر 2024
محتويات
- الوجه المعانقة
- مكتبة بيثون
- تحليل التشكل
- التحليل
- محول
- المعالج المسبق
- الجملة spliter
- تحليل المشاعر
- الترجمة الآلية
- اسم التعرف على الكيان
- المعرفة التعريفي
- أداة للنماذج المسبق
- آحرون
- C ++
- تحليل التشكل
- التحليل
- آحرون
- قفص الصدأ
- تحليل التشكل
- محول
- مكتبة محرك البحث
- آحرون
- جافا سكريبت
- يذهب
- جافا
- نموذج ما قبل
- Word2Vec
- النماذج القائمة على المحولات
- chatgpt
- القاموس و IME
- مجموعة
- وضع علامة على جزء من الكلام / التعرف على الكيان المسماة
- تصنيف النص
- مجموعة موازية
- حوار كوربوس
- آحرون
- درس تعليمي
- ملخص البحث
- مرجع
- المساهمين
مكتبة بيثون
تحليل التشكل
- sudachi.rs - تم تطوير Sudachipy 0.6* وما فوق كـ sudachi.rs.
- جانوم - محرك التحليل المورفولوجي الياباني مكتوب في بيثون النقي
- MECAB-PYTHON3-MECAB-PYTHON. ميكاب بيثون. يمكنك العثور على الإصدار الأصلي هنا: http: //taku910.github.io/mecab/
- MECAB - هذا المستودع مخصص لبناء Windows 64 -bit MECAB الثنائي وتحسين ربط MECAB Python.
- Fugashi - غلاف Cython mecab للرمز المميز الياباني السريع والثاني والتحليل المورفولوجي.
- Nagisa - رمز مميز ياباني يعتمد على الشبكات العصبية المتكررة
- PYKNP - وحدة بيثون لجمعان ++/KNP
- Mykytea -Python - غلاف Python لـ Kytea
- كونوها - كونوها: غلاف بسيط من المميزات اليابانية
- Natto-PY-Natto-PY يجمع بين لغة برمجة Python مع MECAB ، ومحلل جزء الكلام والمورفولوجي للغة اليابانية.
- Rakutenma -Python - Rakuten MA (إصدار Python)
- Python -paporetto - Vaporetto هو تنبؤ سريع وخفيف الوزن على أساس عرضي. هذا هو غلاف بيثون ل vaporetto.
- Dango - سهلة الاستخدام Tokenizer للنص الياباني ، يهدف إلى متعلمي اللغة وغير اللغويين
- Rhoknp - رابط آخر لبيثون لجومان ++/knp
- Python-Vibrato-المميز المميز المستند إلى Viterbi (غلاف Python)
- Jagger-Python-ربط Python لـ Jagger (تنفيذ C ++ لمحلل المورفولوجي الياباني القائم على الأنماط)
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
التحليل
- Ginza - مكتبة NLP يابانية تستخدم Spacy كإطار على أساس التبعيات العالمية
- Cabocha - محلل هيكل التبعية الياباني آخر
- unidic2ud-tokenizer pos-tagger lemmatizer و dependency-parser لليابانيين الحديثين والمعاصرين
- Camphr - Camphr - NLP Libary لإنشاء مكونات خطوط الأنابيب
- supar-unidic-tokenizer pos-tagger lemmatizer و dependency-parser لليابانيين الحديثين والمعاصرين مع نماذج Bert
- DEPCCG - A* CCG Parser مع نموذج Supertag والاعتماد على العرف
- Bertknp - محلل التبعية الياباني يعتمد على Bert
- Esupar-Tokenizer pos-tagger و Dependency-Parser مع نماذج Bert/Roberta/DeBerta للغات اليابانية واللغات الأخرى
- yomikata - مكتبة الغموض غير المتجانسة باستخدام نموذج BERT الذي تم ضبطه.
- Jdepp -Python - Bython Binding لـ J.DEPP (C ++ تنفيذ محلات التبعية اليابانية)
- LightBlue - محلل CCG لليابانية مع تمثيل DTS
- Natsume-simple-Natsume-simple は日本語の係り受け関係検索システム
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
محول
- Pykakasi-محول خفيف الوزن من جمل Kana-Kanji اليابانية إلى Kana-Roman.
- كستليت - محول الياباني إلى روماجي في بيثون
- Alphabet2kana - تحويل الأبجدية الإنجليزية إلى Katakana
- تحويل الأرقام إلى اليابانية-يحول الأرقام العربية ، أو أرقام النمط "الغربي" ، إلى سياق ياباني.
- Mozcpy - Mozc for Python: Kana -Kanji Converter
- Jamorasep - محلل النص الياباني لفصل سلسلة Hiragana/Katakana إلى Morae (المقاطع).
- text2phoneme - 日本語文を音素列へ変換するスクリプト
- JNTAJIS -PYTHON - مكتبة تحويل وترجمة شخصية سريعة على أساس المخطط المحدد لوكالة الضرائب الوطنية اليابانية (国税庁)
- Wiredify-تحويل Kana الياباني من BA-BI-BU-BO إلى VA-VI-VU-VO
- MECAB-TEXT-CLEANER-حزمة بيثون بسيطة (CLI/PYTHON API) للحصول على قراءات يابانية (يوميغانا) ولهجات باستخدام MECAB.
- pynormalizenumexp - 数量表現や時間表現の抽出・正規化を行う normalizenumexp の python 実装
- جوشو - غلاف سهل لبيانات الرمز البريدي في اليابان
- Yurenizer - Next Text Nottormizer الذي يحل التناقضات الإملائية. (日本語表記揺れ解消ツール)
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
المعالج المسبق
- NEOLGDN - NECKING TEXTYLIZER FOR MECAB -NEOLGD
- جاكونف - شخصية اليابانية النقية بين بايثون بين كاتراجانا ، كاتاكانا ، هانكاكو ، وزينكاكو
- Mojimoji - محول سريع بين شخصيات هانكاكو اليابانية وزينكاكو
- تنظيف النص - منظف نص قوي لنصوص الويب اليابانية
- Hojichar - 複数の前処理を構成して管理するテキスト前処理ツール
- Utsuho-Utsuho هي وحدة بيثون تسهل التحويل ثنائي الاتجاه بين كاتاكانا نصف العرض والكاتاكانا الكامل باللغة اليابانية.
- Python -Habachen - محول سلسلة ياباني سريع آخر
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
الجملة spliter
- Bunkai - أداة إزالة الغموض الحدودية للنصوص اليابانية (日本語文境界判定器)
- قاطع الحمل الياباني-قاطع الجملة اليابانية
- Sengiri - رمز آخر على مستوى الجملة للنص الياباني
- Budoux - مستقل. صغير. لغة محايدة. Budoux هو خليفة Budou ، أداة Organizer Line Break التي تعمل بالطاقة الآلية.
- ja_sentence_segmenter - مكتبة تجزئة الجملة اليابانية لبيثون
- هاسامي - أداة لأداء تجزئة الجملة على النص الياباني
- Kuzukiri - قطاع النص الياباني لبيثون مكتوب في الصدأ
- JA-SERENTER-BENYMARK-مقارنة أدوات تجزئة الجملة اليابانية
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
تحليل المشاعر
- OSETI - تحليل المشاعر القائمة على القاموس لليابانية
- Negapoji - تصنيف إيجابي سلبي ياباني. 日本語文書のネガポジを判定。
- Pymlask - محلل العاطفة للنص الياباني
- أساري - محلل المشاعر الياباني المنفذ في بيثون.
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
الترجمة الآلية
- JParacrawl-Finetune-مثال على استخدام نماذج الترجمة الآلية العصبية JParacrawl قبل التدريب (NMT).
- Jass-Jass: تسلسل ياباني خاص بتسلسل ما قبل التدريب للترجمة الآلية العصبية (LREC2020) وتجهيزات متعددة المهام المسبقة اللغوية لترجمة الآلة العصبية منخفضة الموارد (ACM Tallip)
- PHEMT-مجموعة بيانات التقييم الظاهرة لصالح متانة الترجمة اليابانية-الإنجليزية. تعتمد مجموعة البيانات على مجموعة بيانات MTNT ، مع تعليقات إضافية لأربع ظواهر لغوية ؛ الاسم الصحيح ، الاسم المختصر ، التعبير العامية ، والبديل. Coling 2020.
- تأشيرة - مجموعة بيانات ترجمة غامضة لترجمة الآلة المرئية المشهورة
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
اسم التعرف على الكيان
- Namaco - شخصية تعتمد على الاعتراف بالكيان.
- INTITYPEDIA - INTITYPEDIA هو قاموس كيان مسمى من ويكيبيديا.
- Noyaki - يحول معلومات تسمية الحرف إلى معلومات التسمية المستندة إلى النص.
- Bert-Japanese-REN-FINETUNING-رمز لإجراء عملية استكشافية لنموذج BERT. بيرت モデルのファインチューニングで固有表現抽出用タスクのモデルを作成・使用するサンプルです
- المعلومات المشتركة-extraction-HS-詳細なアノテーション基準に基づく症例報告コーパスからの固有表現及び関係の抽出精度の推論を行うコード
- Pygeonlp - Pygeonlp ، وحدة Python للنصوص اليابانية الجغرافية.
- بيرت نير اليابانية-بيرت による日本語固有表現抽出のファインチューニング用プログラム
- Huggingface-Finetune-japanese-أمثلة على محولات Finetune Encoder فقط وموارد تشفير-ترميز من أجل اللغة اليابانية (وجه المعانقة)
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
المعرفة التعريفي
- Manga OCR - حول التعرف على الشخصية البصرية للنص الياباني ، مع التركيز الرئيسي هو المانجا اليابانية
- Mokuro - اقرأ المانجا اليابانية داخل المتصفح مع نص يمكن اختياره.
- مكتوبة بخط اليد اليابانية-الأوكسور اليابانية المكتوبة بخط اليد باستخدام لوحة اللمس لرسم نص الإدخال باستخدام مجموعة أدوات Intel Openvino
- OCR_JAPANEASE - 日本語 OCR
- ndlocr_cli - ndlocr のアプリケーション
- دونات - التنفيذ الرسمي لمحولات فهم الوثائق الخالية من التعرف الضوئي على الحروف (DONUT) ومولد المستندات الاصطناعية (Synthdog) ، ECCV 2022
- Jmtrans - مترجم المانجا - احصل على المانجا اليابانية من عنوان URL لترجمة صورة المانجا
- Kindai -Ocr - نظام OCR للتعرف على المجلات اليابانية الحديثة
- text_recognition - ndlocr 用テキスト認識モジュール
- PORICOM - التعرف على الشخصية البصرية في صور المانجا. تطبيق سطح المكتب Manga OCR
- OWOCR - التعرف على الأحرف البصرية للنص الياباني
- Yomitoku - Yomitoku هي حزمة تحليل صور المستندات التي تعمل بالنيابة المصممة خصيصًا للغة اليابانية.
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
أداة للنماذج المسبق
- JGLUE - JGLUE: تقييم فهم اللغة العامة اليابانية
- Ginza Transformers-استخدم المميزات المخصصة في محولات Spacy
- T5_Japanese_Dialogue_Generation - T5 による会話生成
- اليابانية _text_classification - للتحقيق في مقاربات النص المختلفة DNN بما في ذلك MLP ، CNN ، RNN ، Bert.
- اليابانية-بيرت-سنتمينت- المحاذاة-نشر خادم تحليل المشاعر مع fastapi و Bert
- JMLM_Scoring - التسجيل القائم على نموذج اللغة المقنعة لليابانيين والفيتناميين
- Allennlp-shiba-model-Allennlp Integration for Shiba: Japanese Canine Model
- تقييم _japanese_w2v - البرنامج النصي لتقييم نموذج Word2Vec الياباني الذي تم تدريبه مسبقًا على مجموعة بيانات التشابه اليابانية
- Gector-Ja-علامات GEC مقرها Bert لليابانية
- اليابانية-Bpeencoder-اليابانية-Bpeencoder
- اليابانية-BPeencoder_v2-الإصدار 2 الياباني-BPEencoder 2
- المحول نسخة - 日本語文法誤り訂正ツール
- الانتشار المستقر الياباني-الانتشار المستقر الياباني هو نموذج نشر ياباني كامن النص إلى صورة قادر على توليد صور واقعية للصور مع إعطاء أي إدخال نص.
- Nagisa_bert - نموذج Bert لـ Nagisa
- بادئة Tuning-GPT-مثال رمز لنماذج GPT/GPT-NEOX للبادئة والاستدلال مع البادئات المدربة
- JGLUE -BEANDMARM - نصوص التدريب والتقييم لـ JGLUE ، وهو معيار لفهم اللغة اليابانية
- Jptranstokenizer - Tokenizer الياباني لمكتبة Transformers
- JP Stable - JP نموذج تقييم نموذج اللغة
- قارن-جا-توكنزر-كيف يتم أداء الرمز المميزات المختلفة على مهام المصب بلغات التواصل السينمائي؟: دراسة حالة في اليابانية-ACL SRW 2023
- LM-Evaluation-Harness-JP STIPLE-إطار لتقييم قليلة من نماذج اللغة الانحطاطية.
- LLM-Lora-Classification-LLM-Lora-Classification
- JP Stable - JP نموذج تقييم نموذج اللغة
- RINNA_GPT-NEOX_GGML-LORA-يحتوي المستودع على نصوص ودمج البرامج النصية التي تم تعديلها لتكييف محول الألباكا-لورا لضبط LORA عند افتراض استخدام "Rinna/Japanese-GPT-NEOX ..." [GPT-NEOX] تم تحويله إلى GGML.
- صياغة تلوين اليابان-LLM のキャラクターロールプレイに関する性能を評価するために作成しました。
- رابطة اليابانية-LLM-يدعم هذا المستودع المتصدرين في Rakuda في Yuzuai من LLMs اليابانية ، وهو من التماثل الياباني الذي يركز على LMSYS 'Vicuna Eval.
- LLM-JP-Eval-このツールは、複数のデータセットを横断して日本語の大規模言語モデルを自動評価するものです.
- LLM-JP-SFT-يحتوي هذا المستودع على الكود للضبط الخاضع للإشراف لنماذج LLM-JP.
- LLM-JP-Tokenizer-LLM 勉強会 (LLM-JP) で開発している LLM 用のトークナイザー関連をまとめたリポジトリです.
- اليابانية-فاين-هارنس-نموذج التقييم المالي للنموذج الياباني
- Ja-Vicuna-QA-Benchmark-معيار Vicuna QA الياباني
- التقييم ابتلاع - ابتلاع プロジェクト 大規模言語モデル 評価スクリプト
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
آحرون
- اسمه اسم "اسمه" - أداة لتقسيم الاسم الكامل الياباني إلى اسم عائلي واسم معين.
- Asa -Python - قائمة منسقة من الموارد المخصصة لمكتبات Python في NLP لليابانيين
- Python_asa - Python 版日本語意味役割付与システム (ASA)
- Toiro - أداة مقارنة للمميزات اليابانية
- Ja -Timex - 自然言語で書かれた時間情報表現を抽出/規格化するルールベースの解析器
- Gapanesetokenizers - مجموعة من المقاييس لاختيار الميزات من البيانات النصية
- Daaja - يحتوي هذا المستودع على تطبيقات لزيادة البيانات لـ NLP لليابانيين.
- Accel-Brain-Code-الغرض من هذا المستودع هو جعل النماذج الأولية كدراسة حالة في سياق إثبات المفهوم (POC) والبحث والتطوير (R&D) التي كتبتها في موقع الويب الخاص بي. مواضيع البحث الرئيسية هي أدوات التنسيق التلقائي فيما يتعلق بتعلم التمثيل ، والتعلم الإحصائي للآلة للنماذج القائمة على الطاقة ، وشبكة الجيل العددي ...
- Kyoto -Reader - معالج لـ Kyotocorpus و KWDLC و annotatedfkccorpus
- NLPLOT - وحدة التصور لمعالجة اللغة الطبيعية
- Rake -JA - خوارزمية استخراج الكلمات الرئيسية الأوتوماتيكية السريعة لليابانية
- جيل - رابط كيان ياباني.
- Medner -J - أحدث إصدار من Medex/J (مستخرج اسم المرض الياباني)
- Zunda -Python - Zunda: عميل محلل Modality Japanespans المحسّن لـ Python.
- aio2_dpr_baseline - https://www.nlp.ecei.tohoku.ac.jp/projects/aio/
- عرض - تطبيق Pytorch لمحلل بنية الحذاء الياباني (PAS) المقدم في ورقة Matsubayashi & Inui (2018) مع بعض التحسينات.
- Darts-Clone-Python-Darts-Clone Python Binding
- JRTE -CORPUS_EXAMPLE - مثال رموز لمجموعة النصي الواقعي الياباني
- Desuwa - ميزة التعليقات المميزة للمورفيميات والعبارات على أساس ملفات قاعدة KNP (Pure -Python)
- HotPeppergurmoutDialogue - نظام البحث في المطاعم من خلال الحوار باللغة اليابانية.
- NLP-Recipes-JA-رموز عينات لمعالجة اللغة الطبيعية باللغة اليابانية
- اليابانية _nlp_scripts - نصوص مثال صغير للعمل مع النصوص اليابانية في بيثون
- Dnorm -J - النسخة اليابانية من Dnorm
- Pyknp-EventGraph-EventGraph هي منصة تطوير لتطبيقات NLP عالية المستوى باللغة اليابانية.
- Ishi - Ishi: مصنف إرادي للياباني
- Python -npylm - ベイズ階層言語モデルによる教師なし形態素解析
- Python -npycrf - 条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析
- غير خاضع للرقابة غير الخاضعة للرقابة-教師なし品詞タグ推定
- Negima-Negima عبارة عن حزمة بيثون لاستخراج العبارات في النص الياباني باستخدام القواعد القائمة على جزء التعريف الذي حددته.
- youyakuman - الملخص الاستخراجي باستخدام Bertsum كنموذج تلخيص
- اليابانيين الأنيقان-بيثون-محلل للرقم الياباني (كانجي ، العربية) في اللغة الطبيعية.
- Kantan - البحث عن الكلمات اليابانية بأنماط جذرية
- Make-Meidai-Dialogue-احصل على حوار ياباني
- اليابانية _summarizer - ملخص للمقالات اليابانية.
- Chirptext - Chirptext هي مجموعة من أدوات معالجة النص لبيثون.
- يوبين - العنوان الياباني munger
- Jawiki -Cleaner - منظف ويكيبيديا الياباني
- اليابانية 2phoneme - مكتبة Python لتحويل اليابانية إلى phoneme.
- ANLP_NLP2021_D3-1-يحتوي هذا المستودع على رموز تتعلق بالتجارب في "التقييم التجريبي للمميزات اليابانية لتصنيف النص القائم على المشاعر"
- Aozora_classification - يهدف هذا المشروع إلى تصنيف الجملة اليابانية إلى مدى تشابه بعض الكتاب الكلاسيكيين اليابانيين ، مثل Soseki Natsume و Ogai Mori و Ryunosuke Akutagawa وما إلى ذلك.
- Aozora-Corpus-Generator-يقوم بإنشاء ملفات نصية عادية أو رمزية من Aozora Bunko
- JLM - نموذج لغة LSTM سريع للغة المفردات الكبيرة مثل اليابانية والصينية
- NTM - اختبار نمذجة الموضوع العصبي للمقالات اليابانية
- EN-JP-ML-Rexicon-هذا هو معجم اللغة الإنجليزية واليابانية للتعلم الآلي ومصطلحات التعلم العميق.
- توليد النص-البرامج النصية سهلة الاستخدام لضبط GPT-2-JA مع نصوصك الخاصة ، وإنشاء جمل ، ولتغردها تلقائيًا.
- Chainer_nic - تعليق الصورة العصبية (NIC) على Chainer ، نماذجها المسبقة على مجموعات بيانات التسمية التوضيحية للصور الإنجليزية واليابانية.
- UNIHAN-LM-المستودع الرسمي لـ "Unihanlm: نموذج اللغة الصينية واليابانية الخشنة مع قاعدة بيانات UNIHAN" ، AACL-IJCNLP 2020
- MBART -Finetuning - رمز لإجراء فنية من طراز MBART.
- XVector_JtubeSeedice - طراز XVector على JTubeSte
- TinySegmenterMaker - TinySegmenter 用の学習モデルを自作するためのツール.
- Grongish - 日本語とグロンギ語の相互変換スクリプト
- WordCloud -Japanese - WordCloud での日本語文章を mecab (形態素解析エンジン) を使用せずに形態素解析チックな表示を実現するスクリプト
- Snark - 日本語ワードネットを利用した DB アクセスライブラリ
- Toemoji - 日本語文を絵文字だけの文に変換するなにか
- termextract - - 専門用語抽出アルゴリズムの実装の練習
- Jdt-With-Kenlm-scoring-اليابانية-ديالوج-نقل التحويل の応答候補に対して、 kenlm による n-gram 言語モデルでスコアリングし、フィルタリング若しくはリランキングを行う。
- مزيج من النموذج-مزيج من نموذج unigram وخليط لا حصر له من نموذج unigram في بيثون. (混合ユニグラムモデルと無限混合ユニグラムモデル)
- نموذج مخفي ماركوف-نموذج ماركوف المخفي (HMM) ونموذج ماركوف المخفي اللانهائي (IHMM) في بيثون. (隠れマルコフモデルと無限隠れマルコフモデル)
- نموذج لغة NGRAM-نموذج لغة NGRAM في بيثون. (ن グラム言語モデル)
- ASRDEEPSPEEDE - التعرف على الكلام التلقائي مع نموذج DeepSpeech2 في Pytorch بدعم من Zakuro AI.
- Neural_IME - IME العصبي: محرك طريقة الإدخال العصبي
- neural_japanese_transliterator - هل يمكن أن تترجم الشبكات العصبية روماجي إلى اليابانية بشكل صحيح؟
- TinySegmenter - Tokenizer محدد لليابانية
- Augly -JP - زيادة البيانات للنص الياباني في أغسطس
- Furigana4Epub - نص Python لإضافة Furigana إلى كتب Epub اليابانية باستخدام MECAB و Unidic.
- Pykatsuyou - أداة تفتيش الفعل اليابانية/الصفة
- Jageocoder - العنوان الياباني Python النقي الياباني
- Pygeonlp - Pygeonlp ، وحدة Python للنصوص اليابانية الجغرافية.
- Nksnd - محرك تحويل Kana -Kanji الجديد
- جيمي - مجموعة أدوات استخراج المعلومات الطبية اليابانية
- fasttext-vs-word2vec-on-twitter-data-fasttext と word2vec の比較と、実行スクリプト、学習スクリプトです
- الحد الأدنى من البحث-محرك-最小のサーチエンジン/pagerank/tf-idf
- تحليل 5ch - 5ch の過去ログをスクレイピングして、過去流行った単語 (ex ، 香具師 ، orz) などを追跡調査
- Tweet_extructor - Twitter 日本語評判分析データセットのためのツイートダウンローダ
- تجميع الكلمات اليابانية-تجميع الكلمات اليابانية على أساس Juman ++ و ConceptNet5.5
- جينف - محول انعكاس ياباني
- Kwja - محلل لغة موحدة لليابانية
- MLM-Scaring-Transformers-حزمة مستنسخة تعتمد على تسجيل نموذج اللغة المقنعة (ACL2020).
- clipcap-for-japanese-[pytorch] clipcap لليابانية
- السبت مقابل اليابانية-[Pytorch] عرض وحضور وتحدث عن اليابانية
- Cihai - Python Library for CJK (الصينية واليابانية والكورية) قاموس اللغة
- البحرية-البحرية: تقدير لهجة اليابانية متعددة المهام في المهمة
- Whisper-Asr-Finetune-نموذج ASR الهمس
- Japanese_Chatbot - تطبيق Pytorch لـ chatbot الياباني باستخدام وحدة فك ترميز Bert and Transformer
- Radicalchar - 部首文字正規化ライブラリ
- أكازا - IME يابانية أخرى لـ IBUs/Linux
- POSUTO - بيانات الرمز البريدي الياباني.
- Tacotron2 -japanese - Tacotron2 تنفيذ اليابانية
- Ibus -hiragana - ひらがな ime for ibus
- Furiganapad - ふりがなパッド
- Chikkarpy - مكتبة مرادف اليابانية
- Ja-Tokenizer-Docker-PY-MECAB + NEOLGD + DOCKER + PYTHON3
- اليابانية embeddingeval - اليابانية embeddingeval
- gptuber-by-langchain-gpt が youtuber をやります
- Shuwa - تمديد لوحة المفاتيح على الشاشة Gnome على شاشة لطرق الإدخال
- النموذج الياباني-NLI-يوفر هذا المستودع رمزًا لنموذج NLI الياباني ، وهو نموذج لغة مقنعة.
- Tra-Fugu-أداة للترجمة اليابانية-الإنجليزية والترجمة الإنجليزية واليابانية باستخدام Fugumt
- fugumt - ぷるーふおぶこんせぷと で公開した機械翻訳エンジンを利用する翻訳環境です。 フォームに入力された文字列の翻訳、 pdf の翻訳が可能です。
- jaspice - jaspice: مقياس التقييم التلقائي باستخدام هياكل الحذاء المسند لنماذج توضيح الصورة
- الاسترجاع القائم على التحول-ويبو-JP-localization-JP-localization
- Pyopenjtalk - غلاف Python لـ OpenJtalk
- Yomigana -Ebook - اجعل التعلم الياباني أسهل عن طريق إضافة قراءات لكل كانجي في الكتاب الاليكتروني
- N46Whisper - مولد الترجمة الياباني القائم على الهمس
- اليابانية _llm_simple_webui - rinna -3.6b 、 opencalm 等の日本語対応 llm (大規模言語モデル) 用の簡易 web インタフェースです
- PDF-Translator-يقوم PDF-Translator بترجمة ملفات PDF الإنجليزية إلى اليابانية ، مع الحفاظ على التصميم الأصلي.
- اليابانية _qa_demo_with_haystack_and_es - haystack + elasticsearch + wikipedia (ja) を用いた、日本語の質問応答システムのサンプル
- Mozc-Devices-تم تصديرها تلقائيًا من code.google.com/p/mozc-morse
- Natsume - مجموعة أدوات معالجة الواجهة الأمامية اليابانية
- Vits-Japros-Webui-日本語 tts (vits) の学習と音声合成の gradio webui
- Ja-Law-Parser-محلل قانون ياباني
- الإملاء - كيت - مجموعة الإملاء اليابانية باستخدام يوليوس
- Julius4Seg - يوليوس を使ったセグメンテーション支援ツール
- Voicevox_engine - 無料で使える中品質なテキスト読み上げソフトウェア、 Voicevox の音声合成エンジン
- LLAVA-JP-LLAVA-JP هو VLM ياباني مدرب على طريقة LLAVA
- Rag -japanese - خرقة مفتوحة المصدر مع مؤشر Llama لـ LLM الياباني في تسوية الموارد المنخفضة
- BERTJSC - مصحح خطأ الإملاء الياباني باستخدام BERT (نموذج باللغة المقنعة). بيرت に基づいて日本語校正
- LLM -Leaderboard - مشروع تقييم LLM للمهام اليابانية
- JGLUE-Evaluation-Scripts-حول البرامج النصية للتدريب والتقييم لـ JGLUE ، وهو معيار لفهم اللغة اليابانية
- BLIP2-Japanese-تعديل Lavis 'BLIP2 Q-Former مع نماذج تم تجهيزها على مجموعات البيانات اليابانية.
- Wikipedia-passages-jawiki-embeddings-utils-Wikipedia 日本語の文を、各種日本語の 日本語の文を、各種日本語の や faiss index へと変換するスクリプト等。
- Simcse-Ja Simple-استكشاف Simcse الياباني
- ويكيبيديا واليابانية المفتوحة-ويكيبيديا の日本語記事を元に、ユーザの質問に回答する gradio ベースの rag のサンプル
- GPT4-Autoeval-GPT-4 を用いて、言語モデルの応答を自動評価するスクリプト
- T5 -japanese - 日本語 t5 モデル
- اليابانية _llm_eval - ريبو لتقييم LLMS اليابانية ・ 日本語 llm を評価するレポ
- JMTEB - البرامج النصية للتقييم لـ JMTEB (معيار نص هائل ياباني)
- Pydomino - 日本語音声に対して音素ラベルをアラインメントするためのツールです
- EasyNovelAssistant - 軽量で規制も検閲もない日本語ローカル llm 『Lightchatassistant -typeb 』による、簡単なノベル生成アシスタントです。ローカル特権の永続生成 توليد إلى الأبد で、当たりガチャを積み上げます。読み上げにも対応。
- مقطع ياباني - 日本語データセットでの توليف تعليمات qlora 学習サンプルコード
- Rime -Jaroomaji - مخطط إدخال Rōmaji الياباني لـ Rime IME
- الجيل العميق-深層学習を用いたクイズ自動生成 (日本語 t5 モデル)
- Magpie-Nemotron-Magpie という手法と nemotron-4-340b-instruct を用いて合成対話データセットを作るコード
- qlora_ja - 日本語データセットでの توليف تعليمات Qlora 学習サンプルコード
- Mozcdic-Ut-Jawiki-Mozc Ut Jawiki Dictionary هو قاموس تم إنشاؤه من ويكيبيديا اليابانية لـ Mozc.
- SHISA -V2 - LLM اليابانية / الإنجليزية ثنائية اللغة
- LLM-Translator-نموذج ترجمة JA-EN (EN-JA) المستند إلى MIXTRAL
- LLM-JP-ASR-Whisper のデコーダを LLM-JP-1.3B-V1.0 に置き換えた音声認識モデルを学習させるためのコード
- Rag -japanese - خرقة مفتوحة المصدر مع مؤشر Llama لـ LLM الياباني في تسوية الموارد المنخفضة
- موناكا - محلل ياباني (بما في ذلك اليابانية التاريخية)
- jp-translate.cloud-نظام ترجمة آلية اللغة الإنجليزية <-> على أحدث طراز ياباني <-> يعتمد على أحدث أبحاث NMT.
- فرعية كلمة----連続部分文字列の単語判定を行います
- Heron-VLM-Leaderboard-هذا المشروع هو أداة قياس لتقييم ومقارنة أداء نماذج لغة الرؤية المختلفة (VLMS). يستخدم مجموعتين من البيانات: LLAVA-BENCH-IN-WILL و HERON PENCH اليابانية لقياس أداء النموذج.
- Text2DatAset - تحويل مجموعات بيانات النصية الإنجليزية الكبيرة بسهولة إلى مجموعات بيانات النصية اليابانية باستخدام LLMs Open.
- MECAB-WEB-API-MECAB を利用した日本語形態素解析 Webapi
- MECAB_CONTROLLER - غلاف MECAB لتوليد قراءات Furigana.
- Vits - Vits によるテキスト読み上げ器 & ボイスチェンジャー
- AKARI_CHATGPT_BOT - 音声認識、文章生成、音声合成を使って対話するチャットボットアプリ
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
C ++
تحليل التشكل
- ميكاب - محلل مورفولوجي ياباني آخر
- Jumanpp - Juman ++ (مجموعة أدوات محلل مورفولوجي)
- Kytea - مجموعة أدوات تحليل النص Kyoto لتجزئة الكلمات وتقدير النطق ، إلخ.
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
التحليل
- Cabocha - محلل هيكل التبعية الياباني آخر
- KNP - محلل ياباني
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
آحرون
- JSC - نموذج قناة المصدر المشترك لتحويل Kana Kanji الياباني ، مدخلات Pinyin الصينية والمدخلات المختلطة CJE.
- Aquaskk - طريقة إدخال بدون تحليل مورفولوجي.
- MOZC - MOZC - محرر طريقة إدخال ياباني مصمم للمنصات متعددة
- Trimatch - Trimatch: A (بالضبط | بادئة | تقريبية) مكتبة مطابقة السلسلة
- Impla - Impla: مكتبة البحث اليابانية القائمة على الكلمات
- Corvusskk - ▽ ▼ ▼ محرر طريقة الإدخال الياباني الشبيه بـ Skk لنظام التشغيل Windows
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
قفص الصدأ
تحليل التشكل
- Lindera - مكتبة تحليل مورفولوجية.
- Vaporetto - Vaporetto: تنبؤات مسرع للغاية على أساس عرضي
- غويا - التحليل المورفولوجي الياباني مكتوب في الصدأ
- Vibrato - Vibrato: TokeLerizer المستند إلى Viterbi
- Yoin - محلل مورفولوجي ياباني مكتوب في الصدأ النقي
- MECAB-RS-روابط صدأ آمنة لـ MECAB مكتبة محلل جزء من الكلام والمورفولوجي
- Awabi - محلل مورفولوجي باستخدام قاموس MECAB
- Kanpyo - محلل المورفولوجي الياباني مكتوب في الصدأ
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
محول
- WANA_KANA_RUST - مكتبة الأدوات المساعدة للتحقق والتحويل بين الشخصيات اليابانية - Hiragana و Katakana - و Romaji
- UNICODE-JP-RS-مكتبة صدأ لتحويل نصف عرض اليابان [半角カナ] والفلفان العريض [全角英数]
- Kana - [Mirror] CLI برنامج لترجمة نص Romaji إلى Hiragana أو Katakana
- كاناريا - このライブラリは、ひらがな・カタカナ、半角・全角の相互変換や判別を始めとした機能を提供します。
- اليابانية-address-parser-日本の住所を都道府県/市区町村/町名/その他に分割するライブラリです
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
مكتبة محرك البحث
- Lindera -Tantivy - Lindera Tokenizer لـ Tantivy.
- Tantivy -Vibrato - Tantivy Tokenizer باستخدام الاهتزاز.
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
آحرون
- Daachorse-تنفيذ سريع لخوارزمية AHO-Corasick باستخدام بنية بيانات الصلاحية المزدوجة المدمجة في الصدأ.
- Find-Simdoc- العثور على جميع أزواج المستندات المماثلة في الوقت والذاكرة بشكل فعال
- CRAWDAD-مكتبة الصدأ من قواميس اللغة الطبيعية باستخدام محاولات الرأي المزدوجة ذات الأحرف.
- Tokenizer-speed-botic-رمز المقارنة بين المميزات المختلفة
- StringMatch -Bench - هنا يوفر أدوات قياسية لمقارنة أداء هياكل البيانات لمطابقة السلسلة.
- Vime - باستخدام VIM كوسيلة إدخال لتطبيقات X11
- Voicevox_core - 無料で使える中品質なテキスト読み上げソフトウェア、 Voicevox のコア
- أكازا - IME يابانية أخرى لـ IBUs/Linux
- JOTOBA - قاموس ياباني مجاني عبر الإنترنت ، مستضيف ذاتي ، متعدد الأطوار.
- Dvorakjp -Romantable - Google 日本語入力用 Dvorakjp ローマ字テーブル / Dvorakjp Roman Table for Google Japanes
- Niinii - لمعان الياباني لقراءة النص باستخدام Ichiran
- CSKK - مكتبة Skk (Kana Kanji Henkan)
- Japanki - تعلم المفردات اليابانية ؟؟ عن طريق إجراء اختبارات على CLI!
- JPreprocess-المعالج المسبق للنص الياباني لتطبيقات النص إلى كلام (إعادة كتابة OpenJtalk بلغة الصدأ)
- listup_precedent - 裁判例のデータ一覧を裁判所のホームページ (https://www.courts.go.jp/index.html) をスクレイピングして生成するソフトウェア
- Jisho - Jisho هي أداة CLI ومكتبة الصدأ التي توفر قاموسًا يابانيًا إنجليزيًا.
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
جافا سكريبت
تحليل التشكل
- KUROMOJI.JS - تنفيذ JavaScript للمحلل المورفولوجي الياباني
- Rakutenma - Rakuten MA - Morphological Analyzer (Word Segmentor + POS TAGGER) للصينية واليابانية مكتوبة بحتة في JavaScript. موارد
- العقدة mecab-ya-غلاف ميكاب آخر لـ nodejs
- Juman-Bin-محلل مورفولوجي قابل للاستمتاع بالمستخدم لليابانيين. 日本語形態素解析システム
- Node-Mecab-Async-محلل المورفولوجي الياباني غير المتزامن باستخدام MECAB.
للتحقق من جدول الإحصائيات (Github Stars/Downloads) ، يرجى الرجوع إلى هذه الصفحة. ؟ العودة إلى الأعلى
محول
- كوروشيرو - مكتبة اللغة اليابانية لتحويل الجملة اليابانية إلى هيراجانا أو كاتاكانا أو روماجي مع أوضاع Furigana و Okurigana المدعومة.
- Kuroshiro-analyzer-Kuromoji-Kuromoji Morphology Analyzer for Kuroshiro.
- Hepburn - Node.js Module لتحويل نص Hiragana و Katakana الياباني إلى ، وإلى Romaji باستخدام Hepburn Romanisation
- اليابانيين إلى الأرقام-يحول الأرقام اليابانية إلى عدد
- jslingua - Javascript libraries to process text: Arabic, Japanese, etc.
- WanaKana - Javascript library for detecting and transliterating Hiragana <--> Katakana <--> Romaji
- node-romaji-name - Normalize and fix common issues with Romaji-based Japanese names.
- kyujitai.js - Utility collections for making Japanese text old-fashioned
- normalize-japanese-addresses - オープンソースの住所正規化ライブラリ。
- jaconv - 日本語文字変換ライブラリ (javascript)
- romaji-conv - Convert romaji into hiragana
- japanese-addresses-v2 - 全国の住所データAPI
- jptext-to-emoji - テキストの単語を絵文字に変換する
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
آحرون
- bangumi-data - Raw data for Japanese Anime
- yomichan - Japanese pop-up dictionary extension for Chrome and Firefox.
- proofreading-tool - GUIで動作する文書校正ツール GUI tool for textlinting.
- kanjigrid - A web-app displaying the 2200 kanji characters taught in James Heisig's "Remembering the Kanji", 6th edition.
- japanese-toolkit - Monorepo for Kanji, Furigana, Japanese DB, and others
- analyze-desumasu-dearu - 文の敬体(ですます調)、常体(である調)を解析するJavaScriptライブラリ
- hatsuon - Japanese pitch accent utils
- sentiment_ja_js - Sentiment Analysis in Japanese. sentiment_ja with JavaScript
- mecab-ipadic-seed - mecab-ipadic seed dictionary reader
- Japanese-Word-Of-The-Day - Well, a different Japanese word everyday.
- oskim - Extend GNOME On-Screen Keyboard for Input Methods
- tweetMapping - 東日本大震災発生から24時間以内につぶやかれたジオタグ付きツイートのデジタルアーカイブです。
- pitch-accent - Predict pitch accent in Japanese
- kana2ipa - 「ひらがな」または「カタカナ」を日本語で発音する際の音声記号(IPA)に変換するコマンド
- voicevox - 無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのエディター
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
يذهب
Morphology analysis
- kagome - Self-contained Japanese Morphological Analyzer written in pure Go
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
آحرون
- ojosama - テキストを壱百満天原サロメお嬢様風の口調に変換します
- nihongo - Japanese Dictionary
- yomichan-import - External dictionary importer for Yomichan.
- imas-ime-dic - THE IDOLM@STER words dictionary for Japanese IME (by imas-db.jp)
- go-kakasi - Kanji transliteration to hiragana/katakana/romaji, in Go
- go-moji - A Go library for Zenkaku/Hankaku conversion
- ojichat - おじさんがLINEやメールで送ってきそうな文を生成する
- name - Name Searcher in Japanese
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
Java
Morphology analysis
- kuromoji - Kuromoji is a self-contained and very easy to use Japanese morphological analyzer designed for search
- Sudachi - A Japanese Tokenizer for Business
- SudachiDict - A lexicon for Sudachi
- meval - 形態素解析器性能評価システム MevAL
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
آحرون
- kanjitomo-ocr - Java library for identifying Japanese characters from images
- jakaroma - Java library and command-line tool to transliterate Japanese kanji to romaji (Latin alphabet)
- kakasi-java - Kanji transliteration to hiragana/katakana/romaji, in Java
- Kamite - A desktop language immersion companion for learners of Japanese
- react-native-japanese-tokenizer - Async Japanese Tokenizer Native Plugin for React Native for iOS and Android
- elasticsearch-analysis-japanese - Japanese analyzer uses kuromoji japanese tokenizer for ElasticSearch
- moji4j - A Java library to converts between Japanese Hiragana, Katakana, and Romaji scripts.
- neologdn-java - Japanese text normalizer for mecab-neologd
- elasticsearch-sudachi - The Japanese analysis plugin for elasticsearch
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
Pretrained model
Word2Vec
- japanese-words-to-vectors - Word2vec (word to vectors) approach for Japanese language using Gensim and Mecab.
- chiVe - Japanese word embedding with Sudachi and NWJC
- elmo-japanese - elmo-japanese
- embedrank - Python Implementation of EmbedRank
- aovec - Easy aozorabunko Word2Vec Builder - 青空文庫全書籍のWord2Vecビルダー+構築済みモデル
- dependency-based-japanese-word-embeddings - This is a repository for the AI LAB article "係り受けに基づく日本語単語埋込 (Dependency-based Japanese Word Embeddings)" ( Article URL https://ai-lab.lapras.com/nlp/japanese-word-embedding/)
- jawikivec - Yet Another Japanese-Wikipedia Entity Vectors
- jawiki_word_vector_updater - 最新の日本語Wikipediaのダンプデータから,MeCabを用いてIPA辞書と最新のNeologd辞書の両方で形態素解析を実施し,その結果に基づいた word2vec,fastText,GloVeの単語分散表現を学習するためのスクリプト
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
Transformer based models
- bert-japanese - BERT models for Japanese text.
- japanese-pretrained-models - Code for producing Japanese pretrained models provided by rinna Co., Ltd.
- bert-japanese - BERT with SentencePiece for Japanese text.
- SudachiTra - Japanese tokenizer for Transformers
- japanese-dialog-transformers - Code for evaluating Japanese pretrained models provided by NTT Ltd.
- shiba - Pytorch implementation and pre-trained Japanese model for CANINE, the efficient character-level transformer.
- Dialog - A PyTorch Implementation of japanese chatbot using BERT and Transformer's decoder
- language-pretraining - BERT and ELECTRA models of PyTorch implementations for Japanese text.
- medbertjp - Trials of pre-trained BERT models for the medical domain in Japanese.
- ILYS-aoba-chatbot - ILYS-aoba-chatbot
- t5-japanese - Codes to pre-train Japanese T5 models
- pytorch_bert_japanese - PytorchでBERTの日本語学習済みモデルを利用する
- Laboro-BERT-Japanese - Laboro BERT Japanese: Japanese BERT Pre-Trained With Web-Corpus
- RoBERTa-japanese - Japanese BERT Pretrained Model
- aMLP-japanese - aMLP Transformer Model for Japanese
- bert-japanese-aozora - Japanese BERT trained on Aozora Bunko and Wikipedia, pre-tokenized by MeCab with UniDic & SudachiPy
- sbert-ja - Code to train Sentence BERT Japanese model for Hugging Face Model Hub
- BERT-Japan-vaccination - Official fine-tuning code for "Emotion Analysis of Japanese Tweets and Comparison to Vaccinations in Japan"
- gpt2-japanese - Japanese GPT2 Generation Model
- text2text-japanese - gpt-2 based text2text conversion model
- gpt-ja - GPT-2 Japanese model for HuggingFace's transformers
- friendly_JA-Model - MT model trained using the friendly_JA Corpus attempting to make Japanese easier/more accessible to occidental people by using the Latin/English derived katakana lexicon instead of the standard Sino-Japanese lexicon
- albert-japanese - BERT with SentencePiece for Japanese text.
- ja_text_bert - 日本語WikipediaコーパスでBERTのPre-Trainedモデルを生成するためのリポジトリ
- DistilBERT-base-jp - A Japanese DistilBERT pretrained model, which was trained on Wikipedia.
- bert - This repository provides snippets to use RoBERTa pre-trained on Japanese corpus. Our dataset consists of Japanese Wikipedia and web-scrolled articles, 25GB in total. The released model is built based on that from HuggingFace.
- Laboro-DistilBERT-Japanese - Laboro DistilBERT Japanese
- luke - LUKE -- Language Understanding with Knowledge-based Embeddings
- GPTSAN - General-purpose Swich transformer based Japanese language mode
- japanese-clip - Japanese CLIP by rinna Co., Ltd.
- AcademicBART - We pretrained a BART-based Japanese masked language model on paper abstracts from the academic database CiNii Articles
- AcademicRoBERTa - We pretrained a RoBERTa-based Japanese masked language model on paper abstracts from the academic database CiNii Articles.
- LINE-DistilBERT-Japanese - DistilBERT model pre-trained on 131 GB of Japanese web text. The teacher model is BERT-base that built in-house at LINE.
- Japanese-Alpaca-LoRA - 日本語に翻訳したStanford Alpacaのデータセットを用いてLLaMAをファインチューニングし作成したLow-Rank AdapterのリンクとGenerateサンプルコード
- albert-japanese-tinysegmenter - Pretrained models, codes and guidances to pretrain official ALBERT(https://github.com/google-research/albert) on Japanese Wikipedia Resources
- japanese-llama-experiment - Japanese LLaMa experiment
- easylightchatassistant - EasyLightChatAssistant は軽量で検閲や規制のないローカル日本語モデルのLightChatAssistant を、KoboldCpp で簡単にお試しする環境です。
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
ChatGPT
- VRChatGPT - ChatGPTを使ってVRChat上でお喋り出来るようにするプログラム。
- AITuberDegikkoMirii - AITuberの基礎となる部分を開発しています
- wanna - Shell command launcher with natural language
- ChatdollKit - ChatdollKit enables you to make your 3D model into a chatbot
- ChuanhuChatGPTJapanese - GUI for ChatGPT API For Japanese
- AISisterAIChan - ChatGPT3.5を搭載した伺かゴースト「AI妹アイちゃん」です。利用には別途ChatGPTのAPIキーが必要です。
- vrchatbot - VRChatにAI Botを作るためのリポジトリ
- gptuber-by-langchain - GPTがYouTuberをやります
- openai-chatfriend - A chatbox application built using Nuxt 3 powered by Open AI Text completion endpoint. You can select different personality of your AI friend. The default will respond in Japanese. You can use this app to practice your Nihongo skills!
- chrome-ext-translate-to-hiragana-with-chatgpt - This Chrome extension can translate selected Japanese text to Hiragana by using ChatGPT.
- azure-search-openai-demo - このサンプルでは、Retrieval Augmented Generation パターンを使用して、独自のデータに対してChatGPT のような体験を作成するためのいくつかのアプローチを示しています。
- chatvrm - ChatVRMはブラウザで簡単に3Dキャラクターと会話ができるデモアプリケーションです。
- sftly-replace - A Chrome extention to replace the selected text softly
- summarize_arxv - Summarize arXiv paper with figures
- aiavatarkit - Building AI-based conversational avatars lightning fast
- pva-aoai-integration-solution - このリポジトリは、神戸市役所でのChatGPTの試行利用に向けて作成したフロー等をソリューション化し公開するものです。
- jp-azureopenai-samples - Azure OpenAIを活用したアプリケーション実装のリファレンスを目的として、アプリのサンプル(リファレンスアーキテクチャ、サンプルコードとデプロイ手順)を無償提供しています。
- character_chat - OpenAIのAPIを利用して、設定したキャラクターと日本語で会話するチャットスクリプトです。
- chatgpt-slackbot - OpenAIのChatGPT APIをSlack上で利用するためのSlackbotスクリプト (日本語での利用が前提)
- chatgpt-prompt-sample-japanese - ChatGPT の Prompt のサンプルです。
- kanji-flashcard-app-gpt4 - A Japanese Kanji Flashcard App built using Python and Langchain, enhanced with the intelligence of GPT-4.
- IgakuQA - Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations
- japagen - 日本語タスクにおけるLLMを用いた疑似学習データ生成の検討
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
Dictionary and IME
- mecab-ipadic-neologd - Neologism dictionary based on the language resources on the Web for mecab-ipadic
- tdmelodic - A Japanese accent dictionary generator
- jamdict - Python 3 library for manipulating Jim Breen's JMdict, KanjiDic2, JMnedict and kanji-radical mappings
- unidic-py - Unidic packaged for installation via pip.
- Japanese-Company-Lexicon - Japanese Company Lexicon (JCLdic)
- manbyo-sudachi - Sudachi向け万病辞書
- jawiki-kana-kanji-dict - Generate SKK/MeCab dictionary from Wikipedia(Japanese edition)
- JIWC-Dictionary - dictionary to find emotion related to text
- JumanDIC - This repository contains source dictionary files to build dictionaries for JUMAN and Juman++.
- ipadic-py - IPAdic packaged for easy use from Python.
- unidic-lite - A small version of UniDic for easy pip installs.
- emoji-ime-dictionary - 日本語で絵文字入力をするための IME 追加辞書 orange_book Google 日本語入力などで日本語から絵文字への変換を可能にする IME 拡張辞書
- google-ime-dictionary - 日英変換・英語略語展開のための IME 追加辞書 orange_book 日本語から英語への和英変換や英語略語の展開を Google 日本語入力や ATOK などで可能にする IME 拡張辞書
- dic-nico-intersection-pixiv - ニコニコ大百科とピクシブ百科事典の共通部分のIME辞書
- google-ime-user-dictionary-ja-en - GoogleIME用カタカナ語辞書プロジェクトのアーカイブです。Project archive of Google IME user dictionary from Katakana word ( Japanese loanword ) to English.
- emoticon - Google日本語入力の顔文字辞書∩(,,Ò‿Ó,,)∩
- mecab-mozcdic - open source mozc dictionaryをMeCab辞書のフォーマットに変換したものです。
- denonbu-ime-dic - 電音IME: Microsoft IMEなどで利用することを想定した「電音部」関連用語の辞書
- nijisanji-ime-dic - Microsoft IMEなどで利用することを想定した「にじさんじ」関連用語の用語辞書です。
- pokemon-ime-dic - Microsoft IMEなどで利用することを想定した、現状判明している全てのポケモンの名前を網羅した用語辞書です。
- EJDict - English-Japanese Dictionary data (Public Domain) EJDict-hand
- Ayashiy-Nipongo-Dic - 贵樣ばこゐ辞畫を使て正レい日本语を使ラことが出來ゑ。
- genshin-dict - Windows/macOSで使える原神の単語辞書です
- jmdict-simplified - JMdict and JMnedict in JSON format
- mozcdict-ext - Convert external words into Mozc system dictionary
- mh-dict-jp - MonsterHunterのユーザー辞書を作りたい…
- jitenbot - Convert data from Japanese dictionary websites and applications into portable file formats
- mecab-unidic-neologd - Neologism dictionary based on the language resources on the Web for mecab-unidic
- hololive-dictionary - ホロライブ(ホロライブプロダクション)に関する辞書ファイルです。./dictionary フォルダ内のテキストファイルを使って、IMEに単語を追加できます。詳細はREADME.mdをご覧ください。
- jmdict-yomitan - JMdict, JMnedict, KANJIDIC for Yomitan/Yomichan.
- yomichan-jlpt-vocab - JLPT level tags for words in Yomichan
- Jitendex - A free and openly licensed Japanese-to-English dictionary compatible with multiple dictionary clients
- jiten - japanese android/cli/web dictionary based on jmdict/kanjidic — 日本語 辞典 和英辞典 漢英字典 和独辞典 和蘭辞典
- pixiv-yomitan - Pixiv Encyclopedia Dictionary for Yomitan
- uchinaaguchi_dict - うちなーぐち辞典(沖縄語辞典)
- yomitan-dictionaries - Japanese and Chinese dictionaries for Yomitan.
- mouse_over_dictionary - マウスオーバーした単語を自動で読み取る汎用辞書ツール
- jisyo - かな漢字変換エンジン SKKのための新しい辞書形式
- skk-jisyo.emoji-ja - 日本語の読みから Emoji に変換するための SKK 辞書 ?
- anthy - Anthy is a kana-kanji conversion engine for Japanese. It converts roma-ji to kana, and the kana text to a mixed kana and kanji.
- aws_dic_for_google_ime - AWSサービス名のGoogle日本語入力向けの辞書
- cl-skkserv - Common LispによるSKK辞書サーバーとその拡張
- anthy - Anthy maintenance
- anthy-unicode - Anthy Unicode - Another Anthy
- azooKey - azooKey: A Japanese Keyboard iOS Application Fully Developed in Swift
- azookey-desktop - Japanese Input Method "azooKey" for Desktop, supporting macOS
- fcitx5-hazkey - Japanese input method for fcitx5, powered by azooKey engine
- mozcdic-ut-place-names - Mozc UT Place Name Dictionary is a dictionary converted from the Japan Post's ZIP code data for Mozc.
- azookeykanakanjiconverter - Kana-Kanji Conversion Module written in Swift
- libkkc - Japanese Kana Kanji conversion input method library
- libskk - Japanese SKK input method library
- kanayomi-dict - openjtalk形式のユーザー辞書
- cjkvi-dict - 漢字データベースの辞書関連データ
- wlsp-classical - 古典日本語の分類語彙表データ
- kanji-dict - 漢字の書き順(筆順)・読み方・画数・部首・用例・成り立ちを調べるための漢字辞書です。Unicode 15.1 のすべての漢字 98,682字を収録しています。
- Kaomoji_proj - (๑ ᴖ ᴑ ᴖ ๑)みょんかおもじ(旧Kaomoji_proj)はMicrosoft社の入力ソフト、Microsoft IME向けの顔文字の辞書を作成するプロジェクトです。
- kotlin-kana-kanji-converter - Kotlin かな漢字変換プログラム
- alfred-japanese-dictionary - Japanese-English Dictionary using jisho.org with audio, csv export of entries, and preview of dictionary sites.
- ichiran - Linguistic tools for texts in Japanese language
- mikan - A Japanese input method.
- colloquial-kansai-dictionary - A quick reference for the material taught in Colloquial Kansai Japanese.
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
Corpus
Part-of-speech tagging / Named entity recognition
- ner-wikipedia-dataset - Wikipediaを用いた日本語の固有表現抽出データセット
- IOB2Corpus - Japanese IOB2 tagged corpus for Named Entity Recognition.
- TwitterCorpus - 首都大日本語 Twitter コーパス
- UD_Japanese-PUD - Parallel Universal Dependencies.
- UD_Japanese-GSD - Japanese data from the Google UDT 2.0.
- KWDLC - Kyoto University Web Document Leads Corpus
- AnnotatedFKCCorpus - Annotated Fuman Kaitori Center Corpus
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
Parallel corpus
- small_parallel_enja - 50k English-Japanese Parallel Corpus for Machine Translation Benchmark.
- Web-Crawled-Corpus-for-Japanese-Chinese-NMT - A Web Crawled Corpus for Japanese-Chinese NMT
- CourseraParallelCorpusMining - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures Translation
- JESC - A large parallel corpus of English and Japanese
- AMI-Meeting-Parallel-Corpus - AMI Meeting Parallel Corpus
- giant_ja-en_parallel_corpus - This directory includes a giant Japanese-English subtitle corpus. The raw data comes from the Stanford's JESC project.
- jesc_small - Small Japanese-English Subtitle Corpus
- graded-enja-corpus - 禁止用語や単語レベルを考慮した日英対訳コーパスです。
- cjk-compsci-terms - CJK computer science terms comparison / 中日韓電腦科學術語對照 / 日中韓のコンピュータ科学の用語対照 / 한·중·일 전산학 용어 대조
- Laboro-ParaCorpus - Scripts for creating a Japanese-English parallel corpus and training NMT models
- google-vs-deepl-je - google-vs-deepl-je
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
Dialog corpus
- JMRD - Japanese Movie Recommendation Dialogue dataset
- open2ch-dialogue-corpus - おーぷん2ちゃんねるをクロールして作成した対話コーパス
- BSD - The Business Scene Dialogue corpus
- asdc - Accommodation Search Dialog Corpus (宿泊施設探索対話コーパス)
- japanese-corpus - 日本語の対話データ for seq2seq etc
- BPersona-chat - This repository contains the Japanese–English bilingual chat corpus BPersona-chat published in the paper Chat Translation Error Detection for Assisting Cross-lingual Communications at AACL-IJCNLP 2022's Workshop Eval4NLP 2022.
- japanese-daily-dialogue - Japanese Daily Dialogue, or 日本語日常対話コーパス in Japanese, is a high-quality multi-turn dialogue dataset containing daily conversations on five topics: dailylife, school, travel, health, and entertainment.
- llm-japanese-dataset - LLM構築用の日本語チャットデータセット
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
آحرون
- jrte-corpus - Japanese Realistic Textual Entailment Corpus (NLP 2020, LREC 2020)
- kanji-data - A JSON kanji dataset with updated JLPT levels and WaniKani information
- JapaneseWordSimilarityDataset - Japanese Word Similarity Dataset
- simple-jppdb - A paraphrase database for Japanese text simplification
- chABSA-dataset - chakki's Aspect-Based Sentiment Analysis dataset
- JaQuAD - JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension (2022, Skelter Labs)
- JaNLI - Japanese Adversarial Natural Language Inference Dataset
- ebe-dataset - Evidence-based Explanation Dataset (AACL-IJCNLP 2020)
- emoji-ja - UNICODE絵文字の日本語読み/キーワード/分類辞書
- nayose-wikipedia-ja - Wikipediaから作成した日本語名寄せデータセット
- ja.text8 - Japanese text8 corpus for word embedding.
- ThreeLineSummaryDataset - 3行要約データセット
- japanese - This repo contains a list of the 44,998 most common Japanese words in order of frequency, as determined by the University of Leeds Corpus.
- kanji-frequency - Kanji usage frequency data collected from various sources
- TEDxJP-10K - TEDxJP-10K ASR Evaluation Dataset
- CoARiJ - Corpus of Annual Reports in Japan
- technological-book-corpus-ja - 日本語で書かれた技術書を収集した生コーパス/ツール
- ita-corpus-chuwa - Chunked word annotation for ITA corpus
- wikipedia-utils - Utility scripts for preprocessing Wikipedia texts for NLP
- inappropriate-words-ja - 日本語における不適切表現を収集します。自然言語処理の時のデータクリーニング用等に使えると思います。
- house-of-councillors - 参議院の公式ウェブサイトから会派、議員、議案、質問主意書のデータを整理しました。
- house-of-representatives - 国会議案データベース:衆議院
- STAIR-captions - STAIR captions: large-scale Japanese image caption dataset
- Winograd-Schema-Challenge-Ja - Japanese Translation of Winograd Schema Challenge
- speechBSD - An extension of the BSD corpus with audio and speaker attribute information
- ita-corpus - ITAコーパスの文章リスト
- rohan4600 - モーラバランス型日本語コーパス
- anlp-jp-history - 言語処理学会年次大会講演の全リスト・機械可読版など
- keigo_transfer_task - 敬語変換タスクにおける評価用データセット
- loanwords_gairaigo - English loanwords in Japanese
- jawikicorpus - Japanese-Wikipedia Wikification Corpus
- GeneralPolicySpeechOfPrimeMinisterOfJapan - This is the corpus of Japanese Text that general policy speech of prime minister of Japan
- wrime - WRIME: 主観と客観の感情分析データセット
- jtubespeech - JTubeSpeech: Corpus of Japanese speech collected from YouTube
- WikipediaWordFrequencyList - 日本語Wikipediaで使用される頻出単語のリスト
- kokkosho_data - 車両不具合情報に関するデータセット
- pdmocrdataset-part1 - デジタル化資料OCRテキスト化事業において作成されたOCR学習用データセット
- huriganacorpus-ndlbib - 全国書誌データから作成した振り仮名のデータセット
- jvs_hiho - JVS (Japanese versatile speech) コーパスの自作のラベル
- hirakanadic - Allows Sudachi to normalize from hiragana to katakana from any compound word list
- animedb - 約100年に渡るアニメ作品リストデータベース
- security_words - サイバーセキュリティに関連する公的な組織の日英対応
- Data-on-Japanese-Diet-Members - 日本の国会議員のデータ
- honkoku-data - 歴史資料の市民参加型翻刻プラットフォーム「みんなで翻刻」のテキストデータ置き場です。 / Transcription texts created on Minna de Honkoku (https://honkoku.org), a crowdsourced transcription platform for historical Japanese documents.
- wikihow_japanese - wikiHow dataset (Japanese version)
- engineer-vocabulary-list - Engineer Vocabulary List in Japanese/English
- JSICK - Japanese Sentences Involving Compositional Knowledge (JSICK) Dataset/JSICK-stress Test Set
- phishurl-list - Phishing URL dataset from JPCERT/CC
- jcms - A Japanese Corpus of Many Specialized Domains (JCMS)
- aozorabunko_text - text-only archives of www.aozora.gr.jp
- friendly_JA-Corpus - friendly_JA is a parallel Japanese-to-Japanese corpus aimed at making Japanese easier by using the Latin/English derived katakana lexicon instead of the standard Sino-Japanese lexicon
- topokanji - Topologically ordered lists of kanji for effective learning
- isbn4groups - ISBN-13における日本語での出版物 (978-4-XXXXXXXXX) に関するデータ等
- NMeCab - NMeCab: About Japanese morphological analyzer on .NET
- ndlngramdata - デジタル化資料から作成したOCRテキストデータのngram頻度統計情報のデータセット
- ndlngramviewer_v2 - 2023年1月にリニューアルしたNDL Ngram Viewerのソースコード等一式
- data_set - 法律・判例関係のデータセット
- huggingface-datasets_wrime - WRIME for huggingface datasets
- ndl-minhon-ocrdataset - NDL古典籍OCR学習用データセット(みんなで翻刻加工データ)
- PAX_SAPIENTICA - GIS & Archaeological Simulator. 2023 in development.
- j-liwc2015 - Japanese version of LIWC2015
- huggingface-datasets_livedoor-news-corpus - Japanese Livedoor news corpus for huggingface datasets
- huggingface-datasets_JGLUE - JGLUE: Japanese General Language Understanding Evaluation for huggingface datasets
- commonsense-moral-ja - JCommonsenseMorality is a dataset created through crowdsourcing that reflects the commonsense morality of Japanese annotators.
- comet-atomic-ja - COMET-ATOMIC ja
- dcsg-ja - Dialogue Commonsense Graph in Japanese
- japanese-toxic-dataset - "Proposal and Evaluation of Japanese Toxicity Schema" provides a schema and dataset for toxicity in the Japanese language.
- camera - CAMERA (CyberAgent Multimodal Evaluation for Ad Text GeneRAtion) is the Japanese ad text generation dataset.
- Japanese-Fakenews-Dataset - 日本語フェイクニュースデータセット
- jpn_explainable_qa_dataset - jpn_explainable_qa_dataset
- copa-japanese - COPA Dataset in Japanese
- WLSP-familiarity - Word Familiarity Rate for 'Word List by Semantic Principles (WLSP)'
- ProSub - A cross-linguistic study of pronoun substitutes and address terms
- commonsense-moral-ja - JCommonsenseMorality is a dataset created through crowdsourcing that reflects the commonsense morality of Japanese annotators.
- ramendb - なんとかデータベース( https://supleks.jp/ )からのスクレイピングツールと収集データ
- huggingface-datasets_CAMERA - CAMERA (CyberAgent Multimodal Evaluation for Ad Text GeneRAtion) for huggingface datasets
- FactCheckSentenceNLI-FCSNLI- - FactCheckSentenceNLIデータセット
- databricks-dolly-15k-ja - databricks/dolly-v2-12b の学習データに使用されたdatabricks-dolly-15k.jsonl を日本語に翻訳したデータセットになります。
- EaST-MELD - EaST-MELD is an English-Japanese dataset for emotion-aware speech translation based on MELD.
- meconaudio - Mecon Audio(Medical Conference Audio)は厚生労働省主催の先進医療会議の議事録の読み上げデータセットです。
- japanese-addresses - 全国の町丁目レベル(277,191件)の住所データのオープンデータ
- aozorasearch - The full-text search system for Aozora Bunko by Groonga. 青空文庫全文検索ライブラリ兼Webアプリ。
- llm-jp-corpus - This repository contains scripts to reproduce the LLM-jp corpus.
- alpaca_ja - alpacaデータセットを日本語化したものです
- instruction_ja - Japanese instruction data (日本語指示データ)
- japanese-family-names - Top 5000 Japanese family names, with readings, ordered by frequency.
- kanji-data-media - Japanese language data on kanji, radicals, media files, fonts and related resources from Kanji alive
- reazonspeech - Construct large-scale Japanese audio corpus at home
- huriganacorpus-aozora - 青空文庫及びサピエの点字データから作成した振り仮名のデータセット
- koniwa - An open collection of annotated voices in Japanese language
- JMMLU - 日本語マルチタスク言語理解ベンチマーク Japanese Massive Multitask Language Understanding Benchmark
- hurigana-speech-corpus-aozora - 青空文庫振り仮名注釈付き音声コーパスのデータセット
- jqara - JQaRA: Japanese Question Answering with Retrieval Augmentation - 検索拡張(RAG)評価のための日本語Q&Aデータセット
- jemhopqa - JEMHopQA (Japanese Explainable Multi-hop Question Answering) is a Japanese multi-hop QA dataset that can evaluate internal reasoning.
- jacred - Repository for Japanese Document-level Relation Extraction Dataset (plan to be released in March).
- jades - JADES is a dataset for text simplification in Japanese, described in "JADES: New Text Simplification Dataset in Japanese Targeted at Non-Native Speakers" (the paper will be available soon).
- do-not-answer-ja - 2023年8月にメルボルン大学から公開された安全性評価データセット『Do-Not-Answer』を日本語LLMの評価においても使用できるように日本語に自動翻訳し、さらに日本文化も考慮して修正したデータセット。
- oasst1-89k-ja - OpenAssistant のオープンソースデータ OASST1 を日本語に翻訳したデータセットになります。
- jacwir - JaCWIR: Japanese Casual Web IR - 日本語情報検索評価のための小規模でカジュアルなWebタイトルと概要のデータセット
- japanese-technical-dict - 日本語学習者のための科学技術業界でよく使われる片仮名と元の単語対照表
- j-unimorph - Dataset of UniMorph in Japanese
- GazeVQA - Dataset for the LREC-COLING 2024 paper "A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions"
- J-CRe3 - Code for J-CRe3 experiments (Ueda et al., LREC-COLING, 2024)
- jmed-llm - JMED-LLM: Japanese Medical Evaluation Dataset for Large Language Models
- lawtext - Plain text format for Japanese law
- pdmocrdataset-part2 - OCR処理プログラム研究開発事業において作成されたOCR学習用データセット
- japanesetopicwsd - 話題に基づく語義曖昧性解消評価セット
- temporalNLI_dataset - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating Generalization Capacity of Language Models
- JSeM - Japanese semantic test suite (FraCaS counterpart and extensions)
- niilc-qa - NIILC QA data
- chain-of-thought-ja-dataset - Dataset of paper "Verification of Chain-of-Thought Prompting in Japanese"
- WikipediaAnnotatedCorpus - This is a Japanese text corpus that consists of Wikipedia articles with various linguistic annotations.
- elaws-history - e-Gov 法令検索で配布されている「全ての法令データ」を定期的にダウンロードし、アーカイブしています
- Japanese-RP-Bench - Japanese-RP-BenchはLLMの日本語ロールプレイ能力を測定するためのベンチマークです。
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
درس تعليمي
- spacy_tutorial - spaCy tutorial in English and Japanese. spacy-transformers, BERT, GiNZA.
- fastTextJapaneseTutorial - Tutorial to train fastText with Japanese corpus
- allennlp-NER-ja - AllenNLP-NER-ja: AllenNLP による日本語を対象とした固有表現抽出
- chariot-PyTorch-Japanese-text-classification - Experiment for Japanese Text classification using chariot and PyTorch
- ginza-examples - 日本語NLPライブラリGiNZAのすゝめ
- DocumentClassificationUsingBERT-Japanese - DocumentClassificationUsingBERT-Japanese
- BERT_Japanese_Google_Colaboratory - Google Colaboratoryで日本語のBERTを動かす方法です。
- bert-book - 「BERTによる自然言語処理入門: Transformersを使った実践プログラミング」サポートページ
- janome-tutorial - Janome を使ったテキストマイニング入門チュートリアルです。
- handson-language-models - 日本語の言語モデルのハンズオン資料です
- JapaneseNLI - Google Colabで日本語テキスト推論を試す
- deep-learning-with-pytorch-ja - deep-learning-with-pytorchの日本語版repositoryです。
- bert-classification-tutorial -【2023年版】BERTによるテキスト分類
- python-nlp-book - ディープラーニングによる自然言語処理(共立出版)のサポートページです
- llm-book - 「大規模言語モデル入門」(技術評論社, 2023)のGitHubリポジトリ
- nlp2024-tutorial-3 - NLP2024 チュートリアル3 作って学ぶ日本語大規模言語モデル - 環境構築手順とソースコード
- japanese-ir-tutorial - 日本語情報検索チュートリアル
- nlpbook - 「自然言語処理の教科書」サポートサイト
- kantan-regex-book - 作って学ぶ正規表現エンジン
- bert-classification-tutorial-2024 - 【2024年版】BERTによるテキスト分類
- Gemma2_2b_Japanese_finetuning_colab.ipynb - Fine-Tuning Google Gemma for Japanese Instructions
- nlp100v2020 - 「言語処理100本ノック 2020」をPythonで解く
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
Research summary
- awesome-bert-japanese - A list of pre-trained BERT models for Japanese with word/subword tokenization + vocabulary construction algorithm information
- GEC-Info-ja - 文法誤り訂正に関する日本語文献を収集・分類するためのリポジトリ
- dataset-list - lists of text corpus and more (mainly Japanese)
- tuning_playbook_ja - ディープラーニングモデルの性能を体系的に最大化するためのプレイブック
- japanese-pitch-accent-resources - Trying to consolidate japanese phonetic, and in particular pitch accent resources into one list
- awesome-japanese-llm - オープンソースの日本語LLMまとめ
To check the statistics table (GitHub stars/Downloads), please refer to this page. ؟ Back to Top
مرجع
- 自然言語処理の餅屋
- yasuokaの日記: 日本語係り受け解析器「2020年の総ざらえ」
- yasuokaの日記: 日本語係り受け解析器「2021年の総ざらえ」
- https://github.com/topics/japanese?l=python
- https://github.com/topics/japanese-language?l=python
- https://github.com/search?o=desc&q=corpus+japanese&s=&type=Repositories
- https://paperswithcode.com/datasets?lang=japanese
- https://github.com/himkt/awesome-bert-japanese
- Awesome-Rust-MachineLearning-日本語向けのrustクレートや記事等をまとめたもの
- 大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価
Contributors
- kaisugi - website
- bomin0624 - twitter
- passaglia - twitter