TextBox Download - TextBox Source Code Download

TextBox

بايثون

TextBox 2.0 Release

تنزيل

شعار مربع النص

Textbox 2.0 (妙笔)

"李太白少时，梦所用之笔头上生花后天才赡逸，名闻天下。" —— 王仁裕《开元天宝遗事 · 梦笔头生花》

Textbox 2.0: مكتبة لتوليد النصوص مع نماذج لغة مدربة مسبقًا

Textbox 2.0 هي مكتبة توليد نص محدثة تستند إلى Python و Pytorch تركز على بناء خط أنابيب موحد وموحد لتطبيق نماذج اللغة التي تم تدريبها مسبقًا على توليد النص:

من منظور المهمة ، نعتبر 13 مهمة شائعة لتوليد النص مثل الترجمة ، وتوليد القصة ، ونقل الأسلوب ، ومجموعات البيانات 83 المقابلة المستخدمة على نطاق واسع.
من منظور النموذج ، ندمج 47 طرازًا/وحدات لغوية تم تدريبها مسبقًا تغطي فئات النماذج العامة والترجمة والصينية والحوار ، والتحكم ، والمقطرة ، والطعام ، وخفيفة الوزن (الوحدات النمطية).
من منظور التدريب ، نحن ندعم 4 أهداف قبل التدريب و 4 استراتيجيات تدريب فعالة وقوية ، مثل توصيل البيانات الموزعة والفعالة.

بالمقارنة مع الإصدار السابق من TextBox ، يركز هذا الامتداد بشكل أساسي على بناء إطار عمل موحد ومرن وموحد لنماذج توليد النص المستندة إلى PLM بشكل أفضل. هناك ثلاث مزايا من Textbox 2.0:

إنه ابتكار مهم يركز على المهام الشاملة و PLMs.
إنه مصمم لتكون موحدة في التنفيذ والواجهة.
يمكن أن يعيد إنتاج النتائج بإخلاص في العمل الحالي.

Textbox 2.0 Framework
الإطار العام لمربع النص 2.0

تثبيت

بالنظر إلى أنه سيتم تثبيت نسخة معدلة من المحولات ، يوصى بإنشاء بيئة جديدة للكوندا:

conda create -n TextBox python=3.8

بعد ذلك ، يمكنك استنساخ مستودعنا وتثبيته بنقرة واحدة.

git clone https://github.com/RUCAIBox/TextBox.git && cd TextBox
bash install.sh

إذا واجهت مشكلة ROUGE-1.5.5.pl - XML::Parser dependency error عند تثبيت files2rouge ، يمكنك الرجوع إلى هذه المشكلة.

بداية سريعة

هذا قالب نصوص لتشغيل Textbox 2.0 في خط أنابيب من طرف إلى طرف:

python run_textbox.py --model= < model-name > --dataset= < dataset-name > --model_path= < hf-or-local-path >

Substulate --model=<xxx> و --dataset=<xxx> و --model_path=<xxx> مع اختياراتك.

يمكن العثور على خيارات model و model_path في النموذج. نحن نقدم التعليمات التفصيلية لكل نموذج في تلك الصفحة.

يمكن العثور على خيارات dataset في مجموعة البيانات. يجب عليك تنزيل مجموعة البيانات على https://huggingface.co/Rucaibox ووضع مجموعة البيانات التي تم تنزيلها تحت مجلد dataset تمامًا مثل Samsum. إذا كنت ترغب في استخدام مجموعة البيانات الخاصة بك ، فيرجى الرجوع إلى هنا.

سيقوم البرنامج النصي أدناه بتشغيل طراز Facebook BART-base على مجموعة بيانات samsum :

python run_textbox.py --model=BART --dataset=samsum --model_path=facebook/bart-base

تمرين

التدريب الأساسي

للتدريب الأساسي ، نقدم برنامجًا تعليميًا مفصلاً (هنا) لإعداد المعلمات شائعة الاستخدام مثل المحسن ، والمجدول ، وتردد التحقق من الصحة ، والتوقف المبكر ، وما إلى ذلك.

قبل التدريب

يوفر Textbox 2.0 أربعة أهداف قبل التدريب لمساعدة المستخدمين قبل تدريب نموذج من نقطة الصفر ، بما في ذلك نمذجة اللغة ، ونمذجة التسلسل المقنعة إلى التسلسل ، وترميز التلقائي التلقائي ، والتنبؤ بالمسافة المقنعة. انظر المستند قبل التدريب للحصول على تعليمي مفصل.

تدريب فعال

يتم توفير أربع طرق تدريب مفيدة لتحسين تحسين PLMs: البيانات الموزعة الموازية ، فك التشفير الفعال ، تحسين المعلمة المفرطة ، والتجارب المتكررة. يتم توفير تعليمات مفصلة هنا.

نموذج

لدعم التقدم السريع لـ PLMS على توليد النص ، يتضمن Textbox 2.0 47 طرازًا/وحدات ، تغطي فئات النماذج العامة والترجمة والتصنيع والحوار ، والتحكم ، والمقطرة ، والمطالبة ، وخفيفة الوزن (الوحدات النمطية). راجع مستند النموذج للحصول على معلومات حول تعليمات الاستخدام التفصيلية لكل نموذج ، ومعلمات النماذج التي تم تدريبها مسبقًا ، ومعلمات التوليد.

مجموعة البيانات

نحن الآن ندعم 13 مهمة توليد (على سبيل المثال ، الترجمة وتوليد القصة) ومجموعات البيانات 83 المقابلة. نحن نقدم أيضًا الوصف والإحصاءات الأساسية وعينات التدريب/التحقق/الاختبار ، ومتصدرين لكل مجموعة بيانات. انظر المزيد من التفاصيل هنا.

تقييم

يدعم Textbox 2.0 17 مقاييسًا تلقائية لـ 4 فئات وعدة أدوات تصور لاستكشاف وتحليل النصوص التي تم إنشاؤها بأبعاد مختلفة. للحصول على تفاصيل التقييم ، راجع مستند التقييم.

الإصدارات

الإصدارات	تاريخ	سمات
v2.0.1	24/12/2022	Textbox 2.0
v2.0.0	20/08/2022	Textbox 2.0 بيتا
v0.2.1	15/04/2021	مربع النص
v0.1.5	01/11/2021	مربع النص الأساسي

المساهمة

يرجى إعلامنا إذا واجهت خطأ أو لديك أي اقتراحات من خلال تقديم مشكلة.

نرحب بجميع المساهمات من إصلاحات الأخطاء في الميزات والامتدادات الجديدة.

نتوقع مناقشة جميع المساهمات التي تمت مناقشتها في تعقب القضية والمرور من خلال PRS.

نشكر @lucastsui0725 للمساهمة النموذج Hred والعديد من مقاييس التقييم.

نشكر wxdai على المساهمة Pointernet وأكثر من 20 نموذج لغة في API Transformers.

الفريق

تم تطوير مربع النص وصيانته بواسطة مربع الذكاء الاصطناعي.

رخصة

يستخدم TextBox ترخيص MIT.

مرجع

إذا وجدت Textbox 2.0 مفيدًا للبحث أو التطوير ، فيرجى الاستشهاد بالأوراق التالية:

 @inproceedings{tang-etal-2022-textbox,
    title = "{T}ext{B}ox 2.0: A Text Generation Library with Pre-trained Language Models",
    author = "Tang, Tianyi  and  Li, Junyi  and  Chen, Zhipeng  and  Hu, Yiwen  and  Yu, Zhuohao  and  Dai, Wenxun  and  Zhao, Wayne Xin  and  Nie, Jian-yun  and  Wen, Ji-rong",
    booktitle = "Proceedings of the The 2022 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
    month = dec,
    year = "2022",
    address = "Abu Dhabi, UAE",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2022.emnlp-demos.42",
    pages = "435--444",
}


@inproceedings{textbox,
    title = "{T}ext{B}ox: A Unified, Modularized, and Extensible Framework for Text Generation",
    author = "Li, Junyi  and  Tang, Tianyi  and  He, Gaole  and  Jiang, Jinhao  and  Hu, Xiaoxuan  and  Xie, Puzhao  and  Chen, Zhipeng  and  Yu, Zhuohao  and  Zhao, Wayne Xin  and  Wen, Ji-Rong",
    booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.acl-demo.4",
    doi = "10.18653/v1/2021.acl-demo.4",
    pages = "30--39",
}

يوسع

معلومات إضافية

الإصدار TextBox 2.0 Release
النوع بايثون
وقت التحديث 2025-07-15
الحجم 117.55MB
من Github

تطبيقات ذات صلة

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
datamule python

2024-11-08
Redash أداة مخطط البيانات مفتوحة المصدر v24.10.0

2024-11-27
منصة تصور البيانات SmartChart v6.9

2024-11-27
أداة اختبار حمل الجراد v2.32.0

2024-11-27

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ToDo Co

بايثون

1.0.0
Python Portfolio

بايثون
datamule python

بايثون
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل