استخدم ملف txt لإيواء مجموعة البيانات الخاصة بك. سيتم إضافة ميزة لتصدير TXT الخاص بك إلى ملف JSONL قريبًا.
يعد إنشاء مجموعات بيانات NLP وتوليد النص مؤثرًا للغاية ولديه القدرة على السماح للباحثين بتدريب النماذج التي يمكنها توليد النص تلقائيًا. ومع ذلك ، فإن إنشاء مجموعات البيانات المخصصة هو عملية بطيئة وبطيئة.
Aid Text Dataset Aid هي أداة مفيدة يمكن أن تساعد في إنشاء مجموعات بيانات في Finetuning لنماذج توليد النص مثل GPT-3 باليد! يمكن أن يجعل هذا النص الذي تم إنشاؤه بواسطة النموذج الخاص بك بعد أن يكون التغذية أكثر تخصيصًا أو تفصيلاً أو أفضل تنسيقًا. قل لا للتعامل مع القوائم من خلال تكوينات مفتاح hotkey!
يمكن استخدام هذا البرنامج المساعد لإنشاء بيانات التدريب بسرعة لنماذج NLP ونماذج توليد النصوص. هذا من شأنه أن يسرع البحث في هذه المجالات ، وكذلك يسهل على الممارسين تدريب هذه النماذج.
يعد المكون الإضافي لمجموعة بيانات البيانات النصية أداة مفيدة يمكن أن تساعد في إنشاء مجموعات بيانات في فني نماذج لتوليد النص مثل GPT-3 باليد. يمكن أن يجعل هذا النص الذي تم إنشاؤه بواسطة النموذج الخاص بك بعد أن يكون التغذية أكثر تخصيصًا أو تفصيلاً أو أفضل تنسيقًا. قل لا للتعامل مع القوائم من خلال تكوينات مفتاح hotkey!
تحديث نموذج توليد النص الخاص بك على مجموعة البيانات التي تم جمعها أثناء العمل في عقلك الثاني يسمح لنموذجك بتناسب احتياجات عقلك الثانية بشكل أفضل. يناسب هذا البرنامج المساعد في أي خلق أو تحرير سير عمل بسبب طبيعة الأوامر داخل Obsidian. آمل أن تستخدم هذا البرنامج المساعد بقدر ما أفعل!
يتيح نموذج توليد النص الخاص بك إنشاء نص أكثر طبيعية وتعبيرية.
مورد رائع لمبادئ صقلها من Microsoft
يتم جعل الوظيفة الأساسية لهذا البرنامج المساعد أسهل من خلال استخدام وضع VIM ، ولكن يجب أن تعمل في كلتا الحالتين. هناك أمران معروضان حاليًا: (كل من هذه الأوامر لديه مفتاح Hotkey القابل للتكوين من مفاتيح hotkeys)
عندما ترسل موجه إلى مجموعة البيانات إذا كان هناك بالفعل موجه هناك ، فإن المكون الإضافي لا يفعل شيئًا.
عندما ترسل الانتهاء إلى مجموعة البيانات ، وهناك بالفعل موجه يتم إرسال تحديد النص إلى مجموعة البيانات كإكمال لهذه المطالبة.
عندما ترسل الانتهاء إلى مجموعة البيانات وليس هناك موجه ، يتم إدخال تحديد النص في مجموعة البيانات مع موجه فارغ مسبقًا إلى تحديد النص.
مثال على هذا
{ "prompt" : " " , "completion" : " Hello can I help you? " }مثال آخر
{ "prompt" : " " , "completion" : " Hi, How can I help you today " }أرسل التحديد لإرسال ملف مجموعة البيانات الخاص بك كمهاجمة أرسل التحديد للإرسال إلى ملف مجموعة البيانات الخاص بك كإكمال
مثال على مجموعة البيانات
{ "prompt" : " Company: BHFF insurance n Product: allround insurance n Ad:One stop shop for all your insurance needs! n Supported: " , "completion" : " yes " }
{ "prompt" : " Company: Loft conversion specialists n Product: - n Ad:Straight teeth in weeks! n Supported: " , "completion" : " no " }<vault>/.obsidian/plugins/.obsidian . على MacOS ، يجب أن تكون قادرًا على الضغط على Command+Shift+Dot لإظهار المجلد في Finder.هناك أربعة إعدادات رئيسية قابلة للتكوين داخل لوحة الإعدادات الخاصة بالمكون الإضافي ، ولكن يتم إعداد القيم الافتراضية للتنسيق الشائع لمجموعات البيانات لنماذج توليد النصوص التي تسمى JSONL.
| إعداد الاسم | وصف | تقصير |
|---|---|---|
| بادئة للمطالبات | هذه هي السلسلة التي يتم إعدادها مسبقًا إلى المطالبة عند إرسالها إلى مجموعة البيانات | {"prompt": |
| لاحقة للمطالبات | هذه هي السلسلة التي يتم إلحاق المطالبة عند إرسالها إلى مجموعة البيانات | , |
| بادئة لإكمال | هذه هي السلسلة التي يتم إعدادها مسبقًا إلى الانتهاء عند إرسالها إلى مجموعة البيانات | "completion": |
| لاحقة لإكمالها | هذه هي السلسلة التي يتم إلحاقها بالإكمال عند إرسالها إلى مجموعة البيانات | }n |
مساعدة في التنمية
إنشاء نسخة جديدة:
git tag -a 1.0.1 -m " 1.0.1 "
git push origin 1.0.1مستوحى من كفاءة وجاذبية صياغة نموذج اللغة الخاصة بك ، يسمح لك هذا البرنامج المساعد بإنشاء مجموعات بيانات من ملاحظاتك في شكل مطالبات وردود. يقوم تلقائيًا بتنسيق النص إلى مواصفات Openai لنماذج التسلل المحبوب مثل GPT3.
يشارك هذا المكون الإضافي محاكاة في البرنامج المساعد TextTransporter الذي تم إعداده بواسطة Tfthacker
صنعت مع ❤ من قبل كونر أوهايسورج