kabooks Download - kabooks Source Code Download

kabooks

كود الذكاء الاصطناعي

1.0.0

تنزيل

Kabooks - Kabooks Audiobooks Creator

Kabooks هو اختصار متكرر لـ "Kabooks Audiobooks Dataset Creator" وهو أداة لأتمتة عملية إنشاء مجموعات البيانات لتدريب نماذج النص على الكلام (TTS) ونماذج الكلام إلى النص (STT). وهو يعتمد على عمل Pansori [https://arxiv.org/abs/1812.09798].

عند استلام ملف صوتي والنص المقابل كمدخلات ، ستقوم kabooks بتنظيف النص ، وتقسيمه إلى جمل ، ونسخ كل جزء وابحث عن نص الحقيقة الأرضية في الكتاب النصي الكامل.

استخدم على مسؤوليتك الخاصة.

تثبيت

تأكد من تثبيت FFMPEG:

$ apt-get update
$ apt install ffmpeg

$ conda create -n kabooks python=3.9 pip
$ conda activate kabooks

تثبيت المتطلبات

تثبيت Pytorch:

pip3 install torch torchvision torchaudio

تثبيت متطلبات kabooks:

$ pip install -r requirements.txt

تجزئة الصوت

تتلقى هذه الخطوة ملف JSON من الخطوة السابقة وتنفذ تجزئة ملف الصوت. يعتمد هذا البرنامج النصي على البرنامج النصي الذي قدمه Keith Ito ، الذي قدمته عبر البريد الإلكتروني. في هذه الخطوة ، يتم إنشاء قائمة منطقية من الأجزاء أولاً ، وتخزين اسم الملف ، وأوقات البداية والنهاية. ثم ، انتقل إلى هذه القائمة المنطقية ، وقسّم الصوت الأصلي ، وحفظ كل قطعة إلى القرص.

يتم توفير هذه الوظيفة بواسطة البرنامج النصي المسمى "Audio_segmentation.py" ويمكن استخدامه بشكل منفصل. قم بتشغيل البرنامج النصي باستخدام وسيطة إدخال مسار ملف الصوت (mp3) ليتم تقسيمها.

$ python segment_tools.py

يجب أن يكون الإدخال ملف MP3 ، والذي يجب أن يكون داخل مجلد الإدخال. بعد تنفيذ البرنامج النصي ، سيتم إنشاء شرائح الصوت في مجلد WAVS ، وسيكون للقطاعات نفس الأسماء مثل الملف الأصلي.

نسخ

هنا يوجد نص لاستخدام WAV2VEC2. يتم توفير هذه الوظيفة من خلال البرنامج النصي المسمى "tesper_audios.py" ويمكن استخدامه بشكل منفصل. قم بتشغيل البرنامج النصي باستخدام وسيطة إدخال في دليل الإدخال لملفات WAVS ، ملف إخراج النسخ. على سبيل المثال:

$ python transcription_tools.py

الإدخال الافتراضي للنص هو محتويات مجلد WAVS. ستكون النتيجة ملف .csv (transcription.csv) يحتوي على نسخة من كل ملف من ملفات الصوت الموجودة في مجلد WAVS.

نص البحث

في هذه الخطوة ، سيتم مقارنة كل نسخة من الخطوة السابقة بالنص الكامل الذي يشير إلى كتاب مدخلات الصوت. لكل نسخة ، سيعيد البرنامج النصي جملة بأكبر قدر من التشابه ، والذي تم العثور عليه في النص الكامل.

ستكون النتيجة هي .csv (result.csv) التي تحتوي على النص ، الجملة الأصلية وقيمة التشابه ، لكل من قطاعات الصوت الموجودة في مجلد WAVS.

$ python search_substring.py

يمكنك أيضًا استخدام نفس الإصدار من هذا البرنامج النصي ، ولكن باستخدام مؤشرات الترابط:

$ python search_substring_with_threads.py --number_threads=16

مراجع:

Pansori sourcecode
ورقة بانسوري
Katube ، أداةنا المماثلة ، تستخدم لإنشاء مجموعة بيانات من YouTube.

شكرًا

كيث إيتو

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-14
الحجم 161.75KB
من Github

تطبيقات ذات صلة

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل