RealtimeSTT_LLM_TTS تنزيل - RealtimeSTT_LLM_TTS تنزيل رمز المصدر

RealtimeSTT_LLM_TTS

كود الذكاء الاصطناعي

1.0.0

تنزيل

中文说明

安装

دعم GPU مع CUDA (موصى به)

هناك حاجة إلى خطوات إضافية لتركيب GPU المحسنة . يوصى بهذه الخطوات لأولئك الذين يحتاجون إلى أداء أفضل ولديهم وحدة معالجة الرسومات NVIDIA متوافقة.

ملاحظة : للتحقق مما إذا كان GPU NVIDIA الخاص بك يدعم CUDA ، تفضل بزيارة قائمة وحدات معالجة الرسومات CUDA الرسمية.

لاستخدام RealTimestt مع دعم GPU عبر CUDA ، يرجى اتباع هذه الخطوات:

تثبيت Nvidia Cuda Toolkit 11.8 :
- قم بزيارة أرشيف مجموعة أدوات NVIDIA CUDA.
- حدد نظام التشغيل والإصدار.
- قم بتنزيل وتثبيت البرنامج.
تثبيت Nvidia Cudnn 8.7.0 لـ CUDA 11.x :
- قم بزيارة أرشيف Nvidia Cudnn.
- انقر على "تنزيل Cudnn V8.7.0 (28 نوفمبر ، 2022) ، لـ CUDA 11.x".
- قم بتنزيل وتثبيت البرنامج.
تثبيت FFMPEG :
يمكنك تنزيل مثبت لنظام التشغيل الخاص بك من موقع FFMPEG.
أو استخدم مدير الحزمة:
- على Ubuntu أو Debian :
```
sudo apt update && sudo apt install ffmpeg
```
- على قوس لينكس :
```
sudo pacman -S ffmpeg
```
- على MacOS باستخدام Homebrew (https://brew.sh/):
```
brew install ffmpeg
```
- على النوافذ باستخدام الشوكولاتة (https://chocolatey.org/):
```
choco install ffmpeg
```
- على Windows باستخدام Scoop (https://scoop.sh/):
```
scoop install ffmpeg
```

تثبيت Pytorch بدعم CUDA :

    pip uninstall torch
    pip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

其他依赖

pip install -r requirements.txt

win 如果装不上 webrtcvad ，提示了 vs c ++ 相关的报错，请下载 https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/ ，安装 c ++ 开发相关工具然后重新安装依赖。然后重新安装依赖。然后重新安装依赖。然后重新安装依赖。

使用说明

启动后端python RealtimeSTT_server2.py

双击index.html ，浏览器运行，填入服务器 IP 地址，注意，关闭服务器的防火墙，或者针对性放行 9001/9002 这两个用于 WebSocket 连接的端口！

等待后端模型加载完毕后，就可以正常对话了。

更新日志

2024-07-01
- 修复 Webui ，聊天类型无法保存的 bug
- 给 webui 的 openai 的模型增加自定义配置功能，可以删除后，自定义完回车保存配置
2024-06-03
- 增加了唤醒词的配置，未启用唤醒词功能测试了下可以通过唤醒词触发录音。唤醒一次，，说一些话。
2024-06-02
- 新增了 Openai 接口的接入，测了 ollama ，没啥问题
- 新增了 الحافة tts 的接入（方便测试）
2024-05-28
- 补充个 Webui ，方便配置（不过并不完整，凑合用）
- 补充了 gpt-sovits 的新 API 的兼容

ريالتيمست

مكتبة سهلة الاستخدام ومكتبة الكلام إلى النص لتطبيقات الوقت الفعلي

حول المشروع

يستمع RealTimeStt إلى الميكروفون ونسخ الصوت إلى نص.

إنه مثالي لـ:

المساعدين الصوتيين
التطبيقات التي تتطلب تحويل خطاب إلى نص سريع ودقيق

RealTimestt.MP4

التحديثات

v0.1.9

تحول إلى torch.multiprocessing
تمت إضافة compute_type ، input_device_index و gpu_device_index.
recorder.text () مقاطع مع recorder.abort ()
إصلاح رقم 20

v0.1.8

مثال تمت إضافة كيفية النسخ في الوقت الفعلي من ميكروفون المتصفح
نماذج الهمس الكبيرة V3 مدعومة الآن (الترقية إلى Faster_Whisper 0.10.0)
تمت إضافة feed_audio () ومعلمة use_microphone لتغذية القطع

v0.1.7

bugfix لتثبيت نظام التشغيل Mac OS (المعالجة / قائمة الانتظار. size ())
معالجة لوحة المفاتيح (الآن يمكن إجهاضها مع CTRL+C)
bugfix لمعالجة الدوران (يمكن أن يؤدي إلى استثناء في بعض الحالات)

v0.1.6

بروتوكول مدير السياق (يمكن استخدام مسجل في with )
bugfix لإدارة الموارد في طريقة الإغلاق

v0.1.5

bugfix للكشف عن الكلام القصير مباشرة بعد اكتشاف الجملة (المشكلة المذكورة في الفيديو)
تم نقل النسخ والتسجيل الرئيسي إلى سياقات عملية منفصلة مع المعالجة المتعددة

تلميح: نظرًا لأننا نستخدم وحدة multiprocessing الآن ، تأكد من تضمين if __name__ == '__main__': الحماية في الكود الخاص بك لمنع سلوك غير متوقع ، وخاصة على منصات مثل Windows. للحصول على شرح مفصل حول سبب أهمية ذلك ، تفضل بزيارة وثائق Python الرسمية حول multiprocessing .

سمات

اكتشاف النشاط الصوتي : يكتشف تلقائيًا عند البدء والتوقف عن التحدث.
النسخ الحقيقي : يحول الكلام إلى النص في الوقت الفعلي.
تنشيط Wake Word : يمكن تنشيطه عند اكتشاف كلمة أعقاب مخصصة.

تلميح : تحقق من realtimetts ، نظير الإخراج لهذه المكتبة ، للحصول على إمكانيات نص إلى صوفية. معًا ، تشكل غلافًا صوتيًا قويًا حول نماذج اللغة الكبيرة.

مكدس التكنولوجيا

تستخدم هذه المكتبة:

اكتشاف النشاط الصوتي
- Webrtcvad للكشف عن النشاط الصوتي الأولي.
- Silerovad لتحقيق أكثر دقة.
الكلام إلى النص
- Faster_whisper للنسخ الفوري (المعتاد على حساب GPU).
اكتشاف كلمة الاستيقاظ
- النيص لاكتشاف كلمة الاستيقاظ.

تمثل هذه المكونات "معيار الصناعة" للتطبيقات المتطورة ، مما يوفر الأساس الأكثر حداثة وفعالية لبناء حلول متطورة.

التثبيت 安装

pip install RealtimeSTT

سيؤدي ذلك إلى تثبيت جميع التبعيات اللازمة ، بما في ذلك إصدار دعم وحدة المعالجة المركزية فقط من Pytorch.

على الرغم من أنه من الممكن تشغيل RealTimeStt مع تثبيت وحدة المعالجة المركزية فقط (استخدم نموذجًا صغيرًا مثل "Tiny" أو "Base" في هذه الحالة) ، ستحصل على تجربة أفضل باستخدام:

دعم GPU مع CUDA (موصى به)

هناك حاجة إلى خطوات إضافية لتركيب GPU المحسنة . يوصى بهذه الخطوات لأولئك الذين يحتاجون إلى أداء أفضل ولديهم وحدة معالجة الرسومات NVIDIA متوافقة.

ملاحظة : للتحقق مما إذا كان GPU NVIDIA الخاص بك يدعم CUDA ، تفضل بزيارة قائمة وحدات معالجة الرسومات CUDA الرسمية.

لاستخدام RealTimestt مع دعم GPU عبر CUDA ، يرجى اتباع هذه الخطوات:

تثبيت Nvidia Cuda Toolkit 11.8 :
- قم بزيارة أرشيف مجموعة أدوات NVIDIA CUDA.
- حدد نظام التشغيل والإصدار.
- قم بتنزيل وتثبيت البرنامج.
تثبيت Nvidia Cudnn 8.7.0 لـ CUDA 11.x :
- قم بزيارة أرشيف Nvidia Cudnn.
- انقر على "تنزيل Cudnn V8.7.0 (28 نوفمبر ، 2022) ، لـ CUDA 11.x".
- قم بتنزيل وتثبيت البرنامج.
تثبيت FFMPEG :
يمكنك تنزيل مثبت لنظام التشغيل الخاص بك من موقع FFMPEG.
أو استخدم مدير الحزمة:
- على Ubuntu أو Debian :
```
sudo apt update && sudo apt install ffmpeg
```
- على قوس لينكس :
```
sudo pacman -S ffmpeg
```
- على MacOS باستخدام Homebrew (https://brew.sh/):
```
brew install ffmpeg
```
- على النوافذ باستخدام الشوكولاتة (https://chocolatey.org/):
```
choco install ffmpeg
```
- على Windows باستخدام Scoop (https://scoop.sh/):
```
scoop install ffmpeg
```

تثبيت Pytorch بدعم CUDA :

pip uninstall torch
pip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

بداية سريعة

الاستخدام الأساسي:

تسجيل يدوي

يتم تشغيل وتوقف التسجيل يدويًا.

 recorder . start ()
recorder . stop ()
print ( recorder . text ())

التسجيل التلقائي

تسجيل بناء على الكشف عن النشاط الصوتي.

 with AudioToTextRecorder () as recorder :
    print ( recorder . text ())

عند تشغيل recorder.text في حلقة ، يوصى باستخدام رد الاتصال ، مما يسمح بتشغيل النسخ بشكل غير متزامن:

 def process_text ( text ):
    print ( text )
    
while True :
    recorder . text ( process_text )

Wakeswords

تنشيط الكلمات الرئيسية قبل اكتشاف الصوت. اكتب القائمة المفصلة للفاصلة للكلمات الرئيسية للتنشيط المطلوبة في معلمة Wake_words. يمكنك اختيار كلمات الاستيقاظ من هذه القائمة: Alexa و Americano و Blueberry و Bumblebee و Computer و Grapefruits و Grasshopper و Hey Google و Hey Siri و Jarvis و OK Google و Picovoice و Porcupine و Terminator.

 recorder = AudioToTextRecorder ( wake_words = "jarvis" )

print ( 'Say "Jarvis" then speak.' )
print ( recorder . text ())

عمليات الاسترجاعات

يمكنك تعيين وظائف رد الاتصال ليتم تنفيذها في أحداث مختلفة (انظر التكوين):

 def my_start_callback ():
    print ( "Recording started!" )

def my_stop_callback ():
    print ( "Recording stopped!" )

recorder = AudioToTextRecorder ( on_recording_start = my_start_callback ,
                               on_recording_stop = my_stop_callback )

قطع تغذية

إذا كنت لا ترغب في استخدام معلمة microphone المحلية use_microphone إلى false وتوفير صوتية PCM الخام في مونو 16 بت (أخذ عينات 16000) مع هذه الطريقة:

 recorder . feed_audio ( audio_chunk )

اغلق

يمكنك إغلاق المسجل بأمان باستخدام بروتوكول مدير السياق:

 with AudioToTextRecorder () as recorder :
    [...]

أو يمكنك استدعاء طريقة إيقاف التشغيل يدويًا (إذا كان استخدام "مع" غير ممكن):

 recorder . shutdown ()

اختبار المكتبة

يحتوي الدليل الفرعي على الاختبار على مجموعة من البرامج النصية لمساعدتك في تقييم وفهم قدرات مكتبة REATTIMETTS.

قد تتطلب منك اختبار البرامج النصية اعتمادًا على مكتبة REALTIMETTS إدخال منطقة خدمة Azure الخاصة بك داخل البرنامج النصي. عند استخدام البرامج النصية التجريبية المتعلقة بـ Openai- أو Azure- أو ElevenLabs ، يجب توفير مفاتيح API في متغيرات البيئة Openai_API_Key و Azure_Speech_Key و Elevenlabs_api_key (انظر realtimetts)

Simple_test.py
- الوصف : مظاهرة "Hello World" على غرار الأبسط للمكتبة.
RealTimestt_Test.py
- الوصف : عرض النسخ المباشر.
wakeword_test.py
- الوصف : مظاهرة لتفعيل كلمة المرور.
مترجم
- التبعيات : تشغيل pip install openai realtimetts .
- الوصف : الترجمات في الوقت الحقيقي إلى ست لغات مختلفة.
openai_voice_interface.py
- التبعيات : تشغيل pip install openai realtimetts .
- الوصف : واجهة مستخدم Wake Word التي تم تنشيطها والتعلم الصوتي إلى API Openai.
Advanced_talk.py
- التبعيات : قم بتشغيل pip install openai keyboard realtimetts .
- الوصف : اختر محرك TTS وصوت قبل بدء محادثة الذكاء الاصطناعي.
الحد الأدنى _talkbot.py
- التبعيات : تشغيل pip install openai realtimetts .
- الوصف : Talkbot أساسي في 20 سطرًا من الكود.

يحتوي دليل example_app الفرعي على تطبيق واجهة مستخدم مصقولة لـ OpenAI API استنادًا إلى PYQT5.

إعدادات

معلمات التهيئة لـ `AudioToTextRecorder`

عند تهيئة فئة AudioToTextRecorder ، لديك خيارات مختلفة لتخصيص سلوكها.

المعلمات العامة

النموذج (Str ، Default = "Tiny"): حجم النموذج أو مسار النسخ.
- الخيارات: 'Tiny' ، 'Tiny.en' ، 'base' ، 'base.en' ، 'small' ، 'small.en' ، 'medium' ، 'medium.en' ، 'v1-v1' ، 'barge-v2'.
- ملاحظة: إذا تم توفير حجم ، فسيتم تنزيل النموذج من مركز Hugging Face.
اللغة (STR ، Default = ""): رمز اللغة للنسخ. إذا تركت فارغة ، فسيحاول النموذج اكتشاف اللغة تلقائيًا. يتم سرد رموز اللغة المدعومة في مكتبة Whisper Tokenizer.
compute_type (str ، default = "default"): يحدد نوع الحساب المراد استخدامه للنسخ. انظر تقدير الهمس
input_device_index (int ، افتراضي = 0): فهرس جهاز إدخال الصوت للاستخدام.
GPU_DEVICE_INDEX (int ، افتراضي = 0): فهرس جهاز GPU للاستخدام. يمكن أيضًا تحميل النموذج على وحدات معالجة الرسومات المتعددة عن طريق تمرير قائمة المعرفات (على سبيل المثال [0 ، 1 ، 2 ، 3]).
ON_RECORDING_START : يتم تشغيل وظيفة قابلة للاتصال عند بدء التسجيل.
ON_RECORDING_STOP : يتم تشغيل دالة قابلة للاتصال عند انتهاء التسجيل.
On_transcription_start : يتم تشغيل دالة قابلة للاتصال عند بدء النسخ.
تأكد _sentence_starting_uppercase (bool ، الافتراضي = صحيح): يضمن أن كل جملة تم اكتشافها بواسطة الخوارزمية تبدأ بحرف كبير.
تأكد _sentence_ends_with_period (bool ، افتراضي = صحيح): يضمن أن كل جملة لا تنتهي بعلامات الترقيم مثل "؟" ، "!" ينتهي بفترة
use_microphone (Bool ، افتراضي = صحيح): استخدام الميكروفون المحلي للنسخ. قم بالتعيين على FALSE إذا كنت ترغب في توفير قطع مع طريقة FEED_AUDIO.
Spinner (Bool ، Default = True): يوفر نصًا للرسوم المتحركة الدوار مع معلومات حول حالة المسجل الحالية.
المستوى (int ، الافتراضي = logging.warning): مستوى التسجيل.

معلمات النسخ في الوقت الحقيقي

ملاحظة : عند تمكين وصف الوقت الحقيقي ، يُنصح بشدة تثبيت GPU. قد يؤدي استخدام النسخ في الوقت الفعلي إلى إنشاء أحمال عالية من GPU.

enable_realtime_transcription (Bool ، افتراضي = خطأ): تمكين أو تعطيل النسخ في الوقت الفعلي للصوت. عند التعيين على True ، سيتم نسخ الصوت بشكل مستمر حيث يتم تسجيله.
RealTime_model_type (str ، default = "tiny"): يحدد حجم أو مسار نموذج التعلم الآلي المراد استخدامه للنسخ في الوقت الفعلي.
- خيارات صالحة: "Tiny" ، "Tiny.en" ، "Base" ، "Base.en" ، "Small" ، "Small.en" ، "Medium" ، "Medium.en" ، "Barge-V1" ، "BARGE-V2".
RealTime_processing_pause (تعويم ، افتراضي = 0.2): يحدد الفاصل الزمني في ثوان بعد أن يتم نسخ جزء من الصوت. ستؤدي القيم المنخفضة إلى المزيد من تحديثات النسخ "في الوقت الفعلي" (المتكرر) ولكنها قد تزيد من الحمل الحسابي.
On_realtime_transcription_update : وظيفة رد الاتصال يتم تشغيلها كلما كان هناك تحديث في النسخ في الوقت الفعلي. يتم استدعاء الوظيفة مع النص الذي تم نسخه حديثًا كوسيطة له.
On_realtime_transcription_stabilized : وظيفة رد اتصال يتم تشغيله كلما كان هناك تحديث في النسخ في الوقت الفعلي وإرجاع نص مستقر عالي الجودة كوسيطة.

معلمات تنشيط الصوت

Silero_Sensitivity (تعويم ، افتراضي = 0.6): حساسية للكشف عن النشاط الصوتي لـ Silero تتراوح من 0 (الأقل حساسية) إلى 1 (الأكثر حساسية). الافتراضي هو 0.6.
Silero_Sensitivity (تعويم ، افتراضي = 0.6): حساسية للكشف عن النشاط الصوتي لـ Silero تتراوح من 0 (الأقل حساسية) إلى 1 (الأكثر حساسية). الافتراضي هو 0.6.
SILERO_USE_ONNX (BOOL ، افتراضي = خطأ): يتيح استخدام النموذج الذي تم تدريبه مسبقًا من SILERO بتنسيق ONNX (صرف الشبكة العصبية المفتوحة) بدلاً من تنسيق Pytorch. الافتراضي كاذب. الموصى به لأداء أسرع.
post_speech_silence_duration (تعويم ، افتراضي = 0.2): المدة في ثوان من الصمت التي يجب أن تتبع الكلام قبل أن يتم الانتهاء من التسجيل. هذا يضمن أن أي توقف موجز أثناء الكلام لا ينهي التسجيل قبل الأوان.
min_gap_between_recordings (تعويم ، افتراضي = 1.0): يحدد الحد الأدنى من الفاصل الزمني في الثواني التي يجب أن تكون موجودة بين نهاية جلسة تسجيل واحدة وبداية أخرى لمنع تسجيلات سريعة متتالية.
MIN_LENGTH_OF_RECORDING (تعويم ، افتراضي = 1.0): يحدد الحد الأدنى للمدة في الثواني التي يجب أن تستمر جلسة التسجيل لضمان التقاط الصوت ذي معنى ، ومنع تسجيلات قصيرة أو مجزأة بشكل مفرط.
pre_recording_buffer_duration (تعويم ، افتراضي = 0.2): الفترة الزمنية ، في ثوانٍ ، يتم خلالها تخزين الصوت قبل التسجيل الرسمي. هذا يساعد على موازنة الكمون المتأصل في اكتشاف نشاط الكلام ، مما يضمن عدم تفويت أي صوت أولي.
ON_VAD_DETECT_START : يتم تشغيل وظيفة قابلة للاتصال عندما يبدأ النظام في الاستماع إلى النشاط الصوتي.
ON_VAD_DETECT_STOP : يتم تشغيل وظيفة قابلة للاتصال عندما يتوقف النظام عن الاستماع إلى النشاط الصوتي.

معلمات كلمة الاستيقاظ

Wake_words (str ، default = ""): كلمات الاستيقاظ لبدء التسجيل. يمكن توفير كلمات أعقاب متعددة كسلسلة مفصلة للفاصلة. كلمات الاستيقاظ المدعومة هي: Alexa و Americano و Blueberry و Bumblebee و Computer و Grapefruits و Grasshopper و Hey Google و Hey Siri و Jarvis و OK Google و Picovoice و Porcupine و Terminator
Wake_words_sensitivity (تعويم ، افتراضي = 0.6): مستوى الحساسية للكشف عن كلمة الاستيقاظ (0 لأقل حساسية ، 1 لأكثر حساسية).
wake_word_activation_delay (تعويم ، افتراضي = 0): المدة في ثوانٍ بعد بدء المراقبة قبل أن يتحول النظام إلى تنشيط كلمة الاستيقاظ إذا لم يتم اكتشاف صوت في البداية. إذا تم ضبطه على الصفر ، يستخدم النظام تنشيط Wake Word فورًا.
wake_word_timeout (تعويم ، افتراضي = 5): المدة بالثواني بعد التعرف على كلمة أعقاب. إذا لم يتم اكتشاف أي نشاط صوتي لاحق داخل هذه النافذة ، فإن النظام ينتقل إلى حالة غير نشطة ، في انتظار كلمة الاستيقاظ التالية أو تنشيط الصوت.
ON_WAKEWORD_DETEDED : وظيفة قابلة للاتصال يتم تشغيلها عند اكتشاف كلمة أعقاب.
ON_WAKEWORD_TIMEOUT : يتم تشغيل وظيفة قابلة للاستدعاء عندما يعود النظام إلى حالة غير نشطة بعد عدم اكتشاف أي خطاب بعد تنشيط كلمة الاستيقاظ.
ON_WAKEWORD_DETECENT_START : يتم تشغيل وظيفة قابلة للاتصال عندما يبدأ النظام في الاستماع إلى كلمات الاستيقاظ
ON_WAKEWORD_DETECENT_END : يتم تشغيل وظيفة قابلة للاتصال عند التوقف للاستماع إلى كلمات الاستيقاظ (على سبيل المثال بسبب المهلة أو كلمة الاستيقاظ التي تم اكتشافها)