ECOUTE-это инструмент транскрипции в прямом эфире, который предоставляет транскрипты в реальном времени как для ввода микрофона пользователя (вы), так и для вывода динамиков пользователя (динамик) в текстовом поле. Он также генерирует предлагаемый ответ с использованием GPT-3.5 от OpenAI, чтобы сказать, что он должен сказать, основываясь на живой транскрипции разговора.
ECOUTE предназначен для того, чтобы помочь пользователям в их разговорах, предоставляя живые транскрипции и создавая контекстуально релевантные ответы. Используя силу GPT-3.5 от Openai, Ecoute стремится сделать общение более эффективной и приятной.
Следуйте этим шагам, чтобы настроить и запустить Ecoute на вашей локальной машине.
Если FFMPEG не установлен в вашей системе, вы можете выполнить шаги ниже, чтобы установить его.
Во -первых, вам нужно установить Chocolatey, менеджер пакетов для Windows. Откройте свой PowerShell в качестве администратора и запустите следующую команду:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
После установки Chocolate вы можете установить FFMPEG, выполнив следующую команду в своей PowerShell:
choco install ffmpeg
Пожалуйста, убедитесь, что вы запускаете эти команды в окне PowerShell с привилегиями администратора. Если вы столкнетесь с какими -либо проблемами во время установки, вы можете посетить официальные шоколадные и FFMPEG -сайты для устранения неполадок.
Клонировать репозиторий:
git clone https://github.com/SevaSk/ecoute
Перейдите в папку ecoute :
cd ecoute
Установите необходимые пакеты:
pip install -r requirements.txt
Создайте файл keys.py в каталоге Ecoute и добавьте свой ключ API OpenAI:
Вариант 1: Вы можете использовать команду в своей командной строке. Запустите следующую команду, обеспечивая замену «клавиши API» на свой фактический ключ API OpenAI:
python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY="API KEY"')"
Вариант 2: Вы можете создать файл keys.py вручную. Откройте текстовый редактор по выбору и введите следующий контент:
OPENAI_API_KEY="API KEY"
Замените «Ключ API» на свой фактический ключ API OpenAI. Сохраните этот файл в качестве keys.py в каталоге Ecoute.
Запустите основной сценарий:
python main.py
Для более лучшей и более высокой версии, которая также работает с большинством языков, используйте:
python main.py --api
После инициации ECOUTE начнет транскрибирование вашего входа микрофона и вывода динамиков в режиме реального времени, генерируя предлагаемый ответ на основе разговора. Обратите внимание, что для системы может потребоваться несколько секунд, чтобы согреться, прежде чем транскрипция станет в режиме реального времени.
Флаг -API будет использовать API Whisper для транскрипций. Это значительно повышает скорость и точность транскрипции, и он работает на большинстве языков (а не просто на английском без флага). Ожидается, что он станет опцией по умолчанию в будущих выпусках. Тем не менее, имейте в виду, что использование API Whisper будет потреблять больше кредитов OpenAI, чем использование локальной модели. Эта повышенная стоимость объясняется расширенными функциями и возможностями, которые предоставляет Whisper API. Несмотря на дополнительные расходы, существенные улучшения скорости и точности транскрипции могут сделать его достойной инвестицией для вашего варианта использования.
Хотя ECOUTE предоставляет предложения по транскрипции и ответам в реальном времени, есть несколько известных ограничений в его функциональности, о которых вы должны знать:
Микрофон и динамик по умолчанию: ECOUTE в настоящее время настроен для прослушивания только для микрофона и динамика по умолчанию, установленным в вашей системе. Он не будет обнаружить звук с других устройств или систем. Если вы хотите использовать другой микрофон или динамик, вам нужно будет установить его в качестве устройства по умолчанию в настройках системы.
Whisper Model : если флаг -API не используется, мы используем «крошечную» версию модели Whisper ASR из -за ее низкого потребления ресурсов и быстрого отклика. Однако эта модель может быть не такой точной, как более крупные модели в транскрибировании определенных типов речи, включая акценты или необычные слова.
Язык : Если вы не используете флаг -API, модель шепота, используемая в Ecoute, установлена на английский язык. В результате это может не точно транскрибировать неанглийские языки или диалекты. Мы активно работаем над тем, чтобы добавить многоязычную поддержку в будущие версии программы.
Этот проект лицензирован по лицензии MIT - для получения подробной информации см. Файл лицензии.
Взносы приветствуются! Не стесняйтесь открывать проблемы или отправлять запросы на привлечение, чтобы улучшить Ecoute.