Скачать aura voice - скачать исходный код aura voice

aura voice

Другой исходный код

1.0.0

Скачать

Скажи привет ауре

Аура - умный голосовой помощник, оптимизированный для низкой задержки. Он использует функции Vercel Edge, распознавание речи Whisper, GPT-4O и Eleven Labs TTS.

Просмотр демонстрации · Ошибка отчета · Функция запроса

Функции

 ✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs

Демо

Вы можете проверить ауру здесь: https://voice.julianschoen.co

Мотивация

Голосовые помощники стали неотъемлемой частью нашей жизни. Они везде. В наших телефонах, в наших автомобилях, в наших домах. Почему бы не в Интернете?

До недавнего времени основной проблемой с голосовыми помощниками в Интернете была задержка. Потребовалось слишком много времени, чтобы отправить звук на сервер, создать завершение LLM и отправить речь обратно. Недавние достижения Openai, Eleven Labs и Vercel позволили создать голосового помощника, который достаточно быстр, чтобы его использовали в Интернете.

Я хотел бы, чтобы этот репо стал местом для людей, которые хотят построить своего собственного голосового помощника. Я уже давно работаю над этим проектом, и я очень рад поделиться им с вами.

Мысли о задержке и пользовательском опыте

Задержка голосового помощника является наиболее важным фактором для хорошего пользовательского опыта. В настоящее время существует 3 основных фактора, которые способствуют задержке:

Время, необходимое для транскрибирования звука (с помощью распознавания шепота)
Время, необходимое для создания ответа (через GPT-4O Mini)
Время, необходимое для трансляции речевого ответа (через Eleven Labs TTS)

Основываясь на некоторых тестах, которые я сделал, поколение речи занимает больше всего времени. Чем дольше текст синтезирован, тем дольше требуется для создания речи. Задержка поколения речи также является самой непредсказуемой.

Возможная стратегия смягчения может быть разделение ответа на несколько частей и транслировать их одну за другой. Это позволило бы пользователю начать слушать ответ, в то время как остальная часть ответа генерируется. Я еще не реализовал это, но это то, что я рассматриваю. Если у вас есть идеи о том, как улучшить задержку, пожалуйста, дайте мне знать.

Еще одна вещь, которую нужно помнить, - это воспринимаемое время ожидания. Основываясь на некоторых исследованиях, кажется, что воспринимаемое время ожидания короче, если пользователю дают какую -то обратную связь во время ожидания. Я реализовал простое «мышление», которое показывает, пока помощник обрабатывает ответ, но я уверен, что есть лучшие способы улучшить воспринимаемое время ожидания.

Установка

Клонировать репо

git clone https://github.com/ntegrals/aura-voice

Получите ключ API от https://openai.com/ и https://elevenlabs.com/

Скопируйте файл .env.example в .env.local и добавьте свои клавиши API

OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "

Установите зависимости
```
npm install
```
Запустить приложение
```
npm run dev
```
Развернуть в Vercel

Контакт

Привет! Спасибо за проверку и использовали эту библиотеку. Если вы заинтересованы в обсуждении своего проекта, требуете наставничества, подумайте о том, чтобы нанять меня или просто хотите поболтать - я рад поговорить.

Вы можете прислать мне электронное письмо, чтобы связаться: [email protected] или написать мне в Twitter: @julianschoen

Если вы просто хотите что -то вернуть, у меня есть аккаунт купить мне кофе:

Спасибо и хорошего дня

Отказ от ответственности

Голосовой помощник, является экспериментальным применением и предоставляется «как есть» без какой-либо гарантии, явного или подразумеваемого. Используя это программное обеспечение, вы соглашаетесь принять все риски, связанные с его использованием, включая, помимо прочего, потеря данных, сбой системы или любые другие проблемы, которые могут возникнуть.

Разработчики и участники этого проекта не несут никакой ответственности или ответственности за какие -либо убытки, убытки или другие последствия, которые могут возникнуть в результате использования этого программного обеспечения. Вы несете единоличную ответственность за любые решения и действия, предпринятые на основе информации, предоставленной голосовым помощником.

Обратите внимание, что использование языковой модели GPT-4 может быть дорогостоящим из-за использования токенов. Используя этот проект, вы признаете, что несете ответственность за мониторинг и управление собственным использованием токенов и связанные с ними расходы. Настоятельно рекомендуется регулярно проверять использование API OpenAI и устанавливать любые необходимые ограничения или оповещения, чтобы предотвратить неожиданные сборы.

Используя голосового помощника, вы соглашаетесь возместить, защищать и застраховать и удерживать разработчиков, участников и любых аффилированных сторон от и против всех претензий, убытков, убытков, обязательств, затрат и расходов (включая плату разумных адвокатов), возникших в результате использования вашего программного обеспечения или вашего нарушения этих условий.