Аура - умный голосовой помощник, оптимизированный для низкой задержки. Он использует функции Vercel Edge, распознавание речи Whisper, GPT-4O и Eleven Labs TTS.
Просмотр демонстрации · Ошибка отчета · Функция запроса

✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs
Вы можете проверить ауру здесь: https://voice.julianschoen.co
Голосовые помощники стали неотъемлемой частью нашей жизни. Они везде. В наших телефонах, в наших автомобилях, в наших домах. Почему бы не в Интернете?
До недавнего времени основной проблемой с голосовыми помощниками в Интернете была задержка. Потребовалось слишком много времени, чтобы отправить звук на сервер, создать завершение LLM и отправить речь обратно. Недавние достижения Openai, Eleven Labs и Vercel позволили создать голосового помощника, который достаточно быстр, чтобы его использовали в Интернете.
Я хотел бы, чтобы этот репо стал местом для людей, которые хотят построить своего собственного голосового помощника. Я уже давно работаю над этим проектом, и я очень рад поделиться им с вами.
Задержка голосового помощника является наиболее важным фактором для хорошего пользовательского опыта. В настоящее время существует 3 основных фактора, которые способствуют задержке:
Основываясь на некоторых тестах, которые я сделал, поколение речи занимает больше всего времени. Чем дольше текст синтезирован, тем дольше требуется для создания речи. Задержка поколения речи также является самой непредсказуемой.
Возможная стратегия смягчения может быть разделение ответа на несколько частей и транслировать их одну за другой. Это позволило бы пользователю начать слушать ответ, в то время как остальная часть ответа генерируется. Я еще не реализовал это, но это то, что я рассматриваю. Если у вас есть идеи о том, как улучшить задержку, пожалуйста, дайте мне знать.
Еще одна вещь, которую нужно помнить, - это воспринимаемое время ожидания. Основываясь на некоторых исследованиях, кажется, что воспринимаемое время ожидания короче, если пользователю дают какую -то обратную связь во время ожидания. Я реализовал простое «мышление», которое показывает, пока помощник обрабатывает ответ, но я уверен, что есть лучшие способы улучшить воспринимаемое время ожидания.
Клонировать репо
git clone https://github.com/ntegrals/aura-voiceПолучите ключ API от https://openai.com/ и https://elevenlabs.com/
Скопируйте файл .env.example в .env.local и добавьте свои клавиши API
OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "Установите зависимости
npm installЗапустить приложение
npm run devРазвернуть в Vercel
Привет! Спасибо за проверку и использовали эту библиотеку. Если вы заинтересованы в обсуждении своего проекта, требуете наставничества, подумайте о том, чтобы нанять меня или просто хотите поболтать - я рад поговорить.
Вы можете прислать мне электронное письмо, чтобы связаться: [email protected] или написать мне в Twitter: @julianschoen
Если вы просто хотите что -то вернуть, у меня есть аккаунт купить мне кофе:

Спасибо и хорошего дня
Голосовой помощник, является экспериментальным применением и предоставляется «как есть» без какой-либо гарантии, явного или подразумеваемого. Используя это программное обеспечение, вы соглашаетесь принять все риски, связанные с его использованием, включая, помимо прочего, потеря данных, сбой системы или любые другие проблемы, которые могут возникнуть.
Разработчики и участники этого проекта не несут никакой ответственности или ответственности за какие -либо убытки, убытки или другие последствия, которые могут возникнуть в результате использования этого программного обеспечения. Вы несете единоличную ответственность за любые решения и действия, предпринятые на основе информации, предоставленной голосовым помощником.
Обратите внимание, что использование языковой модели GPT-4 может быть дорогостоящим из-за использования токенов. Используя этот проект, вы признаете, что несете ответственность за мониторинг и управление собственным использованием токенов и связанные с ними расходы. Настоятельно рекомендуется регулярно проверять использование API OpenAI и устанавливать любые необходимые ограничения или оповещения, чтобы предотвратить неожиданные сборы.
Используя голосового помощника, вы соглашаетесь возместить, защищать и застраховать и удерживать разработчиков, участников и любых аффилированных сторон от и против всех претензий, убытков, убытков, обязательств, затрат и расходов (включая плату разумных адвокатов), возникших в результате использования вашего программного обеспечения или вашего нарушения этих условий.
Распределено по лицензии MIT. Смотрите LICENSE для получения дополнительной информации.