Consulte el siguiente método de implementación.
POR FAVOR, desembolse una copia del código primero y la implemente en su propio Vercel. Consulte el video de demostración.
El ferrocarril ha agregado un límite de 500 horas por mes y no se cerrará automáticamente, por lo que habrá un período de tiempo cada mes que no se puede usar. Si es posible, use Docker para implementar.
Docker es necesario.
# 拉取镜像
docker pull wxxxcxx/ms-ra-forwarder:latest
# 运行
docker run --name ms-ra-forwarder -d -p 3000:3000 wxxxcxx/ms-ra-forwarder
# or
docker run --name ms-ra-forwarder -d -p 3000:3000 -e TOKEN:自定义TOKEN wxxxcxx/ms-ra-forwarder
# 浏览器访问 http://localhost:3000 Cree docker-compose.yml para escribir el siguiente contenido y guardarlo.
version : ' 3 '
services :
ms-ra-forwarder :
container_name : ms-ra-forwarder
image : wxxxcxx/ms-ra-forwarder:latest
restart : unless-stopped
ports :
- 3000:3000
environment :
# 不需要可以不用设置环境变量
- TOKEN=自定义TOKEN Ejecutar docker compose up -d en el directorio docker-compose.yml .
La operación manual requiere que GIT y NodeJS se instalen por adelantado.
# 获取代码
git clone https://github.com/wxxxcxx/ms-ra-forwarder.git
cd ms-ra-forwarder
# 安装依赖
npm install
# 运行
npm run startVisite el sitio web que ha implementado, y después de probar en la página, haga clic en "Generar enlace de motor de voz de lectura (Legado)", y luego importarlo en lectura (Legado).
La dirección de la interfaz es api/ra . El formato es:
POST /api/ra
FORMAT: audio-16khz-128kbitrate-mono-mp3
Content-Type: text/plain
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="zh-CN-XiaoxiaoNeural">
如果喜欢这个项目的话请点个 Star 吧。
</voice>
</speak>
El texto solicitado está en formato SSML, que admite la pronunciación personalizada y los estilos de habla (actualmente solo la versión de Azure admite estilos de voz personalizados). Los siguientes son ejemplos y documentación relacionados:
Texto a voz
Mejorar la síntesis con el lenguaje de marcado de síntesis del habla (SSML)
El formato de audio predeterminado es Webm. Si necesita obtener audio en otros formatos, modifique FORMAT del encabezado de solicitud (las opciones disponibles se pueden ver en RA/index.ts).
Si necesita evitar que otros usen mal sus servicios implementados, puede agregar TOKEN a la variable de entorno de la aplicación y luego agregar Authorization: Bearer <TOKEN> Access al encabezado de solicitud.
El servicio oficial de Azure TTS de Microsoft actualmente tiene un cierto límite gratuito. Si el límite gratuito es suficiente para usted, admite el servicio oficial.
Si solo necesita generar voz para texto fijo, puede usar la creación de contenido de audio. Proporciona características más ricas para generar sonidos más naturales.
Este proyecto utiliza la interfaz entre el navegador de borde "Leer en voz alta" y las páginas de demostración de Azure TTS, y no garantiza la disponibilidad y estabilidad posteriores.
Este proyecto es solo para aprendizaje y referencia y no está disponible comercialmente.
2023-04-19: Azure tiene una función de prueba fuera de línea para la página de demostración, lo que ha causado que la interfaz de la versión de Azure sea inutilizable. Por favor migre a la interfaz del navegador Edge.
2022-11-18: Agregar soporte de archivo de diccionario, consulte https://github.com/wxxxcxx/azure-tts-lexicon-cn/blob/main/lexicon.xml para el formato de archivo de diccionario.
2022-09-10: Modifique la dirección del repositorio de Docker, y la imagen de Docker creada más tarde se migrará a WXXXXCXX/MS-RA-FORWARTER (la versión anterior de la imagen del repositorio original aún es válida).
2022-09-01: La API Azure TTS parece haber cambiado nuevamente. Es posible que los usuarios de la versión anterior no puedan usarlo normalmente. Actualice a la última versión.
2022-07-17: Se agregó soporte de API Azure TTS (no lo he probado mucho, no sé si es estable o no para usarlo). Porque llamar a la API de Azure TTS requiere obtener el código de autorización. Otros métodos se pueden usar solo para un período de tiempo o una vez, y Vercel necesita volver a realizar el código de autorización cada vez que llama a la API. No solo es fácil de salir, sino que también aumenta la carga de los servidores de Microsoft, por lo que no se recomienda para los usuarios que la implementan en Vercel (aunque no es imposible usarla ~ pero si Microsoft está herido y será malo cambiar la interfaz nuevamente?).
2022-07-02: API de versión de borde Los formatos compatibles actualmente por las pruebas incluyen webm-24khz-16bit-mono-opu , audio-24khz-48kbitrate-mono-mp3 y audio-24khz-96kbitrate-mono-mp3 . Además, a partir de esta tarde, si usa el sonido que no está en la lista desplegable, verá un error como "Voz sin apoyo ZH-CN-yunyeneural", y también se puede cortar en el futuro. ¡Usarlo y apreciarlo!
2022-07-01: ¡Los servicios implementados en servidores fuera de China continental actualmente solo pueden elegir audio en formato Entonces, los usuarios que usan Vercel deben volver a desplegarlo.webm-24khz-16bit-mono-opus !
2022-06-16: La interfaz proporcionada por el navegador de borde ya no puede establecer el estilo del habla. Si encuentra que no se puede usar normalmente, consulte #12 para obtener actualizaciones.
Gracias a las siguientes organizaciones/individuos por su apoyo a este proyecto.