Asistente de WeChat AI
Interacción multimodal con Asistente de AI de ChatGPT en WeChat, preguntas y respuestas de procesos, reproducir roles, responder a la voz, imágenes y mensajes de video, resumir artículos y páginas web, buscar en Internet y más. Convierte WeChat personal en tu asistente de IA.
Introducción
Este proyecto utiliza la biblioteca WeChatferry para controlar el cliente WeChat WeChat de Windows PC y llama a la API de asistente de OpenAI para un procesamiento inteligente de mensajes multimodales.
- Hable con Chatgpt AI (texto o voz) en WeChat para la interacción multimodal.
- Uso de WeChatferry para conectarse a la versión de escritorio de Windows de WeChat, alta compatibilidad con WeChat (no se requiere autenticación de nombre real) y bajo riesgo.
- Use la API de OpenAI Assistant para administrar automáticamente el contexto de conversación de chat grupal.
- Use modelos de soporte visual como GPT-4O para realizar la lectura y el análisis de contenido de imagen/video.
- Carga de documentos, búsqueda de contenido de documento y responda preguntas basadas en el contenido de documento (usando la herramienta de archivo integral_search de OpenAI).
- La IA puede usar su propio juicio para llamar al intérprete de código y las herramientas externas para completar la tarea. Herramientas existentes: Bing_search (Bing Search), Browser_link (enlace web de Browse), text_to_image (descripción de texto a la imagen), text_to_speech (texto a voz), mahjong_agari (cálculo de mahjong vertical y tarjeta: número de números, símbolos, número de números de números, puntos, etc.)
- Desarrollo del plan de seguimiento: otras API y llamadas de herramientas/ Enterprise WeChat y WeChat Inicio de cuenta de la cuenta oficial
- Grupo QQ: 812016253 Haga clic para unirse
- Soporte de la versión del cliente de WeChat Desktop: 3.9.10.27
Casos de uso
- "Dibuja una foto de un gato y un Capybara esquiando juntos"
- "(Fotos citadas) Escriba un poema basado en el contenido de la imagen y me lo lételo".
- "(Cite artículos de cuenta pública o enlaces de página web) resumir los puntos clave del artículo"
- "Busque noticias sobre Operai y lea los resultados"
- "Soporte de la mano Mahjong 1112345678999m touch 0m, ¿qué tipo de tipo de servicio y puntos?"






Instrucciones de implementación
Condiciones requeridas para la implementación:
- Nota clave de la API de OpenAI: este proyecto se basa en la API asistente.
- Computadora o servidor de Windows.
- (Opcional, chino nacional) Acceda al servidor proxy de OpenAI (como OpenAI-Proxy) o use el proxy API.
- (Opcional, requerido para la implementación manual) Instale el entorno Python y Git
- Página de descarga de Python (se recomienda Python 3.11, este proyecto depende de Python 3.12 o superior y no se puede instalar automáticamente)
- Página de descarga de git
- (Opcional, para usar con el complemento de búsqueda de Internet) Bing Search API Key.
Método 1: Descargar desde la versión (utilizado directamente)
- Descargue el archivo ejecutable empaquetado y el archivo de instalación de WeChat en lanzamientos
- Instale la versión especificada de WeChat Windows Desktop (se proporciona el paquete de instalación).
- Descomprima el paquete comprimido localmente.
- Editar el archivo config.yaml (el elemento requerido es OpenAI API_KEY, y la descripción del elemento de configuración se muestra en la documentación).
- Ejecute "Main.exe", el programa llamará al cliente WeChat y el programa comenzará a ejecutarse después de iniciar sesión.
Método 2: Implementación manual del código fuente (desarrollo)
- Instale la versión especificada de WeChat Windows. Descárgalo en el lanzamiento.
- Clonando el código del proyecto al local
git clone https://github.com/latorc/Wechat-AI-Assistant.git
- (Opcional) Crear un entorno virtual de Python y activarlo
python -m venv .venv
call .venv S cripts a ctivate.bat
- Instalar la biblioteca dependiente;
cd Wechat-AI-Assistant
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
- Editar archivo de configuración: cambie el nombre del archivo de configuración config_template.yaml a config.yaml y edite el elemento de configuración. Consulte la documentación para la descripción del elemento de configuración.
- Ejecute main.py
El programa llamará automáticamente al cliente WeChat y luego escaneará el código para iniciar sesión en el cliente de escritorio WeChat para comenzar a usarlo.
Elementos de configuración principales
| Elementos de configuración | ilustrar | Dar un ejemplo |
|---|
| API_KEY | Tu llave de API de OpenAI | SK-ABCDEFG12345678 .... |
| base_url | La URL de la API, no es necesario cambiar la API predeterminada, complete cuando se use proxy o API de terceros | https://api.openai.com/v1 |
| apoderado | La dirección del servidor proxy utilizada para acceder a OpenAI, en el formato "http: // dirección: número de puerto" | http://10.0.0.10:8002 |
| chat_model | El modelo de chat utilizado por defecto | GPT-4O |
| administradores | Lista de ID de administrador de WeChat, solo los administradores pueden usar comandos de administrador | [WX1234, WX2345] |
Para otras opciones de configuración, consulte los comentarios en config.yaml.
Consejos de uso
- Agregue los amigos de WeChat de WeChat AI Assistant, o agréguelo al chat grupal y it y tenga una conversación con él.
- Una conversación directa con él llamará a ChatGPT para responder. Después de enviar imágenes y archivos, referencia a imágenes y archivos y al asistente de @ai, instruyéndolos para que los procesen.
- El Asistente de AI de WeChat seleccionará y llamará independientemente a la herramienta para completar la tarea en función del texto del usuario. En la actualidad, las herramientas incluyen Drawing (OpenAi Dall-E-3), Code Interpreter, Synthetic Voice (OpenAI API), acceso a páginas web, búsqueda, etc.
- La calidad del dibujo es controlada temporalmente por AI
- Solo se admite la versión especificada de WeChat. Cierre el cliente de escritorio WeChat Open antes de ejecutar.
Comandos de administrador
Después de definir el administrador (el proyecto de administración en el archivo config.yaml), el administrador puede usar el comando administrador. El comando predeterminado es el siguiente:
| Orden | ilustrar |
|---|
| $ AYUDA | Mostrar información de ayuda |
| $ Configuración de actualización | Recargar la configuración del programa |
| $ Claro | Borrar la memoria de conversación actual |
| $ Load <Nombre preestablecido> | Cargar presets para la conversación actual |
| $ Reiniciar presets | Restablecer el preajuste al preajuste predeterminado para la conversación actual |
| $ Lista preestablecida | Mostrar preajustes disponibles |
| $ ID | Muestre la identificación de la conversación actual |
Estos comandos se pueden modificar en config.yaml
Función preestablecida del diálogo
- Los preajustes de diálogo son palabras rápidas del sistema y métodos de envasado de mensajes que surtan efecto en la conversación actual (chat grupal o chat único).
- Use el comando predeterminado "$ Load <Name>" para que el asistente de IA cargue presets para la conversación actual. El comando "$ preset List" muestra los preestablecidos actualmente disponibles y sus descripciones.
- <Preet Name> es un archivo de configuración YAML con el mismo nombre definido en el directorio de preinsets.
- default.yaml es el preajuste predeterminado y se usa de forma predeterminada para el diálogo.
- Puede usar el campo Group_presets en el archivo de configuración para establecer presets para la conversación, que se cargará automáticamente cuando comience el programa.
- Para crear sus propios preajustes, consulte el Directorio de default.yaml en el directorio de los preetos, es decir, el preajuste predeterminado. Copie el archivo, cambie el nombre a su nombre preestablecido y modifique la información en él.
- Desc: una descripción simple de presets
- SYS_PROMPT: Palabras de inmediato del sistema preestablecido
- msg_format: la cadena de formato que envuelve el mensaje de usuario y las variables {mensaje} = mensaje original, {wxcode} = sender wechat id, {apodo} = Sender WeChat Nickname. Si no está configurado, envíe el mensaje de origen directamente.
Herramientas (complemento)
- Las herramientas representan funciones y API externas, que el modelo AI puede seleccionar y llamar a las tareas adicionales, como dibujos, búsquedas de redes y otras funciones.
- Use el comando "$ ayuda" para mostrar los complementos de la herramienta habilitada.
- Configuración de la herramienta: en el campo Herramientas en config.yaml, define si la herramienta está habilitada y las opciones de configuración para la herramienta. Para deshabilitar la herramienta, simplemente elimine o comente el nombre del complemento. Algunos complementos requieren opciones de configuración adicionales para funcionar, como Bing_search (Bing Search) que requiere que API_Key funcione.
- Cada herramienta corresponde a una herramienta de función en Asistente, que se puede ver en Operai Playground.
- El código de herramientas se encuentra en el directorio de herramientas, hereda la clase de base de herramientas e implementa la interfaz.
Introducción de la herramienta:
- Bing_search: use la API de búsqueda de Microsoft Bing para buscar contenido en Internet.
- Regístrese para obtener la API de búsqueda de Bing Ver: https://www.microsoft.com/bing/apis/bing-web-search-api
- navegador_link: navegar en enlaces web. Use Selenium para obtener contenido de texto web para su uso de AI.
- text_to_image: dibujo de texto. Use el modelo Dall-E para generar imágenes a partir del texto.
- text_to_speech: texto a discurso. Genere audio de voz desde el texto utilizando la API de OpenAI.
- audio_transscript: voz a texto. Transcripción del discurso al texto usando Whipser Operai.
- Mahjong_agari: cálculo del número de puntuaciones y puntos de tarjeta. Calcule información como tipos de servicio, número de números, puntos, etc. Use biblioteca: https://github.com/mahjongrepository/mahjong
Otros consejos y consejos
- Cuando no puede conectarse a las API oficiales en el país, puede intentar usar el proxy API o usar un proxy de Internet científico. Un proxy de API gratuito es OpenAi-Proxy.com, reemplazando a Base_url con https://api.openai-proxy.com/v1
- Puede usar un emulador móvil (como el emulador Xiaoyao) para iniciar sesión en WeChat e iniciar sesión en el cliente de Windows WeChat para mantener WeChat en línea. No interrumpa el proceso de escaneo del código del emulador, ya que se pueden activar la detección y prohibición de WeChat.
- El programa llama a la API asistente de OpenAI. Puedes probar este asistente en Operai Playground.
- El programa cargará fotos y archivos para OpenAI para su procesamiento. Puede ver y eliminar sus archivos en el fondo de administración de OperaI. OpenAI no carga el archivo en sí, pero tiene restricciones sobre el espacio total ocupado por el archivo.
- El programa envía la descripción de definición de todas las herramientas, resultados de búsqueda y texto completo de la página web a OpenAI. Se requiere que los tokens se guarden y se pueden cerrar algunas herramientas (complementos).
recurso
- Grupo QQ: 812016253 Haga clic para unirse
- Reconocimiento: Este proyecto se basa en WeChatferry.
- Recomendado: Implemente su propio sitio web de chatgpt chatgpt-next-web Project con un solo clic
- Referencia: El proyecto WeChat Robot Chatgpt-on-Wechat que inicia sesión utilizando la versión web de WeChat
- Referencia: Operai Cookbook Blog Tutorial Asistente de asistente Descripción general de la API
- Referencia: Referencia de API de OpenAI