Versión 0.02 de LLM File Parser por LibraryOfCelsus.com
Guía de instalación
Skip to Changelog
Servidor de discordia
Cambios recientes
• 07/17 Se agregaron dominios de conocimiento como índice separado para que los dominios existentes se puedan buscar con vectores.
• 07/12 Primera versión
Este proyecto es parte de mi proyecto Aetherius más grande y está diseñado para optimizar el proceso de transformación de datos no estructurados en bases de datos y conjuntos de datos estructurados. El programa cae en AUTOML y utiliza varias técnicas de LLM para escanear, fragmentar y resumir documentos no estructurados, transformándolos en datos estructurados con una entrada mínima del usuario.
Tipos de archivos compatibles actuales: .Epub, .pdf, .txt, .png, .jpg, .jpeg, .mp4, .mkv, .flv y .av
Chatbots usando este formato:
`` Este proyecto sirve como el cargador de documentos para: https://github.com/libraryofcelsus/advanced_rag_chatbot
Asistente de IA principal GitHub: https://github.com/libraryofcelsus/aetherius_ai_assistant
Mi trabajo de IA se autofinda por mi trabajo diario, considere apoyarme si aprecia mi trabajo.
¡Únase a Discord para obtener ayuda o para obtener información más profunda!
Servidor Discord: https://discord.gg/pb5zcna7ze
Suscríbase a mi YouTube para videos tutoriales: https://www.youtube.com/@libraryofcelsus (canal aún no lanzado)
Tutoriales de código disponibles en: https://www.libraryofcelsus.com/research/public/code-tutorials/
Hecho por: https://github.com/libraryOfCelsus
0.02
• Se agregaron dominios de conocimiento como índice separado para que los dominios existentes se puedan buscar con vectores.
0.01
• Primer lanzamiento
Descargue la carpeta del proyecto Project presionando el menú desplegable <> Código desplegable.
1. Instale Python 3.10.6, asegúrese de agregarlo a la ruta: https://www.python.org/downloads/release/python-3106/
2. Ejecute "install_requirements.bat" para instalar las dependencias necesarias. El BAT instalará Git, Poppler, Tesseract, FFMPEG y las dependencias de Python necesarias.
(Si recibe un error al instalar los requisitos ejecutados: Python -M PIP Cache Purge )
3. Configurar Qdrant o Marqo DB. Para cambiar lo que se usa DB, edite la tecla "Vector_DB" en ./settings.json. Qdrant es el valor predeterminado.
Qdrant Docs: https://qdrant.tech/documentation/guides/installation/
Marqo Docs: https://docs.marqo.ai/2.9/
Para usar un servidor Qdrant local, First Install Docker: https://www.docker.com.
Siguiente tipo: Docker Pull Qdrant/Qdrant: V1.9.1 En el símbolo del sistema.
Después de que termine de descargar, escriba Docker Run -P 6333: 6333 Qdrant/Qdrant: V1.9.1
Para usar un servidor Marqo local, Instale First Install Docker: https://www.docker.com.
Siguiente tipo: Docker Pull Marqoai/Marqo: Lo último en el símbolo del sistema.
Después de que termine de descargar, escriba Docker Run - -Name Marqo - -Gpus All -P 8882: 8882 Marqoai/Marqo: Último
(Si ofrece un error, verifique la pestaña Containers de Docker para ver un nuevo contenedor y presione el botón Inicio. A veces no se inicia).
Ver: https://docs.docker.com/desktop/backup-and-restore/ para obtener copias de seguridad.
Una vez que el servidor DB vectorial local se está ejecutando, los scripts deben detectar automáticamente por los scripts.
6. Instale la API deseada. (No es necesario si usa OpenAI) para cambiar qué API se usa, edite la tecla "API" ./settings.json
https://github.com/oobabooga/text-generation-webui
https://github.com/lostruins/koboldcpp
8. Inicie un script con uno de los run _*. Bat
9. Cambie la información dentro de la pestaña "Configuración" a sus preferencias.
10. Pon un archivo en su carpeta correspondiente en el directorio ./UPLOADS. La carpeta de carga se creará cuando se ejecute por primera vez el script de procesamiento de archivos.
Para que Whisper trabaje con CUDA, es posible que deba ejecutar los comandos:
. venv scripts activar
Pip desinstale la antorcha de antorcha
PIP Instale Torch TorchVision Torchaudio -f https://download.pytorch.org/whl/cu118/torch_stable.html
Si desea cambiar el formato en el que se cargan los datos al Vector DB, los scripts de carga se pueden encontrar en ./resources/db_upload
En enero de 2023, tuve mi experiencia inaugural con ChatGPT y LLMS en general. Desde ese momento, he estado profundamente obsesionado con la IA, dedicando innumerables horas cada día a estudiarlo y a la experimentación práctica.
Discord: LibraryOfCelsus -> Estilo de nombre de usuario antiguo: Celsus#0262
Mega Chat: https://mega.nz/c!pmnmeizq