Version 0.02 von LLM Datei Parser von Libraryofcelsus.com
Installationshandbuch
Springe zu Changelog
Discord Server
Jüngste Änderungen
• 07/17 Es wurde Wissensdomänen als separaten Index hinzugefügt, sodass vorhandene Domänen mit Vektoren durchsucht werden können.
• 07/12 Erste Veröffentlichung
Dieses Projekt ist Teil meines größeren Aetherius -Projekts und soll den Prozess der Umwandlung unstrukturierter Daten in strukturierte Datenbanken und Datensätze rationalisieren. Das Programm fällt unter AutomL und verwendet verschiedene LLM -Techniken, um unstrukturierte Dokumente zu scannen, zu platzieren und zusammenzufassen, wodurch sie mit minimalen Benutzereingaben in strukturierte Daten umgewandelt werden.
Aktuelle unterstützte Dateitypen: .epub, .pdf, .txt, .png, .jpg, .jpeg, .mp4, .mkv, .flv und .av
Chatbots mit diesem Format:
�This Projekt dient als Dokument -Uploader für: https://github.com/libraryofcelsus/advanced_rag_chatbot
Haupt -AI -Assistent Github: https://github.com/libraryofcelsus/aetherius_ai_assistant
Meine KI-Arbeit ist von meinem Tagesjob selbst finanziert. Überlegen Sie sich, mich zu unterstützen, wenn Sie meine Arbeit zu schätzen wissen.
Schließen Sie sich der Zwietracht an, um Hilfe zu erhalten oder detailliertere Informationen zu erhalten!
Discord Server: https://discord.gg/pb5zcna7ze
Abonnieren Sie mein YouTube für Video -Tutorials: https://www.youtube.com/@libraryofcelsus (Kanal noch nicht gestartet)
Code-Tutorials erhältlich unter: https://www.libraryofcelsus.com/research/public/code-tutorials/
Hergestellt von: https://github.com/libraryofcelsus
0,02
• Wissensdomänen als separates Index hinzugefügt, sodass vorhandene Domänen mit Vektoren durchsucht werden können.
0,01
• Erste Veröffentlichung
Laden Sie den Projekt Zip -Ordner herunter, indem Sie das Dropdown -Menü <> Code drücken.
1. Installieren Sie Python 3.10.6, stellen Sie sicher, dass Sie es zu Pfad hinzufügen: https://www.python.org/downloads/release/python-3106/
2. Führen Sie "install_requirements.bat" aus, um die erforderlichen Abhängigkeiten zu installieren. Die Fledermaus installiert Git, Poppler, Tesseract, FFMPEG und die benötigten Python -Abhängigkeiten.
(Wenn Sie bei der Installation der Anforderungen einen Fehler erhalten, werden Sie ausgeführt: Python -m PIP -Cache -Spülung )
3.. Richten Sie Qdrant oder Marqo DB ein. Um zu ändern, was DB verwendet wird, bearbeiten Sie den Schlüssel "vector_db" in ./Settings.json. Qdrant ist der Standard.
Qdrant docs: https://qdrant.tech/documentation/guides/installation/
Marqo Docs: https://docs.marqo.ai/2.9/
� Um einen lokalen QDrant -Server zu verwenden, installieren Sie zuerst Docker: https://www.docker.com.
Nächster Typ: Docker Pull Qdrant/Qdrant: v1.9.1 In der Eingabeaufforderung.
Geben Sie nach dem Download Docker Run -P 6333: 6333 QDrant/Qdrant: v1.9.1 ein
Um einen lokalen Marqo -Server zu verwenden, installieren Sie zuerst Docker: https://www.docker.com.
Nächster Typ: Docker Pull Marqoai/Marqo: Neueste in der Eingabeaufforderung.
Geben Sie nach dem Herunterladen von Docker Run --Name Marqo -GPUS All -P 8882: 8882 Marqoai/Marqo: Last
(Wenn es einen Fehler gibt, überprüfen Sie die Registerkarte Docker Container auf einen neuen Container und drücken Sie die Starttaste. Manchmal startet sie nicht.)
Siehe: https://docs.docker.com/desktop/backup-and-restore/, um Backups zu erstellen.
Sobald der lokale Vektor -DB -Server ausgeführt wird, sollte er von den Skripten automatisch erkannt werden.
6. Installieren Sie Ihre gewünschte API. (Nicht benötigt, wenn Sie OpenAI verwenden), um zu ändern, welche API verwendet wird
https://github.com/oobabooga/text-generation-webui
https://github.com/lostruins/koboldcpp
8. Starten Sie ein Skript mit einem der Lauf _*. BAT
9. Ändern Sie die Informationen in der Registerkarte "Einstellungen" auf Ihre Einstellungen.
10. Legen Sie eine Datei in den entsprechenden Ordner in das Verzeichnis ./Plade. Der Uploads -Ordner wird erstellt, wenn das Skript zum Dateiverarbeitung zum ersten Mal ausgeführt wird.
Um Flüster mit CUDA zu arbeiten, müssen Sie möglicherweise die Befehle ausführen:
. venv scripts aktivieren
PIP Deinstallation Torch Torchaudio
PIP Installieren Sie Torch Torchvision Torchaudio -f
Wenn Sie das Format ändern möchten, in dem Daten in den Vektor -DB hochgeladen werden, finden Sie die Upload -Skripte in ./Resources/db_upload
Im Januar 2023 hatte ich meine Eröffnungserfahrung mit Chatgpt und LLMs im Allgemeinen. Seit diesem Moment war ich tief besessen von KI, widmete jeden Tag unzählige Stunden, um es zu studieren und praktisch zu experimentieren.
Discord: Libraryofcelsus -> Altem Benutzername Stil: Celsus#0262
Mega -Chat: https://mega.nz/c!pmnmeizq