gpt all local Download - gpt all local Source Code Download

gpt all local

Autre code source

1.0.0

Télécharger

Utilisation de LLMS sur des données privées, tous localement

Ce projet est un exercice d'apprentissage sur l'utilisation de modèles de grande langue (LLMS) pour récupérer des informations à partir de données privées, exécutant tous les éléments (y compris le modèle) localement. L'objectif est d'exécuter un LLM sur votre ordinateur pour poser des questions sur un ensemble de fichiers également sur votre ordinateur. Les fichiers peuvent être n'importe quel type de document, tels que PDF, Word ou Fichiers texte.

Cette méthode de combinaison de LLM et de données privées est connue sous le nom de génération (RAG) de la récupération (RAG). Il a été introduit dans cet article.

Crédit où le crédit est dû: J'ai basé ce projet sur le privateGPT original (ce qu'ils appellent maintenant la version primordiale ). J'ai réimplémenté les pièces pour comprendre comment elles fonctionnent. Voir plus dans la section Sources.

Ce que nous essayons de réaliser: Compte tenu d'un ensemble de fichiers sur un ordinateur (a), nous voulons un modèle de langue large (b) en cours d'exécution sur cet ordinateur pour répondre aux questions (c) sur eux.

Ce que nous essayons de réaliser

Cependant, nous ne pouvons pas alimenter les fichiers directement au modèle. Les grands modèles de langue (LLMS) ont une fenêtre de contexte qui limite la quantité d'informations que nous pouvons les alimenter (leur mémoire de travail). Pour surmonter cette limitation, nous avons divisé les fichiers en pièces plus petites, appelées morceaux , et ne nourrissons que les pertinents au modèle (D).

Solution Partie 1

Mais alors, la question devient "Comment trouvons-nous les morceaux pertinents?" . Nous utilisons la recherche de similitude (e) pour correspondre à la question et aux morceaux. La recherche de similitude, à son tour, nécessite des incorporations de vecteurs (F), une représentation de mots avec des vecteurs qui codent les relations sémantiques (techniquement, une incorporation de vecteurs dense , et non pour le confondre avec des représentations vectorielles clairsemées telles que le sac de mots et TF-IDF). Une fois que nous avons les morceaux pertinents, nous les combinons avec la question pour créer une invite (g) qui demande au LLM de répondre à la question.

Solution Partie 2

Nous avons besoin d'une dernière pièce: stockage persistant. Créer des intégres pour les morceaux prend du temps. Nous ne voulons pas le faire chaque fois que nous posons une question. Par conséquent, nous devons enregistrer les intérêts et le texte d'origine (les morceaux) dans un magasin de vecteur (ou une base de données) (H). Le magasin vectoriel peut devenir grand car il stocke les morceaux de texte d'origine et leurs intérêts vectoriels. Nous utilisons un indice vectoriel (i) pour trouver efficacement des morceaux pertinents.

Solution Partie 3

Maintenant, nous avons toutes les pièces dont nous avons besoin.

Nous pouvons diviser la mise en œuvre en deux parties: ingérer et récupérer des données.

Ingestion: L'objectif est de diviser les fichiers locaux en morceaux plus petits qui s'intègrent dans la taille de l'entrée LLM (fenêtre de contexte). Nous devons également créer des incorporations vectorielles pour chaque morceau. Les incorporations vectorielles nous permettent de trouver les morceaux les plus pertinents pour aider à répondre à la question. Parce que le morceau et l'intégration prennent du temps, nous ne voulons le faire qu'une seule fois, nous enregistrons donc les résultats dans un magasin vectoriel (base de données).
Retriel: Compte tenu d'une question de l'utilisateur, nous utilisons une recherche de similitude pour trouver les morceaux les plus pertinents (c'est-à-dire les éléments des fichiers locaux liés à la question). Une fois que nous déterminons les morceaux les plus pertinents, nous pouvons utiliser le LLM pour répondre à la question. Pour ce faire, nous combinons la question de l'utilisateur avec les morceaux pertinents et une invite en demandant au LLM de répondre à la question.

Ces deux étapes sont illustrées dans le diagramme suivant.

Ingestion et récupération

Comment utiliser ce projet

Si vous ne l'avez pas encore fait, préparez l'environnement. Si vous avez déjà préparé l'environnement, activez-le avec source venv/bin/activate .

Il existe deux façons d'utiliser ce projet:

Interface de ligne de commande: utilisez celle-ci pour voir plus de journaux et comprendre ce qui se passe (voir l'indicateur --verbose ci-dessous).
APPLICATION STAILLIT: Utilisez celui-ci pour une expérience plus conviviale.

Interface de ligne de commande

Copiez les fichiers que vous souhaitez utiliser dans le dossier data .
Exécutez python main.py ingest pour ingérer les fichiers dans le magasin vectoriel.
Exécutez python main.py retrieve pour récupérer les données du magasin vectoriel. Cela vous invitera à une question.

Utilisez l'indicateur --verbose pour obtenir plus de détails sur ce que le programme fait dans les coulisses.

Pour réintégrer les données, supprimez le dossier vector_store et exécutez à nouveau python main.py ingest

Rationaliser l'application

Exécutez streamlit run app.py Il ouvrira l'application dans une fenêtre de navigateur.

Cette commande peut échouer le premier à l'exécuter. Il y a un problème quelque part dans la façon dont l'environnement Python fonctionne avec Pyenv. Si Streamlit montre un "Message du module Importer Import", désactivez l'environnement Python avec deactivate , activez-le à nouveau avec source venv/bin/activate et exécutez streamlit run app.py

Conception

Ingestion de données

Si vous ne l'avez pas encore fait, préparez l'environnement. Si vous avez déjà préparé l'environnement, activez-le avec source venv/bin/activate .

Commande: python main.py ingest [--verbose]

Le but de cette étape est de rendre les données consultables. Cependant, la question de l'utilisateur et le contenu des données peuvent ne pas correspondre exactement. Par conséquent, nous ne pouvons pas utiliser un moteur de recherche simple. Nous devons effectuer une recherche de similitude prise en charge par des intégres vectoriels. L'intégration du vecteur est la partie la plus importante de cette étape.

L'ingestion de données a les étapes suivantes:

Chargez le fichier: un lecteur de document qui correspond au type de document est utilisé pour charger le fichier. À ce stade, nous avons un tableau de caractères avec le contenu du fichier (un "document" à partir de maintenant). Les métadonnées, les photos, etc. sont ignorées.
Divisez le document en morceaux: un séparateur de document divise le document en morceaux de la taille spécifiée. Nous devons diviser le document pour s'adapter à la taille du contexte du modèle (et envoyer moins de jetons lors de l'utilisation d'un modèle payant). La taille exacte de chaque morceau dépend du séparateur de document. Par exemple, un séparateur de phrase tente de se diviser au niveau de la phrase, ce qui rend certains morceaux plus petits que la taille spécifiée.
Créer des incorporations vectorielles pour chaque morceau: un modèle d'incorporation crée une incorporation de vecteur pour chaque morceau. Il s'agit de l'étape cruciale qui nous permet de trouver les morceaux les plus pertinents pour aider à répondre à la question.
Enregistrez les incorporations dans la base de données vectorielle (magasin): persistez tout le travail que nous avons fait ci-dessus, nous n'avons donc pas à le répéter à l'avenir.

Améliorations futures:

Analyse de documents plus intelligente. Par exemple, ne mélangez pas les légendes de la figure avec le texte de la section; N'analysez pas la section de référence (alternativement, remplacez les références en ligne par le texte de référence réel).
Améliorer le parallélisme. Idéalement, nous voulons exécuter l'intégralité du flux de travail (chargement de chargement, morceau, intégrer, persister) en parallèle pour chaque fichier. Cela nécessite une solution qui parallélise non seulement des tâches liées aux E / O mais aussi à la CPU. Le magasin vectoriel doit également prendre en charge plusieurs écrivains.
Essayez différentes stratégies de chasse, par exemple, vérifiez si les séparateurs de phrases ( NLTKTextSplitter ou SpacyTextSplitter ) améliorent les réponses.
Choisissez la taille de la chasse en fonction de la taille de l'entrée LLM (contexte). Il est actuellement codé en dur à un petit nombre, ce qui peut affecter la qualité des résultats. D'un autre côté, il permet d'économiser des coûts sur l'API LLM. Nous devons trouver un équilibre.
Automatisez le processus d'ingestion: détecter s'il y a des fichiers nouveaux ou modifiés et ingérez-les.

Récupération des données

Si vous ne l'avez pas encore fait, préparez l'environnement. Si vous avez déjà préparé l'environnement, activez-le avec source venv/bin/activate .

Commande: python main.py retrieve [--verbose]

Le but de cette étape est de récupérer des informations des données locales. Nous le faisons en récupérant les morceaux les plus pertinents du magasin Vector et en les combinant avec la question de l'utilisateur et une invite. L'invite demande au modèle de langue (LLM) de répondre à la question.

La récupération des données a les étapes suivantes:

Trouvez les morceaux les plus pertinents: le magasin vectoriel est interrogé pour trouver les morceaux les plus pertinents à la question.
Combinez les morceaux avec la question et une invite: les morceaux sont combinés avec la question et une invite. L'invite demande au LLM de répondre à la question.
Envoyez le texte combiné au LLM: le texte combiné est envoyé au LLM pour obtenir la réponse.

Améliorations futures:

Ajoutez des rappels Langchain pour afficher les étapes du processus de récupération.
Améliorez l'invite pour répondre uniquement avec ce qui se trouve dans les documents locaux, par exemple "Utilisez uniquement les informations des documents suivants: ...". Sans cette étape, le modèle semble imaginer une réponse des données de formation, ce qui n'est pas toujours pertinent.
Ajoutez une modération pour filtrer les réponses offensives.
Améliorez les réponses avec le rediffusion: "sur-obligez nos résultats de recherche, puis en terministe en fonction d'un modificateur ou d'un ensemble de modificateurs." .
Essayez différents types de chaînes (liés au point précédent).

Améliorer les résultats

Nous avons dû faire des compromis pour le faire fonctionner sur une machine locale dans un délai raisonnable.

Nous utilisons un petit modèle. Celui-ci est difficile à changer. Le modèle doit fonctionner sur un processeur et s'adapter en mémoire.
Nous utilisons une petite taille d'incorporation. Nous pouvons augmenter la taille d'incorporation si nous attendons plus longtemps pour le processus d'ingestion.
Gardez tout le même et essayez différentes chaînes.

Sources

La plupart du code d'ingestion / récupération est basé sur le privategpt d'origine, celui qu'ils appellent maintenant primordial .

Ce qui est différent:

Rationalisez l'application pour l'interface utilisateur.
Utilisez des intégres plus récentes et des versions de modèles de grandes langues.
Modernisé le code Python. Par exemple, il utilise pathlib au lieu d' os.path et a une journalisation appropriée au lieu des instructions d'impression.
Ajout de l'exploitation forestière pour comprendre ce qui se passe. Utilisez l'indicateur --verbose pour voir les détails.
Ajout d'un programme principal pour exécuter les étapes d'ingestion / récupération.
Rempli des requirements.txt avec les dépendances indirectes, par exemple, pour les transformateurs en étreinte et les chargeurs de documents Langchain.

Voir ce fichier pour plus de notes collectées lors du développement de ce projet.

Préparer l'environnement

Ceci est une étape ponctuelle. Si vous l'avez déjà fait, activez simplement l'environnement virtuel avec source venv/bin/activate .

Environnement python

Exécutez les commandes suivantes pour créer un environnement virtuel et installer les packages requis.

python3 -m venv venv
source venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt

PDF Analyse

L'analyseur PDF en unstructured est une couche au-dessus des packages d'analyser réels. Suivez les instructions dans la lecture unstructured , sous les balles "Installer les dépendances du système suivantes". Les packages Poppler et Tesseract sont nécessaires (ignorez les autres).

Modèle

Je suggère de commencer par un petit modèle qui fonctionne sur CPU. GPT4ALL a une liste de modèles ici. J'ai testé avec Mistral-7B-Openorca Q4. Il faut 8 Go de RAM pour fonctionner. Notez que certains modèles ont des licences restrictives. Vérifiez la licence avant de les utiliser dans des projets commerciaux.

Créez un dossier nommé models .
Cliquez ici pour télécharger Mistral 7B Openorca (téléchargement de 3,8 Go, 8 Go de RAM).
Copiez le modèle dans le dossier models .

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-05-24
taille 220.18KB
Provenant de Github

Applications connexes

La dernière version du cinéma et de la télévision GPT

2023-10-30
L'amour est partout

2023-10-24
Tout E

2022-09-02
Mourir toute la journée

2022-08-23
Détruisez tous les humains

2022-08-10
Debout toute la nuit

2022-07-24

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout