gpt all local Download - gpt all local исходный код скачать

gpt all local

Другой исходный код

1.0.0

Скачать

Использование LLM на частных данных, все локально

Этот проект представляет собой учебное упражнение по использованию моделей крупных языков (LLMS) для извлечения информации из частных данных, запуска всех произведений (включая модель) локально. Цель состоит в том, чтобы запустить LLM на вашем компьютере, чтобы задать вопросы на наборе файлов также на вашем компьютере. Файлы могут быть любым типом документа, такого как PDF, Word или текстовые файлы.

Этот метод комбинирования LLM и частных данных известен как поколение поиска-августа (RAG). Это было введено в этой статье.

Кредит, где должен быть кредит: я основал этот проект на оригинальном приватике (то, что они теперь называют изначальной версией). Я переосмыслил части, чтобы понять, как они работают. Смотрите больше в разделе источников.

То, чего мы пытаемся достичь: Учитывая набор файлов на компьютере (а), мы хотим, чтобы на этом компьютере работала большая языковая модель (б), чтобы ответить на вопросы (c) на них.

Чего мы пытаемся достичь

Тем не менее, мы не можем подавать файлы непосредственно в модель. Большие языковые модели (LLM) имеют окно контекста, которое ограничивает, сколько информации мы можем вписать в них (их рабочая память). Чтобы преодолеть это ограничение, мы разделили файлы на более мелкие части, называемые кусочками и передаем только соответствующие из них в модель (D).

Решение Часть 1

Но тогда возникает вопрос "как мы находим соответствующие куски?" Полем Мы используем поиск сходства (e), чтобы соответствовать вопросу и кусочкам. Поиск сходства, в свою очередь, требует векторных встраиваний (F), представления слов с векторами, которые кодируют семантические отношения (технически, плотное векторное встраивание, а не путать его с редкими векторными представлениями, такими как мешок слов и TF-IDF). Как только у нас есть соответствующие куски, мы объединяем их с вопросом, чтобы создать подсказку (g), которая дает инструкции LLM ответить на вопрос.

Решение Часть 2

Нам нужна последняя часть: постоянное хранение. Создание встраиваний для кусков требует времени. Мы не хотим делать это каждый раз, когда задаем вопрос. Поэтому нам нужно сохранить вставки и исходный текст (кусочки) в векторном хранилище (или базе данных) (h). Векторный магазин может расти большим, потому что он хранит оригинальные текстовые куски и их векторные встроения. Мы используем векторный индекс (i), чтобы эффективно найти соответствующие куски.

Решение Часть 3

Теперь у нас есть все необходимые вещи.

Мы можем разделить реализацию на две части: проглатывание и получение данных.

Приглашение: цель состоит в том, чтобы разделить локальные файлы на более мелкие куски, которые вписываются в размер входа LLM (окно контекста). Нам также необходимо создать векторные встроения для каждого куска. Векторные встроения позволяют нам найти наиболее важные куски, чтобы помочь ответить на вопрос. Поскольку Chunking and Encedling занимают время, мы хотим сделать это только один раз, поэтому мы сохраняем результаты в векторном хранилище (база данных).
Поиск: Учитывая вопрос пользователя, мы используем поиск сходства, чтобы найти наиболее соответствующие куски (то есть части локальных файлов, связанных с вопросом). Как только мы определим наиболее релевантные куски, мы можем использовать LLM, чтобы ответить на вопрос. Для этого мы объединяем вопрос пользователя с соответствующими кусками и подсказкой, инструктирующим LLM ответить на вопрос.

Эти два шага показаны на следующей диаграмме.

Проглатывание и поиск

Как использовать этот проект

Если вы еще этого не сделали, подготовьте окружающую среду. Если вы уже подготовили окружающую среду, активируйте ее source venv/bin/activate .

Есть два способа использовать этот проект:

Интерфейс командной строки: используйте это, чтобы увидеть больше журналов и понять, что происходит (см. Флаг --verbose ниже).
Приложение Streamlit: используйте это для более удобного опыта.

Интерфейс командной строки

Скопируйте файлы, которые вы хотите использовать в папку data .
Запустите python main.py ingest , чтобы проглатывать файлы в векторный хранилище.
Запустите python main.py retrieve для извлечения данных из векторного хранилища. Это побудит вас за вопрос.

Используйте флаг --verbose , чтобы получить более подробную информацию о том, что программа делает за кулисами.

Чтобы переехать данные, удалите папку vector_store и запустите python main.py ingest снова.

Приложение Streamlit

Запустите streamlit run app.py Он откроет приложение в окне браузера.

Эта команда может потерпеть неудачу первым, когда вы запустили ее. Где -то есть глюк в том, как среда Python работает вместе с Pyenv. Если Streamlit показывает «невозможно импортировать сообщение модуля», деактивируйте среду Python с deactivate , активируйте его снова с помощью source venv/bin/activate , и запустите streamlit run app.py

Дизайн

Проглатывание данных

Если вы еще этого не сделали, подготовьте окружающую среду. Если вы уже подготовили окружающую среду, активируйте ее source venv/bin/activate .

Команда: python main.py ingest [--verbose]

Цель этого этапа - сделать поиск данных. Тем не менее, вопрос пользователя и содержание данных могут не совпадать точно. Поэтому мы не можем использовать простую поисковую систему. Нам нужно выполнить поиск сходства, поддерживаемый векторными вставками. Векторное встраивание является наиболее важной частью этой стадии.

В приглашении данных имеет следующие шаги:

Загрузите файл: считыватель документа, который соответствует типу документа, используется для загрузки файла. На этом этапе у нас есть массив символов с содержанием файла (с этого момента «документ»). Метаданные, картинки и т. Д. Игнорируются.
Разделите документ на куски: сплиттер документа делит документ на куски указанного размера. Нам нужно разделить документ, чтобы соответствовать размеру контекста модели (и отправлять меньше токенов при использовании платной модели). Точный размер каждого куска зависит от сплиттера документа. Например, разветвитель предложения пытается разделить на уровне предложения, что делает несколько кусков меньше указанного размера.
Создайте векторные встроения для каждого чанка: модель встраивания создает векторную встраиванию для каждого куска. Это важный шаг, который позволяет нам найти наиболее важные куски, чтобы помочь ответить на вопрос.
Сохраните вставки в векторную базу данных (хранилище): Сохраняйте всю работу, которую мы выполняли выше, чтобы нам не приходилось повторять ее в будущем.

Будущие улучшения:

Более интеллектуальный анализ документов. Например, не смешивайте подписи рисунка с текстом раздела; Не анализируйте справочный раздел (в качестве альтернативы замените встроенные ссылки на фактический эталонный текст).
Улучшить параллелизм. В идеале мы хотим запустить весь рабочий процесс (загрузочный документ, кусок, встроенный, сохраняющийся) параллельно для каждого файла. Это требует решения, которое параллелизирует не только связанные с вводом/вывод, но и задачи, связанные с процессором. Векторный магазин также должен поддерживать нескольких авторов.
Попробуйте разные стратегии кунгинга, например, проверьте, улучшают ли ответы на сплиттеры предложения ( NLTKTextSplitter или SpacyTextSplitter ).
Выберите размер Chunking на основе размера входа LLM (контекста). В настоящее время он жестко кодируется небольшим числам, что может повлиять на качество результатов. С другой стороны, это экономит расходы на API LLM. Нам нужно найти баланс.
Автоматизируйте процесс проглатывания: обнаружите, есть ли новые или измененные файлы, и их употребляют.

Получение данных

Если вы еще этого не сделали, подготовьте окружающую среду. Если вы уже подготовили окружающую среду, активируйте ее source venv/bin/activate .

Команда: python main.py retrieve [--verbose]

Цель этого этапа - получить информацию из локальных данных. Мы делаем это, получая наиболее релевантные куски из векторного магазина и объединив их с вопросом пользователя и подсказкой. Приглашение инструктирует языковую модель (LLM) ответить на вопрос.

Получение данных имеет следующие шаги:

Найдите наиболее актуальные куски: векторный магазин запрашивается, чтобы найти наиболее актуальные куски для вопроса.
Объедините куски с вопросом и подсказкой: куски объединяются с вопросом и подсказкой. Подсказка дает инструкции LLM ответить на вопрос.
Отправьте комбинированный текст в LLM: комбинированный текст отправляется в LLM, чтобы получить ответ.

Будущие улучшения:

Добавьте обратные вызовы Langchain, чтобы просмотреть шаги процесса поиска.
Улучшите подсказку, чтобы ответить только с тем, что находится в местных документах, например, «Используйте только информацию из следующих документов: ...». Без этого шага модель, кажется, мечтает о ответе из учебных данных, что не всегда имеет значение.
Добавьте модерацию, чтобы отфильтровать оскорбительные ответы.
Улучшите ответы с помощью перезаписи: «Переверните результаты нашего поиска, а затем детерминистически переоценивают на основе модификатора или набора модификаторов». Полем
Попробуйте разные типы цепей (связанные с предыдущей точкой).

Улучшение результатов

Мы должны были поставить некоторые компромиссы, чтобы он запустил на местной машине за разумное время.

Мы используем небольшую модель. Это трудно изменить. Модель должна работать на процессоре и вписаться в память.
Мы используем небольшой размер встраивания. Мы можем увеличить размер встраивания, если мы дольше ждем процесса приема.
Держите все одинаково и попробуйте разные цепочки.

Источники

Большая часть кода Ingest/Retive основана на исходной Privategpt, которую они называют, теперь изначальным .

Что отличается:

Приложение для потокового интерфейса для пользовательского интерфейса.
Используйте новые встроения и версии крупных языковых моделей.
Модернизировал код Python. Например, он использует pathlib вместо os.path и имеет правильную регистрацию вместо печатных операторов.
Добавлено больше журналов, чтобы понять, что происходит. Используйте флаг --verbose , чтобы увидеть детали.
Добавлена основная программа для выполнения шагов Ingy/Retive.
Заполнено в requirements.txt Текст косвенными зависимостями, например, для трансформаторов HuggingFace и загрузчиков документов Langchain.

Смотрите этот файл для получения дополнительных заметок, собранных во время разработки этого проекта.

Подготовка окружающей среды

Это единовременный шаг. Если вы уже сделали это, просто активируйте виртуальную среду с source venv/bin/activate .

Среда Python

Запустите следующие команды, чтобы создать виртуальную среду и установить необходимые пакеты.

python3 -m venv venv
source venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt

PDF -анализ

Парсер в PDF в unstructured - это слой поверх фактических пакетов анализатора. Следуйте инструкциям в unstructured README в пулях «Установить следующие системы зависимости». Требуются пакеты Poppler и Tesseract (игнорируйте другие).

Модель

Я предлагаю начать с небольшой модели, которая работает на процессоре. GPT4ALL имеет список моделей здесь. Я проверил с Mistral-7B-Openorca Q4. Для запуска требуется 8 ГБ оперативной памяти. Обратите внимание, что некоторые модели имеют ограничительные лицензии. Проверьте лицензию перед использованием их в коммерческих проектах.