Retrieval Augmented Generation RAG Using Hugging Face Embeddings Скачать - Retrieval Augmented Generation RAG Using Hugging Face Embeddings загружающих исходный код

Retrieval Augmented Generation RAG Using Hugging Face Embeddings

Другой исходный код

1.0.0

Скачать

Поколение поиска (RAG) с использованием вторжений обнимающегося лица

Этот проект демонстрирует, как реализовать конвейер из поиска генерации (RAG), используя встроенные лица и ChromADB для эффективного семантического поиска. Решение считывает, обрабатывает и встраивает текстовые данные, позволяя пользователю выполнять точные и быстрые запросы на данные.

Функции

Интеграция набора данных : загрузка и обработка наборов данных от обнимающего лица.
Текст , разделите большой текст на управляемые куски для внедрения.
Поколение встраивания : используйте встраиваемые лица об объятиях ( BAAI/bge-base-en-v1.5 ) для преобразования текстовых кусков в векторные представления.
Храмадб Хранение : хранить встраиваемые встроенные в Chromadb для легкого поиска.
Семантический поиск : Запросите сохраненные данные для соответствующего текста на основе предоставленного подсказки с использованием семантического сходства.

Установка

Перед запуском ноутбука убедитесь, что необходимые библиотеки установлены:

pip install chromadb
pip install llama-index

Вам также нужно клонировать необходимые наборы данных от обнимающего лица, если вы просто хотите проверить это и проверить работу :):

git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-split

Как это работает

Загрузить наборы данных :
- Записная книжка загружает набор данных «Оценка написания студентов» и разделяет текст на куски для внедрения.
Внедрение творения :
- Используя модель BAAI/bge-base-en-v1.5 , текстовые куски преобразуются в векторные встроения. Вы можете любую модель вашего вкуса.
Интеграция ChromADB :
- Сгенерированные встраивания, наряду с их соответствующими текстовыми кусками, хранятся в ChromADB для постоянства и последующих запросов.
Семантический поиск :
- Функция запроса предоставляется для поиска векторной базы данных с использованием заданного запроса ввода. Соответствующие куски возвращаются на основе сходства с запросом.

Использование

Чтобы использовать код, просто запустите ноутбук после установки зависимостей и клонирования требуемых наборов данных. Следующая команда может быть использована для запроса хранимых встраиваний:

 query_collection ( "Your search query here" , n_results = 1 )

Это вернет наиболее соответствующий текстовый кусок на основе предоставленного запроса.

Пример

 query_collection (
  "Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." , 
  n_results = 1
)

Файлы

Здесь есть 2 файла. Simple One просто создайте векторную базу данных одного файла, и прогресс может работать над несколькими файлами с различными расширениями и создать их векторную базу данных, и вы также можете проверить ее на модели текстового поколения.

Зависимости

Chromadb
Обнимающееся лицо
лама-индекс

Будущие улучшения

Улучшите механизм кункинга для более гибкой обработки перекрывающихся предложений.
Настраивать модель встраивания для более конкретных доменных приложений.
Добавьте поддержку для нескольких наборов данных.