Этот проект демонстрирует, как реализовать конвейер из поиска генерации (RAG), используя встроенные лица и ChromADB для эффективного семантического поиска. Решение считывает, обрабатывает и встраивает текстовые данные, позволяя пользователю выполнять точные и быстрые запросы на данные.
BAAI/bge-base-en-v1.5 ) для преобразования текстовых кусков в векторные представления.Перед запуском ноутбука убедитесь, что необходимые библиотеки установлены:
pip install chromadb
pip install llama-indexВам также нужно клонировать необходимые наборы данных от обнимающего лица, если вы просто хотите проверить это и проверить работу :):
git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-splitЗагрузить наборы данных :
Внедрение творения :
BAAI/bge-base-en-v1.5 , текстовые куски преобразуются в векторные встроения. Вы можете любую модель вашего вкуса.Интеграция ChromADB :
Семантический поиск :
Чтобы использовать код, просто запустите ноутбук после установки зависимостей и клонирования требуемых наборов данных. Следующая команда может быть использована для запроса хранимых встраиваний:
query_collection ( "Your search query here" , n_results = 1 )Это вернет наиболее соответствующий текстовый кусок на основе предоставленного запроса.
query_collection (
"Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." ,
n_results = 1
)Здесь есть 2 файла. Simple One просто создайте векторную базу данных одного файла, и прогресс может работать над несколькими файлами с различными расширениями и создать их векторную базу данных, и вы также можете проверить ее на модели текстового поколения.
Этот репозиторий лицензирован по лицензии MIT.