Добро пожаловать в «Мойн фон Бремен», веселый и интерактивный проект, разработанный группой восторженных студентов магистратуры из Университета Бремена. В этом проекте мы погружаемся в мир LLMS (модели с большими языками), исследуем силу извлечения дополненного поколения (RAG) и экспериментируйте с концепцией мультимодальности. Вместе мы создали гид Audio City для нашего любимого города Бремен! ? ️
Этот проект представляет собой захватывающее путешествие, которое начинается с идеи создания чат -бота, способного служить гидом по аудио. Что может быть лучше, чем Бремен, наш дом во время обучения в университете Бремена? С помощью этого руководства вы познакомитесь с Бременом, как никогда раньше!
Мы объединили наши местные знания с надежными фактами из Википедии, чтобы создать привлекательный и информативный опыт. Вот пошаговая разбивка того, как мы это сделали:
Генерация данных : мы поставляли изображения и данные из Википедии для поддержки нашего чат -бота. Проверьте файл datageneration.ipynb для получения более подробной информации о том, как это было сделано.
LLM & Rag : Любим построить свой собственный личный бот? Так что мы были! Мы углубились в LLMS и постоянно популярную тряпную технику для разработки приложения знаний, специфичного для домена. RAG широко используется крупными предприятиями для создания специализированных приложений. Хотите узнать больше? Прочитайте эту проницательную тряпную статью.
Текст встраивался с Chromadb : наше путешествие продолжалось с файлом textdata_chromadb.py , где мы разработали тряпку, используя векторные встраивания с ChromAdB. Мы даже создали API с использованием Gradio для плавного пользовательского интерфейса. Мы также экспериментировали с мультимодальными концепциями, создавая коллекции как для текста, так и для изображений. При предоставлении подсказки система ищет наиболее релевантное изображение и текст в базе данных.
Векторное внедрение : концепция векторного встраивания распространяется на создание соответствующих числовых контекстов, которые используются во время поиска для извлечения наиболее важных данных из базы данных. Для подробного объяснения, ознакомьтесь с этой статьей об встроенных и векторных базах данных.
Audio Guide с Faiss : Движение вперед, мы разработали аудио руководство, внедрив код в audiodata_faissEmbedding.py . Мы использовали модель Whisper ASR Openai для преобразования звука в текст. Узнайте больше о Whisper здесь. Для интересного глубокого погружения в спектрограммы MEL, ознакомьтесь с этой статьей.
Поиск сходства с Faiss : Faiss, разработанный Facebook AI Research, предназначен для эффективного поиска сходства и кластеризации плотных векторов. Это невероятно полезно для поиска подобных элементов в наборе данных, основанном на их векторных представлениях. Для получения подробного объяснения, посетите официальную страницу Faiss.
Почему мы выбрали ChromAdb через Faiss для этого проекта? Вот быстрое сравнение:
Для многомодальных поисков (например, поиск текста с вторжениями изображений), ChromADB предлагает большую гибкость, чем Faiss. Мы разбиваем наш процесс принятия решений и реализацию в Main.py , проиллюстрированную на следующей диаграмме (вставьте диаграмму здесь).
Чтобы начать с этого проекта, выполните следующие действия:
pip install -r requirements.txtdata .