ChatData скачать - загрузка исходного кода ChatData

ChatData

Другой исходный код

1.0.0

Скачать

Чатдата?

Мы постоянно совершенствуем самостоятельный ретривер Лэнгчейна. Некоторые из функций еще не объединены.

Еще одно приложение в чате с документами, но поддержка запроса на миллионы файлов с помощью MyScale и Langchain.

Введение

Обзор

Чатдата-это надежное приложение в чате с документами, предназначенное для извлечения информации и предоставления ответов, запрашивая бесплатную базу знаний MyScale или загруженные документы.

Основанная на рамках извлеченного добыченного поколения (RAG), Chatdata использует миллионы страниц Википедии и арксивские документы в качестве своей внешней базы знаний, с MyScale управлять всеми задачами по размещению данных. Просто введите свои вопросы на естественном языке, и Чатдата заботится о создании SQL, запросе данных и представлении результатов.

Улучшение вашего чата, Чатдата представляет три ключевых функции. Давайте подробно расскажем о каждом из них.

Особенность 1: тип ретривера

MyScale тесно сотрудничает с Langchain, обеспечивая самый простой интерфейс для создания сложных запросов с LLM.

Самооценка ретривера: MyScale Aucmented Langchain's Self-retriever, где LLM может использовать больше типов данных, например, метки времени и массивы строк, для создания фильтров для запроса.

VectorsQL: SQL является мощным и может использоваться для построения сложных поисковых запросов. Векторный структурированный язык запросов (Vector SQL) предназначен для обучения LLMS, как запросить SQL Vector Databases. Помимо общих типов и функций данных, VectorsQL содержит дополнительные функции, такие как расстояние (столбец, Query_vector) и NeuralArray (Entity), с помощью которых мы можем расширить стандартный SQL для поиска вектора.

Функция 2: Управление сеансом

Чтобы улучшить ваш опыт и плавно продолжать взаимодействие с существующими сессиями, Chatdata представила функцию управления сеансом. Вы можете легко настроить свой идентификатор сеанса и изменить свою подсказку для руководства ChatData при обращении к вашим запросам. С всего лишь нескольких кликов вы можете наслаждаться плавными и персонализированными сеансами взаимодействия.

Особенность 3: Создание собственной базы знаний

В дополнение к тому, чтобы использовать внешнюю базу знаний Чатдаты, основанную на MyScale для ответов, у вас также есть возможность загружать свои собственные файлы и установить персонализированную базу знаний. Для этой цели мы реализовали неструктурированный API, гарантируя, что хранятся только обработанные тексты из ваших документов, определяя приоритеты вашей конфиденциальности данных.

В заключение, с Chatdata вы можете без особых усилий перемещаться по огромным объему данных, легко добравшись точно так, как вам нужно. Являетесь ли вы исследователем, студентом или энтузиастом знаний, Chatdata дает вам возможность изучить академические документы и исследовательские документы, как никогда раньше. Разблокируйте истинный потенциал поиска информации с Чатдатой и откройте для себя мир знаний.

➡ Погрузитесь и испытайте Чатдату на обнимании лица?

Чатдата домашняя страница

Схема данных

Учетные данные базы данных:

 MYSCALE_HOST = " msc-950b9f1f.us-east-1.aws.myscale.com "
MYSCALE_PORT = 443
MYSCALE_USER = " chatdata "
MYSCALE_PASSWORD = " myscale_rocks "

[Новая] Таблица `wiki.Wikipedia`

Чатдата также предоставляет вам доступ к Википедии, большой базе знаний, которая содержит около 36 миллионов абзацев до 5 миллионов страниц вики. База знаний-это снимок в 2022-12.

Вы можете запросить из этой таблицы с публичным аккаунтом здесь.

 CREATE TABLE wiki .Wikipedia (
    -- Record ID
    ` id ` String, 
    -- Page title to this paragraph
    ` title ` String, 
    -- Paragraph text
    ` text ` String,
    -- Page URL
    ` url ` String,
    -- Wiki page ID
    ` wiki_id ` UInt64,
    -- View statistics
    ` views ` Float32,
    -- Paragraph ID
    ` paragraph_id ` UInt64,
    -- Language ID
    ` langs ` UInt32, 
    -- Feature vector to this paragraph
    ` emb ` Array(Float32), 
    -- Vector Index
    VECTOR INDEX emb_idx emb TYPE MSTG( ' metric_type=Cosine ' ), 
    CONSTRAINT emb_len CHECK length(emb) = 768 ) 
ENGINE = ReplacingMergeTree ORDER BY id SETTINGS index_granularity = 8192

Таблица `default.ChatArXiv`

Чатдата приносит миллионы бумаг в вашу базу знаний. Мы импортировали 2,2 миллиона документов с информацией о метаданных, которая содержит:

id : идентификатор бумаги Arxiv
abstract : Тезисы Paper, используемые в качестве критерия ранжирования (с инструктом)
vector : столбец, который содержит векторный массив в Array(Float32)
metadata : совместимые с лангхайной вектором столбцы
1. metadata.authors : авторы Paper в списке строк
2. metadata.abstract .
3. metadata.titles : названия газет
4. metadata.categories .
5. metadata.pubdate : дата публикации бумаги в ISO 8601 Формированные строки
6. metadata.primary_category
7. metadata.comment : некоторые дополнительные комментарии к газете

Столбцы ниже являются собственными столбцами в MyScale и могут использоваться только в качестве SQLDATABASE

authors : авторы Paper в списке строк
titles : Названия газет
categories : категории бумаги в списке строк , таких как ["cs.cv"]
pubdate : дата публикации бумаги в Date32 Тип данных (быстрее)
primary_category : основная категория Paper в строках , определенная Arxiv
comment : некоторые дополнительные комментарии к газете

И для общей схемы таблицы, пожалуйста, обратитесь к разделу создания таблицы в Docs/Self-Query.md.

Если вы хотите использовать эту базу данных с помощью langchain.chains.sql_database.base.SQLDatabaseChain или langchain.retrievers.SQLDatabaseRetriever , следуйте руководствам по разделу подготовки данных и разделу креации цепи в Docs/vector-sql.md

Где я могу получить эти данные arxiv?

Из паркетных файлов на S3

Или напрямую используйте базу данных MyScale в качестве службы ... бесплатно

 import clickhouse_connect

client = clickhouse_connect . get_client (
    host = 'msc-950b9f1f.us-east-1.aws.myscale.com' ,
    port = 443 ,
    username = 'chatdata' ,
    password = 'myscale_rocks'
)

Ежемесячные обновления (ноябрь-2023)

Загрузите свои документы и общайтесь со своими собственными базами знаний с помощью MyScale!
Общайтесь с тряпными агентами как на базе знаний Arxiv, так и в Википедии!
Википедия доступна в качестве базы знаний !! Не стесняться? Чтобы спросить с 36 миллионами пунктов до 5 миллионов титулов! ?
? LLM теперь способны написать Vector SQL - расширенный SQL с векторным поиском! Vector SQL позволяет вам получить доступ к MyScale быстрее и сильнее ! Это скоро будет добавлено в Лэнгчейн ! (PR 7454)
? Индивидуальная QA -цепочка, которая дает вам больше информации о каждом PDF и отвечает на вопрос на вашем родном языке !
? Наш вклад в Langchain, который помогает самостоятельно ретриверу фильтровать с большим количеством типов и функций
? Мы только что открыли бесплатные данные хостинга для POD для Arxiv Paper. Любой может попробовать свой собственный SQL с векторным поиском !!! Почувствуйте силу, когда SQL встречает Vector Search! Посмотрите, как получить доступ к капсулу здесь.
Мы собрали около 2 миллионов документов на Arxiv ! Мы собираем больше, и нам нужен ваш совет!
Больше грядущего ...

Как построить собственное приложение с нуля?

QuickStart

Введите app/

 cd app/

Создать виртуальную среду

python3 -m venv venv
source venv/bin/activate

Установить зависимости

python3 -m pip install -r requirements.txt

Запустите приложение!

 # fill you OpenAI key in .streamlit/secrets.toml
cp . streamlit / secrets . example . toml . streamlit / secrets . toml
# start the app
python3 - m streamlit run app . py

С Langchain Sqldatabaserietersers

Прочитайте полную статью

Почему Vector SQL?
Как Langchain и MyScale превратили естественный язык в структурированные фильтры?
Как сделать выполнение цепи более отзывчивым в Лэнгхейне?

С самостоятельными ретриверами Langchain

Прочитайте полную статью

Как построено это приложение?
Что такое обзор трубопровода?
Как Langchain и MyScale превратили естественный язык в структурированные фильтры?
Как сделать выполнение цепи более отзывчивым в Лэнгхейне?

Сообщество ?

Добро пожаловать, чтобы присоединиться к нашему каналу #Chatdata в Discord, чтобы обсудить что -либо о Чатдате.
Не стесняйтесь подавать проблему или открывать PR против этого репозитория.

Особая спасибо? (Упорядочен в алфавитном порядке)

ARXIV API для взаимодействия с открытым доступом к предварительно напечатанным документам.
Инструкторатор для его быстрого встраивания, которые повышают производительность.
Лангхейн? ️? для его простых в использовании и композиционных конструкциях и подсказках API.
OpenChat Paper для быстрого дизайна.
Александрийский индекс для предоставления индекса данных ARXIV для общественности.

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-05-28
размер 6.58MB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

ChatData

Чатдата?

Введение

Обзор

Особенность 1: тип ретривера

Функция 2: Управление сеансом

Особенность 3: Создание собственной базы знаний

Схема данных

[Новая] Таблица `wiki.Wikipedia`

Таблица `default.ChatArXiv`

Где я могу получить эти данные arxiv?

Ежемесячные обновления (ноябрь-2023)

Как построить собственное приложение с нуля?

QuickStart

С Langchain Sqldatabaserietersers

С самостоятельными ретриверами Langchain

Сообщество ?

Особая спасибо? (Упорядочен в алфавитном порядке)

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

ChatData

Чатдата?

Введение

Обзор

Особенность 1: тип ретривера

Функция 2: Управление сеансом

Особенность 3: Создание собственной базы знаний

Схема данных

[Новая] Таблица wiki.Wikipedia

Таблица default.ChatArXiv

Где я могу получить эти данные arxiv?

Ежемесячные обновления (ноябрь-2023)

Как построить собственное приложение с нуля?

QuickStart

С Langchain Sqldatabaserietersers

С самостоятельными ретриверами Langchain

Сообщество ?

Особая спасибо? (Упорядочен в алфавитном порядке)

[Новая] Таблица `wiki.Wikipedia`

Таблица `default.ChatArXiv`