我们不断地改善兰班的自质猎犬。一些功能还没有合并。

还有另一个与聊天有关应用程序的聊天应用程序,但使用myscale和langchain支持数百万个文件的查询。
ChatData是一个强大的聊天仪式应用程序,旨在通过查询MyScale免费知识库或您上传的文档来提取信息并提供答案。
Chatdata由检索增强生成(RAG)框架提供支持,将数百万个Wikipedia页面和Arxiv论文作为其外部知识库,而MyScale管理所有数据托管任务。只需以自然语言输入您的问题,Chatdata会处理生成SQL,查询数据并提出结果。
加强您的聊天体验,Chatdata介绍了三个关键功能。让我们详细深入研究他们。
MyScale与Langchain紧密合作,提供了最简单的界面来与LLM构建复杂的查询。
自我提取者: MyScale增强了Langchain的自查询回收猎犬,LLM可以使用更多数据类型,例如时间戳和字符串数组来构建查询的过滤器。
vectorsql: SQL功能强大,可用于构建复杂的搜索查询。向量结构的查询语言(Vector SQL)旨在教LLMS如何查询SQL矢量数据库。除了一般数据类型和功能外,vectorsql还包含距离(列,Query_Vector)和NeuralArray(Entity)的额外功能,我们可以通过它们扩展标准SQL以供向量搜索。
为了增强您的体验并无缝地继续与现有会话进行互动,Chatdata介绍了会话管理功能。您可以轻松自定义会话ID并修改您的提示,以指导ChatData解决您的查询。只需单击几下,您就可以享受平滑而个性化的会话互动。
除了利用由MyScale提供支持的Chatdata的外部知识库外,您还可以选择上传自己的文件并建立个性化的知识库。我们为此目的实施了非结构化的API,以确保仅存储文档中的经过处理的文本,从而优先考虑您的数据隐私。
总之,借助Chatdata,您可以毫不费力地浏览大量数据,从而毫不费力地访问所需的数据。无论您是研究人员,学生还是知识爱好者,Chatdata都使您能够探索以前从未像现在这样探索学术论文和研究文件。通过Chatdata解锁信息检索的真正潜力,并在您的触手需触手可及的情况下发现知识世界。
➡️在拥抱脸上潜入并体验Chatdata?

数据库凭据:
MYSCALE_HOST = " msc-950b9f1f.us-east-1.aws.myscale.com "
MYSCALE_PORT = 443
MYSCALE_USER = " chatdata "
MYSCALE_PASSWORD = " myscale_rocks " wiki.WikipediaChatdata还为您提供了Wikipedia的访问权限,Wikipedia是一个庞大的知识库,其中包含约3600万段的Wiki页面。知识库是2022-12的快照。
您可以在此处使用公共帐户从此表查询。
CREATE TABLE wiki .Wikipedia (
-- Record ID
` id ` String,
-- Page title to this paragraph
` title ` String,
-- Paragraph text
` text ` String,
-- Page URL
` url ` String,
-- Wiki page ID
` wiki_id ` UInt64,
-- View statistics
` views ` Float32,
-- Paragraph ID
` paragraph_id ` UInt64,
-- Language ID
` langs ` UInt32,
-- Feature vector to this paragraph
` emb ` Array(Float32),
-- Vector Index
VECTOR INDEX emb_idx emb TYPE MSTG( ' metric_type=Cosine ' ),
CONSTRAINT emb_len CHECK length(emb) = 768 )
ENGINE = ReplacingMergeTree ORDER BY id SETTINGS index_granularity = 8192 default.ChatArXivChatdata将数百万篇论文带入您的知识库。我们将220万篇文章带有元数据信息,其中包含:
id :纸的Arxiv IDabstract :用作排名标准的论文摘要(带有指令)vector :包含Array(Float32)metadata :兰链矢量库兼容列metadata.authorsmetadata.abstract :摘要:纸张的摘要用作排名标准(带有指令)metadata.titles :论文的标题metadata.categories :纸在[“ cs.cv”]等字符串列表中的类别metadata.pubdatemetadata.primary_category :arxiv定义的字符串中的纸张类别metadata.comment :对论文的其他评论下面的列是Myscale中的本机列,只能用作SQLDATABASE
authors :论文的作者在字符串列表中titles :论文的标题categories :纸在[“ cs.cv”]等字符串列表中的类别pubdate :纸张在Date32数据类型中的出版日期(更快)primary_category :由arxiv定义的字符串中的纸张类别comment :对论文的其他评论对于总体表模式,请参阅文档/selfquery.md中的表创建部分。
如果您想将此数据库与langchain.chains.sql_database.base.SQLDatabaseChain或langchain.retrievers.SQLDatabaseRetriever一起
从S3上的Parquet文件
或直接使用myscale数据库作为服务...免费
import clickhouse_connect
client = clickhouse_connect . get_client (
host = 'msc-950b9f1f.us-east-1.aws.myscale.com' ,
port = 443 ,
username = 'chatdata' ,
password = 'myscale_rocks'
)app/ cd app/python3 -m venv venv
source venv/bin/activatepython3 -m pip install -r requirements.txt # fill you OpenAI key in .streamlit/secrets.toml
cp . streamlit / secrets . example . toml . streamlit / secrets . toml
# start the app
python3 - m streamlit run app . py阅读全文
阅读全文