我們不斷地改善蘭班的自質獵犬。一些功能還沒有合併。

還有另一個與聊天有關應用程序的聊天應用程序,但使用myscale和langchain支持數百萬個文件的查詢。
ChatData是一個強大的聊天儀式應用程序,旨在通過查詢MyScale免費知識庫或您上傳的文檔來提取信息並提供答案。
Chatdata由檢索增強生成(RAG)框架提供支持,將數百萬個Wikipedia頁面和Arxiv論文作為其外部知識庫,而MyScale管理所有數據託管任務。只需以自然語言輸入您的問題,Chatdata會處理生成SQL,查詢數據並提出結果。
加強您的聊天體驗,Chatdata介紹了三個關鍵功能。讓我們詳細深入研究他們。
MyScale與Langchain緊密合作,提供了最簡單的界面來與LLM構建複雜的查詢。
自我提取者: MyScale增強了Langchain的自查詢回收獵犬,LLM可以使用更多數據類型,例如時間戳和字符串數組來構建查詢的過濾器。
vectorsql: SQL功能強大,可用於構建複雜的搜索查詢。向量結構的查詢語言(Vector SQL)旨在教LLMS如何查詢SQL矢量數據庫。除了一般數據類型和功能外,vectorsql還包含距離(列,Query_Vector)和NeuralArray(Entity)的額外功能,我們可以通過它們擴展標準SQL以供向量搜索。
為了增強您的體驗並無縫地繼續與現有會話進行互動,Chatdata介紹了會話管理功能。您可以輕鬆自定義會話ID並修改您的提示,以指導ChatData解決您的查詢。只需單擊幾下,您就可以享受平滑而個性化的會話互動。
除了利用由MyScale提供支持的Chatdata的外部知識庫外,您還可以選擇上傳自己的文件並建立個性化的知識庫。我們為此目的實施了非結構化的API,以確保僅存儲文檔中的經過處理的文本,從而優先考慮您的數據隱私。
總之,借助Chatdata,您可以毫不費力地瀏覽大量數據,從而毫不費力地訪問所需的數據。無論您是研究人員,學生還是知識愛好者,Chatdata都使您能夠探索以前從未像現在這樣探索學術論文和研究文件。通過Chatdata解鎖信息檢索的真正潛力,並在您的觸手需觸手可及的情況下發現知識世界。
➡️在擁抱臉上潛入並體驗Chatdata?

數據庫憑據:
MYSCALE_HOST = " msc-950b9f1f.us-east-1.aws.myscale.com "
MYSCALE_PORT = 443
MYSCALE_USER = " chatdata "
MYSCALE_PASSWORD = " myscale_rocks " wiki.WikipediaChatdata還為您提供了Wikipedia的訪問權限,Wikipedia是一個龐大的知識庫,其中包含約3600萬段的Wiki頁面。知識庫是2022-12的快照。
您可以在此處使用公共帳戶從此表查詢。
CREATE TABLE wiki .Wikipedia (
-- Record ID
` id ` String,
-- Page title to this paragraph
` title ` String,
-- Paragraph text
` text ` String,
-- Page URL
` url ` String,
-- Wiki page ID
` wiki_id ` UInt64,
-- View statistics
` views ` Float32,
-- Paragraph ID
` paragraph_id ` UInt64,
-- Language ID
` langs ` UInt32,
-- Feature vector to this paragraph
` emb ` Array(Float32),
-- Vector Index
VECTOR INDEX emb_idx emb TYPE MSTG( ' metric_type=Cosine ' ),
CONSTRAINT emb_len CHECK length(emb) = 768 )
ENGINE = ReplacingMergeTree ORDER BY id SETTINGS index_granularity = 8192 default.ChatArXivChatdata將數百萬篇論文帶入您的知識庫。我們將220萬篇文章帶有元數據信息,其中包含:
id :紙的Arxiv IDabstract :用作排名標準的論文摘要(帶有指令)vector :包含Array(Float32)metadata :蘭鏈矢量庫兼容列metadata.authorsmetadata.abstract :摘要:紙張的摘要用作排名標準(帶有指令)metadata.titles :論文的標題metadata.categories :紙在[“ cs.cv”]等字符串列表中的類別metadata.pubdatemetadata.primary_category :arxiv定義的字符串中的紙張類別metadata.comment :對論文的其他評論下面的列是Myscale中的本機列,只能用作SQLDATABASE
authors :論文的作者在字符串列表中titles :論文的標題categories :紙在[“ cs.cv”]等字符串列表中的類別pubdate :紙張在Date32數據類型中的出版日期(更快)primary_category :由arxiv定義的字符串中的紙張類別comment :對論文的其他評論對於總體表模式,請參閱文檔/selfquery.md中的表創建部分。
如果您想將此數據庫與langchain.chains.sql_database.base.SQLDatabaseChain或langchain.retrievers.SQLDatabaseRetriever一起
從S3上的Parquet文件
或直接使用myscale數據庫作為服務...免費
import clickhouse_connect
client = clickhouse_connect . get_client (
host = 'msc-950b9f1f.us-east-1.aws.myscale.com' ,
port = 443 ,
username = 'chatdata' ,
password = 'myscale_rocks'
)app/ cd app/python3 -m venv venv
source venv/bin/activatepython3 -m pip install -r requirements.txt # fill you OpenAI key in .streamlit/secrets.toml
cp . streamlit / secrets . example . toml . streamlit / secrets . toml
# start the app
python3 - m streamlit run app . py閱讀全文
閱讀全文