Langchainのセルフクエリレトリバーを常に改善しています。一部の機能はまだマージされていません。

さらに別のチャットドキュメントアプリですが、MyScaleとLangchainを使用して何百万ものファイルよりもクエリをサポートしています。
ChatDataは、MyScaleの無料ナレッジベースまたはアップロードされたドキュメントをクエリすることにより、情報を抽出して回答を提供するように設計されたドキュメント付きの堅牢なチャットアプリケーションです。
検索拡張ジェネレーション(RAG)フレームワークを搭載したChatDataは、数百万のウィキペディアページとARXIVペーパーを外部の知識ベースとして活用し、すべてのデータホスティングタスクをマイスケールで管理しています。質問を自然言語で入力するだけで、ChatDataはSQLの生成、データの照会、結果の表示に対応します。
チャットエクスペリエンスを向上させると、ChatDataは3つの重要な機能を紹介します。それらのそれぞれを詳細に掘り下げましょう。
MyScaleはLangchainと緊密に連携し、LLMとの複雑なクエリを構築するための最も簡単なインターフェイスを提供します。
セルフクエリレトリバー: MyScaleの拡張Langchainのセルフクエリレトリバーを拡張しました。ここでは、LLMは、クエリ用のフィルターを構築するために、タイムスタンプや文字列の配列など、より多くのデータ型を使用できます。
VectorsQl: SQLは強力であり、複雑な検索クエリを構築するために使用できます。 Vector Structured Query Language(Vector SQL)は、LLMSにSQL Vectorデータベースを照会する方法を教えるように設計されています。一般的なデータ型と関数に加えて、VectorsQLには距離(列、query_vector)やNeuralArray(エンティティ)などの追加関数が含まれており、ベクトル検索用の標準SQLを拡張できます。
あなたの経験を強化し、既存のセッションとのシームレスにやり取りを続けるために、ChatDataはセッション管理機能を紹介しました。セッションIDを簡単にカスタマイズし、プロンプトを変更して、クエリに対処するためにChatDataをガイドできます。数回クリックするだけで、スムーズでパーソナライズされたセッションのインタラクションを楽しむことができます。
回答のためにMyScaleを搭載したChatDataの外部ナレッジベースをタップすることに加えて、独自のファイルをアップロードしてパーソナライズされた知識ベースを確立するオプションもあります。この目的のために非構造化されたAPIを実装し、ドキュメントからの処理されたテキストのみが保存され、データプライバシーの優先順位を付けるようにしました。
結論として、ChatDataを使用すると、膨大な量のデータを簡単にナビゲートでき、必要なものに正確にアクセスできます。あなたが研究者、学生、または知識愛好家であろうと、ChatDataは、これまでにないような学術論文や研究文書を探求することができます。 ChatDataで情報検索の真の可能性を解き放ち、指先で知識の世界を発見してください。
diveyching愛を抱きながら、チャットダタを体験しますか?

データベース資格情報:
MYSCALE_HOST = " msc-950b9f1f.us-east-1.aws.myscale.com "
MYSCALE_PORT = 443
MYSCALE_USER = " chatdata "
MYSCALE_PASSWORD = " myscale_rocks " wiki.WikipediaChatDataは、Wikipediaへのアクセスも提供します。Wikipediaは、500万ページ未満の約3,600万段落を含む大きな知識ベースです。ナレッジベースは、2022-12のスナップショットです。
ここでパブリックアカウントでこのテーブルから照会できます。
CREATE TABLE wiki .Wikipedia (
-- Record ID
` id ` String,
-- Page title to this paragraph
` title ` String,
-- Paragraph text
` text ` String,
-- Page URL
` url ` String,
-- Wiki page ID
` wiki_id ` UInt64,
-- View statistics
` views ` Float32,
-- Paragraph ID
` paragraph_id ` UInt64,
-- Language ID
` langs ` UInt32,
-- Feature vector to this paragraph
` emb ` Array(Float32),
-- Vector Index
VECTOR INDEX emb_idx emb TYPE MSTG( ' metric_type=Cosine ' ),
CONSTRAINT emb_len CHECK length(emb) = 768 )
ENGINE = ReplacingMergeTree ORDER BY id SETTINGS index_granularity = 8192 default.ChatArXivChatDataは、何百万もの論文を知識ベースに持ち込みます。メタデータ情報を含む220万の論文を輸入しました。
id :PaperのARXIV IDabstract :ランキング基準として使用されるPaperの要約(instructxlを使用)vector : Array(Float32)metadata :Langchain VectorStore互換列metadata.authors :文字列リストの紙の著者metadata.abstract :ランキング基準として使用される紙の要約(instrubexlを使用)metadata.titles :論文のタイトルmetadata.categories :["cs.cv"]のような文字列のリストにある紙のカテゴリmetadata.pubdate : ISO 8601フォーミングされた文字列での紙の出版日metadata.primary_category :arxivによって定義された文字列の紙の主要なカテゴリmetadata.comment :論文への追加のコメント以下の列はMyScaleのネイティブ列であり、Sqldatabaseとしてのみ使用できます
authors :文字列のリストにある紙の著者titles :論文のタイトルcategories :["cs.cv"]のような文字列のリストにある紙のカテゴリpubdate :日付32データ型(より速い)での紙の出版日primary_category :arxivによって定義された文字列の紙のプライマリカテゴリcomment :論文への追加のコメント全体的な表スキーマについては、Docs/self query.mdのテーブル作成セクションを参照してください。
このデータベースをlangchain.chains.sql_database.base.SQLDatabaseChainまたはlangchain.retrievers.SQLDatabaseRetrieverで使用する場合は、ドキュメント/vector-sql.mdのデータ準備セクションとチェーン作成セクションのガイドをフォローしてください
S3の寄木細工ファイルから
または、MyScaleデータベースをサービスとして直接使用してください...無料で
import clickhouse_connect
client = clickhouse_connect . get_client (
host = 'msc-950b9f1f.us-east-1.aws.myscale.com' ,
port = 443 ,
username = 'chatdata' ,
password = 'myscale_rocks'
)app/ cd app/python3 -m venv venv
source venv/bin/activatepython3 -m pip install -r requirements.txt # fill you OpenAI key in .streamlit/secrets.toml
cp . streamlit / secrets . example . toml . streamlit / secrets . toml
# start the app
python3 - m streamlit run app . py記事全体を読んでください
記事全体を読んでください