نحن نقوم باستمرار بتحسين مسترد لانجشين الذاتية. بعض الميزات لم يتم دمجها بعد.

هناك تطبيق آخر للدردشة-مع الاستثمار ، ولكنه يدعم الاستعلام على ملايين الملفات باستخدام Myscale و Langchain.
يعد ChatData تطبيقًا قويًا للدردشة مع الاستدعاء المصمم لاستخراج المعلومات وتقديم إجابات عن طريق الاستعلام عن قاعدة المعرفة المجانية Myscale أو مستنداتك التي تم تحميلها.
مدعومًا من إطار الجيل المعزز للاسترجاع (RAG) ، يقوم ChatData بالاستفادة من ملايين صفحات ويكيبيديا وأوراق Arxiv كقاعدة المعرفة الخارجية ، حيث تقوم Myscale بإدارة جميع مهام استضافة البيانات. ما عليك سوى إدخال أسئلتك باللغة الطبيعية ، ويهتم ChatData بتوليد SQL ، والاستعلام عن البيانات ، وتقديم النتائج.
تعزيز تجربة الدردشة الخاصة بك ، يقدم ChatData ثلاث ميزات رئيسية. دعنا نتعمق في كل منهم بالتفصيل.
يعمل Myscale عن كثب مع Langchain ، مما يوفر أسهل واجهة لبناء استعلامات معقدة مع LLM.
Retriever ذاتيا: Myscale المعزز ل Langchain الاستعلام الذاتي المسترد ، حيث يمكن لـ LLM استخدام المزيد من أنواع البيانات ، على سبيل المثال الطوابع الزمنية ومجموعة من الأوتار ، لإنشاء مرشحات للاستعلام.
VectorSQL: SQL قوي ويمكن استخدامه لإنشاء استعلامات بحث معقدة. تم تصميم لغة الاستعلام المنظمة Vector (Vector SQL) لتعليم LLMS كيفية الاستعلام عن قواعد بيانات SQL SQL. إلى جانب أنواع ووظائف البيانات العامة ، يحتوي VectorSQL على وظائف إضافية مثل المسافة (العمود ، Query_Vector) و NeuralArray (الكيان) ، والتي يمكننا من خلالها تمديد SQL القياسي للبحث في المتجه.
لتعزيز تجربتك ومتابعة التفاعلات بسلاسة مع الجلسات الحالية ، قدمت ChatData ميزة إدارة الجلسة. يمكنك بسهولة تخصيص معرف الجلسة الخاص بك وتعديل موجه لتوجيه ChatData في معالجة استفساراتك. مع بضع نقرات فقط ، يمكنك الاستمتاع بتفاعلات جلسة سلسة وشخصية.
بالإضافة إلى الاستفادة من قاعدة المعرفة الخارجية في ChatData مدعومة من MyScale للحصول على إجابات ، لديك أيضًا خيار تحميل ملفاتك الخاصة وإنشاء قاعدة معارف مخصصة. لقد قمنا بتنفيذ واجهة برمجة التطبيقات غير المهيكلة لهذا الغرض ، مع التأكد من تخزين النصوص التي تمت معالجتها فقط من مستنداتك ، مما يعطي الأولوية لخصوصية البيانات الخاصة بك.
في الختام ، مع Chatdata ، يمكنك التنقل دون عناء من خلال كميات هائلة من البيانات ، والوصول إلى ما تحتاجه بدقة. سواء كنت باحثًا أو طالبًا أو عشاقًا للمعرفة ، فإن ChatData يمكّنك من استكشاف الأوراق الأكاديمية والوثائق البحثية كما لم يحدث من قبل. افتح الإمكانات الحقيقية لاسترجاع المعلومات باستخدام Chatdata واكتشف عالمًا من المعرفة في متناول يدك.
➡ الغوص في وتجربة Chatdata على وجه المعانقة؟

بيانات اعتماد قاعدة البيانات:
MYSCALE_HOST = " msc-950b9f1f.us-east-1.aws.myscale.com "
MYSCALE_PORT = 443
MYSCALE_USER = " chatdata "
MYSCALE_PASSWORD = " myscale_rocks " wiki.Wikipediaيوفر لك ChatData أيضًا الوصول إلى ويكيبيديا ، وهي قاعدة معرفة كبيرة تحتوي على حوالي 36 مليون فقرات تقل عن 5 ملايين صفحة ويكي. قاعدة المعرفة هي لقطة في 2022-12.
يمكنك الاستعلام من هذا الجدول مع الحساب العام هنا.
CREATE TABLE wiki .Wikipedia (
-- Record ID
` id ` String,
-- Page title to this paragraph
` title ` String,
-- Paragraph text
` text ` String,
-- Page URL
` url ` String,
-- Wiki page ID
` wiki_id ` UInt64,
-- View statistics
` views ` Float32,
-- Paragraph ID
` paragraph_id ` UInt64,
-- Language ID
` langs ` UInt32,
-- Feature vector to this paragraph
` emb ` Array(Float32),
-- Vector Index
VECTOR INDEX emb_idx emb TYPE MSTG( ' metric_type=Cosine ' ),
CONSTRAINT emb_len CHECK length(emb) = 768 )
ENGINE = ReplacingMergeTree ORDER BY id SETTINGS index_granularity = 8192 default.ChatArXivChatdata يجلب ملايين الأوراق إلى قاعدة معرفتك. قمنا باستيراد 2.2 مليون ورقة مع معلومات البيانات الوصفية التي تحتوي على:
id : معرف Arxiv الخاص بالورقabstract : ملخصات الورق المستخدمة كمعيار ترتيب (مع instructxl)vector : العمود الذي يحتوي على صفيف المتجه في Array(Float32)metadata : الأعمدة المتوافقة مع Langchain VectorStoremetadata.authors : مؤلفو الورق في قائمة الأوتارmetadata.abstract : ملخصات الورق المستخدمة كمعيار ترتيب (مع instructxl)metadata.titles : عناوين الأوراقmetadata.categories : فئات الورق في قائمة الأوتار مثل ["CS.CV"]metadata.pubdate .metadata.primary_category .metadata.comment : بعض التعليقات الإضافية على الورقةالأعمدة أدناه عبارة
authors : مؤلفو الورق في قائمة الأوتارtitles : عناوين الأوراقcategories : فئات الورق في قائمة السلاسل مثل ["CS.CV"]pubdate : تاريخ النشر في Date32 نوع البيانات (أسرع)primary_category : الفئة الأولية للورقة في الأوتار المحددة بواسطة Arxivcomment : بعض التعليقات الإضافية على الورقةوبالنسبة لمخطط الجدول العام ، يرجى الرجوع إلى قسم إنشاء الجدول في المستندات/Querery.md.
إذا كنت ترغب في استخدام قاعدة البيانات هذه مع langchain.chains.sql_database.base.SQLDatabaseChain أو langchain.retrievers.SQLDatabaseRetriever ، يرجى اتباع أدلة على قسم إعداد البيانات وقسم إنشاء السلسلة في docs/vector-sql.md.md.md
من ملفات parquet على S3
أو استخدم قاعدة بيانات MyScale مباشرة كخدمة ... مجانًا
import clickhouse_connect
client = clickhouse_connect . get_client (
host = 'msc-950b9f1f.us-east-1.aws.myscale.com' ,
port = 443 ,
username = 'chatdata' ,
password = 'myscale_rocks'
)app/ cd app/python3 -m venv venv
source venv/bin/activatepython3 -m pip install -r requirements.txt # fill you OpenAI key in .streamlit/secrets.toml
cp . streamlit / secrets . example . toml . streamlit / secrets . toml
# start the app
python3 - m streamlit run app . pyاقرأ المقال الكامل
اقرأ المقال الكامل