ดาวน์โหลด ChatData - ChatData ซอร์สโค้ดดาวน์โหลด

ChatData

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

chatdata?

เรากำลังปรับปรุง Retriever ด้วยตนเองของ Langchain อย่างต่อเนื่อง คุณสมบัติบางอย่างยังไม่ได้รวมเข้าด้วยกัน

ยังมีแอพแชทกับเอกสารอื่น แต่สนับสนุนการสืบค้นมากกว่าหลายล้านไฟล์ด้วย MyScale และ Langchain

การแนะนำ

ภาพรวม

Chatdata เป็นแอปพลิเคชั่นแชทที่มีประสิทธิภาพที่ออกแบบมาเพื่อดึงข้อมูลและให้คำตอบโดยการสอบถามฐานความรู้ฟรี MyScale หรือเอกสารที่คุณอัปโหลด

ขับเคลื่อนโดยเฟรมเวิร์ก Augmented Generation (RAG) Retrieval, Chatdata ใช้ประโยชน์จากหน้า Wikipedia หลายล้านหน้าและเอกสารอาร์กซ์เป็นฐานความรู้ภายนอกโดยมี MyScale จัดการงานโฮสต์ข้อมูลทั้งหมด เพียงแค่ป้อนคำถามของคุณในภาษาธรรมชาติและ Chatdata ดูแลการสร้าง SQL สอบถามข้อมูลและนำเสนอผลลัพธ์

เพิ่มประสบการณ์การแชทของคุณ Chatdata แนะนำคุณสมบัติที่สำคัญสามประการ ลองเจาะลึกลงไปในรายละเอียด

คุณสมบัติ 1: ประเภท Retriever

MyScale ทำงานอย่างใกล้ชิดกับ Langchain ซึ่งเป็นอินเทอร์เฟซที่ง่ายที่สุดในการสร้างแบบสอบถามที่ซับซ้อนด้วย LLM

Retriever แบบมีข้อสงสัยด้วยตนเอง: MyScale Augmented Self Querying Retriever ของ MyScale ซึ่ง LLM สามารถใช้ประเภทข้อมูลเพิ่มเติมเช่นการประทับเวลาและสตริงอาร์เรย์เพื่อสร้างตัวกรองสำหรับการสืบค้น

VectorsQL: SQL มีประสิทธิภาพและสามารถใช้ในการสร้างคำค้นหาที่ซับซ้อน Vector Structured Query Language (Vector SQL) ได้รับการออกแบบมาเพื่อสอน LLM วิธีการสอบถามฐานข้อมูลเวกเตอร์ SQL นอกจากประเภทข้อมูลและฟังก์ชั่นทั่วไปแล้ว VectorsQL ยังมีฟังก์ชั่นพิเศษเช่นระยะทาง (คอลัมน์, query_vector) และ NeuralArray (เอนทิตี) ซึ่งเราสามารถขยาย SQL มาตรฐานสำหรับการค้นหาเวกเตอร์

คุณสมบัติ 2: การจัดการเซสชัน

เพื่อปรับปรุงประสบการณ์ของคุณและการโต้ตอบกับเซสชันที่มีอยู่อย่างต่อเนื่อง Chatdata ได้แนะนำคุณสมบัติการจัดการเซสชัน คุณสามารถปรับแต่งรหัสเซสชันของคุณได้อย่างง่ายดายและแก้ไขพรอมต์ของคุณเพื่อแนะนำ Chatdata ในการสอบถามข้อมูลของคุณ ด้วยการคลิกเพียงไม่กี่ครั้งคุณสามารถเพลิดเพลินไปกับการโต้ตอบกับเซสชันที่ราบรื่นและเป็นส่วนตัว

คุณสมบัติ 3: สร้างฐานความรู้ของคุณเอง

นอกเหนือจากการแตะที่ฐานความรู้ภายนอกของ Chatdata ขับเคลื่อนโดย MyScale สำหรับคำตอบคุณยังมีตัวเลือกในการอัปโหลดไฟล์ของคุณเองและสร้างฐานความรู้ส่วนตัว เราได้ใช้ API ที่ไม่มีโครงสร้างเพื่อจุดประสงค์นี้เพื่อให้มั่นใจว่ามีการจัดเก็บข้อความจากเอกสารของคุณเท่านั้นที่จัดลำดับความสำคัญของข้อมูลความเป็นส่วนตัวของคุณ

โดยสรุปด้วย Chatdata คุณสามารถนำทางผ่านข้อมูลจำนวนมากได้อย่างง่ายดายเข้าถึงสิ่งที่คุณต้องการได้อย่างแม่นยำ ไม่ว่าคุณจะเป็นนักวิจัยนักเรียนหรือผู้ที่ชื่นชอบความรู้ Chatdata จะช่วยให้คุณสำรวจเอกสารทางวิชาการและเอกสารการวิจัยอย่างที่ไม่เคยมีมาก่อน ปลดล็อกศักยภาพที่แท้จริงของการดึงข้อมูลด้วย Chatdata และค้นพบโลกแห่งความรู้ที่ปลายนิ้วของคุณ

➡ดำน้ำและสัมผัสกับ Chatdata เมื่อกอดหน้า?

หน้าแรก Chatdata

สคีมาข้อมูล

ข้อมูลรับรองฐานข้อมูล:

 MYSCALE_HOST = " msc-950b9f1f.us-east-1.aws.myscale.com "
MYSCALE_PORT = 443
MYSCALE_USER = " chatdata "
MYSCALE_PASSWORD = " myscale_rocks "

[ใหม่] ตาราง `wiki.Wikipedia`

Chatdata ยังให้คุณเข้าถึง Wikipedia ซึ่งเป็นฐานความรู้ขนาดใหญ่ที่มีประมาณ 36 ล้านวรรคภายใต้ 5 ล้านหน้าวิกิ ฐานความรู้คือภาพรวมในปี 2022-12

คุณสามารถสอบถามได้จากตารางนี้ด้วยบัญชีสาธารณะที่นี่

 CREATE TABLE wiki .Wikipedia (
    -- Record ID
    ` id ` String, 
    -- Page title to this paragraph
    ` title ` String, 
    -- Paragraph text
    ` text ` String,
    -- Page URL
    ` url ` String,
    -- Wiki page ID
    ` wiki_id ` UInt64,
    -- View statistics
    ` views ` Float32,
    -- Paragraph ID
    ` paragraph_id ` UInt64,
    -- Language ID
    ` langs ` UInt32, 
    -- Feature vector to this paragraph
    ` emb ` Array(Float32), 
    -- Vector Index
    VECTOR INDEX emb_idx emb TYPE MSTG( ' metric_type=Cosine ' ), 
    CONSTRAINT emb_len CHECK length(emb) = 768 ) 
ENGINE = ReplacingMergeTree ORDER BY id SETTINGS index_granularity = 8192

Table `default.ChatArXiv`

Chatdata นำเอกสารนับล้านเข้ามาในฐานความรู้ของคุณ เรานำเข้าเอกสาร 2.2 ล้านฉบับพร้อมข้อมูลข้อมูลเมตาซึ่งมี:

id : arxiv id ของกระดาษ
abstract : บทคัดย่อของกระดาษใช้เป็นเกณฑ์การจัดอันดับ (พร้อม contractxl)
vector : คอลัมน์ที่มีเวกเตอร์อาร์เรย์ใน Array(Float32)
metadata : คอลัมน์ที่เข้ากันได้ของ Langchain Vectorstore
1. metadata.authors : ผู้เขียนกระดาษใน รายการสตริง
2. metadata.abstract : บทคัดย่อของกระดาษใช้เป็นเกณฑ์การจัดอันดับ (พร้อม contractxl)
3. metadata.titles : ชื่อของเอกสาร
4. metadata.categories : หมวดหมู่ของกระดาษใน รายการสตริง เช่น ["CS.CV"]
5. metadata.pubdate : วันที่ตีพิมพ์ของกระดาษใน iso 8601 strings ที่จัดตั้งขึ้น
6. metadata.primary_category : หมวดหมู่หลักของ Paper ใน สตริง ที่กำหนดโดย arxiv
7. metadata.comment : ความคิดเห็นเพิ่มเติมบางอย่างกับกระดาษ

คอลัมน์ด้านล่างเป็นคอลัมน์ดั้งเดิมใน myscale และสามารถใช้เป็น sqldatabase เท่านั้น

authors : ผู้เขียนกระดาษใน รายการสตริง
titles : ชื่อของเอกสาร
categories : หมวดหมู่ของกระดาษใน รายการสตริง เช่น ["CS.CV"]
pubdate : วันที่ตีพิมพ์ของกระดาษใน ประเภทข้อมูลวันที่ 32 (เร็วขึ้น)
primary_category : หมวดหมู่หลักของกระดาษใน สตริง ที่กำหนดโดย arxiv
comment : ความคิดเห็นเพิ่มเติมบางอย่างกับกระดาษ

และสำหรับสคีมาตารางโดยรวมโปรดดูส่วนการสร้างตารางในเอกสาร/query.md

หากคุณต้องการใช้ฐานข้อมูลนี้กับ langchain.chains.sql_database.base.SQLDatabaseChain หรือ langchain.retrievers.SQLDatabaseRetriever โปรดติดตามคำแนะนำเกี่ยวกับส่วนการเตรียมข้อมูลและส่วนการสร้างโซ่ในเอกสาร/vector-sql.md

ฉันจะหาข้อมูล arxiv เหล่านั้นได้ที่ไหน

จากไฟล์ Parquet บน S3

หรือใช้ฐานข้อมูล myscale โดยตรงเป็นบริการ ... ฟรี

 import clickhouse_connect

client = clickhouse_connect . get_client (
    host = 'msc-950b9f1f.us-east-1.aws.myscale.com' ,
    port = 443 ,
    username = 'chatdata' ,
    password = 'myscale_rocks'
)

อัปเดตรายเดือน (พฤศจิกายน-2566)

อัปโหลดเอกสารของคุณและแชทกับฐานความรู้ของคุณเองด้วย MyScale!
แชทกับตัวแทนที่เปิดใช้งาน RAG ทั้งฐานความรู้ Arxiv และ Wikipedia!
Wikipedia มีให้เป็นฐานความรู้ !! รู้สึกฟรี? หากต้องการถามด้วยย่อหน้า 36 ล้านวรรคต่ำกว่า 5 ล้านชื่อ! -
- ตอนนี้ LLMS สามารถเขียน เวกเตอร์ SQL - SQL เพิ่มเติมพร้อมการค้นหาเวกเตอร์! Vector SQL ช่วยให้คุณ เข้าถึง myscale ได้เร็วขึ้นและแข็งแกร่งขึ้น ! จะ ถูกเพิ่มใน Langchain เร็ว ๆ นี้! (PR 7454)
- ห่วงโซ่ QA ดึงข้อมูลที่กำหนดเองที่ให้ ข้อมูลเพิ่มเติม เกี่ยวกับแต่ละ PDF และ ตอบคำถามในภาษาแม่ของคุณ !
- การมีส่วนร่วมของเราต่อ Langchain ที่ช่วยตัวกรองตัว กรองด้วยตนเองด้วยประเภทและฟังก์ชั่นที่มากขึ้น
- เราเพิ่งเปิดข้อมูลการโฮสต์ Pod ฟรีสำหรับกระดาษ Arxiv ทุกคนสามารถลอง SQL ของตัวเองด้วยการค้นหาเวกเตอร์ !!! รู้สึกถึงพลังเมื่อ SQL พบกับการค้นหาเวกเตอร์! ดูวิธีการเข้าถึงฝักที่นี่
เรารวบรวม เอกสารเกี่ยวกับ arxiv ประมาณ 2 ล้านฉบับ ! เรากำลังรวบรวมมากขึ้นและเราต้องการคำแนะนำของคุณ!
เพิ่มเติมมา ...

วิธีสร้างแอพของคุณเองตั้งแต่เริ่มต้น?

เร็ว

ป้อน app/

 cd app/

สร้างสภาพแวดล้อมเสมือนจริง

python3 -m venv venv
source venv/bin/activate

ติดตั้งการพึ่งพา

python3 -m pip install -r requirements.txt

เรียกใช้แอพ!

 # fill you OpenAI key in .streamlit/secrets.toml
cp . streamlit / secrets . example . toml . streamlit / secrets . toml
# start the app
python3 - m streamlit run app . py