ChatData Download - ChatData Quellcode herunterladen

ChatData

Anderer Quellcode

1.0.0

Herunterladen

Chatdata?

Wir verbessern ständig Langchains Selbstadretriever. Einige der Funktionen werden noch nicht verschmolzen.

Noch eine Chat-mit-Dokumenten-App, aber die Abfrage über Millionen von Dateien mit MyScale und Langchain unterstützt.

Einführung

Überblick

ChatData ist eine robuste Chat-mit-Dokumente, mit der Informationen extrahiert und Antworten geliefert werden, indem die kostenlose Wissensbasis von MyScale oder Ihre hochgeladenen Dokumente abfragt.

Chatdata wird durch den Rahmen von RAGED -Rahmen für Augmented Generation (RAG) angetrieben und nutzt Millionen von Wikipedia -Seiten und Arxiv -Papieren als externe Wissensbasis, wobei MyScale alle Daten zur Hosting -Aufgaben verwaltet. Geben Sie einfach Ihre Fragen in die natürliche Sprache ein, und Chatdata kümmert sich um das Generieren von SQL, die Abfragetation der Daten und die Präsentation der Ergebnisse.

Chatdata verbessert Ihr Chat -Erlebnis und führt drei wichtige Funktionen ein. Lassen Sie uns ausführlich in sie eintauchen.

Feature 1: Retrievertyp

MyScale arbeitet eng mit Langchain zusammen und bietet die einfachste Schnittstelle, um komplexe Abfragen mit LLM zu erstellen.

Self-Retriever: MyScale Augmented Langchains Selbstabfrage-Retriever, wobei der LLM mehr Datentypen verwenden kann, z. B. Zeitstempel und Array von Zeichenfolgen, um Filter für die Abfrage zu erstellen.

VectorsQL: SQL ist leistungsstark und kann verwendet werden, um komplexe Suchabfragen zu konstruieren. Vector Structured Query Language (Vector SQL) soll LLMs vermitteln, wie SQL -Vektor -Datenbanken abfragen. Neben den allgemeinen Datentypen und Funktionen enthält VectorsQL zusätzliche Funktionen wie Distanz (Spalte, Query_Vector) und NeuralArray (Entity), mit denen wir die Standard -SQL für die Vektorsuche erweitern können.

Feature 2: Sitzungsverwaltung

Um Ihre Erfahrungen zu verbessern und die Interaktionen mit vorhandenen Sitzungen nahtlos fortzusetzen, hat ChatData die Funktionsverwaltungsfunktion eingeführt. Sie können Ihre Sitzungs -ID problemlos anpassen und Ihre Eingabeaufforderung ändern, um ChatData bei der Adressierung Ihrer Abfragen zu führen. Mit nur wenigen Klicks können Sie reibungslose und personalisierte Sitzungsinteraktionen genießen.

Feature 3: Erstellen Sie Ihre eigene Wissensbasis

Zusätzlich zum Tippen auf die externe Wissensbasis von ChatData von MyScale für Antworten haben Sie auch die Möglichkeit, Ihre eigenen Dateien hochzuladen und eine personalisierte Wissensbasis einzurichten. Wir haben die unstrukturierte API zu diesem Zweck implementiert, um sicherzustellen, dass nur verarbeitete Texte aus Ihren Dokumenten gespeichert werden und Ihre Datenschutzpriorität priorisieren.

Zusammenfassend können Sie mit ChatData mühelos durch große Mengen an Daten navigieren und mühelos auf genau das zugreifen, was Sie benötigen. Egal, ob Sie ein Forscher, ein Student oder ein Wissensliebhaber sind, Chatdata ermöglicht es Ihnen, akademische Papiere und Forschungsdokumente wie nie zuvor zu erforschen. Schalte das wahre Potenzial des Informationsabrufs mit Chatdata frei und entdecken Sie eine Welt des Wissens in Ihren Fingerspitzen.

➡️ Tauchen Sie ein und erleben Sie Chatdata auf dem Umarmungsgesicht?

Chatdata Homepage

Datenschema

Datenbankanmeldeinformationen:

 MYSCALE_HOST = " msc-950b9f1f.us-east-1.aws.myscale.com "
MYSCALE_PORT = 443
MYSCALE_USER = " chatdata "
MYSCALE_PASSWORD = " myscale_rocks "

[Neu] TABEL `wiki.Wikipedia`

Chatdata bietet Ihnen auch Zugriff auf Wikipedia, eine große Wissensbasis, die etwa 36 Millionen Absätze unter 5 Millionen Wiki -Seiten enthält. Die Wissensbasis ist ein Schnappschuss für 2022-12.

Sie können hier mit dem öffentlichen Konto aus dieser Tabelle abfragen.

 CREATE TABLE wiki .Wikipedia (
    -- Record ID
    ` id ` String, 
    -- Page title to this paragraph
    ` title ` String, 
    -- Paragraph text
    ` text ` String,
    -- Page URL
    ` url ` String,
    -- Wiki page ID
    ` wiki_id ` UInt64,
    -- View statistics
    ` views ` Float32,
    -- Paragraph ID
    ` paragraph_id ` UInt64,
    -- Language ID
    ` langs ` UInt32, 
    -- Feature vector to this paragraph
    ` emb ` Array(Float32), 
    -- Vector Index
    VECTOR INDEX emb_idx emb TYPE MSTG( ' metric_type=Cosine ' ), 
    CONSTRAINT emb_len CHECK length(emb) = 768 ) 
ENGINE = ReplacingMergeTree ORDER BY id SETTINGS index_granularity = 8192

Tabelle `default.ChatArXiv`

Chatdata bringt Millionen von Papieren in Ihre Wissensbasis. Wir haben 2,2 Millionen Papiere mit Metadateninformationen importiert, die enthält:

id
abstract : Papierabtrakte, die als Ranking -Kriterium verwendet werden (mit Instructxl)
vector : Spalte, die das Vektorarray in Array(Float32)
metadata : Langchain Vectorstore kompatible Spalten
1. metadata.authors : Papierautoren in Liste der Saiten
2. metadata.abstract : Papiers Abstracts, die als Ranking -Kriterium verwendet werden (mit Instructxl)
3. metadata.titles : Papers -Titel
4. metadata.categories : Papierkategorien in Liste der Zeichenfolgen wie ["Cs.cv"]
5. metadata.pubdate : Veröffentlichungsdatum des Papiers in ISO 8601 Formatierte Zeichenfolgen
6. metadata.primary_category : die primäre Kategorie des Papiers in von Arxiv definierten Zeichenfolgen
7. metadata.comment : Einige zusätzliche Kommentare zum Papier

Spalten unten sind native Spalten in MyScale und können nur als SQLDATABase verwendet werden

authors : Autoren von Papier in Liste der Zeichenfolgen
titles : Papiere Titel
categories : Papierkategorien in Liste der Zeichenfolgen wie ["Cs.cv"]
pubdate : Veröffentlichungsdatum des Papiers in Datum 32 Datentyp (schneller)
primary_category : Die primäre Kategorie des Papiers in von Arxiv definierten Zeichenfolgen
comment : Ein zusätzlicher Kommentar zum Papier

Und für das Gesamtstabsschema finden Sie im Abschnitt "Tabellenerstellung" in DOCs/Self-Query.md.

Wenn Sie diese Datenbank mit langchain.chains.sql_database.base.SQLDatabaseChain oder langchain.retrievers.SQLDatabaseRetriever verwenden möchten, befolgen Sie bitte die Anleitungen zum Abschnitt "Datenvorbereitungen" und "Kettenerstellung Abschnitt"/Vector-SQL.MD

Wo kann ich diese Arxiv -Daten bekommen?

Aus Parkettdateien auf S3

Oder verwenden Sie die MyScale -Datenbank direkt als Service ... kostenlos

 import clickhouse_connect

client = clickhouse_connect . get_client (
    host = 'msc-950b9f1f.us-east-1.aws.myscale.com' ,
    port = 443 ,
    username = 'chatdata' ,
    password = 'myscale_rocks'
)

Monatliche Updates (November 2023)

Laden Sie Ihre Dokumente hoch und chatten Sie mit Ihren eigenen Wissensbasen mit MyScale!
Chatten Sie mit Lappen-fähigen Agenten sowohl auf Arxiv als auch auf der Wikipedia-Wissensbasis!
Wikipedia ist als Wissensbasis verfügbar !! Fühlen Sie sich frei? Mit 36 Millionen Absätzen unter 5 Millionen Titeln fragen! ?
? LLMs können jetzt Vektor SQL schreiben - ein erweitertes SQL mit Vektorsuche! Mit Vector SQL können Sie schneller und stärker auf MyScale zugreifen ! Dies wird bald zu Langchain hinzugefügt ! (PR 7454)
? Customized Retrieval QA -Kette, die Ihnen weitere Informationen zu jeder PDF gibt, und beantworten Sie die Frage in Ihrer Muttersprache !
? Unser Beitrag zu Langchain, mit dem Selfgrad Retriever mit mehr Typen und Funktionen filtern,
? Wir haben gerade ein kostenloses POD -Hosting -Daten für Arxiv -Papier geöffnet. Jeder kann seinen eigenen SQL mit Vektorsuche ausprobieren !!! Fühle die Macht, wenn SQL die Vektorsuche trifft! Sehen Sie, wie Sie hier auf den Pod zugreifen.
Wir haben ungefähr 2 Millionen Papiere auf Arxiv gesammelt! Wir sammeln mehr und brauchen Ihren Rat!
Weitere Kommen ...

Wie baue ich Ihre eigene App von Grund auf neu?

QuickStart

Geben Sie eine Verzeichnis app/

 cd app/

Erstellen Sie eine virtuelle Umgebung

python3 -m venv venv
source venv/bin/activate

Abhängigkeiten installieren

python3 -m pip install -r requirements.txt

Führen Sie die App aus!

 # fill you OpenAI key in .streamlit/secrets.toml
cp . streamlit / secrets . example . toml . streamlit / secrets . toml
# start the app
python3 - m streamlit run app . py

Mit Langchain SqldatabaserErtrievers

Lesen Sie den vollständigen Artikel

Warum Vector SQL?
Wie haben Langchain und Myscale die natürliche Sprache in strukturierte Filter umgewandelt?
Wie kann ich in Langchain die Kettenausführung reagierender machen?

Mit Langchain Self-Level-Retrievers

Lesen Sie den vollständigen Artikel

Wie wird diese App erstellt?
Was ist die Übersichtspipeline?
Wie haben Langchain und Myscale die natürliche Sprache in strukturierte Filter umgewandelt?
Wie kann ich in Langchain die Kettenausführung reagierender machen?

Gemeinschaft ?

Willkommen bei unserem #chatdata -Kanal in Discord, um etwas über Chatdata zu besprechen.
Fühlen Sie sich frei, ein Problem einzureichen oder eine PR gegen dieses Repository zu öffnen.

Besonderer Dank? (Alphabetisch geordnet)

ARXIV-API für die Interoperabilität von Open Access für vorgedruckte Papiere.
InstructorXL für seine prunkbaren Einbettungen, die die Leistung des Reliefs verbessern.
Langchain? Euen? für seine benutzerfreundlichen und komponierbaren API-Designs und -Ontreitungen.
OpenChatpaper für schnelle Designreferenz.
Der Alexandria -Index zur Bereitstellung von ARXIV -Datenindex für die Öffentlichkeit.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-05-28
Größe 6.58MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

ChatData

Chatdata?

Einführung

Überblick

Feature 1: Retrievertyp

Feature 2: Sitzungsverwaltung

Feature 3: Erstellen Sie Ihre eigene Wissensbasis

Datenschema

[Neu] TABEL `wiki.Wikipedia`

Tabelle `default.ChatArXiv`

Wo kann ich diese Arxiv -Daten bekommen?

Monatliche Updates (November 2023)

Wie baue ich Ihre eigene App von Grund auf neu?

QuickStart

Mit Langchain SqldatabaserErtrievers

Mit Langchain Self-Level-Retrievers

Gemeinschaft ?

Besonderer Dank? (Alphabetisch geordnet)

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

ChatData

Chatdata?

Einführung

Überblick

Feature 1: Retrievertyp

Feature 2: Sitzungsverwaltung

Feature 3: Erstellen Sie Ihre eigene Wissensbasis

Datenschema

[Neu] TABEL wiki.Wikipedia

Tabelle default.ChatArXiv

Wo kann ich diese Arxiv -Daten bekommen?

Monatliche Updates (November 2023)

Wie baue ich Ihre eigene App von Grund auf neu?

QuickStart

Mit Langchain SqldatabaserErtrievers

Mit Langchain Self-Level-Retrievers

Gemeinschaft ?

Besonderer Dank? (Alphabetisch geordnet)

[Neu] TABEL `wiki.Wikipedia`

Tabelle `default.ChatArXiv`