chatgpt pgvector Download - chatgpt pgvector Quellcode Download

chatgpt pgvector

Anderer Quellcode

1.0.0

Herunterladen

Domänenspezifische Chatgtp Starter App

ChatGPT eignet sich hervorragend für ungezwungene, allgemeine Fragen, die Frage nach dem Domänenspezifischen Wissen erforderlich ist. Darüber hinaus macht es Antworten aus, um seine Wissenslücken zu schließen, und zitiert niemals seine Quellen, sodass es nicht wirklich vertrauenswürdig ist. Diese Starter-App verwendet Emetten mit der Vektorsuche, um dies oder genauer zu lösen, um zu zeigen, wie die API von OpenAIs Chat-Abschlüssen zum Erstellen von Konversationsschnittstellen für domänenspezifische Wissen verwendet werden kann.

Einbettungen, wie durch Vektoren von Gleitkomma-Zahlen dargestellt, messen die "Verwandtschaft" von Textzeichenfolgen. Diese sind sehr nützlich für die Rangliste von Suchergebnissen, Clustering, Klassifizierung usw. Die Verwandtschaft wird durch Cosinus -Ähnlichkeit gemessen. Wenn die Kosinusähnlichkeit zwischen zwei Vektoren nahe 1 liegt, sind die Vektoren sehr ähnlich und zeigen in die gleiche Richtung. Bei Texteinbettungen zeigt eine hohe Kosinus -Ähnlichkeit zwischen zwei Einbettungsvektoren an, dass die entsprechenden Textketten in hohem Maße verwandt sind.

Diese Starter -App verwendet Emetten, um eine Vektordarstellung eines Dokuments zu generieren und dann die Vektorsuche zu finden, um die ähnlichsten Dokumente zur Abfrage zu finden. Die Ergebnisse der Vektorsuche werden dann verwendet, um eine Eingabeaufforderung zu erstellen. Die Antwort wird dann an den Benutzer gestreamt. Schauen Sie sich die Supabase -Blog -Beiträge auf PGVector und OpenAI -Einbettungen an, um mehr Hintergrund zu erhalten.

Verwendete Technologien:

NextJS (React Framework) + Vercel Hosting
Supabase (unter Verwendung ihrer PGVector -Implementierung als Vektordatenbank)
OpenAI -API (zur Erzeugung von Einbettungen und Chat -Fertigstellungen)
Rückenwindcss (zum Styling)

Funktionsübersicht

Erstellen und Speichern der Einbettungen:

Webseiten werden abgeschafft, in einfachen Text gestrichen und in 1000-Charakter-Dokumente aufgeteilt
OpenAIs Einbettungs-API wird verwendet, um Einbetten für jedes Dokument mit dem Modell "Text-Embedding-ada-ada-ad-002" zu generieren
Die Einbettungen werden dann in einer Supabase -Postgres -Tabelle unter Verwendung von PGVector gespeichert. Die Tabelle enthält drei Spalten: den Dokumenttext, die Quell -URL und die Einbettungsvektoren, die von der OpenAI -API zurückgegeben wurden.

Reaktion auf Fragen:

Eine einzelne Einbettung wird von der Benutzeraufforderung generiert
Diese Einbettung wird verwendet, um eine Ähnlichkeitssuche gegen die Vektordatenbank durchzuführen
Die Ergebnisse der Ähnlichkeitssuche werden verwendet, um eine Eingabeaufforderung für GPT-3.5/GPT-4 zu konstruieren
Die GPT -Antwort wird dann an den Benutzer gestreamt.

Erste Schritte

In der folgenden Einrichtungshandbuch werden zumindest grundlegende Vertrautheit mit React und NextJs entwickelt. Erfahrung mit OpenAI -APIs und Supabase ist hilfreich, aber nicht erforderlich, um die Dinge zum Laufen zu bringen.

Supabase einrichten

Erstellen Sie ein Supabase-Konto und ein Projekt unter https://app.supabase.com/sign-in. HINWEIS: Die Unterstützung von Supabase für PGVector ist relativ neu (02.02.2023). Daher ist es wichtig, ein neues Projekt zu erstellen, wenn Ihr Projekt zuvor erstellt wurde.
Zuerst aktivieren wir die Vektorverlängerung. In Supabase kann dies vom Webportal über Database → Extensions erfolgen. Sie können dies auch in SQL tun, indem Sie ausgeführt werden:

 create extension vector;

Als nächstes erstellen wir einen Tisch, um unsere Dokumente und ihre Einbettungen zu speichern. Gehen Sie zum SQL -Editor und führen Sie die folgende Abfrage aus:

 create table documents (
  id bigserial primary key ,
  content text ,
  url text ,
  embedding vector ( 1536 )
);

Schließlich werden wir eine Funktion erstellen, mit der Ähnlichkeitssuche durchgeführt wird. Gehen Sie zum SQL -Editor und führen Sie die folgende Abfrage aus:

 create or replace function match_documents (
  query_embedding vector( 1536 ),
  similarity_threshold float,
  match_count int
)
returns table (
  id bigint ,
  content text ,
  url text ,
  similarity float
)
language plpgsql
as $$
begin
  return query
  select
    documents . id ,
    documents . content ,
    documents . url ,
    1 - ( documents . embedding <=> query_embedding) as similarity
  from documents
  where 1 - ( documents . embedding <=> query_embedding) > similarity_threshold
  order by documents . embedding <=> query_embedding
  limit match_count;
end;
$$;

Einrichten der lokalen Umgebung

Klon The Repo: gh repo clone gannonh/chatgpt-pgvector
Öffnen Sie in Ihrem bevorzugten Editor (im Folgenden werden VS -Code auf einem Mac angenommen)

 cd chatgpt-pgvector
code .

Abhängigkeiten installieren

npm install

Erstellen Sie eine .env.local -Datei im Root -Verzeichnis, um Umgebungsvariablen zu speichern:

cp .env.local.example .env.local

Öffnen Sie die .Env.local -Datei und fügen Sie Ihre Supabase -Projekt -URL- und API -Schlüssel hinzu. Sie finden diese im Supabase -Webportal unter Project → API . Der API -Schlüssel sollte in der Variablen SUPABASE_ANON_KEY gespeichert werden und die Projekt -URL sollte unter NEXT_PUBLIC_SUPABASE_URL gespeichert werden.
Fügen Sie Ihren OpenAI -API -Schlüssel zu .env.local hinzu. Sie finden dies im OpenAI -Webportal unter API Keys . Der API -Schlüssel sollte in der Variablen OPENAI_API_KEY gespeichert werden.
[Optional] Umgebungsvariable OPEAI_PROXY werden bereitgestellt, um Ihren benutzerdefinierten Proxy von OpenAI -API zu aktivieren. Ließ es "" , offizielle API direkt anzurufen.
[Optional] Umgebungsvariable SPLASH_URL zur Aktivierung Ihres Splashs (Splash ist ein JavaScript -Rendering -Service. Es handelt sich um einen leichten Webbrowser mit einer HTTP -API, die in Python 3 mit Twisted und QT5) -API implementiert ist. Ließ es "" , URL direkt zu holen.
Starten Sie die App