Download für uptrain uptrain

uptrain

AI-Quellcode

v0.7.1

Herunterladen

UPRAIN-Cashboard-Demo.mp4

UPTRAIN ist eine einheitliche Open-Source-Plattform zur Bewertung und Verbesserung der generativen KI-Anwendungen. Wir bieten Noten für mehr als 20 vorkonfigurierte Bewertungen (Abdeckung von Sprache, Code, Einbettung von Anwendungsfällen).

Schlüsselfunktionen?

Upprain Dashboard ist eine webbasierte Oberfläche, die auf Ihrem lokalen Computer ausgeführt wird. Sie können das Dashboard verwenden, um Ihre LLM -Anwendungen zu bewerten, die Ergebnisse anzusehen und eine Ursachenanalyse durchzuführen.

Unterstützung für mehr als 20 vorkonfigurierte Bewertungen wie Reaktions Vollständigkeit, sachliche Genauigkeit, Kontextversicht usw.

Alle Bewertungen und Analysen werden lokal in Ihrem System ausgeführt, um sicherzustellen, dass die Daten niemals Ihre sichere Umgebung verlassen (mit Ausnahme von LLM -Aufrufen bei der Verwendung von Modellabstufungsprüfungen).

Experimentieren Sie mit verschiedenen Einbettungsmodellen wie Text-Embedding-3-Large/Small, Text-Embedding-3-ada, Baai/BGE-Large usw. Der Aufwärtsprüfer unterstützt Umarmungsgesichtsmodelle, replizierte Endpunkte oder benutzerdefinierte Modelle, die auf Ihrem Endpunkt gehostet werden.

Sie können eine Ursachenanalyse in Fällen mit negativem Benutzer -Feedback oder niedrigen Bewertungswerten durchführen, um zu verstehen, welcher Teil Ihrer LLM -Pipeline suboptimale Ergebnisse liefert. Schauen Sie sich die unterstützten RCA -Vorlagen an.

Wählen Sie aus einer Vielzahl von Evaluierungs -LLMs

Wir ermöglichen Ihnen, OpenAI-, Anthropic-, Mistral-, Azure-Endpunkte oder Open-Source-LLMs von Azure zu verwenden, die auf AnyScale gehostet werden, um als Bewerter verwendet zu werden.

UPRAIN bietet unzählige Möglichkeiten zum Anpassen von Bewertungen . Sie können die Bewertungsmethode (Kette von Denke vs Classify), wenige Beispiele und Szenarienbeschreibung anpassen. Sie können auch benutzerdefinierte Bewerter erstellen.

Bald kommen:

Arbeiten Sie mit Ihrem Team zusammen
Einbetten der Visualisierung über UMAP und Clustering
Mustererkennung zwischen Fehlerfällen
Vorschläge zur Verbesserung

Erste Schritte ?

Methode 1: Verwenden des lokal gehosteten Dashboards

Das Upstrain-Dashboard ist eine webbasierte Oberfläche, mit der Sie Ihre LLM-Anwendungen bewerten können. Es ist ein selbst gehostetes Armaturenbrett, das auf Ihrer lokalen Maschine ausgeführt wird. Sie müssen keinen Code schreiben, um das Dashboard zu verwenden. Sie können das Dashboard verwenden, um Ihre LLM -Anwendungen zu bewerten, die Ergebnisse anzusehen und eine Ursachenanalyse durchzuführen.

Stellen Sie vor Beginn sicher, dass Sie Docker auf Ihrem Computer installiert haben. Wenn nicht, können Sie es von hier aus installieren.

Die folgenden Befehle laden das Upstrain -Dashboard herunter und starten es auf Ihrem lokalen Computer.

 # Clone the repository
git clone https://github.com/uptrain-ai/uptrain
cd uptrain

# Run UpTrain
bash run_uptrain.sh

HINWEIS: UPRAIN Dashboard befindet sich derzeit in der Beta -Version . Wir würden Ihr Feedback lieben, um es zu verbessern.

Methode 2: Verwenden des Upstrain -Pakets

Wenn Sie Entwickler sind und Up -Strain -Bewertungen in Ihre Anwendung integrieren möchten, können Sie das UPRAIN -Paket verwenden. Dies ermöglicht eine programmatischere Möglichkeit, Ihre LLM -Anwendungen zu bewerten.

Installieren Sie das Paket über PIP:

pip install uptrain

So verwenden Sie UPRAIN:

Sie können Ihre Antworten über die Open-Source-Version bewerten, indem Sie Ihren OpenAI-API-Schlüssel zur Ausführung von Bewertungen bereitstellen.

 from uptrain import EvalLLM , Evals
import json

OPENAI_API_KEY = "sk-***************"

data = [{
    'question' : 'Which is the most popular global sport?' ,
    'context' : "The popularity of sports can be measured in various ways, including TV viewership, social media presence, number of participants, and economic impact. Football is undoubtedly the world's most popular sport with major events like the FIFA World Cup and sports personalities like Ronaldo and Messi, drawing a followership of more than 4 billion people. Cricket is particularly popular in countries like India, Pakistan, Australia, and England. The ICC Cricket World Cup and Indian Premier League (IPL) have substantial viewership. The NBA has made basketball popular worldwide, especially in countries like the USA, Canada, China, and the Philippines. Major tennis tournaments like Wimbledon, the US Open, French Open, and Australian Open have large global audiences. Players like Roger Federer, Serena Williams, and Rafael Nadal have boosted the sport's popularity. Field Hockey is very popular in countries like India, Netherlands, and Australia. It has a considerable following in many parts of the world." ,
    'response' : 'Football is the most popular sport with around 4 billion followers worldwide'
}]

eval_llm = EvalLLM ( openai_api_key = OPENAI_API_KEY )

results = eval_llm . evaluate (
    data = data ,
    checks = [ Evals . CONTEXT_RELEVANCE , Evals . FACTUAL_ACCURACY , Evals . RESPONSE_COMPLETENESS ]
)

print ( json . dumps ( results , indent = 3 ))

Wenn Sie Fragen haben, nehmen Sie bitte unserer Slack -Community bei

Sprechen Sie direkt mit den Betreuungsbetriebsbädern, indem Sie hier einen Anruf buchen.

Vorgefertigte Bewertungen, die wir anbieten

Bewerten	Beschreibung
Reaktion Vollständigkeit	Noten, ob die Antwort alle Aspekte der angegebenen Frage beantwortet hat.
Reaktionsgeschwindigkeit	Grade Wie präzise die generierte Antwort ist oder ob zusätzliche irrelevante Informationen für die gestellte Frage enthalten.
Antwortrelevanz	Noten Wie relevant der generierte Kontext für die angegebene Frage war.
Antwortgültigkeit	Noten, wenn die generierte Antwort gültig ist oder nicht. Eine Antwort wird als gültig angesehen, wenn sie Informationen enthält.
Antwortkonsistenz	Grade, wie konsistent die Antwort mit der gestellten Frage sowie mit dem bereitgestellten Kontext ist.

Qualität des abgerufenen Kontexts und Reaktionsgründe

Bewerten	Beschreibung
Kontextrelevanz	Noten Wie relevant der Kontext für die angegebene Frage war.
Kontextnutzung	Noten Wie vollständig die generierte Antwort für die angegebene Frage angesichts der im Kontext angegebenen Informationen war.
Sachliche Genauigkeit	Noten, ob die erzeugte Antwort sachlich korrekt ist und durch den bereitgestellten Kontext geerdet ist.
Kontextversicht	Bewertet den prägnanten Kontext, der aus einem ursprünglichen Kontext für irrelevante Informationen zitiert wird.
Kontext -Wiederbelebung	Bewertet, wie effizient der erneute Kontext mit dem ursprünglichen Kontext verglichen wird.

Bewerten	Beschreibung
Sprachmerkmale	Noten die Qualität und Wirksamkeit der Sprache in einer Reaktion und konzentriert sich auf Faktoren wie Klarheit, Kohärenz, SUKTIVE und allgemeine Kommunikation.
Tonalität	Noten, ob die generierte Antwort mit dem Ton der erforderlichen Person übereinstimmt

Bewerten	Beschreibung
Code -Halluzination	Noten, ob der in der generierte Antwort vorhandene Code durch den Kontext begründet ist.

Bewerten	Beschreibung
Benutzerzufriedenheit	Noten Wie gut die Bedenken des Benutzers angesprochen werden, und bewertet ihre Zufriedenheit auf der Grundlage der bereitgestellten Konversation.

benutzerdefinierte Bewertungen und andere

Bewerten	Beschreibung
Benutzerdefinierte Richtlinie	Ermöglicht Ihnen eine Richtlinie und Noten an, wie gut der LLM bei der Angabe einer Antwort an der angegebenen Richtlinie haftet.
Benutzerdefinierte Eingabeaufforderungen	Ermöglicht Ihnen, Ihre eigenen Bewertungen zu erstellen.

Vergleichen Sie die Antworten mit der Bodenwahrheit

Bewerten	Beschreibung
Reaktionsanpassung	Vergleicht und nimmt, wie gut die von der LLM erzeugte Antwort mit der bereitgestellten Grundwahrheit übereinstimmt.

Schutzsysteme auffordern und vermeiden LLM-Missbrauch

Bewerten	Beschreibung
Sofortige Injektion	Noten, ob die Eingabeaufforderung des Benutzers ein Versuch ist, das LLM seine Systemaufforderungen anzuzeigen.
Jailbreak -Erkennung	Noten, ob die Eingabeaufforderung des Benutzers ein Versuch, Jailbreak zu besitzen (dh generieren illegale oder schädliche Antworten).

Bewerten Sie die Klarheit von Benutzeranfragen

Bewerten	Beschreibung
Vollständigkeit der Unterablagerung	Bewerten Sie, ob alle Unterfragen, die aus der Abfrage eines Benutzers generiert wurden, zusammen alle Aspekte der Abfrage des Benutzers abdecken oder nicht
Multi-Quer-Genauigkeit	Bewerten Sie, ob die generierten Varianten die ursprüngliche Abfrage genau darstellen

Integrationen?

Eval -Frameworks	LLM -Anbieter	LLM -Pakete	Servierrahmen	LLM -Beobachtbarkeit	Vektor DBS
Openai Evals	Openai	Llamaindex	Ollama	Langfuse	Qdrant
	Azurblau		Zusammen ai	Helikon	Faiss
	Claude		AnyScale	Zeno	Chroma
	Mistral		Replizieren
			Umarmung

Weitere Integrationen kommen in Kürze. Wenn Sie eine bestimmte Integration im Auge haben, teilen Sie uns dies bitte mit, indem Sie ein Problem erstellen.

Überwachung der sofortigen Drift in LLMs: Benchmark von Uptrain

Die beliebtesten LLMs wie GPT-4, GPT-3,5-Turbo, Claude-2.1 usw. sind geschlossen, dh über eine API mit nur sehr geringen Sichtbarkeit auf das, was unter der Motorhaube passiert. Es gibt viele gemeldete Fälle von sofortiger Drift (oder GPT-4 werden faul) und Forschungsarbeiten, die die Verschlechterung der Modellqualität untersuchen. Dieser Benchmark ist ein Versuch, die Änderung des Modellverhaltens durch Bewertung seiner Antwort auf einem festen Datensatz zu verfolgen.

Hier finden Sie den Benchmark.

Ressourcen

So bewerten Sie Ihre LLM -Anwendung
Wie man Jailbreaks erkennt
Umgang mit Halluzinationen

Warum bauen wir UPRAIN?

Nachdem wir in den letzten 8 Jahren mit ML- und NLP -Modellen zusammengearbeitet hatten, waren wir mit zahlreichen verborgenen Fehlern in unseren Modellen kontinuierlich verwirrt, was dazu führte, dass wir auf dem Gebäude aufgebaut wurden. Der Upstrang wurde zunächst als ML -Beobachtbarkeitsinstrument mit Überprüfungen zur Ermittlung der Regression in der Genauigkeit begonnen.

Wir haben jedoch bald veröffentlicht, dass LLM -Entwickler ein noch größeres Problem haben - es gibt keine gute Möglichkeit, die Genauigkeit ihrer LLM -Anwendungen zu messen, geschweige denn die Regression zu identifizieren.

Wir haben auch die Veröffentlichung von OpenAI Evals gesehen, wo sie die Verwendung von LLMs vorgeschlagen haben, um die Modellantworten zu bewerten. Darüber hinaus haben wir das Vertrauen gewonnen, dies zu nähern, nachdem wir gelesen hatten, wie anthropisch RLAIF nutzt und direkt in die LLM -Bewertungsforschung eintauchte (wir veröffentlichen bald ein Repository der fantastischen Bewertungsforschung).

Kommen Sie noch heute, Upstrain ist unser Versuch, LLM Chaos zu bestellen und in die Gemeinschaft zurückzukehren. Während die Mehrheit der Entwickler immer noch auf Angriffe intuitioniert und produziert wird, indem sie einige Fälle überprüfen, haben wir genug Regressionsgeschichten gehört, um zu glauben, dass "Bewertungen und Verbesserungen" ein wesentlicher Bestandteil des LLM -Ökosystems sein werden, wenn der Raum reift.

Durch robuste Bewertungen können Sie systematisch mit unterschiedlichen Konfigurationen experimentieren und Regressionen verhindern, indem Sie objektiv die beste Wahl auswählen.
Es hilft Ihnen zu verstehen, wo Ihre Systeme schief gehen, die Grundursachen (n) finden und sie beheben - lange bevor sich Ihre Endbenutzer beschweren und möglicherweise herausholen.
Bewertungen wie eine schnelle Injektion und Jailbreak -Erkennung sind wichtig, um die Sicherheit Ihrer LLM -Anwendungen aufrechtzuerhalten.
Bewertungen helfen Ihnen dabei, Transparenz bereitzustellen und Vertrauen bei Ihren Endbenutzern aufzubauen - insbesondere relevant, wenn Sie an Unternehmen verkaufen.

Warum Open-Source?

Wir verstehen, dass es bei Bewertungen keine einheitliche Lösung gibt. Wir sehen zunehmend den Wunsch von Entwicklern, die Bewertungsaufforderung oder die Reihe von Auswahlmöglichkeiten oder die wenigen Schussbeispiele usw. zu ändern. Wir glauben, dass die beste Entwicklererfahrung in Open-Source liegt, anstatt 20 verschiedene Parameter aufzudecken.
Foster Innovation : Das Gebiet der LLM-Bewertungen und die Verwendung von LLM-AS-A-Judge ist immer noch ziemlich entstehen. Wir sehen viele aufregende Forschungen, fast täglich, und Open-Source bietet uns und unserer Community die richtige Plattform, um diese Techniken umzusetzen und schneller zu innovieren.

Wie Sie helfen können

Wir bemühen uns kontinuierlich, die Aufwärtstrag zu verbessern, und es gibt verschiedene Möglichkeiten, wie Sie einen Beitrag leisten können:

Beachten Sie alle Probleme oder Bereiche für Verbesserungen: Wenn Sie etwas falsch machen oder Ideen für Verbesserungen haben, erstellen Sie bitte ein Problem in unserem Github -Repository.
Direkt beitragen: Wenn Sie ein Problem sehen, können Sie Code -Verbesserungen beheben oder vorschlagen, um es vorzuschlagen, direkt zum Repository beizutragen.
Fordern Sie benutzerdefinierte Bewertungen an: Wenn für Ihre Bewerbung eine maßgeschneiderte Bewertung erforderlich ist, teilen Sie uns es mit, und wir werden sie dem Repository hinzufügen.
Integrieren Sie sich in Ihre Tools: Benötigen Sie eine Integration in Ihre vorhandenen Tools? Greifen Sie nach, und wir werden daran arbeiten.
Unterstützung bei Bewertungen: Wenn Sie Unterstützung bei Bewertungen benötigen, veröffentlichen Sie Ihre Abfrage auf unserem Slack -Kanal und wir werden sie umgehend beheben.
Zeigen Sie Ihre Unterstützung: Zeigen Sie Ihre Unterstützung, indem Sie uns auf Github aufnehmen, um unsere Fortschritte zu verfolgen.
Verbreiten Sie das Wort: Wenn Ihnen das gefällt, was wir gebaut haben, geben Sie uns einen Schrei auf Twitter!

Ihre Beiträge und Ihre Unterstützung werden sehr geschätzt! Vielen Dank, dass Sie ein Teil der Reise von Upstrain sind.

Lizenz

Dieses Repo wird unter Apache 2.0-Lizenz veröffentlicht und wir sind verpflichtet, dem Upstrain Open-Source-Repo weitere Funktionen hinzuzufügen. Wir haben auch eine verwaltete Version, wenn Sie nur ein Handelserlebnis wünschen. Bitte buchen Sie hier einen Demo -Anruf.