LangChain SynData RAG Eval Download - LangChain SynData RAG Eval Source Source Code Скачать

LangChain SynData RAG Eval

AI Исходный код

1.0.0

Скачать

Генерация синтетических данных с использованием Langchain для оценки IR и RAG

Этот репозиторий демонстрирует инженерию Langchain, Llama2-Chat и Zero- и несколько выстрелов, чтобы обеспечить оценку синтетических данных для получения информации о поиске информации (IR) и получении для поиска (RAG).

Введение • Основные моменты • Пример записных книг • Фон • Метрики • Преимущества • Шаблоны быстрого

Введение

Большие языковые модели (LLMS) преобразовали поиск информации (IR) и поиск путем понимания сложных запросов. Этот репозиторий демонстрирует концепции и пакеты, которые можно использовать для генерации сложных синтетических наборов данных для оценки ИК и получения добычи (RAG).

Сгенерированные синтетические данные являются запросом и ответом для данного контекста. Пример синтетически сгенерированного контекста-Query-answer показан ниже:

 Provided Context (usually split from documents / text sources): 
Pure TalkUSA is an American mobile virtual network operator headquartered in Covington, Georgia, United States. 
It is most notable for an industry-first offering of rollover data in their data add-on packages, which has since been discontinued. 
Pure TalkUSA is a subsidiary of Telrite Corporation. Bring Your Own Phone! 

Synthetically Generated Query: 
What was the outstanding service offered by Pure TalkUSA?

Synthetically Generated Answer:
The outstanding service from Pure TalkUSA was its industry-first offering of rollover data.

При создании системы ИК или RAG, набор данных контекста, запросов и ответов жизненно важен для оценки производительности системы. Наборы данных, аннотируемые человеком, предлагают отличные основные истины, но могут быть дорогими и сложными для получения; Следовательно, синтетические наборы данных, генерируемые с использованием LLMS, являются привлекательным решением и дополнением.

Используя инженерную инженерию LLM, можно создать разнообразный диапазон синтетических запросов и ответов, чтобы сформировать надежный набор данных проверки. Этот репозиторий демонстрирует процесс генерации синтетических данных, при этом акцентируя при этом побуждение с нулевыми и небольшими выстрелами для создания высоко настраиваемых синтетических наборов данных. На рисунке 1 изложены процесс генерации синтетических наборов данных, продемонстрированный в этом репозитории.

Рисунок 1: Синтетические данные для оценки ИК и RAG

ПРИМЕЧАНИЕ . Обратитесь к разделам фон и метрик для более глубокого погружения на IR, RAG и как оценить эти системы.

Основные моменты

Несколько ключевых основных моментов в репозитории:

Местные модели LLM на оборудовании потребительского уровня используются исключительно повсюду , и не выполняются внешние вызовы API. Это имеет первостепенное значение для конфиденциальности данных. Кроме того, в нескольких онлайн-примерах используются внешние вызовы API для современных (SOTA) LLM, которые обычно обеспечивают более высокие результаты качества, чем локальные LLM с меньшим количеством параметров. Это вызывает определенные проблемы в кодировании и обработке ошибок для локальных моделей, и здесь показаны решения.
Представлены запросы на нулевые и несколько выстрелов.
Примеры Langchain с использованием:
- Индивидуальная техническая инженерия,
- Выводы анализаторов и анализаторов автоматического фиксирования для получения структурированных данных,
- Вывод партии графического процессора с цепями,
- Язык выражения Langchain (Lcel).
Квантование для уменьшения размера модели на оборудование потребительского уровня.

Пример ноутбуков

Поколение контекста-Query-Aswer с Langchain

1.) Langchain с пользовательскими подсказками и анализаторами вывода для структурированных данных : см. Gen-Question-Asswer-Query.ipynb для примера генерации данных синтетического контекста-кверика-ответа. Ключевые аспекты этого ноутбука:

Пользовательский шаблон Langchain для модели Llama2-Chat
PydantyOutputParser
Выходной FixingParser
Пользовательские классы анализатора вывода записаны для размещения Llama2-Chat и обработки ошибок.

Поколение контекста с Langchain

1.) Langchain Custom Llama2-чат подсказка : см. QA-Gen-Query-Langchain.ipynb для примера того, как построить шаблоны на заказ Langchain Custom для поколения контекстных Query. Несколько функций Langchain, показанные в этой записной книжке:

Пользовательский шаблон Langchain для модели Llama2-Chat
Обнимая лицо местные трубопроводы
4-битная квантование
Партия графического процессора

Поколение контекста без Langchain

1.) Инженерная инженерия с нулевым и несколькими выстрелами : см. QE-Gen-Query.ipynb для примера генерации синтетических контекстных данных для пользовательских наборов данных. Ключевые функции представлены здесь:

Пробуждение LLM с использованием zero- and few-shot annotations в наборе данных QUADV2.
Демонстрирует два метода подсказки:
- Основное образование нулевых запросов, которое называется ванилью
- Несколько выстрелов с руководством плохих вопросов (GBQ)

2.) Контекст-обработка : см. В контексте поиска информации эти задачи предназначены для извлечения соответствующих аргументов из различных источников, таких как документы. При поиске аргументов цель состоит в том, чтобы предоставить пользователям убедительную и заслуживающую доверия информацию для поддержки их аргументов или принятия обоснованных решений.

Поколение нелама

Другие примеры моделей генерации, специфичных для запросов (например, BeIR/query-gen-msmarco-t5-base-v1 ) можно легко найти в Интернете (см. Генерацию вопросов BEIR).

Фон

Основной функцией IR -системы является поиск, целью которого является определение актуальности между запросом пользователей и контентом, который будет получен. Внедрение системы ИК или RAG требует конкретных документов. Тем не менее, отсутствие аннотированных наборов данных для пользовательских наборов данных застегивает оценку системы. На рисунке 2 представлен обзор типичного процесса тряпки для системы ответа вопросам.

Рисунок 2: Обзор процесса RAG [источник].

Эти наборы данных о синтетическом контекстно -контекстном ответе имеют решающее значение для оценки: 1) способность систем IR выбирать усиленный контекст, как показано на рисунке 2 - Шаг № 3, и 2) сгенерированный ответ RAG, как показано на рисунке 2 - Шаг № 5. Разреская офлайн -оценку, это обеспечивает тщательный анализ баланса системы между скоростью и точностью, информируя необходимые изменения и выбирая проекты системы чемпиона.

Дизайн IR и RAG Systems становится все более сложным, как указано на рисунке 3.

LLMS-IR
Рисунок 3: LLMS можно использовать в перезаписи запроса, ретривера, реранкера и читателя [источник]

Как показано, их являются несколько соображений в дизайне ИК / RAG, а решения могут варьироваться в сложности от традиционных методов (например, разрешенные методы на основе терминов) до нейронных методов (например, Encemddings и LLMS). Оценка этих систем имеет решающее значение для принятия хорошо информированных проектных решений. От поиска до рекомендаций меры оценки имеют первостепенное значение для понимания того, что делает и не работает при поиске.

Метрики

Системы с ответом на вопрос (QA) (например, Rag System) имеют два компонента:

Retriever - который получает наиболее актуальную информацию, необходимую для ответа на запрос
Генератор - который генерирует ответ с полученной информацией.

При оценке системы QA оба компонента должны быть оценены отдельно и вместе, чтобы получить общий балл системы.

Всякий раз, когда задается вопрос в приложении Rag, можно рассмотреть следующие объекты [Source]:

Вопрос
Правильный ответ на вопрос
Ответ, который вернул приложение RAG
Контекст, который приложение RAG получило и использовалось для ответа на вопрос

Выбор метрик не является основным направлением этого репозитория, поскольку метрики зависят от приложения; Однако справочные статьи и информация предоставляются для удобства.

Метрики ретривера

На рисунке 4 показаны общие показатели оценки для ИК, и Dataset на рисунке 1 можно использовать для Offline Metrics показанных на рисунке 4.

Оценка
Рисунок 4: Метрики оценки ранжирования [источник]

Offline metrics измеряются в изолированной среде перед развертыванием новой ИК -системы. Они смотрят на то, возвращается ли определенный набор соответствующих результатов при получении элементов с системой [источником].

Метрики генератора

Краткий обзор метрик генератора продемонстрирует несколько уровней метрической сложности. При оценке генератора посмотрите, соответствуют ли выбранные отрывки ответов, выбранные отрывки ответа или ответы.

Ниже приведены показатели генератора, перечисленные в порядке наименьшего до наиболее сложного.

Традиционные : Метрики, такие как F1, точность, точное соответствие, мошенник, Bleu и т. Д., Но они не будут корреляции с человеческим суждением; Тем не менее, они предлагают простые и быстрые количественные сравнения.
Семантическое сходство ответов : модели энкодеров, такие как SAS, BERT и другие модели, доступные на трансформаторах предложений. Это обученные модели, которые возвращают оценки сходства.
Использование LLMS для оценки себя : это внутренняя работа популярных пакетов оценки тряпки, таких как Ragas и Tonicai/Tvalmetrics.
- Обратитесь к исследовательской статье, судя по сфере LLM-как сучья с Mt-Bench и Chatbot Arena для получения более подробной информации.

Пожалуйста, обратитесь к статье Deepset: метрики, чтобы оценить систему ответов на вопросы и оценки Rag Tipines с Ragas + Langsmith, которые подробно рассмотрены этими показателями.

Преимущества

Несколько ключевых преимуществ генерации синтетических данных с помощью LLM -инженерии:

Customized IR Task Query Generation : побуждение LLM предлагает большую гибкость в типах запросов, которые могут быть сгенерированы. Это полезно, потому что ИК -задачи различаются в их применении. Например, Benchmarking-IR (BEIR) представляет собой гетерогенный эталон, содержащий разнообразные ИК-задачи, такие как вопрос о ответе на вопросы, аргумент или контр-аргумент, проверка фактов и т. Д. Из-за разнообразия в ИК-задачах. Это то, где преимущества подсказки LLM могут превосходить, потому что подсказка может быть адаптирована для создания синтетических данных к задаче IR. На рисунке 5 показан обзор разнообразных ИК -задач и наборов данных в BEIR. Обратитесь к таблице лидеров BEIR, чтобы увидеть производительность моделей поиска NLP.

Это некоторая информация.
Рисунок 5: Наборы данных BEIR и ИК -задачи изображение, взятое из [Источник]

Zero or Few-Shot Annotations : в технике, называемом подсказкой нуля или нескольких выстрелов, разработчики могут предоставить примеры, специфичные для домена, для LLMS, значительно улучшая генерацию запросов. Этот подход часто требует лишь нескольких аннотированных образцов.
Longer Context Length : модели LLM на основе GPT, такие как Llama2, обеспечивают расширенную длину контекста, до 4096 токенов по сравнению с 512 токенами Bert. Этот более длинный контекст усиливает контроль подбора документов и управление генерацией запросов.

Быстрые шаблоны

LLAMA2 будет использоваться в этом репозитории для создания синтетических запросов, потому что его можно использовать локально на графических процессорах потребительского уровня. Ниже показан шаблон быстрого чата Llama2, который был настраирован на приложения для диалога и инструкции.

 <s>[INST] <<SYS>>
{your_system_message}
<</SYS>>

{user_message_1} [/INST]

Системная подсказка : Системная подсказка <<SYS>> является одним из незамеченных преимуществ открытых моделей, заключается в том, что вы имеете полный контроль над подсказкой системы в приложениях чата. Это важно, чтобы указать поведение вашего ассистента в чате - и даже наполнить его некоторой личностью - но оно недоступно в моделях, обслуживаемых за API [источник].
Пользовательское сообщение : запрос или сообщение, предоставленное пользователем. [Inst] и [/Inst] помогают определить, что было напечатано пользователем, чтобы Llama знала, как правильно реагировать. Без этих маркеров вокруг пользовательского текста Llama может быть запутана из -за того, чья очередь - ответить.

Обратите внимание, что базовые модели LLAMA2 не имеют быстрой структуры, потому что они являются необработанными моделями, не настроенными на инструкцию [Source].

Дополнительные ресурсы и ссылки на помощь с методами подсказки и оснований:

Llama 2 - каждый вам нужен ресурс
Быстрое инженерное руководство
LLAMA2 Шаблон приглашения
В этом репозитории см. В справочнике примечаний каталогов для более подробной информации о Prompt Engineering и Consistency Filtering .

Проблемы

Этот репозиторий сделает все возможное, чтобы сохранить. Если вы столкнетесь с какой -либо проблемой или хотите сделать улучшения, поднимите проблему или отправьте запрос на привлечение. ?

Тодос

DeepSpeed Zero-Inference Supload Массовые веса LLM в ресурсы без GPU для запуска моделей +70b на оборудовании потребительского уровня.
Не стесняйтесь поднять проблему для функции, которую вы хотели бы увидеть добавленной.