Скачать RocketQA - скачать исходный код RocketQA

RocketQA

Другой исходный код

1.0.0

Скачать

В последние годы плотные ретриверы, основанные на предварительно обученных языковых моделях, достигли замечательного прогресса. Чтобы облегчить больше разработчиков, используя передовые технологии, этот репозиторий обеспечивает простой в использовании инструментарий для работы и точной настройки современных плотных ретриверов, а именно Rocketqa . Этот инструментарий имеет следующие преимущества:

Современное : RocketQA предоставляет наши хорошо обученные модели, которые достигают производительности SOTA на многих наборах данных с плотным поиском. И это будет продолжать обновлять последние модели.
First-Chinese Model : Rocketqa предоставляет первую китайскую плотную модель поиска с открытым исходным кодом, которая обучается миллионам данных ручной аннотации от Dureader.
Легко в использовании : интегрируя этот инструментарий с JINA, RocketQA может помочь разработчикам создать сквозную систему поиска и систему ответов вопросов с несколькими линиями кода.

Новости

? 27 ноября 2022 года. Наша опросная статья о плотном поиске плотного текста, основанного на предварительно проведенных языковых моделях: общий опрос был общедоступным.
8 октября 2022 года: EMNLP 2022 год был _принят Dureader. [Data]; Последняя версия Dureader _Replieval содержит межсовые тесты поиска. Следите за обновлениями!
29 апреля 2022 года. Функция обучения добавляется в Toolkit Rocketqa. И базовые модели _поиска Dureader (как Cross Encoder, так и Dual Encoder) доступны в моделях RocketQA.
30 марта 2022 года: мы выпустили Dureader _Reprieval , крупномасштабного китайского эталона для поиска прохода. Набор данных содержит более 90 тысяч вопросов и 8 -метровые отрывки из Baidu Search. [Paper] [data]; Также была выпущена базовая линия лидеров _поиска Dureader . [код/модель]
3 декабря 2021 года. Был выпущен инструментарий «Плотного ретривера Rocketqa», в том числе первая китайская модель плотного поиска, обученная Dureader.
26 августа 2021 года: RocketQA V2 был принят EMNLP 2021. [Code/Model]
5 мая 2021 года: пара была принята ACL 2021. [Code/Model]
11 марта 2021 года: RocketQA V1 был принят NAACL 2021. [CODE/MODEL]

Установка

Мы предоставляем два метода установки: пакет установки Python и среда Docker

Установить с помощью пакета Python

Во -первых, установите PaddlePaddle.

 # GPU version:
$ pip install paddlepaddle-gpu

# CPU version:
$ pip install paddlepaddle

Во -вторых, установите пакет Rocketqa (последняя версия: 1.1.0):

$ pip install rocketqa

Примечание. Этот инструментарий должен работать на Python3.6+ с PaddlePaddle 2.0+.

Установите с Docker

docker pull rocketqa/rocketqa

docker run -it docker.io/rocketqa/rocketqa bash

Начиная

Обратитесь к примерам ниже, вы можете создать и запустить свою собственную поисковую систему с помощью нескольких строк кода. Мы также предоставляем детскую площадку с Jupyternotebook. Попробуйте Rocketqa сразу в своем браузере!

Бегу с Джиной

Джина-это облачная структура поиска нейронного анализа для создания SOTA и масштабируемых приложений поиска глубокого обучения за считанные минуты. Вот простой пример создания поисковой системы, основанной на Jina и Rocketqa.

 cd examples/jina_example
pip3 install -r requirements.txt

# Generate vector representations and build a libray for your Documents
# JINA will automaticlly start a web service for you
python3 app.py index toy_data/test.tsv

# Try some questions related to the indexed Documents
python3 app.py query_cli

Пожалуйста, просмотрите пример JINA, чтобы узнать больше.

Бег с Файс

Мы также приводим простой пример, построенный на Faiss.

 cd examples/faiss_example/
pip3 install -r requirements.txt

# Generate vector representations and build a libray for your Documents
python3 index.py zh ../data/dureader.para test_index

# Start a web service on http://localhost:8888/rocketqa
python3 rocketqa_service.py zh ../data/dureader.para test_index

# Try some questions related to the indexed Documents
python3 query.py

API

Вы также можете легко интегрировать Rocketqa в свою собственную задачу. Мы предоставляем два типа моделей, двойной энкодер на базе Ernie для поиска ответов и Cross Encoder на основе Эрни для повторного рейтинга. Для запуска наших моделей вы можете использовать следующие функции.

Нагрузка модели

`rocketqa.available_models()`

Возвращает имена доступных моделей Rocketqa. Чтобы узнать больше о доступных моделях, см. Код комментарий.

`rocketqa.load_model(model, use_cuda=False, device_id=0, batch_size=1)`

Возвращает модель, указанную входным параметром. Он может инициализировать как двойной энкодер, так и поперечный энкодер. Установив параметр ввода, вы можете загрузить либо модели RocketQA, возвращаемые «office_models ()», либо ваши собственные контрольно -пропускные пункты.

Двойной энкодер

Двойной кодер возвращается "load_model ()" поддерживает следующие функции:

`model.encode_query(query: List[str])`

Учитывая список запросов, возвращает их векторы представления, кодируемые моделью.

`model.encode_para(para: List[str], title: List[str])`

Учитывая список абзацев и соответствующих их названий (необязательно), возвращает их векторы представлений, кодируемые моделью.

`model.matching(query: List[str], para: List[str], title: List[str])`

Учитывая список запросов и параграфов (и названий), возвращает свои соответствующие оценки (точечный продукт между двумя векторами представления).

`model.train(train_set: str, epoch: int, save_model_path: str, args)`

Учитывая гиперпараметры train_set , epoch и save_model_path , вы можете обучить свою собственную модель с двойным энкодером или Finetune наши модели. Другие настройки, такие как save_steps и learning_rate также могут быть установлены в args . Пожалуйста, обратитесь к примерам/example.py для получения подробной информации.

Крестный кодер

Поперечный кодер возвращается "LOAD_MODEL ()" поддерживает следующую функцию:

`model.matching(query: List[str], para: List[str], title: List[str])`

Учитывая список запросов и абзацев (и названий), возвращает свои сопоставления (вероятность того, что абзац является правильным ответом запроса).

`model.train(train_set: str, epoch: int, save_model_path: str, args)`

Учитывая гиперпараметры train_set , epoch и save_model_path , вы можете обучить свою собственную модель Cross Encoder или Finetune наши модели. Другие настройки, такие как save_steps и learning_rate также могут быть установлены в args . Пожалуйста, обратитесь к примерам/example.py для получения подробной информации.

Примеры

Следуя примерам ниже, вы можете получить векторные представления о ваших документах и подключить Rocketqa с вашими собственными задачами.

Запустите модель Rocketqa

Чтобы запустить модели RocketQA, вы должны установить model параметров в 'Load_Model ()' с именем модели RocketQA, возвращаемом 'revare_models ()'.

 import rocketqa

query_list = [ "trigeminal definition" ]
para_list = [
    "Definition of TRIGEMINAL. : of or relating to the trigeminal nerve.ADVERTISEMENT. of or relating to the trigeminal nerve. ADVERTISEMENT." ]

# init dual encoder
dual_encoder = rocketqa . load_model ( model = "v1_marco_de" , use_cuda = True , device_id = 0 , batch_size = 16 )

# encode query & para
q_embs = dual_encoder . encode_query ( query = query_list )
p_embs = dual_encoder . encode_para ( para = para_list )
# compute dot product of query representation and para representation
dot_products = dual_encoder . matching ( query = query_list , para = para_list )

Тренируйте свою собственную модель

Чтобы обучить свои собственные модели, вы можете использовать функцию train() с вашим набором данных и параметрами. Данные обучения содержат 4 столбца: запрос, заголовок, пара, метка (0 или 1), разделенные « t». Для получения подробной информации о параметрах и наборе данных, пожалуйста, см.

 import rocketqa

# init cross encoder, and set device and batch_size
cross_encoder = rocketqa . load_model ( model = "zh_dureader_ce" , use_cuda = True , device_id = 0 , batch_size = 32 )

# finetune cross encoder based on "zh_dureader_ce_v2"
cross_encoder . train ( './examples/data/cross.train.tsv' , 2 , 'ce_models' , save_steps = 1000 , learning_rate = 1e-5 , log_folder = 'log_ce' )

Запустите свою собственную модель

Чтобы запустить свои собственные модели, вы должны установить model параметров в 'Load_Model ()' с файлом конфигурации JSON.

 import rocketqa

# init cross encoder
cross_encoder = rocketqa . load_model ( model = "./examples/ce_models/config.json" , use_cuda = True , device_id = 0 , batch_size = 16 )

# compute relevance of query and para
relevance = cross_encoder . matching ( query = query_list , para = para_list )

config - это файл JSON

 {
    "model_type": "cross_encoder",
    "max_seq_len": 384,
    "model_conf_path": "zh_config.json",
    "model_vocab_path": "zh_vocab.txt",
    "model_checkpoint_path": ${YOUR_MODEL},
    "for_cn": true,
    "share_parameter": 0
}

examples папок предоставляют более подробную информацию.

Цитаты

Если вы обнаружите, что модели Rocketqa V1 полезны, не стесняйтесь цитировать нашу публикацию Rocketqa: оптимизированный подход обучения к плотному поиску отрыва для ответа на вопрос открытого домена.

 @inproceedings{rocketqa_v1,
    title="RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering",
    author="Yingqi Qu, Yuchen Ding, Jing Liu, Kai Liu, Ruiyang Ren, Wayne Xin Zhao, Daxiang Dong, Hua Wu and Haifeng Wang",
    year="2021",
    booktitle = "In Proceedings of NAACL"
}

Если вы найдете полезные парные модели, не стесняйтесь ссылаться на нашу пару публикации: использование отношения сходства, ориентированного на проходы, для улучшения плотного отпуска

 @inproceedings{rocketqa_pair,
    title="PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval",
    author="Ruiyang Ren, Shangwen Lv, Yingqi Qu, Jing Liu, Wayne Xin Zhao, Qiaoqiao She, Hua Wu, Haifeng Wang and Ji-Rong Wen",
    year="2021",
    booktitle = "In Proceedings of ACL Findings"
}

Если вы обнаружите, что модели Rocketqa V2 полезны, не стесняйтесь цитировать нашу публикацию RocketQav2: метод совместного обучения для плотного извлечения и повторного прохода

 @inproceedings{rocketqa_v2,
    title="RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking",
    author="Ruiyang Ren, Yingqi Qu, Jing Liu, Wayne Xin Zhao, Qiaoqiao She, Hua Wu, Haifeng Wang and Ji-Rong Wen",
    year="2021",
    booktitle = "In Proceedings of EMNLP"
}

Если вы обнаружите, что набор данных _поиска Dureader полезным, не стесняйтесь цитировать нашу публикацию Dureader_retrieval: крупномасштабный китайский эталон для поиска прохода из веб-поисковой системы

 @inproceedings{DuReader_retrieval,
    title="DuReader_retrieval: A Large-scale Chinese Benchmark for Passage Retrieval from Web Search Engine",
    author="Yifu Qiu, Hongyu Li, Yingqi Qu, Ying Chen, Qiaoqiao She, Jing Liu, Hua Wu and Haifeng Wang",
    booktitle = "In Proceedings of EMNLP"
    year="2022"
}

Если вы найдете нашу опрос полезным для вашей работы, пожалуйста, укажите следующую бумажную плотную листу

 @article{DRSurvey,
    title={Dense Text Retrieval based on Pretrained Language Models: A Survey},
    author={Wayne Xin Zhao, Jing Liu, Ruiyang Ren, Ji-Rong Wen},
    year={2022},
    journal={arXiv preprint arXiv:2211.14876}
}

Лицензия

Этот репозиторий предоставляется по лицензии Apache-2.0.

Контактная информация

Для получения помощи или проблем с использованием RocketQA, пожалуйста, отправьте проблему GitHub.

Для другого общения или сотрудничества, пожалуйста, свяжитесь с Jing Liu ([email protected]) или сканируйте следующий QR -код.

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-04-16
размер 2.98MB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22