
Этот репо содержит реализацию SearchTheArxiv.com, простой семантической поисковой системы для более 300 000 мл документов на ARXIV (и подсчет). Код разделен на две части, app и data . app содержит реализацию как Frontend, так и бэкэнд веб -приложения, в то время как data отвечают за обновление базы данных через регулярные промежутки времени с использованием OpenAI и PineCone. Как app , так и data содержат DockerFile для легкого развертывания на облачных платформах. Я не ожидаю (или поощряю) кого -либо самостоятельно запустить клон проекта (это было бы странно), но это может служить вдохновением для людей, создающих аналогичный тип семантической поисковой системы.
Чтобы запустить код, вам необходимо предоставить следующий список переменных среды:
KAGGLE_USERNAME=your_kaggle_username
KAGGLE_API_KEY=your_kaggle_api_key
OPENAI_API_KEY=your_openai_api_key
PINECONE_API_KEY=your_pinecone_api_key
PINECONE_INDEX_NAME=your_pinecone_index_name
Имя пользователя Kaggle и ключ API обязаны привлечь метадатазат Arxiv, поддерживая (и обновляется еженедельно) Корнелльским университетом. Ключ API OpenAI используется для встраивания новых документов с использованием модели text-embedding-ada-002 . Ключ API Pinecone и имя индекса используются для подключения к индексу (т.е. векторной базе данных), размещенной в Pinecone.
Если вы заинтересованы только в встраивании, я опубликовал полный набор данных на Kaggle. Текущий размер составляет около 10 ГБ, но немного растет каждую неделю, когда добавляются новые документы.
Если по какой -то причине вы все равно хотите самостоятельно встроить документы, вы можете запустить embed.py в data после загрузки метадатаза из Kaggle, установив переменные среды и создавая индекс Pinecone. Если вы не хотите использовать Pinecone, вы можете изменить код, как хотите. Поскольку индекс изначально будет пустым, сценарий внедрит все документы ML (опять же, более 300 000). Однако, прежде чем это сделать, он оценит цену с использованием Tiktoken Tiktoken Tiktoken Tiktoken Tokenizer и попросит подтвердить. Вы можете пропустить этот шаг, запустив python3 embed.py --no-confirmation .
Если вам нравится SearchThearxiv.com и вы хотели бы увидеть что -то улучшенное, не стесняйтесь отправлять запрос на привлечение?