
該回購包含SearchTheArxiv.com的實現,這是一個簡單的語義搜索引擎,可在Arxiv(和計數)上使用超過300,000毫升的論文。該代碼分為兩個部分, app和data 。 app包含Web應用程序的前端和後端的實現,而data負責使用OpenAI和Pinecone定期更新數據庫。 app和data都包含一個dockerfile,以便於雲平台部署。我不希望(或鼓勵)任何人自己運行該項目的克隆(這很奇怪),但這可能是人們構建類似類型的語義搜索引擎的靈感。
為了運行代碼,您需要提供以下環境變量列表:
KAGGLE_USERNAME=your_kaggle_username
KAGGLE_API_KEY=your_kaggle_api_key
OPENAI_API_KEY=your_openai_api_key
PINECONE_API_KEY=your_pinecone_api_key
PINECONE_INDEX_NAME=your_pinecone_index_name
需要Kaggle用戶名和API密鑰才能獲取康奈爾大學(Cornell University)(每週更新)(每週更新)的Arxiv元數據。 OpenAI API鍵用於使用text-embedding-ada-002型號嵌入新論文。 Pinecone API鍵和索引名稱用於連接到Pinecone上託管的索引(IE Vector數據庫)。
如果您僅對嵌入感興趣,我已經在Kaggle上發布了完整的數據集。當前的尺寸約為10GB,但隨著新論文的增加,每週都會略有增長。
如果由於某種原因您仍然想自行嵌入論文,則可以在從Kaggle下載元數據,設置環境變量並創建Pinecone索引後將data embed.py 。如果您不想使用Pinecone,則可以隨意修改代碼。由於該索引最初將是空的,因此該腳本將嵌入所有ML論文(再次超過300,000)。但是,在此之前,它將使用Openai的Tiktoken令牌估算價格,並要求您確認。您可以通過運行python3 embed.py --no-confirmation 。
如果您喜歡searchThearxiv.com並希望看到一些改進的東西,請隨時提交拉動請求嗎?