
该回购包含SearchTheArxiv.com的实现,这是一个简单的语义搜索引擎,可在Arxiv(和计数)上使用超过300,000毫升的论文。该代码分为两个部分, app和data 。 app包含Web应用程序的前端和后端的实现,而data负责使用OpenAI和Pinecone定期更新数据库。 app和data都包含一个dockerfile,以便于云平台部署。我不希望(或鼓励)任何人自己运行该项目的克隆(这很奇怪),但这可能是人们构建类似类型的语义搜索引擎的灵感。
为了运行代码,您需要提供以下环境变量列表:
KAGGLE_USERNAME=your_kaggle_username
KAGGLE_API_KEY=your_kaggle_api_key
OPENAI_API_KEY=your_openai_api_key
PINECONE_API_KEY=your_pinecone_api_key
PINECONE_INDEX_NAME=your_pinecone_index_name
需要Kaggle用户名和API密钥才能获取康奈尔大学(Cornell University)(每周更新)(每周更新)的Arxiv元数据。 OpenAI API键用于使用text-embedding-ada-002型号嵌入新论文。 Pinecone API键和索引名称用于连接到Pinecone上托管的索引(IE Vector数据库)。
如果您仅对嵌入感兴趣,我已经在Kaggle上发布了完整的数据集。当前的尺寸约为10GB,但随着新论文的增加,每周都会略有增长。
如果由于某种原因您仍然想自行嵌入论文,则可以在从Kaggle下载元数据,设置环境变量并创建Pinecone索引后将data embed.py 。如果您不想使用Pinecone,则可以随意修改代码。由于该索引最初将是空的,因此该脚本将嵌入所有ML论文(再次超过300,000)。但是,在此之前,它将使用Openai的Tiktoken令牌估算价格,并要求您确认。您可以通过运行python3 embed.py --no-confirmation 。
如果您喜欢searchThearxiv.com并希望看到一些改进的东西,请随时提交拉动请求吗?