dspy arxiv
1.0.0
探索使用DSPY从PDF中提取功能的使用。该存储库提供了一个简单的示例,说明如何使用此框架来预测Arxiv的计算机科学纸的子类别。
该数据集是从计算机科学类别中选择的150份ARXIV论文(元数据 + PDF)。
构建数据库:
dspy-arxiv目录中。arxiv.json 。data.ipynb从上到下。最后,您应该有两个目录:
如果要在管道中添加抹布,则将数据放在矢量数据库中以进行快速检索很方便。查看Database.py ,以获取一个示例脚本以设置Chromadb并用Arxiv Metadata填充它。
笔记本功能。IPYNB可以看作是一个简单的教程,讲述了如何使用DSPY来编程提示LLM进行功能提取(在这种情况下,预测ARXIV的计算机科学论文的子类别)。
您还可以查看此笔记本产生的幻灯片。