WikipediaをLLMエージェントとスクレイプする方法
LangchainのエージェントとツールとOpenaiのLLMSと機能を組み合わせる
ステップバイステップガイドへのリンク:https://medium.com/datadriveninvestor/how-to-web-scrape-wikipedia-using-llm-agents-f0dba8400692
コンテクスト
- Web Scraping Wikipediaのタスクは、構造化された非構造化データの膨大なコレクションのおかげで、貴重な情報を抽出するための非常に便利な手法です。
- Seleniumのような従来のツールは、効果的ですが、手動で時間がかかる傾向があります。
- 大規模な言語モデル(LLM)の印象的な機能とインターネットにそれらを接続する能力は、Webスクレイピングのドメインを含む多くのユースケースで新しい可能性を導きました。
- この記事では、LLMエージェント、ツール、および機能呼び出しの相乗的な組み合わせを活用して、Wikipediaからデータをすぐに抽出します。
データ
- 2010年代のトップ200曲(from Chart2000.com-https://chart2000.com/data/chart2000-song-2010-decade-0-3-0070.csv)
ツールキット
- ラングチェーン
- Openai
- LLMS(具体的には
gpt-3.5-turbo-1106 ) - 関数呼び出し
方法
python main.pyを実行して、入力ソングデータセットのWebスクレイピングループを実行します