Cara Mengikis Wikipedia Dengan Agen LLM
Menggabungkan Agen dan Alat Langchain dengan LLM Openai dan fungsi yang menyerukan gesekan web Wikipedia
Tautan ke Panduan Step-By-Step: https://medium.com/datadrivenInvestor/how-to-web-scrape-wikipedia-using-llm-agents-f0dba8400692
Konteks
- Tugas pengikisan web Wikipedia adalah teknik yang sangat berguna untuk mengekstraksi informasi berharga, berkat kumpulan data terstruktur dan tidak terstruktur yang luas.
- Alat tradisional seperti selenium, walaupun efektif, cenderung manual dan memakan waktu.
- Kemampuan mengesankan model bahasa besar (LLM) dan kemampuan untuk menghubungkannya ke internet telah mengantarkan kemungkinan baru dalam banyak kasus penggunaan, termasuk domain pengikis web.
- Dalam artikel ini, kami memanfaatkan kombinasi sinergis dari agen LLM, alat, dan pemanggil fungsi untuk mengekstrak data dari Wikipedia dengan mudah.
Data
- Teratas 200 Lagu of the 2010s (dari chart2000.com-https://chart2000.com/data/chart2000-song-2010-decade-0-3-0070.csv)
Toolkit
- Langchain
- Agen
- Peralatan
- Output parsers
- Openai
- LLMS (khususnya
gpt-3.5-turbo-1106 ) - Panggilan fungsi
Bagaimana
- Jalankan
python main.py untuk mengeksekusi loop pengikis web untuk dataset lagu input