วิธีการขูดวิกิพีเดียกับตัวแทน LLM
การรวมตัวแทนและเครื่องมือของ Langchain เข้ากับ LLM และฟังก์ชั่นของ Openai ที่เรียกร้องให้มีการขูดเว็บของ Wikipedia
ลิงค์ไปยังคู่มือขั้นตอนโดยขั้นตอน: https://medium.com/datadriveninvestor/how-to-web-scrape-wikipedia-using-llm-agents-f0dba8400692
บริบท
- งานของการขูด Wikipedia เป็นเทคนิคที่มีประโยชน์อย่างมากสำหรับการแยกข้อมูลที่มีค่าด้วยการรวบรวมข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างมากมาย
- เครื่องมือดั้งเดิมเช่นซีลีเนียมในขณะที่มีประสิทธิภาพมีแนวโน้มที่จะใช้งานด้วยตนเองและใช้เวลานาน
- ความสามารถที่น่าประทับใจของโมเดลภาษาขนาดใหญ่ (LLMs) และความสามารถในการเชื่อมต่อพวกเขากับอินเทอร์เน็ตได้นำไปสู่ความเป็นไปได้ใหม่ ๆ ในหลายกรณีการใช้งานรวมถึงโดเมนของการขูดเว็บ
- ในบทความนี้เราควบคุมการรวมกันของตัวแทน LLM เครื่องมือและการเรียกใช้ฟังก์ชันเพื่อแยกข้อมูลจาก Wikipedia ได้อย่างง่ายดาย
ข้อมูล
- เพลง 200 เพลงของปี 2010 (จาก Chart2000.com-https://chart2000.com/data/chart2000-song-2010-decade-0-3-0070.csv)
ชุดเครื่องมือ
- คนขี้เกียจ
- ตัวแทน
- เครื่องมือ
- ตัวแยกวิเคราะห์ผลผลิต
- Openai
- LLMS (โดยเฉพาะ
gpt-3.5-turbo-1106 ) - การเรียกใช้ฟังก์ชัน
วิธี
- เรียกใช้
python main.py เพื่อเรียกใช้งานเว็บขูดเว็บสำหรับชุดข้อมูลอินพุตเพลง