كيفية كشط ويكيبيديا مع وكلاء LLM
الجمع بين وكلاء Langchain وأدواته مع LLMs Openai والوظيفة الدعوة إلى تجريف الويب من Wikipedia
رابط إلى دليل خطوة بخطوة: https://medium.com/datadriveninvestor/how-to-web-scrape-wikipedia-using-llm-agents-f0dba8400692
سياق
- تعتبر مهمة Wikipedia التي تجذاب الويب تقنية مفيدة للغاية لاستخراج معلومات قيمة ، وذلك بفضل مجموعتها الواسعة من البيانات المهيكلة وغير المنظمة.
- الأدوات التقليدية مثل السيلينيوم ، على الرغم من فعاليتها ، تميل إلى أن تكون يدويًا وتستغرق وقتًا طويلاً.
- إن القدرات المثيرة للإعجاب لنماذج اللغة الكبيرة (LLMS) والقدرة على توصيلها بالإنترنت قد تم إمكانية إمكانيات جديدة في العديد من حالات الاستخدام ، بما في ذلك مجال تجريف الويب.
- في هذه المقالة ، نقوم بتسخير مجموعة تآزرية من عوامل LLM ، والأدوات ، والاتصال بالوظيفة لاستخراج البيانات من ويكيبيديا بسهولة.
بيانات
- أفضل 200 أغنية لعام 2010 (من chart2000.com-https://chart2000.com/data/chart2000-song-2010-decade-0-3-0070.csv)
مجموعة الأدوات
- لانجشين
- الوكلاء
- أدوات
- محلات الخرج
- Openai
- LLMS (على وجه التحديد
gpt-3.5-turbo-1106 ) - الدعوة وظيفة
كيف
- قم بتشغيل
python main.py لتنفيذ حلقة تجريف الويب لمجموعة بيانات أغاني الإدخال