Comment gratter Wikipedia avec des agents LLM
Combiner les agents et les outils de Langchain avec les LLM et fonctions d'Openai appelant le grattage Web de Wikipedia
Lien vers Step-by-Step Guide: https://medium.com/datadriveninvestor/how-to-web-scrap-wikipedia-using-llm-agents-f0dba8400692
Contexte
- La tâche de gratter Web Wikipedia est une technique très utile pour extraire des informations précieuses, grâce à sa vaste collection de données structurées et non structurées.
- Les outils traditionnels comme le sélénium, bien que efficaces, ont tendance à être manuels et longs.
- Les capacités impressionnantes des modèles de grande langue (LLM) et la possibilité de les connecter à Internet ont inauguré de nouvelles possibilités dans de nombreux cas d'utilisation, y compris le domaine du grattage Web.
- Dans cet article, nous exploitons une combinaison synergique d'agents, d'outils et de fonctions de LLM pour extraire les données de Wikipedia facilement.
Données
- Les 200 meilleurs chansons des années 2010 (de chart2000.com - https://chart2000.com/data/chart2000-song-2010-decade-0-3-0070.csv)
Boîte à outils
- Lubriole
- Agents
- Outils
- Analyseurs de sortie
- Openai
- LLMS (spécifiquement
gpt-3.5-turbo-1106 ) - Fonction d'appel
Comment
- Exécutez
python main.py pour exécuter la boucle de grattage Web pour l'ensemble de données des chansons d'entrée