Cómo raspar Wikipedia con agentes LLM
Combinando los agentes y herramientas de Langchain con LLMS y función de OpenAI que pide el raspado web de Wikipedia
Enlace a la guía Step-by-step: https://medium.com/datadriveninvestor/how-to-web-scrape-wikipedia-using-llm-agents-f0dba8400692
Contexto
- La tarea de rasparse web Wikipedia es una técnica muy útil para extraer información valiosa, gracias a su vasta recopilación de datos estructurados y no estructurados.
- Las herramientas tradicionales como Selenium, aunque efectivas, tienden a ser manuales y que requieren mucho tiempo.
- Las impresionantes capacidades de los grandes modelos de idiomas (LLM) y la capacidad de conectarlos a Internet han introducido nuevas posibilidades en muchos casos de uso, incluido el dominio del raspado web.
- En este artículo, aprovechamos una combinación sinérgica de agentes, herramientas y llamadas de función LLM para extraer datos de Wikipedia fácilmente.
Datos
- Las 200 principales canciones de los 2010 (de Chart2000.com-https://chart2000.com/data/chart2000-song-2010-decade-0-3-0070.csv)
Kit de herramientas
- Langchain
- Agentes
- Herramientas
- Analizadores de salida
- Opadai
- LLMS (específicamente
gpt-3.5-turbo-1106 ) - Funciones llamadas
Como
- Ejecute
python main.py para ejecutar el bucle de raspado web para el conjunto de datos de canciones de entrada