Como raspar a Wikipedia com agentes LLM
Combinando os agentes e ferramentas de Langchain com os LLMs e a função do OpenAI, chamando a raspagem da Web da Wikipedia
Link para o passo a passo: https://medium.com/datadriveninvestor/how-to-web-scrape-wikipedia-using-llm-agents-f0dba8400692
Contexto
- A tarefa de raspar a Web Wikipedia é uma técnica altamente útil para extrair informações valiosas, graças à sua vasta coleção de dados estruturados e não estruturados.
- Ferramentas tradicionais como o selênio, embora eficazes, tendem a ser manuais e demoradas.
- Os impressionantes recursos de grandes modelos de idiomas (LLMs) e a capacidade de conectá -los à Internet introduziram novas possibilidades em muitos casos de uso, incluindo o domínio da raspagem na web.
- Neste artigo, aproveitamos uma combinação sinérgica de agentes, ferramentas e funções de LLM para extrair dados da Wikipedia rapidamente.
Dados
- As 200 principais músicas dos 2010 (de Chart2000.com-https://chart2000.com/data/chart2000-song-2010-decade-0-3-0070.csv)
Kit de ferramentas
- Langchain
- Agentes
- Ferramentas
- Analisadores de saída
- Openai
- LLMS (especificamente
gpt-3.5-turbo-1106 ) - Chamada de função
Como fazer
- Execute
python main.py para executar o loop de raspagem da web para o conjunto de dados de músicas de entrada