Wie man Wikipedia mit LLM -Agenten kratzt
Kombinieren Sie Langchains Agenten und Tools mit OpenAIs LLMs und Funktionen, die das Web -Scraping von Wikipedia fordern
Link zu Schritt-by-Step
Kontext
- Die Aufgabe, Wikipedia zu verabreden, ist eine sehr nützliche Technik, um wertvolle Informationen zu extrahieren, dank seiner enormen Sammlung strukturierter und unstrukturierter Daten.
- Traditionelle Werkzeuge wie Selen sind zwar wirksam, sind jedoch tendenziell manuell und zeitaufwändig.
- Die beeindruckenden Fähigkeiten von Großsprachemodellen (LLMs) und die Möglichkeit, sie mit dem Internet zu verbinden, haben in vielen Anwendungsfällen neue Möglichkeiten eingeleitet, einschließlich der Domäne des Web -Scrapings.
- In diesem Artikel nutzen wir eine synergistische Kombination von LLM -Agenten, Tools und Funktionen, die aufrufen, um Daten aus Wikipedia leicht zu extrahieren.
Daten
- Top 200 Songs der 2010s (von chart2000.com-https://chart2000.com/data/chart2000-Song-2010-tecade-0-3-0070.csv)
Toolkit
- Langchain
- Agenten
- Werkzeuge
- Ausgangsparser
- Openai
- LLMs (speziell
gpt-3.5-turbo-1106 ) - Funktionsaufruf
Wie man
- Führen Sie
python main.py aus, um die Web -Scraping -Schleife für den Datensatz für Eingabe -Songs auszuführen