Triviaqa: Ein großes, weit entferntes Herausforderungsdatensatz für das Leseverständnis
- Dieses Repo enthält Code für den Papiermandar Joshi, Eunsol Choi, Daniel Weld und Luke Zettlemoyer.
TRIVIAQA: Ein weitgehend beaufsichtigter Herausforderungsdatensatz für das Leseverständnis in der Association for Computational Linguistics (ACL) 2017, Vancouver, Kanada.
- Die Daten können von der Triviaqa -Website heruntergeladen werden. Die Apache 2.0 -Lizenz gilt sowohl für den Code als auch für die Daten.
- Bitte wenden Sie sich an Mandar Joshi (<Firstname> [email protected]), um Vorschläge und Kommentare zu erhalten.
Anforderungen
Allgemein
- Python 3. Sie sollten in der Lage sein, die Bewertungsskripte mit Python 2.7 auszuführen, wenn Sie sich um Unicode in
utils.utils.py kümmern. - BIDAF benötigt Python 3 - Überprüfen Sie das ursprüngliche Repository für weitere Details.
Python -Pakete
- TensorFlow (nur wenn Sie BIDAF ausführen möchten, verifiziert auf R0.11)
- NLTK
- tqdm
Auswertung
Der Parameter dataset file bezieht sich auf Dateien im qa -Verzeichnis der Daten (z. B. wikipedia-dev.json ). Für das Dateiformat lesen Sie das sample im Repo.
python3 -m evaluation.triviaqa_evaluation --dataset_file samples/triviaqa_sample.json --prediction_file samples/sample_predictions.json
Verschiedenes
- Wenn Sie ein Squad -Modell haben und auf Triviaqa ausgeführt werden möchten, lesen Sie bitte
utils.convert_to_squad_format.py