Dieses Repository enthält Daten und Code zum Erstellen und Bewerten von Systemen, die Sätze auf SQL zuordnen, die als Teil von: entwickelt wurden:
Für eine Reihe von Domänen bieten wir:
Dies sind verbesserte Formen früherer Datensätze und ein neuer Datensatz, den wir entwickelt haben. Wir haben separate Dateien, die die Datensätze, Systeme und Tools beschreiben.
| Version | Beschreibung |
|---|---|
| 4 | Datenfixes |
| 3 | Datenfixes und Zugabe von Daten von Spider und Wikisql |
| 2 | Daten mit Fixes für Variablen, die in Fragen fälschlicherweise definiert sind |
| 1 | Daten, die im ACL 2018 -Papier verwendet werden |
Wenn Sie diese Daten in Ihrer Arbeit verwenden, zitieren Sie bitte unser ACL -Papier und die entsprechenden Originalquellen und listen Sie die Versionsnummer der Daten auf. In Ihrem Papier können Sie beispielsweise schreiben (unter Verwendung des Bibtex unten):
In this work, we use version 4 of the modified SQL datasets from citet{data-advising}, based on citet{data-academic,data-atis-original,data-geography-original,data-atis-geography-scholar,data-imdb-yelp,data-restaurants-logic,data-restaurants-original,data-restaurants,data-spider,data-wikisql}
Wenn Sie nur einen Datensatz verwenden, finden Sie hier Beispiel -Zitatbefehle:
| Daten | Zitieren |
|---|---|
| Akademisch | citet{data-advising,data-academic} |
| Beratung | citet{data-advising} |
| Atis | citet{data-advising,data-atis-original,data-atis-geography-scholar} |
| Geographie | citet{data-advising,data-geography-original,data-atis-geography-scholar} |
| Restaurants | citet{data-advising,data-restaurants-logic,data-restaurants-original,data-restaurants} |
| Gelehrte | citet{data-advising,data-atis-geography-scholar} |
| Spinne | citet{data-advising,data-spider} |
| IMDB | citet{data-advising,data-imdb-yelp} |
| Jaulen | citet{data-advising,data-imdb-yelp} |
| Wikisql | citet{data-advising,data-wikisql} |
@InProceedings{data-sql-advising,
dataset = {Advising},
author = {Catherine Finegan-Dollak, Jonathan K. Kummerfeld, Li Zhang, Karthik Ramanathan, Sesh Sadasivam, Rui Zhang, and Dragomir Radev},
title = {Improving Text-to-SQL Evaluation Methodology},
booktitle = {Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
month = {July},
year = {2018},
location = {Melbourne, Victoria, Australia},
pages = {351--360},
url = {http://aclweb.org/anthology/P18-1033},
}
@InProceedings{data-sql-imdb-yelp,
dataset = {IMDB and Yelp},
author = {Navid Yaghmazadeh, Yuepeng Wang, Isil Dillig, and Thomas Dillig},
title = {SQLizer: Query Synthesis from Natural Language},
booktitle = {International Conference on Object-Oriented Programming, Systems, Languages, and Applications, ACM},
month = {October},
year = {2017},
pages = {63:1--63:26},
url = {http://doi.org/10.1145/3133887},
}
@article{data-academic,
dataset = {Academic},
author = {Fei Li and H. V. Jagadish},
title = {Constructing an Interactive Natural Language Interface for Relational Databases},
journal = {Proceedings of the VLDB Endowment},
volume = {8},
number = {1},
month = {September},
year = {2014},
pages = {73--84},
url = {http://dx.doi.org/10.14778/2735461.2735468},
}
@InProceedings{data-atis-geography-scholar,
dataset = {Scholar, and Updated ATIS and Geography},
author = {Srinivasan Iyer, Ioannis Konstas, Alvin Cheung, Jayant Krishnamurthy, and Luke Zettlemoyer},
title = {Learning a Neural Semantic Parser from User Feedback},
booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
year = {2017},
pages = {963--973},
location = {Vancouver, Canada},
url = {http://www.aclweb.org/anthology/P17-1089},
}
@article{data-atis-original,
dataset = {ATIS, original},
author = {Deborah A. Dahl, Madeleine Bates, Michael Brown, William Fisher, Kate Hunicke-Smith, David Pallett, Christine Pao, Alexander Rudnicky, and Elizabeth Shriber},
title = {{Expanding the scope of the ATIS task: The ATIS-3 corpus}},
journal = {Proceedings of the workshop on Human Language Technology},
year = {1994},
pages = {43--48},
url = {http://dl.acm.org/citation.cfm?id=1075823},
}
@inproceedings{data-geography-original
dataset = {Geography, original},
author = {John M. Zelle and Raymond J. Mooney},
title = {Learning to Parse Database Queries Using Inductive Logic Programming},
booktitle = {Proceedings of the Thirteenth National Conference on Artificial Intelligence - Volume 2},
year = {1996},
pages = {1050--1055},
location = {Portland, Oregon},
url = {http://dl.acm.org/citation.cfm?id=1864519.1864543},
}
@inproceedings{data-restaurants-logic,
author = {Lappoon R. Tang and Raymond J. Mooney},
title = {Automated Construction of Database Interfaces: Intergrating Statistical and Relational Learning for Semantic Parsing},
booktitle = {2000 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora},
year = {2000},
pages = {133--141},
location = {Hong Kong, China},
url = {http://www.aclweb.org/anthology/W00-1317},
}
@inproceedings{data-restaurants-original,
author = {Ana-Maria Popescu, Oren Etzioni, and Henry Kautz},
title = {Towards a Theory of Natural Language Interfaces to Databases},
booktitle = {Proceedings of the 8th International Conference on Intelligent User Interfaces},
year = {2003},
location = {Miami, Florida, USA},
pages = {149--157},
url = {http://doi.acm.org/10.1145/604045.604070},
}
@inproceedings{data-restaurants,
author = {Alessandra Giordani and Alessandro Moschitti},
title = {Automatic Generation and Reranking of SQL-derived Answers to NL Questions},
booktitle = {Proceedings of the Second International Conference on Trustworthy Eternal Systems via Evolving Software, Data and Knowledge},
year = {2012},
location = {Montpellier, France},
pages = {59--76},
url = {https://doi.org/10.1007/978-3-642-45260-4_5},
}
@InProceedings{data-spider,
author = {Tao Yu, Rui Zhang, Kai Yang, Michihiro Yasunaga, Dongxu Wang, Zifan Li, James Ma, Irene Li, Qingning Yao, Shanelle Roman, Zilin Zhang, and Dragomir Radev},
title = {Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task},
booktitle = {Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing},
year = {2018},
location = {Brussels, Belgium},
pages = {3911--3921},
url = {http://aclweb.org/anthology/D18-1425},
}
@article{data-wikisql,
author = {Victor Zhong, Caiming Xiong, and Richard Socher},
title = {Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning},
year = {2017},
journal = {CoRR},
volume = {abs/1709.00103},
}Wir haben erhebliche Anstrengungen unternommen, um Fehler in den Datensätzen zu beheben, aber keiner von ihnen ist perfekt. Wenn Sie einen Fehler finden, senden Sie bitte eine Pull -Anfrage mit einem Fix ein. Wir werden Korrekturen in einen Entwicklungszweig zusammenführen und alle diese Änderungen nur selten in den Master -Zweig verschmelzen (zu diesem Zeitpunkt wird diese Seite angepasst, um festzustellen, dass es sich um eine neue Version handelt). Dieser Ansatz soll die Notwendigkeit klarer Vergleiche zwischen den Systemen ausgleichen und gleichzeitig die Daten verbessern.
Für einige Ideen von Fragen finden Sie in unserer Liste der bekannten Probleme.
Dieses Material basiert teilweise auf der Arbeit, die von IBM gemäß Vertrag 4915012629 unterstützt wird. Alle Meinungen, Ergebnisse, Schlussfolgerungen oder Empfehlungen, die geäußert werden, sind die der Autoren und spiegeln nicht unbedingt die Ansichten von IBM wider.