Datenerweiterungsansätze für Quellcode -Modelle
Wenn Sie Ihr Papier hinzufügen möchten, senden Sie uns keine E -Mail. Lesen Sie stattdessen das Protokoll zum Hinzufügen eines neuen Eintrags und senden Sie eine Pull -Anfrage.
Wir gruppieren die Papiere nach Code Authorship Attribution, Klonerkennung, Defekterkennung und -reparatur, Code -Zusammenfassung, Codesuche, Codeabschluss, Codeübersetzung, Code -Frage -Beantwortung, Problemklassifizierung, Vorhersage des Methodennamens und Typvorhersage.
Dieses Repository basiert auf unserem Papier, Quellcode -Datenvergrößerung für Deep Learning: Eine Umfrage. Sie können es wie folgt zitieren:
@article{zhuo2023source,
title={Source Code Data Augmentation for Deep Learning: A Survey},
author={Terry Yue Zhuo and Zhou Yang and Zhensu Sun and Yufei Wang and Li Li and Xiaoning Du and Zhenchang Xing and David Lo},
year={2023},
eprint={2305.19915},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Autoren: Terry Yue Zhuo, Zhou Yang, Zhensu Sun, Yufei Wang, Li Li, Xiaoning DU, Zhenchang Xing, David Lo
Hinweis: WIP. Weitere Zeitungen werden bald aus unserem Umfragepapier zu diesem Repo hinzugefügt. Anfragen sollten an [email protected] gerichtet werden oder hier ein Problem eröffnen.
Code Urheberschaft zuzuschreiben
| Papier | Bewertungsdatensätze |
|---|
| Natürlicher Angriff für vorgeborene Codemodelle (ICSE'22) | GCJ |
| ROPGEN: Auf dem Weg zu einem robusten Code Authorship Attribution über automatische Codierungsstil -Transformation (ICSE'22) | GCJ, GitHub |
| Steigerung des Quellcode -Lernens mit Datenvergrößerung (Arxiv'23) | GCJ |
| CODE -Differenz -geführte kontroverse Beispiel Generierung für Deep -Code -Modelle ASE'23 | GCJ |
Klonerkennung
| Papier | Datensätze |
|---|
| Lernen des kontrastiven Coderepräsentation (EMNLP'22) | JavaScript (papierspezifisch) |
| Datenvergrößerung durch Programmtransformation (JSS'22) | BCB |
| Natürlicher Angriff für vorgeborene Codemodelle (ICSE'22) | Bigclonebch |
| Freisetzung der Macht der Compiler -Intermediate -Darstellung zur Verbesserung des neuronalen Programms (ICSE'22) | Poj-104, GCJ |
| HELOC: Hierarchisches kontrastives Lernen der Quellcode -Darstellung (ICPC'22) | GCJ, Ojclone |
| Kombination: Darstellungen von Binärcode vor dem Training unter Verwendung von kontrastivem Lernen (Arxiv'22) | BinaryCorp-3m |
| Bewertung des kontrastiven Lernens mit verschiedenen Code -Darstellungen zur Erkennung von Codeklonen (Arxiv'22) | POJ-104, Codeforces |
| Auf dem Weg zum Lernen (dis) -Symilität des Quellcodes aus Programmkontrasten (ACL'22) | Poj-104, Bigclonebch |
| REACC: Ein retrieval-ausgereihter Code-Completion-Framework (ACL'22) | Codenet |
| Vorausgeborene Modelle und nachgeschaltete Aufgaben für das Verständnis des Quellcodees (ICSE'22) | Poj-104 |
| Steigerung des Quellcode -Lernens mit Datenvergrößerung: Eine empirische Studie (Arxiv'23) | Bigclonebch |
| Clawsat: Auf dem Weg zu robusten und genauen Codemodellen (sherer'22) | --- |
| Schmuggelware: Verbesserung von Modellen vor ausgebildetem Code durch kontrastives Lernen (ICSE'22) | Poj-104 |
| Wege zur Nutzung von transkompilierbasierten Datenvergrößerungen zur Erkennung von Cross-Language-Klon (ICPC'23) | Clcdsa |
| CODE -Differenz -geführte kontroverse Beispielgenerierung für Deep -Code -Modelle (ASE'23 | Bigclonebch |
| Eine Vor-Training-Methode zur erweiterten Codedarstellung basierend auf multimodalem kontrastivem Lernen (JOS'23) | Poj-104, Bigclonebch |
| Concord: Klonbewusstes kontrastives Lernen für Quellcode (ISSTA'23) | Codenet (Java), POJ104 |
| Neuro-symbolischer Zero-Shot-Codekloning mit intermediärer Repräsentation (Arxiv'23) | CODENET (C, COBOL) |
| Multi-Target-Backdoor-Angriffe für Code-Vorgeborene (ACL'23) | BCB |
Erkennung und Reparatur von Defekten
| Papier | Datensätze |
|---|
| Gegentliche Beispiele für Codemodelle (OOPSLA'20) | Varmisuse |
| Selbstverständliche Erkennung und Reparatur von Fehler (Neurips'21) | Randombugs, Pypibugs |
| Semantikverwahrendes kontroverses Codeverständnis (Coling'22) | Defekt4J |
| Pfadempfindlicher Code, der durch kontrastives Lernen für die Erkennung von Softwareanfälligkeit einbettet (ISSTA'22) | D2A, Fan, Devign |
| Natürlicher Angriff für vorgeborene Codemodelle (ICSE'22) | Devign |
| Kombination: Darstellungen von Binärcode vor dem Training unter Verwendung von kontrastivem Lernen (Arxiv'22) | Sysevr |
| Auf dem Weg zum Lernen (dis) -Symilität des Quellcodes aus Programmkontrasten (ACL'22) | Enthüllen, codExklebule |
| Steigerung des Quellcode -Lernens mit Datenvergrößerung: Eine empirische Studie (Arxiv'23) | Refactory, Codrep1 |
| MIXCODE: Verbesserung der Codeklassifizierung durch Mixup-basierte Datenvergrößerung (saner'23) | Refactory, Codrep1 |
| Schmuggelware: Verbesserung von Modellen vor ausgebildetem Code durch kontrastives Lernen (ICSE'23) | Devign |
| CODE -Differenz -geführte kontroverse Beispielgenerierung für Deep -Code -Modelle (ASE'23) | Devign, Codechef |
| Mufin: Verbesserung der Neuralreparaturmodelle mit Rücktranslation (Arxiv'23) | Defects4J (papierspezifisch), Quixbugs (papierspezifisch) |
| Nutzung der kausalen Schlussfolgerung für die Erklärung der automatischen Programmreparatur (IJCNN'22) | Defects4J, Quixbugs, Bugaid |
| Deepdebug: Fixierung von Python -Fehler mit Stapelspuren, Backtranslation und Code -Skeletten (Arxiv'21) | papierspezifisch |
| Break-it-fix-it: unbeaufsichtigtes Lernen für die Programmreparatur (Arxiv'21) | papierspezifisch, Deepfix |
| Multi-Target-Backdoor-Angriffe für Code-Vorgeborene (ACL'23) | Devign. Bug2Fix |
| Inferfix: End-to-End-Programmreparatur mit LLMs über Abrufanforderungen (Arxiv'23) | Abgeleitete Bugs |
| RAP-Gen: Abrufen-Patch-Patch-Generierung mit Codet5 für automatische Programmreparatur (FSE'23) | Tfix, bug2fix, Defects4J |
| Zu wenige Fehlerberichte? Erforschung der Datenvergrößerung für verbesserte Änderungenset-basierte Fehlerlokalisierung (ARXIV'23) | Locus -Daten |
CODE -Zusammenfassung
| Papier | Datensätze |
|---|
| Schulung von Modellen für tiefe Code -Kommentare über Datenerweiterung (Internetware'20) | Tl-codesum |
| Abrufbasierte neuronale Quellcode-Zusammenfassung (ICSE'20) | PCSD, JCSD |
| Generieren von kontroversen Computerprogrammen mit optimierten Verschleiern (ICLR'21) | Python-150K, Code2Seq-Daten |
| Lernen des kontrastiven Coderepräsentation (EMNLP'21) | JavaScript (papierspezifisch) |
| Ein suchbasiertes Test-Framework für tiefe neuronale Netzwerke der Einbettung von Quellcode (ICST'21) | papierspezifisch |
| Abruf-ausgebildete Generation für die Codebühne über Hybrid GNN (ICLR'21) | CCSD (papierspezifisch) |
| Bashexplainer: Retrieval-Augmented Bash-Code-Kommentargenerierung basierend auf dem fein abgestimmten Codebert (ICMSE'22) | Bashexplaner -Daten |
| Datenvergrößerung durch Programmtransformation (JSS'22) | Deepcom |
| Gegentliche Robustheit der Deep -Code -Kommentargenerierung (Tosem'22) | CCSD (papierspezifisch) |
| Haben Sie nicht genug Daten? Eine einfache Datenvergrößerung für die Zusammenfassung der Code (PAAP'22) | --- |
| Semantische Robustheit von Modellen des Quellcode (saner'22) | Python-150K, Code2Seq-Daten |
| Ein genauerer Blick auf transformatorbasierte Code-Intelligenz durch Code-Transformation: Herausforderungen und Chancen (Arxiv'22) | Codesarchnet (Python, Java) |
| Clawsat: Auf dem Weg zu robusten und genauen Codemodellen (sherer'23) | --- |
| Erforschung der Datenvergrößerung für Codegenerierung Aufgaben (EACL'23) | Codessearchnet (codExklue) |
| Bash-Kommentargenerierung über Daten Augmentation und semantisches Codebert (Arxiv'23) | Bashexplaner -Daten |
| Readsum: Abrufen-adaptiver Transformator für die Zusammenfassung des Quellcodes (Access'23) | PCSD |
| Straßenbahn: Ein Abrufmechanismus auf Token-Ebene für die Zusammenfassung der Quellcode (Arxiv'23) | PCSD, CCSD, Deepcom |
| Zwei Vögel mit einem Stein: Steigerung der Codegenerierung und Code -Suche über ein generatives kontroverses Netzwerk (OOPSLA'23) | Codesarchnet (Python, Java) |
| Bessere Sprachmodelle von Code durch Selbstverbesserung (ACL'23) | Codesarchnet |
Codesuche
| Papier | Datensätze |
|---|
| AugmentedCode: Untersuchung der Auswirkungen natürlicher Sprachressourcen in Code -Abrufmodellen (Arxiv'21) | Codesarchnet |
| COSQA: 20.000 mehr Webanfragen für die Code -Suche und Fragenbeantwortung (ACL'21) | Cosqa |
| Ein suchbasiertes Test-Framework für tiefe neuronale Netzwerke der Einbettung von Quellcode (ICST'21) | papierspezifisch |
| Semantikverwahrendes kontroverses Codeverständnis (Coling'22) | Codesarchnet |
| Erkundung der Vergrößerung der Repräsentationsebene für die Codesuche (EMNLP'22) | Codesarchnet |
| Cross-modal kontrastives Lernen für die Codesuche (ICSME'22) | Advtest, cosqa |
| Vorausgeborene Modelle und nachgeschaltete Aufgaben für das Verständnis des Quellcodees (ICSE'22) | Codesarchnet |
| Ein genauerer Blick auf transformatorbasierte Code-Intelligenz durch Code-Transformation: Herausforderungen und Chancen (Arxiv'22) | Codesarchnet (Python, Java) |
| Schmuggelware: Verbesserung von Modellen vor ausgebildetem Code durch kontrastives Lernen (ICSE'23) | Advtest, WebQueryTest |
| Cocosoda: Effektives kontrastives Lernen für die Codesuche (ICSE'23) | Codesarchnet |
| Kontrastives Lernen mit Keyword-basierter Datenvergrößerung für die Beantwortung von Codesuche und Code Frage (EACL'23) | WebQueryTest |
| Eine Vor-Training-Methode zur erweiterten Codedarstellung basierend auf multimodalem kontrastivem Lernen (JOS'23) | Codesarchnet |
| Negative Paare in der Codesuche überdenken (EMNLP'23) | Codesarchnet |
| Auf dem Weg zu einer besseren mehrsprachigen Code-Suche durch Kreuzungskontrastive Lernen (Internetware'23) | Xlcost |
| McOdeSearcher: Multi-View-kontrastives Lernen für die Codesuche (Internetware'23) | Codesarchnet (Python, Java), Cosqa, STAQC, WebQuery |
| Mulcs: Auf dem Weg zu einer einheitlichen tiefen Darstellung für die mehrsprachige Codesuche (saner'23) | Codesarchnet (Python, Java), papierspezifisch |
| Zwei Vögel mit einem Stein: Steigerung der Codegenerierung und Code -Suche über ein generatives kontroverses Netzwerk (OOPSLA'23) | Codesarchnet (Python, Java) |
Code -Abschluss
| Papier | Datensätze |
|---|
| Generative Codemodellierung mit Diagrammen (ICLR'19) | Exprenzdaten (papierspezifisch) |
| Gegentliche Robustheit von Programmsynthesemodellen (Aiplans'21) | Algolisp |
| REACC: Ein retrieval-ausgereihter Code-Completion-Framework (ACL'22) | Py150 (Codexklue), GithHub Java (Codexklue) |
| Testgetriebenes Multi-Task-Lernen mit funktional äquivalenter Code-Transformation für die Erzeugung neuronaler Code (ASE'22) | MBPP |
| Wie wichtig sind gute Methodennamen in der Generation der neuronalen Code? Eine Modell -Robustheit Perspektive (Arxiv'22) | verfeinerte Zusammenhänge, raffinierter Pytorrent |
| Ein genauerer Blick auf transformatorbasierte Code-Intelligenz durch Code-Transformation: Herausforderungen und Chancen (Arxiv'22) | Codesarchnet (Python, Java) |
| Recode: Robustheit Bewertung von Codegenerierungsmodellen (ACL'23) | Humaneral, MBPP |
| Clawsat: Auf dem Weg zu robusten und genauen Codemodellen (sherer'23) | --- |
| Abrufenbasierte promptale Auswahl für codebedingte Wenig-Shot-Lernen (ICSE'23) | Atlas, tfix |
| Rostgen: Ein Augmentationsansatz zur Erzeugung kompilierbarer Rostcode mit großen Sprachmodellen (EinsatzablenerativeAI'23) | papierspezifisch |
| Multi-Target-Backdoor-Angriffe für Code-Vorgeborene (ACL'23) | GithHub Java (Codexklebuge) |
| Domain Adaptive Code -Abschluss über Sprachmodelle und entkoppelte Domänendatenbanken (ASE'23) | papierspezifisch |
| APICOM: Automatische API-Fertigstellung durch sofortiges Lernen und kontroverse schulungsbasierte Datenvergrößerung (Internetware'23) | papierspezifisch |
| Testgetriebenes Multi-Task-Lernen mit funktional äquivalenter Code-Transformation für die Erzeugung neuronaler Code (ASE'22) | MBPP |
| Bessere Sprachmodelle von Code durch Selbstverbesserung (ACL'23) | Zusammen |
Codeübersetzung
| Papier | Datensätze |
|---|
| Nutzung automatisierter Einheiten -Tests für eine unbeaufsichtigte Codeübersetzung (ICLR'23) | papierspezifisch |
| Erforschung der Datenvergrößerung für Codegenerierung Aufgaben (EACL'23) | Codetrans (CodExklue) |
| Fassen Sie zusammen und generieren Sie die Rückstranslate: unbeaufsichtigte Übersetzung von Programmiersprachen (EACL'23) | Transcoder -Daten |
| Schmuggelware: Verbesserung von Modellen vor ausgebildetem Code durch kontrastives Lernen (ICSE'23) | Codetrans (CodExklue) |
| Codeübersetzung mit Compiler -Darstellungen (ICLR'23) | Transcoder -Daten |
| Datenvergrößerung für die Codeübersetzung mit vergleichbaren Unternehmen und mehreren Referenzen (EMNLP'23) | Transcoder -Daten |
| Beurteilung und Verbesserung der syntaktischen kontroversen Robustheit von vorgebildeten Modellen für die Codeübersetzung (Arxiv'23) | Avatar |
| Multi-Target-Backdoor-Angriffe für Code-Vorgeborene (ACL'23) | Transcoder -Daten |
Code Frage Beantwortung
| Papier | Datensätze |
|---|
| COSQA: 20.000 mehr Webanfragen für die Code -Suche und Fragenbeantwortung (ACL'21) | Cosqa |
| Semantikverwahrendes kontroverses Codeverständnis (Coling'22) | Codesqa |
| Kontrastives Lernen mit Keyword-basierter Datenvergrößerung für die Beantwortung von Codesuche und Code Frage (EACL'23) | Cosqa |
| McOdeSearcher: Multi-View-kontrastives Lernen für die Codesuche (Internetware'23) | WebQuery (papierspezifisch) |
Codeklassifizierung
| Papier | Datensätze |
|---|
| Generieren von kontroversen Beispielen für die Robustheit von Quellcode -Verarbeitungsmodellen (AAAI'20) | Oj |
| Generieren von kontroversen Beispielen für Quellcode-Klassifizierungsmodelle über Q-Learning-basierten Markov-Entscheidungsprozess (QRS'21) | Oj |
| HELOC: Hierarchisches kontrastives Lernen der Quellcode -Darstellung (ICPC'22) | GCJ, OJ |
| Kombination: Darstellungen von Binärcode vor dem Training unter Verwendung von kontrastivem Lernen (Arxiv'22) | Poj-104 (codExklue) |
| Vorausgeborene Modelle und nachgeschaltete Aufgaben für das Verständnis des Quellcodees (ICSE'22) | Poj-104 |
| Steigerung des Quellcode -Lernens mit Datenvergrößerung: Eine empirische Studie (Arxiv'23) | Java250, Python800 |
| MIXCODE: Verbesserung der Codeklassifizierung durch Mixup-basierte Datenvergrößerung (saner'23) | Java250, Python800 |
| CODE -Differenz -geführte kontroverse Beispielgenerierung für Deep -Code -Modelle (ASE'23) | GCJ |
| Ein erweiterter Datenerweiterungsansatz zur Unterstützung der Lesbarkeitsklassifizierung von Multi-Class-Code (Seke'22) | papierspezifisch |
| Verbesserung der Lesbarkeitsklassifizierung von Multi-Class-Code mit einem erweiterten Datenerweiterungsansatz (130) (International Journal of Software Engineering und Knowledge Engineering) | papierspezifisch |
Vorhersage des Methodennamens
| Papier | Datensätze |
|---|
| Gegentliche Beispiele für Codemodelle (OOPSLA'20) | Code2Vec |
| Ein suchbasiertes Test-Framework für tiefe neuronale Netzwerke der Einbettung von Quellcode (ICST'21) | papierspezifisch |
| Über die Generalisierbarkeit neuronaler Programmmodelle in Bezug auf semantische Programmtransformationen (IST'21) | Code2seq |
| Datenvergrößerung durch Programmtransformation (JSS'22) | Code2Vec |
| Diskreter widersprüchlicher Angriff auf Codemodelle (PLDI'23) | Code2Vec |
Typvorhersage
| Papier | Datensätze |
|---|
| Gegentliche Robustheit für Code (ICML'21) | Deeptyer |
| Lernen des kontrastiven Coderepräsentation (EMNLP'21) | Deeptyer |
| Kreuzsprachiger Transferlernen für statistische Typinferenz (ISSta'22) | Deeptyper, Typilus (Python), Codesarchnet (Java) |
Anerkennung
Wir danken Steven Y. Feng, et al. Für ihre Open-Source-Papierliste auf DataAug4NLP.