DataAug4Code -Download - DataAug4Code Quellcode herunterladen

DataAug4Code

Anderer Quellcode

1.0.0

Herunterladen

Datenerweiterungsansätze für Quellcode -Modelle

Wenn Sie Ihr Papier hinzufügen möchten, senden Sie uns keine E -Mail. Lesen Sie stattdessen das Protokoll zum Hinzufügen eines neuen Eintrags und senden Sie eine Pull -Anfrage.

Wir gruppieren die Papiere nach Code Authorship Attribution, Klonerkennung, Defekterkennung und -reparatur, Code -Zusammenfassung, Codesuche, Codeabschluss, Codeübersetzung, Code -Frage -Beantwortung, Problemklassifizierung, Vorhersage des Methodennamens und Typvorhersage.

Dieses Repository basiert auf unserem Papier, Quellcode -Datenvergrößerung für Deep Learning: Eine Umfrage. Sie können es wie folgt zitieren:

 @article{zhuo2023source,
      title={Source Code Data Augmentation for Deep Learning: A Survey}, 
      author={Terry Yue Zhuo and Zhou Yang and Zhensu Sun and Yufei Wang and Li Li and Xiaoning Du and Zhenchang Xing and David Lo},
      year={2023},
      eprint={2305.19915},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

Autoren: Terry Yue Zhuo, Zhou Yang, Zhensu Sun, Yufei Wang, Li Li, Xiaoning DU, Zhenchang Xing, David Lo

Hinweis: WIP. Weitere Zeitungen werden bald aus unserem Umfragepapier zu diesem Repo hinzugefügt. Anfragen sollten an [email protected] gerichtet werden oder hier ein Problem eröffnen.

Code Urheberschaft zuzuschreiben

Papier	Bewertungsdatensätze
Natürlicher Angriff für vorgeborene Codemodelle (ICSE'22)	GCJ
ROPGEN: Auf dem Weg zu einem robusten Code Authorship Attribution über automatische Codierungsstil -Transformation (ICSE'22)	GCJ, GitHub
Steigerung des Quellcode -Lernens mit Datenvergrößerung (Arxiv'23)	GCJ
CODE -Differenz -geführte kontroverse Beispiel Generierung für Deep -Code -Modelle ASE'23	GCJ

Klonerkennung

Papier	Datensätze
Lernen des kontrastiven Coderepräsentation (EMNLP'22)	JavaScript (papierspezifisch)
Datenvergrößerung durch Programmtransformation (JSS'22)	BCB
Natürlicher Angriff für vorgeborene Codemodelle (ICSE'22)	Bigclonebch
Freisetzung der Macht der Compiler -Intermediate -Darstellung zur Verbesserung des neuronalen Programms (ICSE'22)	Poj-104, GCJ
HELOC: Hierarchisches kontrastives Lernen der Quellcode -Darstellung (ICPC'22)	GCJ, Ojclone
Kombination: Darstellungen von Binärcode vor dem Training unter Verwendung von kontrastivem Lernen (Arxiv'22)	BinaryCorp-3m
Bewertung des kontrastiven Lernens mit verschiedenen Code -Darstellungen zur Erkennung von Codeklonen (Arxiv'22)	POJ-104, Codeforces
Auf dem Weg zum Lernen (dis) -Symilität des Quellcodes aus Programmkontrasten (ACL'22)	Poj-104, Bigclonebch
REACC: Ein retrieval-ausgereihter Code-Completion-Framework (ACL'22)	Codenet
Vorausgeborene Modelle und nachgeschaltete Aufgaben für das Verständnis des Quellcodees (ICSE'22)	Poj-104
Steigerung des Quellcode -Lernens mit Datenvergrößerung: Eine empirische Studie (Arxiv'23)	Bigclonebch
Clawsat: Auf dem Weg zu robusten und genauen Codemodellen (sherer'22)	---
Schmuggelware: Verbesserung von Modellen vor ausgebildetem Code durch kontrastives Lernen (ICSE'22)	Poj-104
Wege zur Nutzung von transkompilierbasierten Datenvergrößerungen zur Erkennung von Cross-Language-Klon (ICPC'23)	Clcdsa
CODE -Differenz -geführte kontroverse Beispielgenerierung für Deep -Code -Modelle (ASE'23	Bigclonebch
Eine Vor-Training-Methode zur erweiterten Codedarstellung basierend auf multimodalem kontrastivem Lernen (JOS'23)	Poj-104, Bigclonebch
Concord: Klonbewusstes kontrastives Lernen für Quellcode (ISSTA'23)	Codenet (Java), POJ104
Neuro-symbolischer Zero-Shot-Codekloning mit intermediärer Repräsentation (Arxiv'23)	CODENET (C, COBOL)
Multi-Target-Backdoor-Angriffe für Code-Vorgeborene (ACL'23)	BCB

Erkennung und Reparatur von Defekten

Papier	Datensätze
Gegentliche Beispiele für Codemodelle (OOPSLA'20)	Varmisuse
Selbstverständliche Erkennung und Reparatur von Fehler (Neurips'21)	Randombugs, Pypibugs
Semantikverwahrendes kontroverses Codeverständnis (Coling'22)	Defekt4J
Pfadempfindlicher Code, der durch kontrastives Lernen für die Erkennung von Softwareanfälligkeit einbettet (ISSTA'22)	D2A, Fan, Devign
Natürlicher Angriff für vorgeborene Codemodelle (ICSE'22)	Devign
Kombination: Darstellungen von Binärcode vor dem Training unter Verwendung von kontrastivem Lernen (Arxiv'22)	Sysevr
Auf dem Weg zum Lernen (dis) -Symilität des Quellcodes aus Programmkontrasten (ACL'22)	Enthüllen, codExklebule
Steigerung des Quellcode -Lernens mit Datenvergrößerung: Eine empirische Studie (Arxiv'23)	Refactory, Codrep1
MIXCODE: Verbesserung der Codeklassifizierung durch Mixup-basierte Datenvergrößerung (saner'23)	Refactory, Codrep1
Schmuggelware: Verbesserung von Modellen vor ausgebildetem Code durch kontrastives Lernen (ICSE'23)	Devign
CODE -Differenz -geführte kontroverse Beispielgenerierung für Deep -Code -Modelle (ASE'23)	Devign, Codechef
Mufin: Verbesserung der Neuralreparaturmodelle mit Rücktranslation (Arxiv'23)	Defects4J (papierspezifisch), Quixbugs (papierspezifisch)
Nutzung der kausalen Schlussfolgerung für die Erklärung der automatischen Programmreparatur (IJCNN'22)	Defects4J, Quixbugs, Bugaid
Deepdebug: Fixierung von Python -Fehler mit Stapelspuren, Backtranslation und Code -Skeletten (Arxiv'21)	papierspezifisch
Break-it-fix-it: unbeaufsichtigtes Lernen für die Programmreparatur (Arxiv'21)	papierspezifisch, Deepfix
Multi-Target-Backdoor-Angriffe für Code-Vorgeborene (ACL'23)	Devign. Bug2Fix
Inferfix: End-to-End-Programmreparatur mit LLMs über Abrufanforderungen (Arxiv'23)	Abgeleitete Bugs
RAP-Gen: Abrufen-Patch-Patch-Generierung mit Codet5 für automatische Programmreparatur (FSE'23)	Tfix, bug2fix, Defects4J
Zu wenige Fehlerberichte? Erforschung der Datenvergrößerung für verbesserte Änderungenset-basierte Fehlerlokalisierung (ARXIV'23)	Locus -Daten

CODE -Zusammenfassung

Papier	Datensätze
Schulung von Modellen für tiefe Code -Kommentare über Datenerweiterung (Internetware'20)	Tl-codesum
Abrufbasierte neuronale Quellcode-Zusammenfassung (ICSE'20)	PCSD, JCSD
Generieren von kontroversen Computerprogrammen mit optimierten Verschleiern (ICLR'21)	Python-150K, Code2Seq-Daten
Lernen des kontrastiven Coderepräsentation (EMNLP'21)	JavaScript (papierspezifisch)
Ein suchbasiertes Test-Framework für tiefe neuronale Netzwerke der Einbettung von Quellcode (ICST'21)	papierspezifisch
Abruf-ausgebildete Generation für die Codebühne über Hybrid GNN (ICLR'21)	CCSD (papierspezifisch)
Bashexplainer: Retrieval-Augmented Bash-Code-Kommentargenerierung basierend auf dem fein abgestimmten Codebert (ICMSE'22)	Bashexplaner -Daten
Datenvergrößerung durch Programmtransformation (JSS'22)	Deepcom
Gegentliche Robustheit der Deep -Code -Kommentargenerierung (Tosem'22)	CCSD (papierspezifisch)
Haben Sie nicht genug Daten? Eine einfache Datenvergrößerung für die Zusammenfassung der Code (PAAP'22)	---
Semantische Robustheit von Modellen des Quellcode (saner'22)	Python-150K, Code2Seq-Daten
Ein genauerer Blick auf transformatorbasierte Code-Intelligenz durch Code-Transformation: Herausforderungen und Chancen (Arxiv'22)	Codesarchnet (Python, Java)
Clawsat: Auf dem Weg zu robusten und genauen Codemodellen (sherer'23)	---
Erforschung der Datenvergrößerung für Codegenerierung Aufgaben (EACL'23)	Codessearchnet (codExklue)
Bash-Kommentargenerierung über Daten Augmentation und semantisches Codebert (Arxiv'23)	Bashexplaner -Daten
Readsum: Abrufen-adaptiver Transformator für die Zusammenfassung des Quellcodes (Access'23)	PCSD
Straßenbahn: Ein Abrufmechanismus auf Token-Ebene für die Zusammenfassung der Quellcode (Arxiv'23)	PCSD, CCSD, Deepcom
Zwei Vögel mit einem Stein: Steigerung der Codegenerierung und Code -Suche über ein generatives kontroverses Netzwerk (OOPSLA'23)	Codesarchnet (Python, Java)
Bessere Sprachmodelle von Code durch Selbstverbesserung (ACL'23)	Codesarchnet

Codesuche

Papier	Datensätze
AugmentedCode: Untersuchung der Auswirkungen natürlicher Sprachressourcen in Code -Abrufmodellen (Arxiv'21)	Codesarchnet
COSQA: 20.000 mehr Webanfragen für die Code -Suche und Fragenbeantwortung (ACL'21)	Cosqa
Ein suchbasiertes Test-Framework für tiefe neuronale Netzwerke der Einbettung von Quellcode (ICST'21)	papierspezifisch
Semantikverwahrendes kontroverses Codeverständnis (Coling'22)	Codesarchnet
Erkundung der Vergrößerung der Repräsentationsebene für die Codesuche (EMNLP'22)	Codesarchnet
Cross-modal kontrastives Lernen für die Codesuche (ICSME'22)	Advtest, cosqa
Vorausgeborene Modelle und nachgeschaltete Aufgaben für das Verständnis des Quellcodees (ICSE'22)	Codesarchnet
Ein genauerer Blick auf transformatorbasierte Code-Intelligenz durch Code-Transformation: Herausforderungen und Chancen (Arxiv'22)	Codesarchnet (Python, Java)
Schmuggelware: Verbesserung von Modellen vor ausgebildetem Code durch kontrastives Lernen (ICSE'23)	Advtest, WebQueryTest
Cocosoda: Effektives kontrastives Lernen für die Codesuche (ICSE'23)	Codesarchnet
Kontrastives Lernen mit Keyword-basierter Datenvergrößerung für die Beantwortung von Codesuche und Code Frage (EACL'23)	WebQueryTest
Eine Vor-Training-Methode zur erweiterten Codedarstellung basierend auf multimodalem kontrastivem Lernen (JOS'23)	Codesarchnet
Negative Paare in der Codesuche überdenken (EMNLP'23)	Codesarchnet
Auf dem Weg zu einer besseren mehrsprachigen Code-Suche durch Kreuzungskontrastive Lernen (Internetware'23)	Xlcost
McOdeSearcher: Multi-View-kontrastives Lernen für die Codesuche (Internetware'23)	Codesarchnet (Python, Java), Cosqa, STAQC, WebQuery
Mulcs: Auf dem Weg zu einer einheitlichen tiefen Darstellung für die mehrsprachige Codesuche (saner'23)	Codesarchnet (Python, Java), papierspezifisch
Zwei Vögel mit einem Stein: Steigerung der Codegenerierung und Code -Suche über ein generatives kontroverses Netzwerk (OOPSLA'23)	Codesarchnet (Python, Java)

Code -Abschluss

Papier	Datensätze
Generative Codemodellierung mit Diagrammen (ICLR'19)	Exprenzdaten (papierspezifisch)
Gegentliche Robustheit von Programmsynthesemodellen (Aiplans'21)	Algolisp
REACC: Ein retrieval-ausgereihter Code-Completion-Framework (ACL'22)	Py150 (Codexklue), GithHub Java (Codexklue)
Testgetriebenes Multi-Task-Lernen mit funktional äquivalenter Code-Transformation für die Erzeugung neuronaler Code (ASE'22)	MBPP
Wie wichtig sind gute Methodennamen in der Generation der neuronalen Code? Eine Modell -Robustheit Perspektive (Arxiv'22)	verfeinerte Zusammenhänge, raffinierter Pytorrent
Ein genauerer Blick auf transformatorbasierte Code-Intelligenz durch Code-Transformation: Herausforderungen und Chancen (Arxiv'22)	Codesarchnet (Python, Java)
Recode: Robustheit Bewertung von Codegenerierungsmodellen (ACL'23)	Humaneral, MBPP
Clawsat: Auf dem Weg zu robusten und genauen Codemodellen (sherer'23)	---
Abrufenbasierte promptale Auswahl für codebedingte Wenig-Shot-Lernen (ICSE'23)	Atlas, tfix
Rostgen: Ein Augmentationsansatz zur Erzeugung kompilierbarer Rostcode mit großen Sprachmodellen (EinsatzablenerativeAI'23)	papierspezifisch
Multi-Target-Backdoor-Angriffe für Code-Vorgeborene (ACL'23)	GithHub Java (Codexklebuge)
Domain Adaptive Code -Abschluss über Sprachmodelle und entkoppelte Domänendatenbanken (ASE'23)	papierspezifisch
APICOM: Automatische API-Fertigstellung durch sofortiges Lernen und kontroverse schulungsbasierte Datenvergrößerung (Internetware'23)	papierspezifisch
Testgetriebenes Multi-Task-Lernen mit funktional äquivalenter Code-Transformation für die Erzeugung neuronaler Code (ASE'22)	MBPP
Bessere Sprachmodelle von Code durch Selbstverbesserung (ACL'23)	Zusammen

Codeübersetzung

Papier	Datensätze
Nutzung automatisierter Einheiten -Tests für eine unbeaufsichtigte Codeübersetzung (ICLR'23)	papierspezifisch
Erforschung der Datenvergrößerung für Codegenerierung Aufgaben (EACL'23)	Codetrans (CodExklue)
Fassen Sie zusammen und generieren Sie die Rückstranslate: unbeaufsichtigte Übersetzung von Programmiersprachen (EACL'23)	Transcoder -Daten
Schmuggelware: Verbesserung von Modellen vor ausgebildetem Code durch kontrastives Lernen (ICSE'23)	Codetrans (CodExklue)
Codeübersetzung mit Compiler -Darstellungen (ICLR'23)	Transcoder -Daten
Datenvergrößerung für die Codeübersetzung mit vergleichbaren Unternehmen und mehreren Referenzen (EMNLP'23)	Transcoder -Daten
Beurteilung und Verbesserung der syntaktischen kontroversen Robustheit von vorgebildeten Modellen für die Codeübersetzung (Arxiv'23)	Avatar
Multi-Target-Backdoor-Angriffe für Code-Vorgeborene (ACL'23)	Transcoder -Daten

Code Frage Beantwortung

Papier	Datensätze
COSQA: 20.000 mehr Webanfragen für die Code -Suche und Fragenbeantwortung (ACL'21)	Cosqa
Semantikverwahrendes kontroverses Codeverständnis (Coling'22)	Codesqa
Kontrastives Lernen mit Keyword-basierter Datenvergrößerung für die Beantwortung von Codesuche und Code Frage (EACL'23)	Cosqa
McOdeSearcher: Multi-View-kontrastives Lernen für die Codesuche (Internetware'23)	WebQuery (papierspezifisch)

Codeklassifizierung

Papier	Datensätze
Generieren von kontroversen Beispielen für die Robustheit von Quellcode -Verarbeitungsmodellen (AAAI'20)	Oj
Generieren von kontroversen Beispielen für Quellcode-Klassifizierungsmodelle über Q-Learning-basierten Markov-Entscheidungsprozess (QRS'21)	Oj
HELOC: Hierarchisches kontrastives Lernen der Quellcode -Darstellung (ICPC'22)	GCJ, OJ
Kombination: Darstellungen von Binärcode vor dem Training unter Verwendung von kontrastivem Lernen (Arxiv'22)	Poj-104 (codExklue)
Vorausgeborene Modelle und nachgeschaltete Aufgaben für das Verständnis des Quellcodees (ICSE'22)	Poj-104
Steigerung des Quellcode -Lernens mit Datenvergrößerung: Eine empirische Studie (Arxiv'23)	Java250, Python800
MIXCODE: Verbesserung der Codeklassifizierung durch Mixup-basierte Datenvergrößerung (saner'23)	Java250, Python800
CODE -Differenz -geführte kontroverse Beispielgenerierung für Deep -Code -Modelle (ASE'23)	GCJ
Ein erweiterter Datenerweiterungsansatz zur Unterstützung der Lesbarkeitsklassifizierung von Multi-Class-Code (Seke'22)	papierspezifisch
Verbesserung der Lesbarkeitsklassifizierung von Multi-Class-Code mit einem erweiterten Datenerweiterungsansatz (130) (International Journal of Software Engineering und Knowledge Engineering)	papierspezifisch

Vorhersage des Methodennamens

Papier	Datensätze
Gegentliche Beispiele für Codemodelle (OOPSLA'20)	Code2Vec
Ein suchbasiertes Test-Framework für tiefe neuronale Netzwerke der Einbettung von Quellcode (ICST'21)	papierspezifisch
Über die Generalisierbarkeit neuronaler Programmmodelle in Bezug auf semantische Programmtransformationen (IST'21)	Code2seq
Datenvergrößerung durch Programmtransformation (JSS'22)	Code2Vec
Diskreter widersprüchlicher Angriff auf Codemodelle (PLDI'23)	Code2Vec

Typvorhersage

Papier	Datensätze
Gegentliche Robustheit für Code (ICML'21)	Deeptyer
Lernen des kontrastiven Coderepräsentation (EMNLP'21)	Deeptyer
Kreuzsprachiger Transferlernen für statistische Typinferenz (ISSta'22)	Deeptyper, Typilus (Python), Codesarchnet (Java)

Anerkennung

Wir danken Steven Y. Feng, et al. Für ihre Open-Source-Papierliste auf DataAug4NLP.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-02-26
Größe 6.77KB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

DataAug4Code

Datenerweiterungsansätze für Quellcode -Modelle

Code Urheberschaft zuzuschreiben

Klonerkennung

Erkennung und Reparatur von Defekten

CODE -Zusammenfassung

Codesuche

Code -Abschluss

Codeübersetzung

Code Frage Beantwortung

Codeklassifizierung

Vorhersage des Methodennamens

Typvorhersage

Anerkennung

Google Dorks

shepherd

hidusbf

mongo express

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf