multi task cs lm Téléchargement - multi task cs lm Code source Télécharger

multi task cs lm

Code Source AI

1.0.0

Télécharger

Modélisation de la langue de commutation de code utilisant l'apprentissage multi-tâches de syntaxe

La mise en œuvre de la modélisation du langage de commutation de code à l'aide de l'apprentissage multi-tâches (3e atelier dans les approches de calcul linguistique dans le commutateur de code linguistique, ACL 2018). Le code est écrit en python à l'aide de pytorch.

Des documents supplémentaires (y compris la distribution du train, du développement et du test) peuvent être trouvés ici.

Si vous utilisez des codes source ou des ensembles de données inclus dans cette boîte à outils dans votre travail, veuillez citer l'article suivant. Le bibtex est répertorié ci-dessous:

 @Inproceedings {w18-3207,
  Auteur = "Winata, Genta Indra
		Et Madotto, Andrea
		et wu, chien-sheng
		et fung, pascale ",
  title = "Modélisation du langage de commutation de code à l'aide d'apprentissage multi-tâches de syntaxe",
  booktitle = "Actes du troisième atelier sur les approches informatiques de la commutation linguistique du code",
  année = "2018",
  Publisher = "Association for Computational Linguistics",
  pages = "62--67",
  emplacement = "Melbourne, Australie",
  url = "http://aclweb.org/anthology/w18-3207"
}

Abstrait

Le manque de données texte a été le problème majeur sur la modélisation du langage de commutation de code. Dans cet article, nous introduisons un modèle de langue basé sur l'apprentissage multi-tâches qui partage la représentation de la syntaxe des langues pour tirer parti des informations linguistiques et aborder le problème de données de ressources faible. Notre modèle apprend conjointement à la fois la modélisation du langage et le marquage d'une partie du discours sur les énoncés à commutation de code. De cette façon, le modèle est en mesure d'identifier l'emplacement des points de changement de code et améliore la prédiction du mot suivant. Notre approche surpasse le modèle de langage basé sur LSTM standard, avec une amélioration de 9,7% et 7,4% en perplexité sur le jeu de données de phase I et de phase II Seame respectivement.

Architecture modèle

Prérequis:

Python 3.5 ou 3.6
Pytorch 0.2 (ou version ultérieure)
Stanford Core NLP (tokenisation et segmentation)

Données

Seame Corpus de LDC: commutation de code Mandarin-English en Asie du Sud-Est

Exécutez le code:

Multi-tâches

 ❱❱❱ python main_multi_task.py --tied --clip=0.25 --dropout=0.4 --postagdropout=0.4 --p=0.25 --nhid=500 --postagnhid=500 --emsize=500 --postagemsize=500 --cuda --data=../data/seame_phase2

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-06
taille 1002.88KB
Provenant de Github

Applications connexes

multi roblox macos

2024-11-14
TikTok Multi Downloader

2024-11-10
trivy azure pipelines task

2024-11-03
cs dlp

2024-11-01
Dragon Ball Project Multi version chinoise

2024-08-23
Groupe de travail CS

2023-05-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout