À l'intersection de la science et de la technologie, les graphiques, en tant qu'outil puissant pour exprimer des relations complexes, deviennent de plus en plus l'objectif des chercheurs. Les graphiques jouent un rôle indispensable dans la conception moléculaire chimique ou l'analyse des réseaux sociaux. Cependant, comment générer des graphiques efficace et flexible est toujours un problème très difficile. Récemment, une équipe de recherche à l'Université Tufts, à la Northeastern University et à l'Université Cornell a collaboré pour lancer un modèle autorégressif appelé Graph Generative Pre-Traden Transformer (G2PT), visant à redéfinir la façon dont les graphiques sont générés et représentés.
Contrairement aux modèles de génération de graphiques traditionnels qui reposent sur la matrice d'adjacence, G2PT introduit une méthode de tokenisation basée sur des séquences. Cette méthode utilise pleinement la rareté du graphique en décomposant le graphique en ensembles de nœuds et ensembles de bords, améliorant ainsi considérablement l'efficacité informatique. L'innovation de G2PT est qu'elle peut générer progressivement des graphiques comme il est en langage naturel et compléter l'ensemble de la construction de graphiques en prédisant le jeton suivant. La recherche montre que cette représentation sérialisée réduit non seulement le nombre de jetons, mais améliore également la qualité de la génération.
L'adaptabilité et l'évolutivité de G2PT sont impressionnantes. Avec une technologie de réglage fin, il démontre d'excellentes performances dans les tâches telles que la génération de graphiques orientée objectif et la prédiction des attributs de graphiques. Par exemple, dans la conception de médicaments, G2PT peut générer des cartes moléculaires avec des propriétés physicochimiques spécifiques. De plus, en extraite le graphique intégrant des modèles pré-formés, G2PT montre également la supériorité sur plusieurs ensembles de données de prédiction d'attribut moléculaires.
Dans les expériences comparatives, G2PT a fonctionné beaucoup mieux que les modèles de pointe existants sur plusieurs ensembles de données de référence. Ses performances ont été très reconnues en termes de génération de validité, d'unicité et de correspondance des distributions d'attribut moléculaires. Les chercheurs ont également analysé l'impact du modèle et de l'échelle de données sur les performances de génération.
Bien que G2PT démontre des capacités exceptionnelles dans plusieurs tâches, les chercheurs ont également souligné que la sensibilité à l'ordre de génération peut signifier que différents domaines graphiques nécessitent différentes stratégies d'optimisation des commandes. Les recherches futures devraient explorer davantage les conceptions de séquences plus générales et expressives.
L'émergence de G2PT a non seulement apporté des méthodes innovantes dans le domaine de la génération de graphiques, mais a également jeté une base solide pour la recherche et l'application de domaines connexes. Avec l'avancement continu de la technologie, G2PT devrait réaliser son potentiel dans plus de domaines et favoriser le développement ultérieur de la technologie de génération de graphiques.