multitask_text_and_chemistry_t5 Télécharger - multitask_text_and_chemistry

multitask_text_and_chemistry_t5

Code Source AI

1.0.0

Télécharger

Texte multitâche et chimie T5

clm

Représentations moléculaires et textuelles unificatrices via la modélisation de la langue multi-tâches
Dimitrios Christofidellis *, Giorgio Giannone *, Jannis Born, Ole Winter, Teodoro Laino, Matteo Manica
Conférence internationale sur l'apprentissage automatique (ICML), 2023

[Paper] [Application Gradio] [Code]

Les progrès récents des modèles de langage neuronal ont également été appliqués avec succès dans le domaine de la chimie, offrant des solutions génératives pour les problèmes classiques dans la conception moléculaire et la planification de la synthèse. Ces nouvelles méthodes peuvent alimenter une nouvelle ère d'automatisation basée sur les données dans la découverte scientifique. Cependant, des modèles spécialisés sont encore généralement requis pour chaque tâche, conduisant à la nécessité de régler les interrelations de tâches et de négligence spécifiques au problème. Le principal obstacle dans ce domaine est l'absence d'une représentation unifiée entre le langage naturel et les représentations chimiques, compliquant et limitant l'interaction humaine-machine. Ici, nous proposons le premier modèle de langue multi-domaines multi-tâches qui peut résoudre un large éventail de tâches dans les domaines chimiques et en langage naturel. Notre modèle peut gérer simultanément le langage chimique et naturel, sans nécessiter une pré-formation coûteuse sur des domaines uniques ou des modèles spécifiques à des tâches. Fait intéressant, le partage de poids dans les domaines améliore remarquablement notre modèle lorsqu'il est compatible contre les lignes de base de pointe sur des tâches à domaine unique et inter-domaines. En particulier, le partage d'informations entre les domaines et les tâches donne lieu à de grandes améliorations des tâches intermédiaires, dont l'ampleur augmente avec l'échelle, comme mesuré par plus d'une douzaine de mesures pertinentes. Nos travaux suggèrent que de tels modèles peuvent accélérer de manière robuste et efficiente la découverte en sciences physiques en remplaçant les interactions fins et améliorant des interactions de modes humains spécifiques au problème .

Exigences

Installation des exigences:

pip install -r requirements.txt

Créez un noyau dédié:

python -m ipykernel install --name text_chem_t5_demo

Ravi d'y aller

Formation modèle

Le processus de formation est réalisé à l'aide du formateur de modélisation du langage en fonction des transformateurs de visage étreintes (Wolf et al., 2020) et de Pytorch Lightning (Falcon et The Pytorch Lightning Team, 2019) de la bibliothèque GT4SD (Manica et al., 2022). Pour reproduire la formation, vous devez d'abord installer la bibliothèque GT4SD. Pour plus d'informations concernant le processus d'installation de la bibliothèque GT4SD, vous pouvez visiter sa page. Une fois GT4SD installé, vous pouvez utiliser la commande suivante pour lancer notre formation. Notez que l'ensemble de données fourni dans le répertoire dataset-sample ne contiennent qu'un petit sous-ensemble de nos divisions réelles de données de données. Pour régénérer notre ensemble de données de formation complet, nous renvoyons le lecteur intéressé à la section respective de notre article et aux références qui y sont fournies.


gt4sd-trainer --training_pipeline_name language-modeling-trainer 
    --model_name_or_path t5-base 
    --lr 6e-4 
    --lr_decay 0.99 
    --batch_size 8 
    --train_file dataset-sample/train.jsonl 
    --validation_file dataset-sample/valid.jsonl 
    --default_root_dir text_chem_t5_base 
    --type cgm 
    --val_check_interval 20000  
    --max_epochs 1 
    --limit_val_batches 500 
    --accumulate_grad_batches 4 
    --log_every_n_steps 5000 
    --monitor val_loss 
    --save_top_k 1 
    --mode min 
    --every_n_train_steps 20000 
    --accelerator 'ddp'

Les modèles d'invite que nous avons utilisés pour les 5 tâches différentes peuvent être trouvés dans le tableau suivant, où <port> représente l'entrée réelle pour chaque tâche.

Tâche	Modèle
Prédiction vers l'avant	Prédire le produit de la réaction suivante: <fort>
Rétrosynthèse	Prédire la réaction qui produit le produit suivant: <fort>
Paragraphe aux actions	Quelles actions sont décrites dans le paragraphe suivant: <fort>
Description à SMILS	Écrivez en sourit la molécule décrite: <fort>
Sourires à caption	Légende les sourires suivants: <fort>

Effectuer des prédictions en utilisant nos modèles

Les quatre variantes de notre modèle sont disponibles via le Huggignface Hub dans les liens suivants:

Multitask-text and Chemistry-T5-Small-Standard
Multitask-text-and-Chemistry-T5-Small-Augm
Multitask-text and Chemistry-T5-base-standard
Multitask-text and Chemistry-T5-Base-Augm

Dans le cahier fourni (Demo.ipynb), nous présentons des exemples de la façon dont le modèle peut être utilisé pour les 5 tâches différentes.

Citation

 @inproceedings { christofidellis2023unifying ,
  title = 	 { Unifying Molecular and Textual Representations via Multi-task Language Modelling } ,
  author =       { Christofidellis, Dimitrios and Giannone, Giorgio and Born, Jannis and Winther, Ole and Laino, Teodoro and Manica, Matteo } ,
  booktitle = 	 { Proceedings of the 40th International Conference on Machine Learning } ,
  pages = 	 { 6140--6157 } ,
  year = 	 { 2023 } ,
  volume = 	 { 202 } ,
  series = 	 { Proceedings of Machine Learning Research } ,
  publisher =    { PMLR } ,
  pdf = 	 { https://proceedings.mlr.press/v202/christofidellis23a/christofidellis23a.pdf } ,
  url = 	 { https://proceedings.mlr.press/v202/christofidellis23a.html } ,
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-07
taille 422.08KB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout