Descarga regression transformer - Descargar el código fuente regression transformer

regression transformer

Código Fuente de IA

paper-reproduction

Descargar

Transformador de regresión

Un transformador multitarea que reformula la regresión como una tarea de modelado de secuencia condicional. Esto produce un modelo de lenguaje dicotómico que integra perfectamente la regresión con la generación condicional basada en la propiedad.

Resumen

Este repositorio contiene el código de desarrollo. Lea el documento en la inteligencia de la máquina de la naturaleza .

Demostración con ui

? Una demostración de Gradio con una interfaz de usuario simple está disponible en los espacios Huggingface Resumen

Basándose en esta investigación

¿Desea utilizar un modelo RT previsto o Finetune en sus propios datos? Luego lea aquí, de lo contrario, la configuración de desarrollo se puede encontrar a continuación.

El transformador de regresión se implementa en la biblioteca GT4SD. A través de GT4SD, el uso de varios Transformadores de regresión previos a la aparición es una cuestión de unas pocas líneas de código. Se puede encontrar un tutorial completo de inferencia de ejecución, Fineting un modelo RT (o capacitarlo desde cero) y compartirlo y implementarlo en el Hub del modelo GT4SD aquí.

Por ejemplo, a través de GT4SD, puede usar el RT previamente provocado en moléculas pequeñas con algunas propiedades como se muestra en el papel, en particular QED y ESOL (solubilidad en agua). También hay varias variantes multipropertía de la RT: por ejemplo, un modelo entrenado conjuntamente en LOGP y sintetización (también conocido como SCSCORE). Para el modelado de lenguaje de proteínas, también encontrará una RT entrenada en un conjunto de datos de estabilidad de péptidos desde el punto de referencia de cinta. En resumen, GT4SD proporciona modelos RT previamente en:

Moléculas pequeñas : solteras ( qed , esol , crippen_logp ) o múltiples ( logp_and_synthesizability , cosmo_acdl , pfas ). Todos esos modelos usan selfies aparte de crippen_logp que usa sonrisas.
proteínas : stability
Reacciones químicas : uspto (usando sonrisas de reacción)
Polímeros : rop_catalyst y block_copolymer se describen en Park et al., (2023; Nature Communications ). El rop_catalyst usa selfies convencionales, pero el modelo block_copolymer utiliza un nuevo lenguaje de polímero llamado CMDL descrito también en Park et al., (2023; Nature Communications ).

También se proporciona un cuaderno de Jupyter con una base de juguete para adaptar una molécula hacia la solubilidad en GT4SD. Si usa GT4SD, puede generar moléculas como esta:

 from gt4sd . algorithms . conditional_generation . regression_transformer import (
    RegressionTransformer , RegressionTransformerMolecules
)

buturon = "CC(C#C)N(C)C(=O)NC1=CC=C(Cl)C=C1"
target_esol = - 3.53 
config = RegressionTransformerMolecules (
    algorithm_version = "solubility" ,
    search = "sample" ,
    temperature = 2 , 
    tolerance = 5 ,
    sampling_wrapper = {
        'property_goal' : { '<esol>' : target_esol }, 
        'fraction_to_mask' : 0.2
    }
)
esol_generator = RegressionTransformer ( configuration = config , target = buturon )
generations = list ( esol_generator . sample ( 8 ))

Explore la solubilidad del espacio químico local alrededor de Buturon. Al variar los cebadores de la propiedad, puede obtener algo como esto: Esol

Configuración de desarrollo

Esto es principalmente destinado a reproducir o extender los resultados del documento.

 conda env create -f conda.yml
conda activate terminator
pip install -e .

Datos

Los datos procesados utilizados para capacitar a los modelos están disponibles a través de la caja.

Entrenar un modelo

Puede descargar los datos y lanzar una capacitación señalando para entrenar y probar datos:

 python scripts/run_language_modeling.py --output_dir rt_example 
    --config_name configs/rt_small.json --tokenizer_name ./vocabs/smallmolecules.txt 
    --do_train --do_eval --learning_rate 1e-4 --num_train_epochs 5 --save_total_limit 2 
    --save_steps 500 --per_gpu_train_batch_size 16 --evaluate_during_training --eval_steps 5 
    --eval_data_file ./examples/qed_property_example.txt --train_data_file ./examples/qed_property_example.txt 
    --line_by_line --block_size 510 --seed 42 --logging_steps 100 --eval_accumulation_steps 2 
    --training_config_path training_configs/qed_alternated_cc.json

️ Esta configuración usa datos ficticios, no lo use tal como es? El argumento training_config_path apunta a un archivo que especifica el régimen de entrenamiento. Esto es opcional, si no se da el argumento, nos quedamos de forma predeterminada a la capacitación de vainilla PLM que enmascaras en todas partes con igual probabilidad (recomendado solo para el pretrénste inicial). Para ejemplos refinados, consulte la carpeta training_configs .

También tenga en cuenta que la carpeta vocabs contiene los archivos de vocabulario para entrenamiento en pequeñas moléculas, proteínas y reacciones químicas.

Se pueden encontrar configuraciones ejemplares del modelo (número de cabezas, capas, etc.) en la carpeta Configs.

️ XLNet entrena relativamente lentamente. Se recomienda comenzar una capacitación/Finetuning de un modelo previamente petrolado, idealmente con el entrenador GT4SD (ver arriba) ️

Evaluar un modelo

Para evaluar un modelo capacitado, por ejemplo, en la tarea QED, ejecute lo siguiente:

 python scripts/eval_language_modeling.py --output_dir path_to_model 
--eval_file ./examples/qed_property_example.txt --eval_accumulation_steps 2 --param_path configs/qed_eval.json

Modelos previos a la aparición

Los modelos previos a la aparición están disponibles a través del centro de modelos GT4SD. Hay un total de 9 modelos que también se pueden usar a través de espacios Huggingface. Los modelos que forman parte de la publicación también están disponibles a través de la carpeta de caja mencionada anteriormente.

Generar algunos datos

Para generar datos personalizados para la tarea QED en un formato compatible con RT, ejecute scripts/generate_example_data.py y apunte a un archivo .smi con sonrisas en la primera columna.

 python scripts/generate_example_data.py examples/example.smi examples/qed_property_example.txt

Para las propiedades definidas por el usuario, adapte el archivo o abra un problema.

Si necesita crear un nuevo vocabulario para un conjunto de datos, puede usar scripts/create_vocabulary.py, también agregará automáticamente algunos tokens especiales en la parte superior de su archivo de vocabulario.

 python scripts/create_vocabulary.py examples/qed_property_example.txt examples/vocab.txt

En este punto, la carpeta que contiene el archivo de vocabulario se puede usar para cargar un tokenizer compatible con cualquier ExpressionBertTokenizer :

 > >> from terminator . tokenization import ExpressionBertTokenizer
> >> tokenizer = ExpressionBertTokenizer . from_pretrained ( 'examples' )
> >> text = '<qed>0.3936|CBr'
> >> tokens = tokenizer . tokenize ( text )
> >> print ( tokens )
[ '<qed>' , '_0_0_' , '_._' , '_3_-1_' , '_9_-2_' , '_3_-3_' , '_6_-4_' , '|' , 'C' , 'Br' ]
> >> token_indexes = tokenizer . convert_tokens_to_ids ( tokenizer . tokenize ( text ))
> >> print ( token_indexes )
[ 16 , 17 , 18 , 28 , 45 , 34 , 35 , 19 , 15 , 63 ]
> >> tokenizer . build_inputs_with_special_tokens ( token_indexes )
[ 12 , 16 , 17 , 18 , 28 , 45 , 34 , 35 , 19 , 15 , 63 , 13 ]

Citación

Si usa el transformador de regresión, cite:

 @article { born2023regression ,
  title = { Regression Transformer enables concurrent sequence regression and generation for molecular language modelling } ,
  author = { Born, Jannis and Manica, Matteo } ,
  journal = { Nature Machine Intelligence } ,
  volume = { 5 } ,
  number = { 4 } ,
  pages = { 432--444 } ,
  year = { 2023 } ,
  publisher = { Nature Publishing Group UK London }
}

Expandir

Información adicional

Versión paper-reproduction
Tipo Código Fuente de IA
Fecha de actualización 2025-09-10
tamaño 4.59MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Versión móvil de Monster Transformer

2023-09-07

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo