Unduh regression transformer - Unduh Kode Sumber regression transformer

regression transformer

Kode Sumber AI

paper-reproduction

Unduh

Transformator regresi

Transformator multitask yang merumuskan kembali regresi sebagai tugas pemodelan urutan bersyarat. Ini menghasilkan model bahasa dikotomis yang secara mulus mengintegrasikan regresi dengan generasi bersyarat yang digerakkan oleh properti.

Ringkasan

Repo ini berisi kode pengembangan. Bacalah makalah di Nature Machine Intelligence .

Demo dengan UI

? Demo gradio dengan UI sederhana tersedia di ruang pelukan permukaan Ringkasan

Membangun penelitian ini

Anda ingin menggunakan model RT pretrained atau finetune pada data Anda sendiri? Kemudian baca di sini, jika tidak, pengaturan pengembangan dapat ditemukan di bawah.

Transformator regresi diimplementasikan di perpustakaan GT4SD. Via GT4SD, menggunakan beberapa regresi pretrainransformers adalah masalah beberapa baris kode. Tutorial lengkap dalam menjalankan inferensi, finetuning model RT (atau melatihnya dari awal) dan berbagi dan menggunakannya ke hub model GT4SD, dapat ditemukan di sini.

Misalnya, melalui GT4SD Anda dapat menggunakan RT pretrain pada molekul kecil dengan beberapa sifat seperti yang ditunjukkan dalam kertas, khususnya QED dan ESOL (kelarutan air). Ada juga beberapa varian multiproperty dari RT: misalnya, model yang dilatih bersama pada logp dan sintesizabilitas (alias scscore). Untuk pemodelan bahasa protein, Anda juga akan menemukan RT yang dilatih pada dataset stabilitas peptida dari tolok ukur pita. Singkatnya, GT4SD memberikan model RT yang diatur sebelumnya:

Molekul kecil : tunggal ( qed , esol , crippen_logp ) atau multiple ( logp_and_synthesizability , cosmo_acdl , pfas ) properti. Semua model itu menggunakan selfie selain dari crippen_logp yang menggunakan senyum.
Protein : stability
Reaksi Kimia : uspto (Menggunakan Senyum Reaksi)
Polimer : rop_catalyst dan block_copolymer keduanya dijelaskan dalam Park et al., (2023; Nature Communications ). rop_catalyst menggunakan selfie konvensional tetapi model block_copolymer menggunakan bahasa polimer baru yang disebut CMDL yang dijelaskan juga dalam Park et al., (2023; Nature Communications ).

Buku catatan Jupyter dengan mainan Usecase tentang mengadaptasi molekul menuju kelarutan disediakan di GT4SD juga. Jika Anda menggunakan GT4SD, Anda dapat menghasilkan molekul seperti ini:

 from gt4sd . algorithms . conditional_generation . regression_transformer import (
    RegressionTransformer , RegressionTransformerMolecules
)

buturon = "CC(C#C)N(C)C(=O)NC1=CC=C(Cl)C=C1"
target_esol = - 3.53 
config = RegressionTransformerMolecules (
    algorithm_version = "solubility" ,
    search = "sample" ,
    temperature = 2 , 
    tolerance = 5 ,
    sampling_wrapper = {
        'property_goal' : { '<esol>' : target_esol }, 
        'fraction_to_mask' : 0.2
    }
)
esol_generator = RegressionTransformer ( configuration = config , target = buturon )
generations = list ( esol_generator . sample ( 8 ))

Jelajahi kelarutan ruang kimia lokal di sekitar Buturon. Setelah memvariasikan primer properti, Anda mungkin mendapatkan sesuatu seperti ini: Esol

Pengaturan Pembangunan

Ini terutama dimaksudkan untuk mereproduksi atau memperluas hasil kertas.

 conda env create -f conda.yml
conda activate terminator
pip install -e .

Data

Data yang diproses yang digunakan untuk melatih model tersedia melalui kotak.

Melatih model

Anda dapat mengunduh data dan meluncurkan pelatihan dengan menunjuk untuk melatih dan menguji data:

 python scripts/run_language_modeling.py --output_dir rt_example 
    --config_name configs/rt_small.json --tokenizer_name ./vocabs/smallmolecules.txt 
    --do_train --do_eval --learning_rate 1e-4 --num_train_epochs 5 --save_total_limit 2 
    --save_steps 500 --per_gpu_train_batch_size 16 --evaluate_during_training --eval_steps 5 
    --eval_data_file ./examples/qed_property_example.txt --train_data_file ./examples/qed_property_example.txt 
    --line_by_line --block_size 510 --seed 42 --logging_steps 100 --eval_accumulation_steps 2 
    --training_config_path training_configs/qed_alternated_cc.json

️ Konfigurasi ini menggunakan data dummy, jangan gunakan apa adanya? Argumen training_config_path menunjuk ke file yang menentukan rezim pelatihan. Ini adalah opsional, jika argumen tidak diberikan, kami default untuk pelatihan PLM vanilla yang menutupi di mana -mana dengan probabilitas yang sama (direkomendasikan hanya untuk pretraining awal). Untuk contoh yang halus, silakan lihat folder training_configs .

Perhatikan juga bahwa folder vocabs berisi file kosa kata untuk pelatihan molekul kecil, protein dan reaksi kimia.

Konfigurasi model contoh (jumlah kepala, lapisan, dll.) Dapat ditemukan di folder Configs.

️ XLNET berlatih relatif lambat. Dianjurkan untuk memulai pelatihan/finetuning dari model pretrained, idealnya dengan pelatih GT4SD (lihat di atas) ️

Mengevaluasi model

Untuk mengevaluasi model yang dilatih misalnya, pada tugas QED, jalankan yang berikut:

 python scripts/eval_language_modeling.py --output_dir path_to_model 
--eval_file ./examples/qed_property_example.txt --eval_accumulation_steps 2 --param_path configs/qed_eval.json

Model pretrained

Model pretrain tersedia melalui hub model GT4SD. Ada total 9 model yang juga dapat digunakan melalui ruang pelukan. Model yang merupakan bagian dari publikasi juga tersedia melalui folder kotak yang disebutkan di atas.

Menghasilkan beberapa data

Untuk menghasilkan data khusus untuk tugas QED dalam format yang kompatibel dengan RT, jalankan skrip/generate_example_data.py dan arahkan ke file .smi dengan senyum di kolom pertama.

 python scripts/generate_example_data.py examples/example.smi examples/qed_property_example.txt

Untuk properti yang ditentukan pengguna, silakan beradaptasi file atau buka masalah.

Jika Anda perlu membuat kosakata baru untuk dataset, Anda dapat menggunakan skrip/create_vocabulary.py itu juga akan secara otomatis menambahkan beberapa token khusus di bagian atas file kosa kata Anda.

 python scripts/create_vocabulary.py examples/qed_property_example.txt examples/vocab.txt

Pada titik ini folder yang berisi file kosa kata dapat digunakan untuk memuat tokenizer yang kompatibel dengan ExpressionBertTokenizer apa pun:

 > >> from terminator . tokenization import ExpressionBertTokenizer
> >> tokenizer = ExpressionBertTokenizer . from_pretrained ( 'examples' )
> >> text = '<qed>0.3936|CBr'
> >> tokens = tokenizer . tokenize ( text )
> >> print ( tokens )
[ '<qed>' , '_0_0_' , '_._' , '_3_-1_' , '_9_-2_' , '_3_-3_' , '_6_-4_' , '|' , 'C' , 'Br' ]
> >> token_indexes = tokenizer . convert_tokens_to_ids ( tokenizer . tokenize ( text ))
> >> print ( token_indexes )
[ 16 , 17 , 18 , 28 , 45 , 34 , 35 , 19 , 15 , 63 ]
> >> tokenizer . build_inputs_with_special_tokens ( token_indexes )
[ 12 , 16 , 17 , 18 , 28 , 45 , 34 , 35 , 19 , 15 , 63 , 13 ]

Kutipan

Jika Anda menggunakan transformator regresi, silakan kutip:

 @article { born2023regression ,
  title = { Regression Transformer enables concurrent sequence regression and generation for molecular language modelling } ,
  author = { Born, Jannis and Manica, Matteo } ,
  journal = { Nature Machine Intelligence } ,
  volume = { 5 } ,
  number = { 4 } ,
  pages = { 432--444 } ,
  year = { 2023 } ,
  publisher = { Nature Publishing Group UK London }
}

Memperluas

Informasi Tambahan

Versi paper-reproduction
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-10
ukuran 4.59MB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Versi seluler Monster Transformer

2023-09-07

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua