pytorch a2c ppo acktr gail Unduh - pytorch a2c ppo acktr gail SUMBER DOWNTRY SUMBER

pytorch a2c ppo acktr gail

ular piton

1.0.0

Unduh

PyTorch-A2C-PPO-UCRTR

Pembaruan (12 April 2021)

PPO hebat, tetapi kritikus aktor lunak bisa lebih baik untuk banyak tugas kontrol yang berkelanjutan. Silakan periksa repositori RL baru saya di Jax.

Harap gunakan parameter hiper dari readme ini. Dengan parameter hiper lainnya hal -hal mungkin tidak berhasil (setelah semua)!

Ini adalah implementasi Pytorch

Advantage Actor Critic (A2C), versi deterministik sinkron dari A3C
PPO optimasi kebijakan proksimal
Metode Trust-Region yang dapat diskalakan untuk pembelajaran penguatan yang mendalam menggunakan approximation yang difaktor kronecker ACKTR
Generative Adversarial Imitation Learning Gail

Juga lihat posting OpenAI: A2C/ACKTR dan PPO untuk informasi lebih lanjut.

Implementasi ini terinspirasi oleh Baselines OpenAI untuk A2C, ACKTR dan PPO. Ini menggunakan parameter hiper yang sama dan model karena mereka disetel dengan baik untuk game atari.

Silakan gunakan Bibtex ini jika Anda ingin mengutip repositori ini di publikasi Anda:

 @misc{pytorchrl,
  author = {Kostrikov, Ilya},
  title = {PyTorch Implementations of Reinforcement Learning Algorithms},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail}},
}

Lingkungan yang didukung (dan diuji) (melalui gym openai)

Lingkungan Belajar Atari
Mujoco
Pybullet (termasuk mobil balap, Minitaur dan Kuka)
DeepMind Control Suite (via DM_CONTROL2GYM)

Saya sangat merekomendasikan Pybullet sebagai alternatif open source gratis untuk Mujoco untuk tugas kontrol berkelanjutan.

Semua lingkungan dioperasikan menggunakan antarmuka gym yang persis sama. Lihat dokumentasi mereka untuk daftar komprehensif.

Untuk menggunakan lingkungan suite kontrol DeepMind, atur bendera --env-name dm.<domain_name>.<task_name> , di mana domain_name dan task_name adalah nama domain (misalnya hopper ) dan tugas di dalam domain itu (misalnya stand ) dari DeepMind Control Suite. Lihat repo mereka dan laporan teknologi mereka untuk daftar lengkap domain dan tugas yang tersedia. Selain menetapkan tugas, API untuk berinteraksi dengan lingkungan persis sama dengan semua lingkungan gym berkat DM_CONTROL2GYM.

Persyaratan

Python 3 (mungkin bekerja dengan Python 2, tapi saya tidak mengujinya)
Pytorch
Baselines yang stabil3

Untuk memasang persyaratan, ikuti:

 # PyTorch
conda install pytorch torchvision -c soumith

# Other requirements
pip install -r requirements.txt

# Gym Atari
conda install -c conda-forge gym-atari

Kontribusi

Kontribusi sangat disambut. Jika Anda tahu cara membuat kode ini lebih baik, buka masalah. Jika Anda ingin mengirimkan permintaan tarik, silakan buka masalah terlebih dahulu. Lihat juga daftar TODO di bawah ini.

Saya juga mencari sukarelawan untuk menjalankan semua percobaan di Atari dan Mujoco (dengan beberapa biji acak).

Penafian

Sangat sulit untuk mereproduksi hasil untuk metode pembelajaran penguatan. Lihat "Pembelajaran Penguatan mendalam yang penting" untuk informasi lebih lanjut. Saya mencoba mereproduksi hasil openai sedekat mungkin. Namun, jurusan perbedaan dalam kinerja dapat disebabkan bahkan oleh perbedaan kecil dalam perpustakaan TensorFlow dan Pytorch.

Todo

Tingkatkan file readme ini. Mengatur ulang gambar.
Tingkatkan kinerja KFAC, lihat KFAC.PY untuk informasi lebih lanjut
Jalankan evaluasi untuk semua game dan algoritma

Visualisasi

Untuk memvisualisasikan hasil, gunakan visualize.ipynb .

Pelatihan

Atari

A2C

python main.py --env-name " PongNoFrameskip-v4 "

PPO

python main.py --env-name " PongNoFrameskip-v4 " --algo ppo --use-gae --lr 2.5e-4 --clip-param 0.1 --value-loss-coef 0.5 --num-processes 8 --num-steps 128 --num-mini-batch 4 --log-interval 1 --use-linear-lr-decay --entropy-coef 0.01

ACKTR

python main.py --env-name " PongNoFrameskip-v4 " --algo acktr --num-processes 32 --num-steps 20

Mujoco

Harap selalu coba gunakan --use-proper-time-limits . Ini menangani lintasan parsial dengan benar (lihat https://github.com/sfujim/td3/blob/master/main.py#l123).

A2C

python main.py --env-name " Reacher-v2 " --num-env-steps 1000000

PPO

python main.py --env-name " Reacher-v2 " --algo ppo --use-gae --log-interval 1 --num-steps 2048 --num-processes 1 --lr 3e-4 --entropy-coef 0 --value-loss-coef 0.5 --ppo-epoch 10 --num-mini-batch 32 --gamma 0.99 --gae-lambda 0.95 --num-env-steps 1000000 --use-linear-lr-decay --use-proper-time-limits

ACKTR

ACKTR membutuhkan beberapa modifikasi untuk dibuat khusus untuk Mujoco. Tetapi saat ini, saya ingin menjaga kode ini sebersih mungkin. Jadi, saya mencari cara yang lebih baik untuk mengintegrasikannya ke dalam basis kode.

Menikmati

Atari

python enjoy.py --load-dir trained_models/a2c --env-name " PongNoFrameskip-v4 "

Mujoco

python enjoy.py --load-dir trained_models/ppo --env-name " Reacher-v2 "

Hasil

A2C

Breakoutnoframeskip-V4

Seaquestnoframeskip-V4

Qbertnoframeskip-v4

beamridernoframeskip-v4

PPO

Breakoutnoframeskip-V4

Seaquestnoframeskip-V4

Qbertnoframeskip-v4

beamridernoframeskip-v4

ACKTR

Breakoutnoframeskip-V4

Seaquestnoframeskip-V4

Qbertnoframeskip-v4

beamridernoframeskip-v4

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe ular piton
Waktu Pembaruan 2025-07-13
ukuran 8.52MB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ToDo Co

ular piton

1.0.0
Python Portfolio

ular piton
datamule python

ular piton
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua