Unduh MARLlib - Unduh Kode Sumber MARLlib

MARLlib

ular piton

v1.0.3

Unduh

❗ Berita
Maret 2023 ⚓Kami senang mengumumkan bahwa pembaruan besar baru saja dirilis. Untuk informasi versi terperinci, silakan merujuk ke info versi.
Mei 2023 Berita Menyenangkan! Marllib sekarang mendukung lima tugas lagi: Mate, Gobigger, Overcooked-Ai, Mapdn, dan Aircombat. Cobalah mereka!
Juni 2023 Openai: Hide and Seek dan lingkungan SISL dimasukkan ke dalam Marllib.
Agustus 2023 ? Marllib telah diterima untuk publikasi di JMLR.
September 2023 Pettingzoo terbaru dengan gimnasium dapat dikompatibel di dalam Marllib.
November 2023 Kami saat ini sedang dalam proses membuat buku Marl langsung dan bertujuan untuk merilis draft pada akhir 2023.

Perpustakaan Pembelajaran Penguatan Multi-Agen (Marllib) adalah perpustakaan marl yang menggunakan Ray dan salah satu toolkitnya Rllib . Ini menawarkan platform yang komprehensif untuk mengembangkan, melatih, dan menguji algoritma Marl di berbagai tugas dan lingkungan.

Berikut adalah contoh bagaimana Marllib dapat digunakan:

 from marllib import marl

# prepare env
env = marl . make_env ( environment_name = "mpe" , map_name = "simple_spread" , force_coop = True )

# initialize algorithm with appointed hyper-parameters
mappo = marl . algos . mappo ( hyperparam_source = 'mpe' )

# build agent model based on env + algorithms + user preference
model = marl . build_model ( env , mappo , { "core_arch" : "mlp" , "encode_layer" : "128-256" })

# start training
mappo . fit ( env , model , stop = { 'timesteps_total' : 1000000 }, share_policy = 'group' )

Mengapa Marllib?

Di sini kami menyediakan tabel untuk perbandingan Marllib dan pekerjaan yang ada.

Perpustakaan	Env yang didukung	Algoritma	Berbagi parameter	Model
Pymarl	1 koperasi	5	membagikan	Gru
Pymarl2	2 Koperasi	11	membagikan	MLP + Gru
Benchmark Mappo	4 koperasi	1	Bagikan + terpisah	MLP + Gru
Malib	4 mandiri	10	Bagikan + grup + terpisah	MLP + LSTM
Epymarl	4 koperasi	9	Bagikan + terpisah	Gru
Harl	8 koperasi	9	Bagikan + terpisah	MLP + CNN + Gru
Marllib	17 Tidak ada batasan mode tugas	18	Bagikan + grup + terpisah + disesuaikan	MLP + CNN + GRU + LSTM

Perpustakaan	Bintang GitHub	Dokumentasi	Masalah terbuka	Aktivitas	Pembaruan terakhir
Pymarl
Pymarl2
Benchmark Mappo
Malib
Epymarl
Harl *
Marllib

* Harl adalah perpustakaan Marl terbaru yang baru -baru ini dirilis: Fire:. Jika algoritma marl mutakhir dengan kinerja canggih adalah target Anda, Harl pasti patut dilihat!

fitur utama

? Marllib menawarkan beberapa fitur utama yang membuatnya menonjol:

Marllib menyatukan jaringan algoritma yang beragam dengan level-level yang didistribusikan dataflow, memungkinkan para peneliti untuk mengembangkan, menguji, dan mengevaluasi algoritma marl di berbagai tugas dan lingkungan.
Marllib mendukung semua mode tugas, termasuk kooperatif, kolaboratif, kompetitif, dan campuran. Ini memudahkan para peneliti untuk melatih dan mengevaluasi algoritma Marl di berbagai tugas.
Marllib menyediakan antarmuka baru yang mengikuti struktur gym, memudahkan para peneliti untuk bekerja dengan lingkungan multi-agen.
Marllib memberikan strategi berbagi parameter yang fleksibel dan dapat disesuaikan, memungkinkan para peneliti untuk mengoptimalkan algoritma mereka untuk tugas dan lingkungan yang berbeda.

Menggunakan Marllib, Anda dapat memanfaatkan berbagai manfaat, seperti:

Nol Pengetahuan tentang Marl : Marllib menyediakan 18 algoritma pra-dibangun dengan API intuitif, yang memungkinkan para peneliti untuk mulai bereksperimen dengan Marl tanpa pengetahuan sebelumnya tentang lapangan.
Dukungan untuk semua mode tugas : Marllib mendukung hampir semua lingkungan multi-agen, memudahkan para peneliti untuk bereksperimen dengan mode tugas yang berbeda.
Arsitektur model yang dapat disesuaikan : Peneliti dapat memilih arsitektur model pilihan mereka dari Model Zoo, atau membangunnya sendiri.
Berbagi Kebijakan yang Dapat Disesuaikan : Marllib menyediakan opsi pengelompokan untuk berbagi kebijakan, atau peneliti dapat membuat sendiri.
Akses ke lebih dari seribu percobaan yang dirilis : Peneliti dapat mengakses lebih dari seribu percobaan yang dirilis untuk melihat bagaimana peneliti lain menggunakan Marllib.

Instalasi

Catatan : Harap dicatat bahwa saat ini, Marllib hanya kompatibel dengan sistem operasi Linux.

Langkah demi langkah (disarankan)

instal dependensi
Pasang lingkungan
Instal tambalan

1. Instal dependensi (Dasar)

Pertama, instal dependensi Marllib untuk menjamin penggunaan dasar. Mengikuti panduan ini, akhirnya instal tambalan untuk rllib.

$ conda create -n marllib python=3.8 # or 3.9
$ conda activate marllib
$ git clone https://github.com/Replicable-MARL/MARLlib.git && cd MARLlib
$ pip install -r requirements.txt

2. Instal Lingkungan (Opsional)

Silakan ikuti panduan ini.

Catatan : Kami merekomendasikan versi gym sekitar 0,20.0.

pip install " gym==0.20.0 "

3. Instal tambalan (dasar)

Perbaiki bug rllib menggunakan tambalan dengan menjalankan perintah berikut:

$ cd /Path/To/MARLlib/marllib/patch
$ python add_patch.py -y

Pypi

$ pip install --upgrade pip
$ pip install marllib

Penggunaan berbasis Docker

Kami menyediakan DockerFile untuk membangun gambar Marllib Docker di MARLlib/docker/Dockerfile dan pengaturan DevContainer di folder MARLlib/.devcontainer . Jika Anda menggunakan DevContainer, satu hal yang perlu diperhatikan adalah bahwa Anda mungkin perlu menyesuaikan argumen tertentu di runArgs dari devcontainer.json sesuai dengan perangkat keras Anda, misalnya argumen --shm-size .

Memulai

Siapkan konfigurasi

Ada empat bagian konfigurasi yang bertanggung jawab atas seluruh proses pelatihan.

Skenario: Tentukan pengaturan lingkungan/tugas
Algoritma: Pilih hyperparameters algoritma
Model: Kustomisasi Arsitektur Model
Ray/Rllib: Ubah Pengaturan Pelatihan Dasar

Sebelum pelatihan, pastikan semua parameter diatur dengan benar, terutama yang tidak ingin Anda ubah.

Catatan : Anda juga dapat memodifikasi semua parameter yang telah ditetapkan sebelumnya melalui Marllib API.*

Daftarkan lingkungan

Pastikan semua dependensi dipasang untuk lingkungan yang Anda jalankan. Jika tidak, silakan merujuk ke dokumentasi Marllib.

mode tugas	Contoh API
koperasi	`marl.make_env(environment_name="mpe", map_name="simple_spread", force_coop=True)`
kolaboratif	`marl.make_env(environment_name="mpe", map_name="simple_spread")`
kompetitif	`marl.make_env(environment_name="mpe", map_name="simple_adversary")`
campur aduk	`marl.make_env(environment_name="mpe", map_name="simple_crypto")`

Sebagian besar lingkungan populer dalam penelitian Marl didukung oleh Marllib:

Nama Env	Mode Pembelajaran	Kemampuan observasi	Ruang aksi	Pengamatan
Lbf	Koperasi + Kolaboratif	Keduanya	Diskrit	1d
Rware	koperasi	Sebagian	Diskrit	1d
Mpe	Kooperatif + Kolaboratif + Campuran	Keduanya	Keduanya	1d
Sisl	Koperasi + Kolaboratif	Penuh	Keduanya	1d
Smac	koperasi	Sebagian	Diskrit	1d
Metadrive	kolaboratif	Sebagian	Kontinu	1d
Magent	kolaboratif + campuran	Sebagian	Diskrit	2d
Pommerman	kolaboratif + kompetitif + campuran	Keduanya	Diskrit	2d
Mamujoco	koperasi	Penuh	Kontinu	1d
Grf	kolaboratif + campuran	Penuh	Diskrit	2d
Hanabi	koperasi	Sebagian	Diskrit	1d
PASANGAN	Koperasi + Campuran	Sebagian	Keduanya	1d
Gobigger	Koperasi + Campuran	Keduanya	Kontinu	1d
Overcooked-Ai	koperasi	Penuh	Diskrit	1d
PDN	koperasi	Sebagian	Kontinu	1d
Aircombat	Koperasi + Campuran	Sebagian	Multidiskrete	1d
Hideandseek	kompetitif + campuran	Sebagian	Multidiskrete	1d

Setiap lingkungan memiliki file readme, berdiri sebagai instruksi untuk tugas ini, termasuk pengaturan Env, instalasi, dan catatan penting.

Inisialisasi algoritma

Menjalankan target	Contoh API
Kereta & Finetune	`marl.algos.mappo(hyperparam_source=$ENV)`
Kembangkan & debug	`marl.algos.mappo(hyperparam_source="test")`
Pihak ke -3 Env	`marl.algos.mappo(hyperparam_source="common")`

Berikut adalah bagan yang menggambarkan karakteristik setiap algoritma:

algoritma	Mode Tugas Mendukung	tindakan diskrit	tindakan berkelanjutan	Jenis Kebijakan
IQL *	keempatnya	✔️		off-policy
Hal	keempatnya	✔️	✔️	On-policy
A2C	keempatnya	✔️	✔️	On-policy
Ddpg	keempatnya		✔️	off-policy
Trpo	keempatnya	✔️	✔️	On-policy
PPO	keempatnya	✔️	✔️	On-policy
KOMA	keempatnya	✔️		On-policy
Maddpg	keempatnya		✔️	off-policy
Maa2c *	keempatnya	✔️	✔️	On-policy
Matrpo *	keempatnya	✔️	✔️	On-policy
Mappo	keempatnya	✔️	✔️	On-policy
Hatrpo	koperasi	✔️	✔️	On-policy
Happo	koperasi	✔️	✔️	On-policy
Vdn	koperasi	✔️		off-policy
Qmix	koperasi	✔️		off-policy
Facmac	koperasi		✔️	off-policy
VDAC	koperasi	✔️	✔️	On-policy
Vdppo *	koperasi	✔️	✔️	On-policy

* Keempat : Kooperatif Komporatif Kompetitif Campuran

IQL adalah versi multi-agen dari Q Learning. MAA2C dan Matrpo adalah versi terpusat dari A2C dan TRPO. VDPPO adalah versi dekomposisi nilai PPO.

Bangun Model Agen

Model agen terdiri dari dua bagian, encoder dan core arch . encoder akan dibangun oleh Marllib sesuai dengan ruang pengamatan. Pilih mlp , gru , atau lstm karena Anda ingin membangun model lengkap.

Model Arch	Contoh API
MLP	`marl.build_model(env, algo, {"core_arch": "mlp")`
Gru	`marl.build_model(env, algo, {"core_arch": "gru"})`
LSTM	`marl.build_model(env, algo, {"core_arch": "lstm"})`
Arch encoder	`marl.build_model(env, algo, {"core_arch": "gru", "encode_layer": "128-256"})`

Memulai pelatihan

pengaturan	Contoh API
kereta	`algo.fit(env, model)`
debug	`algo.fit(env, model, local_mode=True)`
Kondisi berhenti	`algo.fit(env, model, stop={'episode_reward_mean': 2000, 'timesteps_total': 10000000})`
Berbagi Kebijakan	`algo.fit(env, model, share_policy='all') # or 'group' / 'individual'`
Simpan model	`algo.fit(env, model, checkpoint_freq=100, checkpoint_end=True)`
GPU mempercepat	`algo.fit(env, model, local_mode=False, num_gpus=1)`
CPU mempercepat	`algo.fit(env, model, local_mode=False, num_workers=5)`

Pelatihan & Rendering API

 from marllib import marl

# prepare env
env = marl . make_env ( environment_name = "smac" , map_name = "5m_vs_6m" )
# initialize algorithm with appointed hyper-parameters
mappo = marl . algos . mappo ( hyperparam_source = "smac" )
# build agent model based on env + algorithms + user preference
model = marl . build_model ( env , mappo , { "core_arch" : "gru" , "encode_layer" : "128-256" })
# start training
mappo . fit (
  env , model , 
  stop = { "timesteps_total" : 1000000 }, 
  checkpoint_freq = 100 , 
  share_policy = "group"
)
# rendering
mappo . render (
  env , model , 
  local_mode = True , 
  restore_path = { 'params_path' : "checkpoint/params.json" ,
                'model_path' : "checkpoint/checkpoint-10" }
)

Hasil

Di bawah direktori kerja saat ini, Anda dapat menemukan semua data pelatihan (file logging dan tensorflow) serta model yang disimpan. Untuk memvisualisasikan kurva belajar, Anda dapat menggunakan papan tensor. Ikuti langkah -langkah di bawah ini:

Instal Tensorboard dengan menjalankan perintah berikut:

pip install tensorboard

Gunakan perintah berikut untuk meluncurkan Tensorboard dan visualisasikan hasilnya:

tensorboard --logdir .

Atau, Anda dapat merujuk pada tutorial ini untuk instruksi yang lebih rinci.

Untuk daftar semua hasil yang ada, Anda dapat mengunjungi tautan ini. Harap dicatat bahwa hasil ini diperoleh dari versi Marllib yang lebih lama, yang dapat menyebabkan ketidakkonsistenan jika dibandingkan dengan hasil saat ini.

Contoh cepat

Marllib memberikan beberapa contoh praktis untuk Anda rujuk.

Penggunaan API terperinci: Tunjukkan cara menggunakan API Marllib secara detail, misalnya CMD + API yang digabungkan.
Cutomization Berbagi Kebijakan: Tentukan strategi berbagi kebijakan grup Anda sesuai keinginan berdasarkan tugas saat ini.
Model pemuatan: Muat model pra-terlatih dan tetap pelatihan.
Model dan rendering pemuatan: Render lingkungan berdasarkan model pra-terlatih.
Menggabungkan Lingkungan Baru: Tambahkan lingkungan baru Anda mengikuti antarmuka interaksi agen MARLLIB.
Menggabungkan algoritma baru: Tambahkan algoritma baru Anda mengikuti pipa pembelajaran Marllib.
Finetuning Paralelisasi: Fintune Kinerja Kebijakan/Model Anda dengan ray.tune .

Tutorial

Coba MPE + Contoh Mappo di Google Colaboratory! Dokumentasi tutorial lebih banyak tersedia di sini.

Daftar Luar Biasa

Kumpulan Makalah Penelitian dan Tinjauan Multi-Agen Penguatan Pembelajaran (MARL) tersedia. Makalah telah diatur berdasarkan tanggal publikasi mereka dan evaluasi mereka terhadap lingkungan yang sesuai.

Algoritma: Lingkungan:

Masyarakat

Saluran	Link
Masalah	Masalah GitHub

Peta jalan

Roadmap to the Future Rilis tersedia di Roadmap.md.

Berkontribusi

Kami adalah tim kecil dalam pembelajaran penguatan multi-agen, dan kami akan mengambil semua bantuan yang bisa kami dapatkan! Jika Anda ingin terlibat, berikut adalah informasi tentang pedoman kontribusi dan cara menguji kode secara lokal.

Anda dapat berkontribusi dalam berbagai cara, misalnya, melaporkan bug, menulis atau menerjemahkan dokumentasi, meninjau atau refactoring kode, meminta atau mengimplementasikan fitur baru, dll.

Kutipan

Jika Anda menggunakan Marllib dalam penelitian Anda, silakan kutip kertas Marllib.

@article{hu2022marllib,
  author  = {Siyi Hu and Yifan Zhong and Minquan Gao and Weixun Wang and Hao Dong and Xiaodan Liang and Zhihui Li and Xiaojun Chang and Yaodong Yang},
  title   = {MARLlib: A Scalable and Efficient Multi-agent Reinforcement Learning Library},
  journal = {Journal of Machine Learning Research},
  year    = {2023},
}

Pekerjaan yang didasarkan pada atau berkolaborasi erat dengan Marllib <link>

@InProceedings{hu2022policy,
      title={Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent {RL}},
      author={Hu, Siyi and Xie, Chuanlong and Liang, Xiaodan and Chang, Xiaojun},
      booktitle={Proceedings of the 39th International Conference on Machine Learning},
      year={2022},
}
@misc{zhong2023heterogeneousagent,
      title={Heterogeneous-Agent Reinforcement Learning}, 
      author={Yifan Zhong and Jakub Grudzien Kuba and Siyi Hu and Jiaming Ji and Yaodong Yang},
      archivePrefix={arXiv},
      year={2023},
}

Memperluas

Informasi Tambahan

Versi v1.0.3
Tipe ular piton
Waktu Pembaruan 2025-07-13
ukuran 64.91MB
Berasal dari Github

Aplikasi Terkait

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
Alat bagan data sumber terbuka Redash v24.10.0

2024-11-27
datamule python

2024-11-08
platform visualisasi data smartchart v6.9

2024-11-27
Alat pengujian beban belalang v2.32.0

2024-11-27

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ToDo Co

ular piton

1.0.0
Python Portfolio

ular piton
Alat bagan data sumber terbuka Redash v24.10.0

ular piton

24.10.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua