Download MindMaker - Unduh Kode Sumber MindMaker

MindMaker

Kode sumber lainnya

v1.1_UE4.26

Unduh

Plugin Mindmaker AI untuk Unreal Engine 4 & 5

Buat agen AI Pembelajaran Mesin di Unreal Engine 4 & 5

Spanduk

Video

Pengantar Mindmaker: https://www.youtube.com/watch?v=erm_pzhapia

Ikhtisar Blueprints: https://youtu.be/tuo423nuJek

Discord Group: https://discord.gg/shxfwtmsha

Plugin Mindmaker AI adalah plugin open-source yang memungkinkan permainan dan simulasi dalam UE4 dan UE5 berfungsi sebagai lingkungan gym openai untuk melatih agen pembelajaran mesin otonom. Plugin ini memfasilitasi koneksi jaringan antara proyek mesin Unreal yang berisi lingkungan belajar, dan perpustakaan Python ML yang menerima data dari Unreal Engine dan diuraikan ke lingkungan gym Openai khusus untuk melatih agen. Perpustakaan Pembelajaran Mesin Standalone dapat menjadi skrip Python khusus jika Anda membuat alat ML Anda sendiri menggunakan server ML jarak jauh Mindmaker, atau bisa menjadi mesin pembelajaran yang sudah dikompilasi seperti mesin DRL Mindmaker (algoritma stabil-baselines3). Terlepas dari opsi mana yang Anda pilih, menggunakan pengembang dan peneliti plugin Mindmaker AI dapat dengan mudah melatih agen pembelajaran mesin untuk proyek 2D, 3D dan VR.

Kemungkinan aplikasi melampaui desain game untuk berbagai upaya ilmiah dan teknis. Ini termasuk simulasi robot, mengemudi otonom, arsitektur generatif, grafik prosedural dan banyak lagi. API ini menyediakan platform pusat dari mana kemajuan dalam pembelajaran mesin dapat mencapai banyak bidang ini. Untuk pengembang game, casing penggunaan untuk agen yang dioptimalkan sendiri termasuk mengendalikan perilaku NPC (dalam berbagai pengaturan seperti multi-agen dan permusuhan), prototipe keputusan desain game, dan pengujian otomatis pembuatan game.

Mesin Pembelajaran DRL termasuk dalam tautan ke proyek contoh serta kode sumber Python untuk memodifikasinya, ditemukan di direktori konten mindmaker source. Algoritma yang saat ini didukung oleh mesin pembelajaran DRL meliputi: kritikus aktor (A2C), sampel aktor-kritik yang efisien dengan replay pengalaman (acer), kritikus aktor menggunakan region trust (ppo) yang di-facpored region (ACKTR), DQN (PPO), soft Actors (PPO), Soft Actor (PPO), Soft Actor, Trpo), gradien kebijakan deterministik mendalam (DDPG). Plugin ini secara fungsional mirip dengan agen ML Unity, dengan beberapa keuntungan - daripada perlu membuat lingkungan gym openai khusus untuk setiap aplikasi, seseorang menggunakan satu lingkungan dan cukup memilih pengamatan dan tindakan agen mana untuk mengekspos ke algoritma ML. Voila, biarkan pembelajaran dimulai!

Contoh & tutorial

Rilis UE4

Unduh Contoh Lengkap File Proyek dan Kode Sumber Python
- Tugas Cartpole: Membuat Lingkungan Belajar Penguatan Kustom [Video Demonstrasi YouTube]
- Pembuatan Konten Otomatis & Pengujian A/B: Pembuatan Konten Otomatis Dengan Sinyal Pembelajaran Penguatan yang Diberi Pemain [Video Demonstrasi YouTube]
- Perdagangan Saham Otomatis: Bangun bot Bitcoin di Unreal Engine 4 Menggunakan Pembelajaran Penguatan Mendalam
- Cocokkan dengan Sampel: Memecahkan teka -teki memori dengan karakter non -pemain
- Pembelajaran Penguatan Arsitektur

UE5.1 Algs-Baselines3 Algs

Unduh Plugin
Contoh Unduh (Termasuk Kode Sumber Python untuk Algoritma DRL)

Video

Intro. Ke plugin Mindmaker
Pembuatan Konten Otomatis / Pengujian AB
Membuat Lingkungan Kustom Dengan Contoh Tiang Keranjang

Dokumentasi

Gambaran Umum Fungsi Cetak Biru Pencetak Mindmaker

Fitur

Menerapkan beberapa perpustakaan ML berbasis Python secara langsung di Unreal Engine dengan file server klien Mindmaker - lihat contoh dan dokumentasi Remoteml
Paket Pembelajaran Penguatan Deep Prorcompiled untuk Kasus Penggunaan Produksi-Luncur Otomatis pada Mulai Game / Simulasi
Proyek Siap Menggunakan Contoh Menunjukkan Cara Menggunakan API
Ubah rentang penuh parameter pembelajaran termasuk jumlah lapisan jaringan, ukuran batch, tingkat pembelajaran, gamma, pertukaran eksplorasi/eksploitasi, dll
Mekanisme mandiri untuk agen pelatihan dalam skenario permusuhan
Didukung dari rak algoritma RL yang dalam termasuk*:
- A2C
- TANAMAN ACER
- ACKTR
- Ddpg
- Dqn
- PPO
- KANTUNG
- TD3
- TRPO *UE4 dan UE5 versi mesin pembelajaran DRL berisi subset yang berbeda dari algoritma di atas

Komponen

Ada dua komponen utama yang akan Anda gunakan saat bekerja dengan plugin Mindmaker, proyek Enginge yang tidak nyata yang berisi lingkungan belajar, dan perpustakaan pembelajaran mesin mandiri yang digunakan oleh agen untuk mengoptimalkan apa pun yang ingin dipelajari. Perpustakaan Pembelajaran Mesin Standalone dapat menjadi skrip Python khusus jika Anda membuat alat ML Anda sendiri menggunakan server ML jarak jauh Mindmaker, atau bisa menjadi mesin pembelajaran yang sudah dikompilasi seperti mesin DRL Mindmaker (algoritma baselines yang stabil).

Mindmaker Client Server Remote ML

Untuk bereksperimen menggunakan pustaka ML yang berbeda dalam hubungannya dengan Mindmaker, gunakan server ML Remote ML. Dengan itu Anda dapat menyesuaikan mesin pembelajaran Python Anda sendiri, daripada menggunakan mesin DRL Mindmaker yang telah dikompilasi. Untuk menggunakan server ML jarak jauh, ikuti langkah -langkah ini:

Unduh dan instal plugin AI Mindmaker Gratis untuk UE. Ini menyediakan koneksi IO soket yang Anda perlukan untuk terhubung dengan mesin pembelajaran Python jarak jauh. Dengan plugin Mindmaker diaktifkan dalam proyek Anda, Anda akan ingin menambahkan komponen Socketio ke objek game yang akan berfungsi sebagai AI Anda. Anda kemudian perlu menambahkan fungsi cetak biru peluncuran yang relevan untuk mengirim dan menerima data dari mesin pembelajaran dan komponen game AI Anda. Contohnya dapat ditemukan dalam proyek DRL UE pada langkah berikutnya.
Unduh Proyek Contoh DRL untuk UE - Ini termasuk aplikasi server Remote Mindmaker dalam format Windows .exe bersama dengan kode sumber Python untuk server jarak jauh yang terletak di direktori konten mindmaker sumber. Anda dapat menempatkan server jarak jauh ini dapat dieksekusi (atau skrip Python) pada mesin apa pun yang ingin Anda layani sebagai server jarak jauh Anda di mana pembelajaran mesin yang sebenarnya akan berlangsung. Pemisahan klien dan server ini memungkinkan Anda memiliki server berbasis cloud yang ditunjuk untuk perumahan dan melatih model Anda. Ini lebih mudah ketika Anda memiliki model besar dengan banyak klien yang terhubung, atau jika komputer klien tidak dilengkapi dengan baik untuk pembelajaran mesin.
Mulai proyek contoh UE yang berisi plugin Mindmaker. Sekarang temukan dan mulailah file sumber Python yang dapat dieksekusi atau Python di server jarak jauh Anda. Konfigurasikan komponen Socketio di proyek UE Anda untuk terhubung dengan host jarak jauh. Server Mindmaker yang telah Anda muat pada mesin jarak jauh Anda akan default ke port 3000, Anda juga perlu tahu bahwa komputer Remote IP Address juga dan mengkonfigurasi komponen Socketio Anda di UE sesuai. Setelah Anda meluncurkan proyek UE, itu akan secara otomatis mencoba untuk terhubung ke server jarak jauh dan memulai pelatihan, dengan asumsi Anda memiliki semua fungsi yang diperlukan yang diberikan dalam file contoh.
Ubah atau ganti klien Python untuk menggunakan pustaka pembelajaran mesin pilihan Anda. Sumber Python yang disertakan dengan contoh DRL menggunakan pembungkus gym openai untuk UE yang memungkinkan pustaka pembelajaran mesin yang kompatibel dengan openai untuk berinteraksi dengan Unreal Engine.

Marl (Multi Agen Penguatan Pembelajaran & Bekerja dengan banyak klien)

Jika Anda ingin menggunakan beberapa klien ML yang terhubung ke lingkungan belajar tunggal, misalnya dalam skenario multi agen, ini dapat dilakukan dengan menggunakan server dan plugin Mindmaker.

Untuk membuat beberapa agen pembelajaran, pertama -tama atur agen pembelajaran Anda seperti yang ditunjukkan dalam salah satu contoh cetak biru. Untuk setiap agen pembelajaran baru, Anda perlu menambah pengaturan port Socketio di pengontrol AI baru dengan 1. Pada saat meluncurkan server, nomor port server baru secara otomatis dibuat untuk setiap contoh baru dari mindmaker.exe yang Anda luncurkan, dimulai dengan 3000 dan naik dari sana dengan total 100. Jika Anda memerlukan lebih dari 100 agen pembelajaran, meminta ini di Github Repo.

Misalnya, jika Anda menambahkan agen pembelajaran kedua ke peta Anda, Anda akan memerlukan semua fungsi yang sama yang ada di agen pembelajaran pertama, node cetak biru peluncuran mindmaker dll, tetapi alih -alih menetapkan yang ini ke port 3000 Anda akan menetapkannya port 3001 dalam cetak biru. Selain mengubah pengaturan port Socketio dalam cetak biru, Anda juga perlu juga mengubah untuk mengubah fungsi cetak biru Socketio Connect, memodifikasi alamat dan port ke nomor baru yang telah Anda buat "http: // localhost: 3001" misalnya.

Setelah ini selesai, Anda hanya perlu membuat contoh kedua file mindmaker_client.py Anda yang akan terhubung ke agen pembelajaran kedua Anda. Pelatihan dapat dilakukan secara bersamaan, secara paralel. Satu -satunya modifikasi yang perlu Anda lakukan ke mindmaker_client.py adalah mengubah sio.connect ('http: // localhost: 3000') di bagian bawah file ke sio.connect ('http: // localhost: 3001') atau apa pun jumlah agen pembelajaran baru yang sedang Anda kerjakan. Jika Anda memiliki lima agen pembelajaran, maka Anda akan memiliki lima contoh klien yang berjalan dan masing -masing akan memiliki nomor port baru hingga 3005

Pembelajaran Imitasi (Eksperimental)

Pembelajaran Imitasi dengan StableBaselines 3 Pikiran Sumber Python Mindmaker dapat dimodifikasi untuk mendukung pembelajaran imitasi menggunakan algoritma pembelajaran imitasi stableBaselines yang didukung

Instal & Setup Cepat Menggunakan Konten Starter Mesin Mindmaker DRL

Unduh rilis plugin terbaru dari GitHub atau UE Marketplace
Unduh mesin pembelajaran Mindmaker yang kompatibel atau gunakan yang disertakan dengan proyek contoh.
Pindahkan mesin pembelajaran dan file -file yang menyertainya ke direktori konten proyek UE Anda. Lokasi yang tepat dari mesin pembelajaran harus "Content Mindmaker Dist Mindmaker Mindmaker.exe" Jika lokasi tidak seperti yang ditentukan plugin tidak akan bekerja untuk secara otomatis meluncurkan mesin pembelajaran di awal permainan dan Anda harus meluncurkan MindMaker.exe secara manual sebelum memulai pelatihan.
Tempatkan plugin AI Mindmaker di direktori plugin proyek UE Anda.
Jika Anda telah mengunduh Konten Starter Mindmaker DRL & Proyek Contoh dari sekadar cetak biru MindMakerActorBp atau Blueprint MindMakeraiControlerbp dari konten MindMakerTarterContent Assets MindMakTarterContent MindMakaktorbp Directory yang custome funce custome couctions funce custom. Pastikan bahwa alamat IO soket dan port yang Anda gunakan diatur ke http: // localhost: 3000.

Instal & Setup Cepat Untuk Membuat AI Pembelajaran Kustom dari awal

Unduh rilis plugin terbaru
Unduh mesin pembelajaran Mindmaker yang kompatibel atau gunakan yang disertakan dengan proyek contoh.
Pindahkan mesin pembelajaran dan file -file yang menyertainya ke direktori konten proyek UE Anda. Lokasi yang tepat dari mesin pembelajaran harus "Content Mindmaker Dist Mindmaker Mindmaker.exe" Jika lokasi tidak seperti yang ditentukan plugin tidak akan bekerja untuk secara otomatis meluncurkan mesin pembelajaran di awal permainan dan Anda harus meluncurkan MindMaker.exe secara manual sebelum memulai pelatihan. 4. tempat plugin AI Mindmaker di direktori plugin proyek UE Anda. 5. Tambahkan komponen IO soket ke cetak biru yang telah Anda pilih untuk dikerjakan. Komponen klien Socketio disertakan dengan plugin AI Mindmaker. Pastikan Alamat IO Soket dan Port yang Anda gunakan diatur ke http: // localhost: 3000
Hubungkan acara Mulai Mainkan Node ke Node Windows Pembuat Pikiran (salah satu aset plugin) di dalam cetak biru Anda. Node Windows Mindmaker dapat ditemukan di bawah kelas Cetak Biru Pencetak Mindmaker AI setelah plugin diinstal. Saat ini hanya MS Windows yang didukung. Setelah Anda memiliki Node Windows Mindmaker yang terhubung ke acara mulai bermain Node, Mesin Pembelajaran AI Mindmaker akan secara otomatis diluncurkan pada awal permainan dengan asumsi Anda telah menempatkannya di lokasi yang benar dari direktori konten proyek Anda.
Buat hadiah, tindakan, obersvation, dan luncurkan fungsi -fungsi pemikir untuk digunakan dengan mesin pembelajaran. Untuk contoh cara membuat ini, lihat Direktori /Contoh yang mencakup dua peta Cartpole dan MatchtoSample, yang dapat diunduh dengan konten starter.

Model Menyimpan dan Memuat:

Untuk menyimpan model yang terlatih, atur kotak centang "Simpan Model Setelah Pelatihan" di fungsi peluncuran Mindmaker ke True. Anda perlu memastikan jumlah episode pelatihan Anda adalah angka non nol. Model akan menyimpan setelah pelatihan selesai. Untuk memuat kotak model yang terlatih, hapus centang kotak centang "Simpan Model Setelah Pelatihan" dan sebaliknya mengatur kotak centang "Muat Pra -Pelatihan Pra -Terlatih" di fungsi peluncuran Mindmaker Function ke True. Anda juga perlu mengatur jumlah episode pelatihan ke nol, karena tidak ada pelatihan yang terjadi. Pastikan jumlah episode evaluasi adalah bilangan bulat non-nol, karena ini akan menjadi bagaimana model pra-terlatih menunjukkan pembelajaran. Model disimpan secara lokal di folder "AppData Roaming" komputer Anda, misalnya C: Users Leon AppData Roaming

Logging dengan Tensorboard:

Secara default Mindmaker hanya menyimpan ke direktori AppData/roaming di mesin Windows. Untuk mengaktifkan penebangan Tensorboard, ikuti langkah -langkah ini.

Pastikan kotak centang Use Custom Parameter Boolean diatur ke True dalam fungsi Launch Mindmaker Blueprint. 2. Buka parameter khusus untuk algoritma yang telah Anda pilih untuk bekerja. Pastikan nilai untuk full_tensorboard_log diatur ke "true". Selanjutnya buka parameter Tensorboard_log dan Anda perlu menentukan jalur lengkap ke direktori dalam roaming data aplikasi di mana Anda ingin menyimpan file log Tensorboard, misalnya "c:/user/aaron/appData/roaming/mindmaker/a2c_cartpole_tensorboard/" name of the user you working for the working for the working for the working for the working for the working. Jangan gunakan tanda kutip. Setelah pelatihan, buka direktori yang Anda tentukan dan file log Anda akan ada di sana.

Pahami masalah apa yang ingin dipecahkan oleh agen Anda:

Ini adalah proses tiga langkah, Anda perlu memutuskan tindakan apa yang dapat diambil agen, seperti apa kriteria hadiahnya, dan pengamatan apa yang perlu dilakukan agen tentang lingkungannya untuk berhasil belajar menerima hadiah.

Diagram proses pembelajaran untuk digunakan dengan Mindmaker

Luncurkan MindMaker ---------> Terima tindakan --------> Buat OBS -----> Periksa Hadiah --------> Kirim Obs dan RWRD ke MindMaker ------ kembali untuk menerima tindakan menerima tindakan

Dalam proses pembelajaran, mesin pembelajaran Mindmaker harus dikonfigurasi dengan ruang pengamatan yang digunakan agen dan jumlah total tindakan yang tersedia untuk agen. Anda tidak perlu memberikan informasi hadiah apa pun saat diinisialisasi, ini hanya akan ditemui selama pelatihan.

Proses keseluruhan untuk belajar adalah bahwa setelah diluncurkan dan terhubung ke Connected to Unreal Engine, mesin pembelajaran Mindmaker akan mulai memasuki tindakan acak untuk diambil oleh agen mesin Unreal, dan sebagai tanggapan, agen dengan UE akan mengirimkan kembali daftar pengamatan yang dibuat setelah tindakan diambil, di samping hadiah apa pun yang diterimanya dalam proses. Lihat diagram di atas. Selama banyak episode, algoritma yang dipekerjakan oleh Mindmaker akan mengoptimalkan tindakan agen sebagai respons terhadap pengamatan dan hadiah yang diterima dari UE. Proses ini sama terlepas dari algoritma pembelajaran mesin apa yang dipilih seseorang untuk dipekerjakan dengan Mindmaker. Dengan informasi ini, algoritma pembelajaran yang digunakan oleh Mindmaker akan mulai mengoptimalkan keputusan tindakan agen, idealnya menemukan urutan yang diperlukan untuk secara konsisten menerima hadiah. Pengorbanan antara tindakan acak dan yang disengaja dikendalikan dalam parameter eksplorasi/eksploitasi perpustakaan ML yang telah Anda pilih untuk digunakan dengan MindMaker, misalnya garis dasar yang stabil. Proses ini berulang untuk setiap episode pelatihan. Setelah sejumlah episode pelatihan, Anda dapat beralih sepenuhnya untuk menggunakan algoritma untuk memprediksi tindakan "terbaik" alih -alih mengambil yang acak.

Mindmaker dan The Environment Wrapper

Mindmaker berfungsi dengan membungkus lingkungan yang tidak nyata dalam format yang kompatibel dengan gym openai sehingga setiap perpustakaan ML yang telah dirancang untuk bekerja dengan gym Openai dapat digunakan di lingkungan mesin Anda yang tidak nyata. Tujuan menggunakan Open AI Gym adalah untuk membakukan faktor -faktor yang relevan untuk pembelajaran, yaitu, format untuk menerima pengamatan agen, penghargaan dan tindakan, sehingga setiap algorityHM dapat memiliki akses ke variabel yang relevan untuk belajar tanpa perlu dipasang untuk setiap tugas tertentu. Algoritma yang bekerja dengan Openai Gym dapat bekerja dengan lingkungan dan agen apa pun yang menggunakan protokol openai standar.

Mengkonfigurasi Mesin Pembelajaran Pencemana Mindmaker Pada awalnya Anda perlu mengonfigurasi fungsi peluncuran Mindmaker di dalam Unreal Engine untuk agen pembelajaran Anda. Ini dilakukan dengan mengatur variabel Action_Space di dalam Mindmaker untuk menyamakan jumlah total tindakan yang tersedia untuk agen Anda. Anda juga perlu mengonfigurasi variabel pengamatan_space agar sesuai dengan jumlah dan jenis pengamatan yang akan digunakan agen Anda sehubungan dengan hadiah yang coba diterima. Secara default, pengamatan dilewati dari Unreal sebagai array, lihat proyek contoh. Bergantung pada jumlah pengamatan agen Anda akan merasa perlu digunakan, ukuran Observation_Space akan berubah.

Variabel kunci untuk ditambahkan di mesin yang tidak nyata

Hadiah - Hadiah adalah variabel yang ditetapkan sesuai dengan kriteria spesifik yang telah Anda pilih untuk dipelajari atau dioptimalkan oleh agen. Dalam cetak biru UE4 Anda akan menggunakan simpul cabang untuk menentukan kondisi lingkungan dan tindakan agen apa yang harus dipenuhi agar hadiah diaktifkan. Ini daripada diteruskan ke Mindmaker oleh Socketio Connection. Lihat contoh proyek. Tindakan - Ini adalah variabel yang berisi nilai integer yang mewakili tindakan apa pun yang telah diambil agen. Anda juga perlu memutuskan jumlah total tindakan yang tersedia untuk agen dan mengatur maksimal di MindMaker untuk menyamakan angka ini. Pengamatan - Perhapse variabel paling sulit yang akan Anda hadapi. Kunci untuk mengatur ini dengan benar adalah memahami bahwa tindakan agen itu sendiri harus dimasukkan dalam variabel pengamatan, di samping kriteria lingkungan lainnya yang dirujuk dalam fungsi hadiah. Agen perlu mengetahui tindakan atau tindakan apa yang diambil yang memengaruhi hadiah dan variabel lingkungan apa pun yang berubah juga. Ini diteruskan ke mesin pembelajaran pikiran sebagai array dan diperbarui dalam variabel pengamatan di dalamnya.

Fungsi Cetak Biru Mindmaker

Fungsi Cetak Biru LaunchMindMaker

Di sini kita akan membahas parameter individu dari node cetak biru peluncuran, yang merupakan komponen utama fungsi cetak biru pemikir.

Algoritma RL - Di sinilah orang dapat memilih rasa algoritma RL yang ingin dilatih agen. Ada sepuluh opsi di menu drop -down, dengan masing -masing algoritma memiliki pro dan kontra sendiri. Diskusi terperinci tentang algoritma yang relevan dan kasus penggunaannya dapat ditemukan di sini. https://spinningup.openai.com/en/latest/spinningup/rl_intro2.html

NUM Train EP - Ini adalah input integer yang mewakili jumlah episode pelatihan yang ingin dilakukan oleh agen tersebut. Semakin besar jumlah episode pelatihan, semakin banyak eksplorasi yang dilakukan agen sebelum beralih ke perilaku strategis yang diperolehnya selama pelatihan. Kompleksitas tindakan yang ingin dipelajari oleh agen biasanya menentukan jumlah episode pelatihan yang diperlukan - strategi dan perilaku yang lebih kompleks membutuhkan lebih banyak episode pelatihan.

NUM EVAL EP - Ini juga merupakan input integer dan mewakili jumlah episode evaluasi yang akan dialami agen setelah pelatihan. Ini adalah episode di mana agen menunjukkan perilaku yang dipelajari.

Ruang Tindakan Berkelanjutan - Ini adalah input boolean yang menentukan apakah agen menggunakan ruang tindakan kontinu. Ruang aksi kontinu adalah salah satu di mana ada sejumlah tindakan yang tidak terbatas yang dapat diambil agen, misalnya jika belajar mengarahkan mobil, dan kisaran sudut di mana kolom kemudi dapat berubah adalah nilai desimal antara 0 dan 180, daripada ada jumlah nilai yang tak terbatas dalam kisaran seperti .12 dan 145.774454. Anda akan ingin mengidentifikasi pada awal penggunaan jika agen Anda memiliki jumlah tindakan yang tak terbatas atau tindakan nomor terbatas yang dapat mereka lakukan. Ruang aksi harus kontinu atau diskrit, tidak mungkin keduanya.

Ruang Tindakan Discrete - Ini adalah input boolean yang menentukan apakah agen menggunakan ruang tindakan diskrit. Ruang aksi diskrit adalah salah satu di mana ada sejumlah tindakan terbatas yang dapat diambil agen, seperti jika AI hanya dapat bergerak ke kanan satu ruang atau meninggalkan satu ruang. Dalam hal ini hanya memiliki dua tindakan yang tersedia untuk itu dan ruang tindakan terpisah. Pengguna menentukan jenis ruang tindakan yang akan digunakan agen sebelum menggunakan MindMaker dan mengatur nilai -nilai ini sesuai.

Bentuk Ruang Tindakan - Ini mendefinisikan batas bawah dan atas dari tindakan yang tersedia untuk agen. Jika Anda menggunakan ruang tindakan diskrit, daripada ini hanyalah jumlah total tindakan yang tersedia untuk agen, misalnya 2 atau 8. Jika Anda menggunakan ruang tindakan berkelanjutan, segalanya lebih rumit dan Anda harus menentukan batas rendah dan tinggi dari ruang tindakan yang secara terpisah. Format untuk melakukan hal itu adalah sebagai berikut: rendah = lowboundary, tinggi = highboundary, bentuk = (1,) dalam hal ini, lowboundary adalah nilai seperti -100.4 dan highboundary adalah nilai seperti 298.46. Semua nilai desimal antara batas -batas ini kemudian akan mewakili tindakan yang tersedia untuk agen. Jika Anda memiliki berbagai tindakan seperti itu, Anda dapat mengubah bagian bentuk untuk mencerminkan hal ini.

Bentuk Ruang Pengamatan - Berbicara dengan benar input ini adalah turunan Python dari kelas Lingkungan Kustom AI terbuka dan mendefinisikan batas -batas bawah dan atas pengamatan yang tersedia untuk agen setelah mengambil tindakan. Format untuk melakukan itu adalah sebagai berikut: Low = NP.Array ([Lowboundary]), tinggi = np.array ([highboundary]), dType = np.float32. Bayangkan agen yang perlu mengambil tiga tindakan spesifik berturut -turut untuk menerima hadiah, maka ruang pengamatannya perlu memasukkan akses ke ketiga tindakan itu, yang masing -masing akan diwakili oleh pengamatan yang unik. Oleh karena itu serangkaian pengamatan harus memasukkan tiga nilai yang berbeda, masing -masing dengan batasan unik sendiri. For example, such an action space might be defined as such: low=np.array([0,0,0]), high=np.array([100,100,100]),dtype=np.float32 if each of its own actions that agent needed to observe was a value between 0 and 100. A rule of thumb is that if a value is part of the reward function for the agent, ie their behavior is only rewarded if some condition being met, than the Ruang pengamatan harus mencakup referensi ke nilai itu. Jika lima kondisi harus dipenuhi agar agen dihargai, masing -masing dari lima kondisi ini harus menjadi bagian dari ruang pengamatan agen.

Muat model pra terlatih - Ini adalah nilai boolean yang menentukan jika Anda ingin agen memuat beberapa perilaku terlatih yang sebelumnya disimpan. Jika Anda mengatur ini ke True, Anda ingin menentukan nama file dalam kotak input Simpan /Muat Model. Semua model disimpan secara default ke direktori roaming data aplikasi komputer misalnya c: user username appData roaming

Simpan model setelah pelatihan - Ini adalah nilai boolean yang menentukan jika Anda ingin agen untuk menyimpan perilaku yang telah dipelajari setelah pelatihan. Jika Anda mengatur ini ke True, Anda ingin menentukan nama file dalam kotak input Simpan/Muat Model. Semua model disimpan secara default ke direktori roaming data aplikasi komputer misalnya c: user username appData roaming

Simpan/Muat Nama Model - Ini adalah string yang mewakili nama model yang ingin Anda simpan atau muat. File disimpan ke direktori roaming data aplikasi komputer misalnya c: user username appData roaming

Gunakan Params Kustom - Ini adalah nilai boolean yang menentukan jika Anda ingin menggunakan versi stok dari algoritma yang telah Anda pilih atau ingin memodifikasi parameternya. Jika Anda ingin menggunakan parameter khusus, ini dapat diakses melalui variabel struktur parameter khusus. Jika Anda mengkliknya, misalnya A2CParams, Anda akan melihat semua nilai yang dapat diatur dalam struktur ini. Rincian terperinci dari parameter untuk setiap algoritma dapat ditemukan di sini: https://stable-baselines.readthedocs.io/en/master/

Fungsi cetak biru lainnya

Daftar sampel fungsi dari contoh proyek disajikan di bawah ini untuk memahami bagaimana informasi disahkan antara Mindmaker dan Unreal Engine semua aset UE yang relevan dengan masalah mainan terkandung dalam folder aset/deeplearningnpc. Yang paling penting adalah cetak biru yang disebut ai_character_controler_bp dalam cetak biru AI_CHARACTER_CONTROLER_BP, semua variabel lingkungan dikonfigurasi untuk disampaikan ke aplikasi mandiri Mindmaker. Ini termasuk fungsi penting berikut

Fungsi input sensorik beban - Impor objek yang AI akan memiliki akses ke penginderaan atau manipulasi fungsi kontrol lingkungan lingkungannya - ini mengontrol logika untuk bagian -bagian lingkungan yang mengubah lampu switching tersebut menyala dan dimatikan dll

Tentukan Fungsi Ruang Tindakan - Pengkodean semua tindakan agen yang mungkin ke dalam nilai numerik tunggal yang dapat diteruskan ke aplikasi mandiri untuk evaluasi dengan algoritma RL

LaunchMindMaker Function - Ini memanggil aplikasi mandiri pada saat dimulai sehingga dapat memulai evaluasi data dari lingkungan UE. Setelah ini dimulai, aplikasi RL mulai menyelidiki lingkungan dengan tindakan acak yang dihasilkannya sendiri, seperti orang buta yang mencari dalam kegelapan untuk cahaya. Lampu adalah hadiah, yang ditentukan dalam fungsi periksa fungsi UE. LaunchlearningEngine juga masuk dalam beberapa informasi lingkungan UE dasar ke aplikasi mandiri, seperti jumlah tindakan yang dapat diambil agen, jumlah total episode untuk dilatih, dan jumlah episode untuk menampilkan agen yang diperoleh strategi setelah pelatihan. Menampilkan semua agen pelatihan acak akan memakan waktu terlalu lama.

Fungsi Rasa Persedia - Setelah fungsi mesin pembelajaran peluncuran telah dimulai, fungsi berikutnya untuk ditembakkan adalah reaksi ulang. Ini menerima tindakan yang dipilih oleh aplikasi mandiri, dan melakukan sejumlah prosedur tindak lanjut dengan itu, seperti memperbarui lokasi agen di lingkungan, memeriksa apakah tindakan baru memenuhi kondisi hadiah, menampilkan tindakan agen jika kita melalui pelatihan, dan memperbarui pengamatan agen tentang lingkungannya sehingga mereka dapat diteruskan kembali ke aplikasi mandiri dalam episode berikutnya.

Membuat fungsi pengamatan - tujuan dari ini adalah untuk memperbarui pengamatan agen tentang lingkungannya setelah tindakan yang baru saja diambil. Ini akan mencakup, misalnya, lokasi agen dengan lingkungan dan data lingkungan lainnya yang telah berubah sejak terakhir mengambil tindakan. Ini disimpan dalam variabel struktur khusus.

Checkreward - Ini menentukan kondisi hadiah untuk agen di lingkungan. Jika kondisi hadiah ini dipenuhi mengikuti agen yang mengambil tindakan, informasi ini diteruskan ke aplikasi mandiri dalam fungsi pengamatan Kirim yang mengikuti. Kirim Fungsi Pengamatan - Mengambil pengamatan baru yang dilakukan oleh agen serta informasi hadiah apa pun dan meneruskannya ke aplikasi mandiri. Beginilah algoritma RL akan dapat mengevaluasi apakah tindakan yang baru saja diambil adalah yang baik, dan memperbarui strateginya sesuai. Setelah fungsi ini menyala, satu iterasi atau episode permainan selesai, dan prosesnya mengulangi iklan Infinitum.

FAQ

T: Pada tahap eksplorasi tampaknya agen tidak bergerak, hanya berdiri diam.

Tugas -tugas tertentu mungkin memerlukan periode pelatihan yang diperpanjang di mana memvisualisasikan pergerakan agen akan terbukti menghabiskan waktu. Dengan demikian dalam contoh -contoh tertentu yang memvisualisasikan gerakan agen telah dinonaktifkan, tetapi pelatihan terjadi di latar belakang setelah contoh dijalankan dan setelah selesai, agen akan menunjukkan strategi yang diperoleh.

T: Bagaimana eksplorasi digunakan, strategi apa yang digunakan untuk dijelajahi? Tidak jelas bagi saya apa arti "acak" ini, dapatkah Anda memberi contoh?

Acak dalam hal ini berarti bahwa agen menggunakan generator nomor acak untuk memilih antara tindakan yang tersedia untuk itu selama pelatihan. Algoritma RL kemudian mengamati hasil dari tindakan acak ini serta hadiah yang diterima dan menggunakan informasi ini untuk memilih tindakan yang lebih baik selama fase "eksploitasi". Beginilah cara strategi yang dipelajari dikembangkan.

T: Apa informasi yang dikumpulkan dalam tahap pembelajaran, seperti apa bentuknya?

Pengumpulan informasi selama pembelajaran mengambil bentuk serangkaian pengamatan yang dihasilkan setelah masing -masing tindakan acak agen. Jika menggunakan plugin Mindmaker, bentuk yang tepat dari array didefinisikan dalam properti ukuran pengamatan dari fungsi cetak biru peluncuran Mindmaker dan akan tergantung pada variabel apa yang diperlukan agar agen dapat diamati dalam permainan atau tugas pembelajaran tertentu. Ini akan berubah tergantung pada tugas pembelajaran atau permainan.

T: Dapatkah agen memandang seluruh lingkungan, atau hanya area kecil di sekitarnya?

Agen hanya merasakan bagian dari lingkungan yang terpapar oleh perancang game. Saat menggunakan plugin Mindmaker, pengamatan ini diisi dalam membuat panggilan fungsi cetak biru pengamatan dalam mesin unreal. Ini akan menghasilkan serangkaian angka dalam bentuk yang ditentukan oleh properti ukuran pengamatan dari fungsi cetak biru peluncuran. Pengamatan harus dipilih sehingga hanya terdiri dari data yang diperlukan untuk dipelajari oleh agen, jika tidak pelatihan dapat menjadi waktu yang menghabiskan waktu.

T: Jaringan saraf apa yang digunakan? Ann/CNN/RNN?

Dalam Vanilla Q Learning - tidak ada jaringan saraf yang diperlukan dan pembelajaran disimpan dalam format tabel. Saat menggunakan Mindmaker Inforcement Learning, seseorang dapat memilih antara berbagai arsitektur jaringan saraf termasuk RNN, CNN dll. Seseorang dapat mengaturnya dalam setiap properti kustom algoritma dari panggilan fungsi cetak biru peluncuran.