Buat agen AI Pembelajaran Mesin di Unreal Engine 4 & 5

Pengantar Mindmaker: https://www.youtube.com/watch?v=erm_pzhapia
Ikhtisar Blueprints: https://youtu.be/tuo423nuJek
Discord Group: https://discord.gg/shxfwtmsha
Plugin Mindmaker AI adalah plugin open-source yang memungkinkan permainan dan simulasi dalam UE4 dan UE5 berfungsi sebagai lingkungan gym openai untuk melatih agen pembelajaran mesin otonom. Plugin ini memfasilitasi koneksi jaringan antara proyek mesin Unreal yang berisi lingkungan belajar, dan perpustakaan Python ML yang menerima data dari Unreal Engine dan diuraikan ke lingkungan gym Openai khusus untuk melatih agen. Perpustakaan Pembelajaran Mesin Standalone dapat menjadi skrip Python khusus jika Anda membuat alat ML Anda sendiri menggunakan server ML jarak jauh Mindmaker, atau bisa menjadi mesin pembelajaran yang sudah dikompilasi seperti mesin DRL Mindmaker (algoritma stabil-baselines3). Terlepas dari opsi mana yang Anda pilih, menggunakan pengembang dan peneliti plugin Mindmaker AI dapat dengan mudah melatih agen pembelajaran mesin untuk proyek 2D, 3D dan VR.
Kemungkinan aplikasi melampaui desain game untuk berbagai upaya ilmiah dan teknis. Ini termasuk simulasi robot, mengemudi otonom, arsitektur generatif, grafik prosedural dan banyak lagi. API ini menyediakan platform pusat dari mana kemajuan dalam pembelajaran mesin dapat mencapai banyak bidang ini. Untuk pengembang game, casing penggunaan untuk agen yang dioptimalkan sendiri termasuk mengendalikan perilaku NPC (dalam berbagai pengaturan seperti multi-agen dan permusuhan), prototipe keputusan desain game, dan pengujian otomatis pembuatan game.
Mesin Pembelajaran DRL termasuk dalam tautan ke proyek contoh serta kode sumber Python untuk memodifikasinya, ditemukan di direktori konten mindmaker source. Algoritma yang saat ini didukung oleh mesin pembelajaran DRL meliputi: kritikus aktor (A2C), sampel aktor-kritik yang efisien dengan replay pengalaman (acer), kritikus aktor menggunakan region trust (ppo) yang di-facpored region (ACKTR), DQN (PPO), soft Actors (PPO), Soft Actor (PPO), Soft Actor, Trpo), gradien kebijakan deterministik mendalam (DDPG). Plugin ini secara fungsional mirip dengan agen ML Unity, dengan beberapa keuntungan - daripada perlu membuat lingkungan gym openai khusus untuk setiap aplikasi, seseorang menggunakan satu lingkungan dan cukup memilih pengamatan dan tindakan agen mana untuk mengekspos ke algoritma ML. Voila, biarkan pembelajaran dimulai!
Ada dua komponen utama yang akan Anda gunakan saat bekerja dengan plugin Mindmaker, proyek Enginge yang tidak nyata yang berisi lingkungan belajar, dan perpustakaan pembelajaran mesin mandiri yang digunakan oleh agen untuk mengoptimalkan apa pun yang ingin dipelajari. Perpustakaan Pembelajaran Mesin Standalone dapat menjadi skrip Python khusus jika Anda membuat alat ML Anda sendiri menggunakan server ML jarak jauh Mindmaker, atau bisa menjadi mesin pembelajaran yang sudah dikompilasi seperti mesin DRL Mindmaker (algoritma baselines yang stabil).
Untuk bereksperimen menggunakan pustaka ML yang berbeda dalam hubungannya dengan Mindmaker, gunakan server ML Remote ML. Dengan itu Anda dapat menyesuaikan mesin pembelajaran Python Anda sendiri, daripada menggunakan mesin DRL Mindmaker yang telah dikompilasi. Untuk menggunakan server ML jarak jauh, ikuti langkah -langkah ini:
Jika Anda ingin menggunakan beberapa klien ML yang terhubung ke lingkungan belajar tunggal, misalnya dalam skenario multi agen, ini dapat dilakukan dengan menggunakan server dan plugin Mindmaker.
Untuk membuat beberapa agen pembelajaran, pertama -tama atur agen pembelajaran Anda seperti yang ditunjukkan dalam salah satu contoh cetak biru. Untuk setiap agen pembelajaran baru, Anda perlu menambah pengaturan port Socketio di pengontrol AI baru dengan 1. Pada saat meluncurkan server, nomor port server baru secara otomatis dibuat untuk setiap contoh baru dari mindmaker.exe yang Anda luncurkan, dimulai dengan 3000 dan naik dari sana dengan total 100. Jika Anda memerlukan lebih dari 100 agen pembelajaran, meminta ini di Github Repo.
Misalnya, jika Anda menambahkan agen pembelajaran kedua ke peta Anda, Anda akan memerlukan semua fungsi yang sama yang ada di agen pembelajaran pertama, node cetak biru peluncuran mindmaker dll, tetapi alih -alih menetapkan yang ini ke port 3000 Anda akan menetapkannya port 3001 dalam cetak biru. Selain mengubah pengaturan port Socketio dalam cetak biru, Anda juga perlu juga mengubah untuk mengubah fungsi cetak biru Socketio Connect, memodifikasi alamat dan port ke nomor baru yang telah Anda buat "http: // localhost: 3001" misalnya.
Setelah ini selesai, Anda hanya perlu membuat contoh kedua file mindmaker_client.py Anda yang akan terhubung ke agen pembelajaran kedua Anda. Pelatihan dapat dilakukan secara bersamaan, secara paralel. Satu -satunya modifikasi yang perlu Anda lakukan ke mindmaker_client.py adalah mengubah sio.connect ('http: // localhost: 3000') di bagian bawah file ke sio.connect ('http: // localhost: 3001') atau apa pun jumlah agen pembelajaran baru yang sedang Anda kerjakan. Jika Anda memiliki lima agen pembelajaran, maka Anda akan memiliki lima contoh klien yang berjalan dan masing -masing akan memiliki nomor port baru hingga 3005
Pembelajaran Imitasi dengan StableBaselines 3 Pikiran Sumber Python Mindmaker dapat dimodifikasi untuk mendukung pembelajaran imitasi menggunakan algoritma pembelajaran imitasi stableBaselines yang didukung
Untuk menyimpan model yang terlatih, atur kotak centang "Simpan Model Setelah Pelatihan" di fungsi peluncuran Mindmaker ke True. Anda perlu memastikan jumlah episode pelatihan Anda adalah angka non nol. Model akan menyimpan setelah pelatihan selesai. Untuk memuat kotak model yang terlatih, hapus centang kotak centang "Simpan Model Setelah Pelatihan" dan sebaliknya mengatur kotak centang "Muat Pra -Pelatihan Pra -Terlatih" di fungsi peluncuran Mindmaker Function ke True. Anda juga perlu mengatur jumlah episode pelatihan ke nol, karena tidak ada pelatihan yang terjadi. Pastikan jumlah episode evaluasi adalah bilangan bulat non-nol, karena ini akan menjadi bagaimana model pra-terlatih menunjukkan pembelajaran. Model disimpan secara lokal di folder "AppData Roaming" komputer Anda, misalnya C: Users Leon AppData Roaming
Secara default Mindmaker hanya menyimpan ke direktori AppData/roaming di mesin Windows. Untuk mengaktifkan penebangan Tensorboard, ikuti langkah -langkah ini.
Ini adalah proses tiga langkah, Anda perlu memutuskan tindakan apa yang dapat diambil agen, seperti apa kriteria hadiahnya, dan pengamatan apa yang perlu dilakukan agen tentang lingkungannya untuk berhasil belajar menerima hadiah.
Luncurkan MindMaker ---------> Terima tindakan --------> Buat OBS -----> Periksa Hadiah --------> Kirim Obs dan RWRD ke MindMaker ------ kembali untuk menerima tindakan menerima tindakan
Dalam proses pembelajaran, mesin pembelajaran Mindmaker harus dikonfigurasi dengan ruang pengamatan yang digunakan agen dan jumlah total tindakan yang tersedia untuk agen. Anda tidak perlu memberikan informasi hadiah apa pun saat diinisialisasi, ini hanya akan ditemui selama pelatihan.
Proses keseluruhan untuk belajar adalah bahwa setelah diluncurkan dan terhubung ke Connected to Unreal Engine, mesin pembelajaran Mindmaker akan mulai memasuki tindakan acak untuk diambil oleh agen mesin Unreal, dan sebagai tanggapan, agen dengan UE akan mengirimkan kembali daftar pengamatan yang dibuat setelah tindakan diambil, di samping hadiah apa pun yang diterimanya dalam proses. Lihat diagram di atas. Selama banyak episode, algoritma yang dipekerjakan oleh Mindmaker akan mengoptimalkan tindakan agen sebagai respons terhadap pengamatan dan hadiah yang diterima dari UE. Proses ini sama terlepas dari algoritma pembelajaran mesin apa yang dipilih seseorang untuk dipekerjakan dengan Mindmaker. Dengan informasi ini, algoritma pembelajaran yang digunakan oleh Mindmaker akan mulai mengoptimalkan keputusan tindakan agen, idealnya menemukan urutan yang diperlukan untuk secara konsisten menerima hadiah. Pengorbanan antara tindakan acak dan yang disengaja dikendalikan dalam parameter eksplorasi/eksploitasi perpustakaan ML yang telah Anda pilih untuk digunakan dengan MindMaker, misalnya garis dasar yang stabil. Proses ini berulang untuk setiap episode pelatihan. Setelah sejumlah episode pelatihan, Anda dapat beralih sepenuhnya untuk menggunakan algoritma untuk memprediksi tindakan "terbaik" alih -alih mengambil yang acak.
Mindmaker berfungsi dengan membungkus lingkungan yang tidak nyata dalam format yang kompatibel dengan gym openai sehingga setiap perpustakaan ML yang telah dirancang untuk bekerja dengan gym Openai dapat digunakan di lingkungan mesin Anda yang tidak nyata. Tujuan menggunakan Open AI Gym adalah untuk membakukan faktor -faktor yang relevan untuk pembelajaran, yaitu, format untuk menerima pengamatan agen, penghargaan dan tindakan, sehingga setiap algorityHM dapat memiliki akses ke variabel yang relevan untuk belajar tanpa perlu dipasang untuk setiap tugas tertentu. Algoritma yang bekerja dengan Openai Gym dapat bekerja dengan lingkungan dan agen apa pun yang menggunakan protokol openai standar.
Mengkonfigurasi Mesin Pembelajaran Pencemana Mindmaker Pada awalnya Anda perlu mengonfigurasi fungsi peluncuran Mindmaker di dalam Unreal Engine untuk agen pembelajaran Anda. Ini dilakukan dengan mengatur variabel Action_Space di dalam Mindmaker untuk menyamakan jumlah total tindakan yang tersedia untuk agen Anda. Anda juga perlu mengonfigurasi variabel pengamatan_space agar sesuai dengan jumlah dan jenis pengamatan yang akan digunakan agen Anda sehubungan dengan hadiah yang coba diterima. Secara default, pengamatan dilewati dari Unreal sebagai array, lihat proyek contoh. Bergantung pada jumlah pengamatan agen Anda akan merasa perlu digunakan, ukuran Observation_Space akan berubah.
Hadiah - Hadiah adalah variabel yang ditetapkan sesuai dengan kriteria spesifik yang telah Anda pilih untuk dipelajari atau dioptimalkan oleh agen. Dalam cetak biru UE4 Anda akan menggunakan simpul cabang untuk menentukan kondisi lingkungan dan tindakan agen apa yang harus dipenuhi agar hadiah diaktifkan. Ini daripada diteruskan ke Mindmaker oleh Socketio Connection. Lihat contoh proyek. Tindakan - Ini adalah variabel yang berisi nilai integer yang mewakili tindakan apa pun yang telah diambil agen. Anda juga perlu memutuskan jumlah total tindakan yang tersedia untuk agen dan mengatur maksimal di MindMaker untuk menyamakan angka ini. Pengamatan - Perhapse variabel paling sulit yang akan Anda hadapi. Kunci untuk mengatur ini dengan benar adalah memahami bahwa tindakan agen itu sendiri harus dimasukkan dalam variabel pengamatan, di samping kriteria lingkungan lainnya yang dirujuk dalam fungsi hadiah. Agen perlu mengetahui tindakan atau tindakan apa yang diambil yang memengaruhi hadiah dan variabel lingkungan apa pun yang berubah juga. Ini diteruskan ke mesin pembelajaran pikiran sebagai array dan diperbarui dalam variabel pengamatan di dalamnya.
Di sini kita akan membahas parameter individu dari node cetak biru peluncuran, yang merupakan komponen utama fungsi cetak biru pemikir.
Algoritma RL - Di sinilah orang dapat memilih rasa algoritma RL yang ingin dilatih agen. Ada sepuluh opsi di menu drop -down, dengan masing -masing algoritma memiliki pro dan kontra sendiri. Diskusi terperinci tentang algoritma yang relevan dan kasus penggunaannya dapat ditemukan di sini. https://spinningup.openai.com/en/latest/spinningup/rl_intro2.html
NUM Train EP - Ini adalah input integer yang mewakili jumlah episode pelatihan yang ingin dilakukan oleh agen tersebut. Semakin besar jumlah episode pelatihan, semakin banyak eksplorasi yang dilakukan agen sebelum beralih ke perilaku strategis yang diperolehnya selama pelatihan. Kompleksitas tindakan yang ingin dipelajari oleh agen biasanya menentukan jumlah episode pelatihan yang diperlukan - strategi dan perilaku yang lebih kompleks membutuhkan lebih banyak episode pelatihan.
NUM EVAL EP - Ini juga merupakan input integer dan mewakili jumlah episode evaluasi yang akan dialami agen setelah pelatihan. Ini adalah episode di mana agen menunjukkan perilaku yang dipelajari.
Ruang Tindakan Berkelanjutan - Ini adalah input boolean yang menentukan apakah agen menggunakan ruang tindakan kontinu. Ruang aksi kontinu adalah salah satu di mana ada sejumlah tindakan yang tidak terbatas yang dapat diambil agen, misalnya jika belajar mengarahkan mobil, dan kisaran sudut di mana kolom kemudi dapat berubah adalah nilai desimal antara 0 dan 180, daripada ada jumlah nilai yang tak terbatas dalam kisaran seperti .12 dan 145.774454. Anda akan ingin mengidentifikasi pada awal penggunaan jika agen Anda memiliki jumlah tindakan yang tak terbatas atau tindakan nomor terbatas yang dapat mereka lakukan. Ruang aksi harus kontinu atau diskrit, tidak mungkin keduanya.
Ruang Tindakan Discrete - Ini adalah input boolean yang menentukan apakah agen menggunakan ruang tindakan diskrit. Ruang aksi diskrit adalah salah satu di mana ada sejumlah tindakan terbatas yang dapat diambil agen, seperti jika AI hanya dapat bergerak ke kanan satu ruang atau meninggalkan satu ruang. Dalam hal ini hanya memiliki dua tindakan yang tersedia untuk itu dan ruang tindakan terpisah. Pengguna menentukan jenis ruang tindakan yang akan digunakan agen sebelum menggunakan MindMaker dan mengatur nilai -nilai ini sesuai.
Bentuk Ruang Tindakan - Ini mendefinisikan batas bawah dan atas dari tindakan yang tersedia untuk agen. Jika Anda menggunakan ruang tindakan diskrit, daripada ini hanyalah jumlah total tindakan yang tersedia untuk agen, misalnya 2 atau 8. Jika Anda menggunakan ruang tindakan berkelanjutan, segalanya lebih rumit dan Anda harus menentukan batas rendah dan tinggi dari ruang tindakan yang secara terpisah. Format untuk melakukan hal itu adalah sebagai berikut: rendah = lowboundary, tinggi = highboundary, bentuk = (1,) dalam hal ini, lowboundary adalah nilai seperti -100.4 dan highboundary adalah nilai seperti 298.46. Semua nilai desimal antara batas -batas ini kemudian akan mewakili tindakan yang tersedia untuk agen. Jika Anda memiliki berbagai tindakan seperti itu, Anda dapat mengubah bagian bentuk untuk mencerminkan hal ini.
Bentuk Ruang Pengamatan - Berbicara dengan benar input ini adalah turunan Python dari kelas Lingkungan Kustom AI terbuka dan mendefinisikan batas -batas bawah dan atas pengamatan yang tersedia untuk agen setelah mengambil tindakan. Format untuk melakukan itu adalah sebagai berikut: Low = NP.Array ([Lowboundary]), tinggi = np.array ([highboundary]), dType = np.float32. Bayangkan agen yang perlu mengambil tiga tindakan spesifik berturut -turut untuk menerima hadiah, maka ruang pengamatannya perlu memasukkan akses ke ketiga tindakan itu, yang masing -masing akan diwakili oleh pengamatan yang unik. Oleh karena itu serangkaian pengamatan harus memasukkan tiga nilai yang berbeda, masing -masing dengan batasan unik sendiri. For example, such an action space might be defined as such: low=np.array([0,0,0]), high=np.array([100,100,100]),dtype=np.float32 if each of its own actions that agent needed to observe was a value between 0 and 100. A rule of thumb is that if a value is part of the reward function for the agent, ie their behavior is only rewarded if some condition being met, than the Ruang pengamatan harus mencakup referensi ke nilai itu. Jika lima kondisi harus dipenuhi agar agen dihargai, masing -masing dari lima kondisi ini harus menjadi bagian dari ruang pengamatan agen.
Muat model pra terlatih - Ini adalah nilai boolean yang menentukan jika Anda ingin agen memuat beberapa perilaku terlatih yang sebelumnya disimpan. Jika Anda mengatur ini ke True, Anda ingin menentukan nama file dalam kotak input Simpan /Muat Model. Semua model disimpan secara default ke direktori roaming data aplikasi komputer misalnya c: user username appData roaming
Simpan model setelah pelatihan - Ini adalah nilai boolean yang menentukan jika Anda ingin agen untuk menyimpan perilaku yang telah dipelajari setelah pelatihan. Jika Anda mengatur ini ke True, Anda ingin menentukan nama file dalam kotak input Simpan/Muat Model. Semua model disimpan secara default ke direktori roaming data aplikasi komputer misalnya c: user username appData roaming
Simpan/Muat Nama Model - Ini adalah string yang mewakili nama model yang ingin Anda simpan atau muat. File disimpan ke direktori roaming data aplikasi komputer misalnya c: user username appData roaming
Gunakan Params Kustom - Ini adalah nilai boolean yang menentukan jika Anda ingin menggunakan versi stok dari algoritma yang telah Anda pilih atau ingin memodifikasi parameternya. Jika Anda ingin menggunakan parameter khusus, ini dapat diakses melalui variabel struktur parameter khusus. Jika Anda mengkliknya, misalnya A2CParams, Anda akan melihat semua nilai yang dapat diatur dalam struktur ini. Rincian terperinci dari parameter untuk setiap algoritma dapat ditemukan di sini: https://stable-baselines.readthedocs.io/en/master/
Daftar sampel fungsi dari contoh proyek disajikan di bawah ini untuk memahami bagaimana informasi disahkan antara Mindmaker dan Unreal Engine semua aset UE yang relevan dengan masalah mainan terkandung dalam folder aset/deeplearningnpc. Yang paling penting adalah cetak biru yang disebut ai_character_controler_bp dalam cetak biru AI_CHARACTER_CONTROLER_BP, semua variabel lingkungan dikonfigurasi untuk disampaikan ke aplikasi mandiri Mindmaker. Ini termasuk fungsi penting berikut
Fungsi input sensorik beban - Impor objek yang AI akan memiliki akses ke penginderaan atau manipulasi fungsi kontrol lingkungan lingkungannya - ini mengontrol logika untuk bagian -bagian lingkungan yang mengubah lampu switching tersebut menyala dan dimatikan dll
Tentukan Fungsi Ruang Tindakan - Pengkodean semua tindakan agen yang mungkin ke dalam nilai numerik tunggal yang dapat diteruskan ke aplikasi mandiri untuk evaluasi dengan algoritma RL
LaunchMindMaker Function - Ini memanggil aplikasi mandiri pada saat dimulai sehingga dapat memulai evaluasi data dari lingkungan UE. Setelah ini dimulai, aplikasi RL mulai menyelidiki lingkungan dengan tindakan acak yang dihasilkannya sendiri, seperti orang buta yang mencari dalam kegelapan untuk cahaya. Lampu adalah hadiah, yang ditentukan dalam fungsi periksa fungsi UE. LaunchlearningEngine juga masuk dalam beberapa informasi lingkungan UE dasar ke aplikasi mandiri, seperti jumlah tindakan yang dapat diambil agen, jumlah total episode untuk dilatih, dan jumlah episode untuk menampilkan agen yang diperoleh strategi setelah pelatihan. Menampilkan semua agen pelatihan acak akan memakan waktu terlalu lama.
Fungsi Rasa Persedia - Setelah fungsi mesin pembelajaran peluncuran telah dimulai, fungsi berikutnya untuk ditembakkan adalah reaksi ulang. Ini menerima tindakan yang dipilih oleh aplikasi mandiri, dan melakukan sejumlah prosedur tindak lanjut dengan itu, seperti memperbarui lokasi agen di lingkungan, memeriksa apakah tindakan baru memenuhi kondisi hadiah, menampilkan tindakan agen jika kita melalui pelatihan, dan memperbarui pengamatan agen tentang lingkungannya sehingga mereka dapat diteruskan kembali ke aplikasi mandiri dalam episode berikutnya.
Membuat fungsi pengamatan - tujuan dari ini adalah untuk memperbarui pengamatan agen tentang lingkungannya setelah tindakan yang baru saja diambil. Ini akan mencakup, misalnya, lokasi agen dengan lingkungan dan data lingkungan lainnya yang telah berubah sejak terakhir mengambil tindakan. Ini disimpan dalam variabel struktur khusus.
Checkreward - Ini menentukan kondisi hadiah untuk agen di lingkungan. Jika kondisi hadiah ini dipenuhi mengikuti agen yang mengambil tindakan, informasi ini diteruskan ke aplikasi mandiri dalam fungsi pengamatan Kirim yang mengikuti. Kirim Fungsi Pengamatan - Mengambil pengamatan baru yang dilakukan oleh agen serta informasi hadiah apa pun dan meneruskannya ke aplikasi mandiri. Beginilah algoritma RL akan dapat mengevaluasi apakah tindakan yang baru saja diambil adalah yang baik, dan memperbarui strateginya sesuai. Setelah fungsi ini menyala, satu iterasi atau episode permainan selesai, dan prosesnya mengulangi iklan Infinitum.
Tugas -tugas tertentu mungkin memerlukan periode pelatihan yang diperpanjang di mana memvisualisasikan pergerakan agen akan terbukti menghabiskan waktu. Dengan demikian dalam contoh -contoh tertentu yang memvisualisasikan gerakan agen telah dinonaktifkan, tetapi pelatihan terjadi di latar belakang setelah contoh dijalankan dan setelah selesai, agen akan menunjukkan strategi yang diperoleh.
Acak dalam hal ini berarti bahwa agen menggunakan generator nomor acak untuk memilih antara tindakan yang tersedia untuk itu selama pelatihan. Algoritma RL kemudian mengamati hasil dari tindakan acak ini serta hadiah yang diterima dan menggunakan informasi ini untuk memilih tindakan yang lebih baik selama fase "eksploitasi". Beginilah cara strategi yang dipelajari dikembangkan.
Pengumpulan informasi selama pembelajaran mengambil bentuk serangkaian pengamatan yang dihasilkan setelah masing -masing tindakan acak agen. Jika menggunakan plugin Mindmaker, bentuk yang tepat dari array didefinisikan dalam properti ukuran pengamatan dari fungsi cetak biru peluncuran Mindmaker dan akan tergantung pada variabel apa yang diperlukan agar agen dapat diamati dalam permainan atau tugas pembelajaran tertentu. Ini akan berubah tergantung pada tugas pembelajaran atau permainan.
Agen hanya merasakan bagian dari lingkungan yang terpapar oleh perancang game. Saat menggunakan plugin Mindmaker, pengamatan ini diisi dalam membuat panggilan fungsi cetak biru pengamatan dalam mesin unreal. Ini akan menghasilkan serangkaian angka dalam bentuk yang ditentukan oleh properti ukuran pengamatan dari fungsi cetak biru peluncuran. Pengamatan harus dipilih sehingga hanya terdiri dari data yang diperlukan untuk dipelajari oleh agen, jika tidak pelatihan dapat menjadi waktu yang menghabiskan waktu.
Dalam Vanilla Q Learning - tidak ada jaringan saraf yang diperlukan dan pembelajaran disimpan dalam format tabel. Saat menggunakan Mindmaker Inforcement Learning, seseorang dapat memilih antara berbagai arsitektur jaringan saraf termasuk RNN, CNN dll. Seseorang dapat mengaturnya dalam setiap properti kustom algoritma dari panggilan fungsi cetak biru peluncuran.
Menciptakan lingkungan belajar penguatan yang dalam
Intro. untuk penguatan pembelajaran untuk video game AI
Pembelajaran Penguatan - itu janji dan bahaya
Dokumentasi dasar yang stabil