pytorch a2c ppo acktr gail Скачать - pytorch a2c ppo acktr gail исходный код скачать

pytorch a2c ppo acktr gail

Питон

1.0.0

Скачать

Pytorch-A2c-Ppo-acctr

Обновление (12 апреля 2021 г.)

PPO отличный, но критик мягкого актера может быть лучше для многих задач непрерывного управления. Пожалуйста, ознакомьтесь с моим новым хранилищем RL в JAX.

Пожалуйста, используйте гипер -параметры из этого Readme. С другими гипер -параметрами вещи могут не сработать (в конце концов, это RL)!

Это реализация Pytorch

Advantage Actor Critic (A2C), синхронная детерминированная версия A3C
Проксимальная оптимизация политики PPO
Масштабируемый метод доверия для глубокого обучения подкреплению с использованием аппроксимации Kronecker-Factored Acktr
Генеративное состязательное имитация обучения Гейл

Также см. Посты OpenAI: A2C/ACKTR и PPO для получения дополнительной информации.

Эта реализация вдохновлена базовыми показателями OpenAI для A2C, ACKTR и PPO. Он использует те же гипер -парамеры и модель, так как они были хорошо настроены для игр Atari.

Пожалуйста, используйте этот Bibtex, если вы хотите привести этот репозиторий в своих публикациях:

 @misc{pytorchrl,
  author = {Kostrikov, Ilya},
  title = {PyTorch Implementations of Reinforcement Learning Algorithms},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail}},
}

Поддерживаемые (и протестированные) среды (через спортзал Openai)

Атари обучающая среда
Mujoco
Pybullet (включая Racecar, Minitaur и Kuka)
DeepMind Control Suite (через DM_CONTROL2GYM)

Я настоятельно рекомендую Pybullet в качестве бесплатной альтернативы с открытым исходным кодом Mujoco для задач непрерывного управления.

Все среды работают с использованием точно одного и того же интерфейса спортзала. Смотрите их документации для комплексного списка.

Чтобы использовать среды управления DeepMind, установите флаг --env-name dm.<domain_name>.<task_name> , где domain_name и task_name являются именем домена (например, hopper ) и задачи в этом домене (например, stand ) из панели управления DeepMind. Обратитесь к их репо и их техническому отчету для полного списка доступных доменов и задач. Помимо установки задачи, API для взаимодействия с окружающей средой точно такой же, как и для всех средств спортзала благодаря DM_CONTROL2GYM.

Требования

Python 3 (это может работать с Python 2, но я не проверял его)
Пирог
Стабильные базовые линии3

Чтобы установить требования, следуйте:

 # PyTorch
conda install pytorch torchvision -c soumith

# Other requirements
pip install -r requirements.txt

# Gym Atari
conda install -c conda-forge gym-atari

Вклад

Взносы очень приветствуются. Если вы знаете, как сделать этот код лучше, откройте проблему. Если вы хотите подать запрос на привлечение, сначала откройте проблему. Также см. Список Тодо ниже.

Кроме того, я ищу добровольцев, чтобы провести все эксперименты на Atari и Mujoco (с несколькими случайными семенами).

Отказ от ответственности

Чрезвычайно сложно воспроизвести результаты для методов обучения подкрепления. См. «Обучение глубокому подкреплению, которое имеет значение» для получения дополнительной информации. Я пытался воспроизвести результаты Openai как можно ближе. Тем не менее, различия в мастерских в производительности могут быть вызваны даже незначительными различиями в библиотеках Tensorflow и Pytorch.

Тодо

Улучшить этот файл readme. Переставить изображения.
Повышение производительности KFAC, см. KFAC.PY для получения дополнительной информации
Запустите оценку для всех игр и алгоритмов

Визуализация

Чтобы визуализировать результаты, используйте visualize.ipynb .

Обучение

Атари

A2C

python main.py --env-name " PongNoFrameskip-v4 "

PPO

python main.py --env-name " PongNoFrameskip-v4 " --algo ppo --use-gae --lr 2.5e-4 --clip-param 0.1 --value-loss-coef 0.5 --num-processes 8 --num-steps 128 --num-mini-batch 4 --log-interval 1 --use-linear-lr-decay --entropy-coef 0.01

Acktr

python main.py --env-name " PongNoFrameskip-v4 " --algo acktr --num-processes 32 --num-steps 20

Mujoco

Пожалуйста, всегда старайтесь использовать флаг --use-proper-time-limits . Он правильно обрабатывает частичные траектории (см. Https://github.com/sfujim/td3/blob/master/main.py#l123).

A2C

python main.py --env-name " Reacher-v2 " --num-env-steps 1000000

PPO

python main.py --env-name " Reacher-v2 " --algo ppo --use-gae --log-interval 1 --num-steps 2048 --num-processes 1 --lr 3e-4 --entropy-coef 0 --value-loss-coef 0.5 --ppo-epoch 10 --num-mini-batch 32 --gamma 0.99 --gae-lambda 0.95 --num-env-steps 1000000 --use-linear-lr-decay --use-proper-time-limits

Acktr

ACKTR требует некоторых модификаций, которые должны быть сделаны специально для Mujoco. Но на данный момент я хочу сохранить этот код как можно более единым. Таким образом, я иду за лучшими способами интеграции в кодовую базу.

Наслаждаться

Атари

python enjoy.py --load-dir trained_models/a2c --env-name " PongNoFrameskip-v4 "

Mujoco

python enjoy.py --load-dir trained_models/ppo --env-name " Reacher-v2 "

Результаты

A2C

Breakoutnoframeskip-V4

SEAQUESTNOFRAMESKIP-V4

Qbertnoframeskip-V4

BeamRidernOframeskip-V4

PPO

Breakoutnoframeskip-V4

SEAQUESTNOFRAMESKIP-V4

Qbertnoframeskip-V4

BeamRidernOframeskip-V4

Acktr

Breakoutnoframeskip-V4

SEAQUESTNOFRAMESKIP-V4

Qbertnoframeskip-V4

BeamRidernOframeskip-V4

Расширять

Дополнительная информация

Версия 1.0.0
Тип Питон
Время обновления 2025-07-13
размер 8.52MB
От Github

Связанные приложения

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01