Download gym sokoban - gym sokoban Download do código -fonte

gym sokoban

Outro código-fonte

1.0.0

Baixar

ginástica-sokoban

Sokoban é japonês para guardião do armazém e um videogame tradicional. O jogo é um quebra -cabeça de transporte, onde o jogador precisa empurrar todas as caixas na sala nos locais/ metas de armazenamento. A possibilidade de cometer erros irreversíveis torna esses quebra -cabeças tão desafiadores, especialmente para algoritmos de aprendizado de reforço, o que não tem a capacidade de pensar no futuro.
O repositório implementa o jogo Sokoban, com base nas regras, apresentou os agentes de imaginação do artigo de DeepMind para o aprendizado de reforço profundo. A geração da sala é aleatória e, portanto, permitirá treinar redes neurais profundas sem ajustar demais um conjunto de salas predefinidas.

Exemplo de jogo 1	Exemplo de jogo 2	Exemplo de jogo 3

1 instalação

Via pip

pip install gym-sokoban

Do repositório

git clone [email protected]:mpSchrader/gym-sokoban.git
cd gym-sokoban
pip install -e .

Confira os exemplos sobre como usar um ambiente de academia externo.

2 ambiente de jogo

2.1 Elementos da sala

Cada quarto consiste em cinco elementos principais: paredes, piso, caixas, alvos de caixas e um jogador. Eles podem ter estados diferentes, se eles se sobrepõem a um alvo de caixa ou não.

Tipo	Estado	Gráfico	Tinyworld
Parede	Estático
Chão	Vazio
Alvo de caixa	Vazio
Caixa	Fora do alvo
Caixa	No alvo
Jogador	Fora do alvo
Jogador	No alvo

2.2 Ações

O jogo fornece 9 ações para interagir com o meio ambiente. Empurre e mova as ações para as direções para cima, para baixo, para a esquerda e para a direita. A ação sem operação é uma ação vazia, que não muda nada no ambiente. O mapeamento dos números de ação para as ações reais parecem a seguir

Ação	EU IA
Nenhuma operação	0
Empurrar para cima	1
Empurre para baixo	2
Empurre à esquerda	3
Empurre à direita	4
Suba	5
Mover para baixo	6
Mover para a esquerda	7
Mova -se para a direita	8

Mover simplesmente se move se houver um campo livre na direção, o que significa que não há caixa de bloqueio ou parede.

Push tenta mover uma caixa adjacente se o próximo campo atrás da caixa estiver livre. Isso significa que não é possível empurrar em cadeia de caixas. Caso não haja caixa no campo adjacente, a ação de push é tratada da mesma maneira que a ação de mover na mesma direção.

2.3 recompensas

Terminar o jogo empurrando tudo nos alvos dá uma recompensa de 10 na última etapa. Também empurrar uma caixa dentro ou para fora de um alvo fornece uma recompensa de 1, respectivamente, de -1. Além disso, uma recompensa de -0,1 é dada para cada etapa, isso penaliza soluções com muitas etapas.

Razão	Recompensa
Execute a etapa	-0.1
Push Box no alvo	1.0
Push Box Off Target	-1.0
Empurre todas as caixas nos alvos	10.0

2.4 Geração de nível

Toda vez que um ambiente de Sokoban é carregado ou redefinir uma nova sala é gerada aleatoriamente. A geração consiste em 3 fases: geração de topologia, colocação de alvos e jogadores e jogo reverso.

2.4.1 Geração de topologia

Para gerar a topologia básica da sala, consistindo em paredes e piso vazio, é baseado em uma caminhada aleatória, que muda de direção em probabilidade 0,35. A cada passo centrado na posição atual, um padrão de campos está definido para esvaziar espaços. Os padrões utilizados podem ser encontrados na Figura 2.

Figura 2: máscaras para criar uma topologia

2.4.2 Colocação de elementos

Durante esta fase, o jogador, incluindo todos os alvos da caixa N, é colocado em espaços vazios escolhidos aleatoriamente.

2.4.3 Tocação reversa

Esta é a fase crucial para garantir uma sala solucionável. Agora, Sokoban é tocado de maneira inversa, onde um jogador pode se mover e puxar caixas. O objetivo desta fase é encontrar o estado da sala, com a pontuação mais alta da sala, com uma primeira pesquisa de profundidade. Para cada quarto explorado durante a pesquisa, uma pontuação da sala é calculada com a equação mostrada abaixo. A equação é uma abordagem heurística para avaliar a dificuldade da sala. BoxSwaps conta o número de vezes que um jogador muda a caixa para puxar. O BoxDisSplacement é a distância de Manhattan entre uma caixa específica e seu alvo da caixa de origem. Enquanto pelo menos uma caixa estiver em um alvo, o quarto de quarto é sempre 0.

2.5 Configuração

Sokoban tem muitas variações diferentes, como: tamanho da sala, número de caixas, modos de renderização ou regras.

2.5.1 Modos de renderização

Além da renderização regular do Sokoban, cada configuração pode ser renderizada como Tinyworld, que tem um tamanho de pixel igual ao tamanho da grade. Para obter um ambiente renderizado como um mundo minúsculo, apenas adicione tiny_ na frente do modo de renderização. Por exemplo: env.render('tiny_rgb_array', scale=scale_tiny) . A escala permite aumentar o tamanho da pequena observação mundial renderizada. Usando a escala em combinação com os modos de renderização, human ou rgb_array , não influencia o tamanho da saída. Os modos de renderização disponíveis são:

Modo	Descrição
rgb_array	Imagem 2D RGB de boa aparência
humano	Exibe o estado atual na tela
tiny_rgb_array	Cada pixel descrevendo um elemento na sala
tiny_human	Exibe o minúsculo rgb_array na tela

2.5.2 Variações de tamanho

As configurações de sala disponíveis são mostradas na tabela abaixo.

ID da sala	Tamanho da grade	Pixels	#Boxes
Sokoban-V0	10x10	160x160	3
Sokoban-V1	10x10	160x160	4
Sokoban-V2	10x10	160x160	5
Sokoban-Small-V0	7x7	112x112	2
Sokoban-Small-V1	7x7	112x112	3
Sokoban-Large-V0	13x11	208x176	3
Sokoban-Large-V1	13x11	208x176	4
Sokoban-Large-V2	13x11	208x176	5
Sokoban-Huge-V0	13x13	208X208	5

Observe que os quartos maiores podem levar algum tempo para serem criados, especialmente em um laptop.

2.5.3 Outras variações

Além do jogo regular de Sokoban, este repositório implementa ou implementará variações, o que pode tornar o jogo mais fácil ou mais complicado. Exceto observado de maneira diferente, as variações não implementam uma versão do mundo minúsculo.

Variação	Resumo	Dificuldade esperada	Mundo minúsculo	Status	Detalhes
Alvos fixos	Cada caixa deve ser empurrada no alvo com a mesma cor.	Mais difícil	Sim	implementado	Readme
Múltipla jogador	Existem dois jogadores na sala. Toda rodada uma dos dois jogadores pode ser usada. Não há ordem de movimentos entre os dois jogadores.	Mais difícil	Sim	implementado	Readme
Empurre e puxe	O jogador pode não apenas empurrar as caixas, mas também puxá -las. Portanto, não existem movimentos mais irreversíveis.	Mais fácil	Sim	implementado	Readme
Boxoban	Usos por quebra -cabeças de Sokoban pré -gerados de DeepMind.	Semelhante	Sim	Implementado	Readme

3 citar

Se você estiver usando este repositório para sua pesquisa, cite -a com as seguintes informações:

 @misc{SchraderSokoban2018,
  author = {Schrader, Max-Philipp B.},
  title = {gym-sokoban},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/mpSchrader/gym-sokoban}},
  commit = {#CommitId}
}

4 Conectar e contribuir

4.1 Conectar

Sinta -se à vontade para entrar em contato comigo para falar sobre este ou outros projetos. Criando um problema ou envie -me no LinkedIn.

Se você chegou ao fim e gostou do projeto, mostre sua apreciação iniciando este projeto .

4.2 Contribua

Sinta -se à vontade para contribuir com este projeto, batendo no repositório e implementando o que estiver faltando. Como alternativa, abra um novo problema, caso você precise de ajuda ou querer adicionar um recurso.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-03-05
tamanho 2.69MB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Jogos de gato ocioso de Kitty Gym

2023-11-29
Versão móvel do Fat Chicken Gym Versão chinesa

2023-11-02
Luta de ginásio

2023-03-24

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos