аЯрЁБс>ўџ )+ўџџџ(џџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџьЅСq`№ПzbjbjqPqP4::zџџџџџџЄ:::::::NВВВВ О NЕЬжжжжжжжж4666666$ hщ Z:жжжжжZ::жжoжж:ж:ж4ж4::жЪ рБAЊpŠеВЌ"( …0Ељ Ю(љ љ :(жжжжжжжZZі жжжЕжжжжNNNdВNNNВNNN::::::џџџџ Resumo: Desenvolver agentes artificiais capazes de jogar bem щ um objetivo de longa data na сrea de IA para jogos. Recentemente, surgiram vсrios casos de sucesso, impulsionados principalmente por tщcnicas que reњnem Aprendizagem por Reforчo (RL) e aprendizagem baseada em redes neurais. Entretanto, a maioria dos resultados foi obtido usando apenas as imagens grсficas da tela do jogo, com recursos fэsicos caros para se efetuar os cсlculos e com importantes restriчѕes pela falta de conhecimento do contexto do jogo. Nesta dissertaчуo propomos o desenvolvimento de um Ambiente de Aprendizado aplicado ao jogo Bomberman (BLE) com o objetivo de verificar se os algoritmos de RL conseguem aprender a jogar sem informaчѕes privilegiadas. Escolhemos o jogo Bomberman por ser um jogo com regras claras e ser um jogo amplamente adotado como plataforma de testes na literatura do assunto. O BLE inclui o algoritmo de Otimizaчуo de Polэtica Proximal (PPO) que pode ser usado com um Perceptron de Mњltiplas Camadas e/ou com uma Rede de Memѓria de Curto Longo Prazo (LSTM), a possibilidade de treinamento por imitaчуo, seguido ou nуo por PPO, e a opчуo de aprender com a experiъncia de um ou vсrios agentes de uma sѓ vez. Alщm disso, o BLE fornece cinco maneiras diferentes de representar o espaчo de estados. Foram realizadas vсrias experiъncias de treinamentos e torneios em que os agentes jogam uns contra os outros para selecionar a melhor representaчуo e tщcnica de aprendizado nesse cenсrio. Os resultados apontaram que, usando uma representaчуo hэbrida, agregando as experiъncias dos vсrios agentes para aprender de uma sѓ vez e utilizando PPO com LSTM, sуo produzidos agentes inteligentes do Bomberman que vencem mais partidas entre todos os agentes treinados. Palavras-chave: bomberman, aprendizado por reforчo, aprendizagem por imitaчуo, redes neurais, representaчуo de estado, unity3d, ml-agent toolkit, proximal policy optimization, lstm. Abstract: Making artificial agents capable of playing well games is a long-standing goal in the area of Game AI. Recently, a number of successful cases have emerged driven mainly by techniques that put together Reinforcement Learning (RL) and neural network-based learning. However, in most of the cases, the results have been achieved by training directly from pixels with expensive resources. On the other hand, a universally pleasurable game that requires agents learning from complex environments but still not necessarily from the pixels is Bomberman. In this research, we devised a Bomberman Learning Environment (BLE) aiming at testing whether RL algorithms have the ability to learn how to play Bomberman without privileged information. BLE includes the Proximal-Policy Optimization (PPO) algorithm that can be used with a Multi-Layer Perceptron and/or a Long-Short Term-Memory network (LSTM), the possibility of training with imitation learning followed or not by PPO, and the option of learning from the experience of one or several agents at once. In addition, BLE provides five different ways of representing the space of states. We conducted several pieces of training and tournament experiments where the agents play against each other to select the best representation and learning technique in this scenario. The results have pointed out, in most cases, that by using a hybrid representation, aggregating the experiences of the several agents to learn at once, and using PPO with LSTM we have Bomberman agents that know how to win the game against the other trained agents. Keywords: bomberman, reinforcement learning, imitation learning, neural networks, state representation, unity3d, ml-agent toolkit, proximal policy optimization, lstm.  Еепрся—™ЁЂЃЄŽЎЯбвкyzїѓяѓяыяуянгЭнФЙБЙЉЙЙhЦhw"Ж^JmH sH h€3?hw"Ж5mH sH h\mћmH sH h€3?mH sH hЦhw"ЖmH sH h€3?h€3?^J h€3?^Jh€3?h€3?5^J hw"Ж^Jh€3?hw"Ж5h\mћhw"Жh€3?h€3?h€3?5 р—˜™ЃЄаyz§§ѕѕ§§№№ѕѕ§gdЦ$a$gd€3? z§2P:pw"ЖА‚. АЦA!Аn"Аn#n$n%ААаАа а†œ˜žžžžžžžž666666666vvvvvvvvv6666668666666666666666666666666666Ј6666666666И666666666666hH66666666666666666666666666666666666666666666666666666666666666666А6\@ёџ\ Normal*$0CJKHOJPJQJ^J_HaJmHnHsHtH>AђџЁ> 0Fonte parсg. padrуoTiѓџГT 0 Tabela normalі4ж l4жaі ,kєџС, 0 Sem lista NўON 0Tэtulo1 $Є№ЄxCJOJPJQJ^JaJBB@B 0Corpo de texto d ЄŒPўЂP д-›0 Char Char$CJKHOJPJQJ^JaJnHtH&/@"& 0Lista<"@2< 0Legenda  $ЄxЄx6],ўOB, 0Эndice $zџџџџ р—˜™ЃЄа y|˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€˜0€€z z zclђћЯй›Єёњaijq|‚ƒ‘•М Х ц я Y b х я  ˆ м х sw|IO™|рс™Ѓ||х€3?w"ЖЦ\mћ|џ@€рр№Xррz@@џџUnknownџџџџџџџџџџџџGџ:рAxР џTimes New Roman5€Symbol3& џ:рCxР џArialIџрџxP!ПLiberation Serif;†(SimSun‹[SOG& џрџxP!ПLiberation SansG&† ‡€R<(Microsoft YaHei"Aˆ ХЉЏлv‡ЈТz‡C7 C7 љ €24ss џџ(№џ$PџџџџџџџџџџџџџџџџџџџџџЦВџџiDesenvolver agentes artificiais capazes de jogar bem щ um objetivo de longa data na сrea de IA para jogosHelioHelioўџр…ŸђљOhЋ‘+'Гй0а˜ (4@P `l Œ ˜ ЄАИРШфlDesenvolver agentes artificiais capazes de jogar bem щ um objetivo de longa data na сrea de IA para jogosHelioNormalHelio4Microsoft Office Word@Œ†G@Т@R-е@xˆpŠеC7 ўџеЭеœ.“—+,љЎ0T hp|„Œ” œЄЌД М 2фsц jDesenvolver agentes artificiais capazes de jogar bem щ um objetivo de longa data na сrea de IA para jogos Tэtulo ўџџџўџџџўџџџ!"#$%&'ўџџџ§џџџ*ўџџџўџџџўџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџRoot Entryџџџџџџџџ РFРEFЊpŠе,€1TableџџџџџџџџWordDocumentџџџџџџџџ4SummaryInformation(џџџџDocumentSummaryInformation8џџџџџџџџџџџџ CompObjџџџџџџџџџџџџuџџџџџџџџџџџџџџџџџџџџџџџџўџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџџўџ џџџџ РF#Documento do Microsoft Office Word MSWordDocWord.Document.8є9Вq