Facebook研究开放三个新框架
是深度学习领域研究和开源框架的定期贡献者。从PyTorch到ONNX, FAIR团队为实现深度学习应用程序的简化做出了不可思议的贡献。在过去几周里,FAIR增加了三个新的系列开源框架。 Polygames Polygames是一个开源的研究框架,通过自我游戏的方式来训练深度学习网络。Polygames基于著名的“零学习”概念,即允许代理无需进行任何预先设定的训练,而是通过与环境交互来掌握环境。 乍看之下,Polygames似乎与Alpha Zero或ELF OpenGo等其他游戏学习框架类似,但FAIR堆栈也有自己的贡献。对于初学者来说,Polygames支持更广泛的战略游戏列表,如Hex、Havannah、Minishogi、Connect6、Minesweeper、Mastermind、EinStein wurfelt nicht!、Nogo和Othello。他们为研究人员提供了更广泛的环境来测试深度学习网络。 此外,Polygames还以一个巧妙的架构扩展了传统的零学习概念,该架构结合了深度神经网络和蒙特卡罗树搜索方法。这种架构允许网络泛化到更多的任务和环境。Polygames框架的一个意想不到的好处是代理中神经可塑性的创建。Polygames的模型是渐进式的——框架带有一个用于添加新层和通道或增加内核宽度的脚本——它们能够进行热启动训练,允许神经网络随训练成长。 从编程模型的角度来看,Polygames提供了一个包含游戏的库,以及一个实现游戏的单文件API。开发人员的经验是基于PyTorch的,因此易于上手。 FAIR团队在Polygames上取得了一些里程碑式的成绩,包括在Hex19游戏中击败人类优秀玩家。该游戏由诗人、数学家皮特·海因(Piet Hein)、 约翰·纳什(John Nash)和经济学家于20世纪40年代开发,它挑战了一些传统的人类游戏思维过程。规则很简单。黑色和白色依次填充一个空单元格。如果把北方和南方连接起来,黑人就赢了;如果把西方和东方连接起来,白人就赢了。馅饼规则使游戏更加公平:在第二次移动时,第二个玩家可以决定交换颜色。 这款游戏之所以困难,是因为作为一款连接游戏,它的奖励是基于全局而非局部的标准。
在一系列的实验中,Polygames在Hex游戏中击败了人类中的优秀玩家。结果如下图所示,在图中,人类玩家操纵白色棋子。第一个图像表示Hex的开局。在游戏的第二阶段,人类(白色)似乎赢了——两个坚实的组分别连接到东和西,并互相互靠近连接。然而,Polygames能够扭转这种局面,创造了一个相当复杂的中心位置。随着Poly (编辑:信阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |