《闪电战 3》采用神经网络制作AI意味着什么？的回答 by aL

作为对神经网络有一点研究的人说一下。

rts和为其相比是有很大区别的，alphago使用的大致是卷积神网络(cnn)+加强学习(reinforcement learning)，两者都是神经网络的衍生，前者使用卷积的方法提取棋盘特征；后者大致的思路是先随机选择落子，再根据最后的输赢反过来判断这一步落子的“正确程度”，决定学习的策略。

使用神经网络或者其他大多数机器学习的方法来进行ai的训练，本质是“根据游戏进行的状态（输入），确定下一个操作是什么（输出）”

这两种办法之所以能够用在围棋上，围棋的状态容易描述是一个很重要的原因，为期盼一共19*19个交叉点，一个矩阵是能够描述所有的棋局的。而rts则更佳复杂一点，举个例子war3里面两个小兵中间的位置距离为1，也可能为2。而这种细微的差异是否应该作为两种不同的状态来描述。如果是，那么导致的问题是输入的状态太多，或者输入的维度是不确定（即不知道输入数据的长度），输入太多会导致待训练参数过多，难以训练的问题，而输入维度不确定在神经网络的框架目前没有一个十分有效的解决办法；如果认为这种细微的差异应该当作同样的一个状态，那么需要大量的测试以找到最合适的区分两个状态的阈值，而这种做法往往不会在所有的情况下都取得最好的效果。另外，相比于国际象棋和围棋，还有一点很大的不同是信息的不对称性，即对弈各方所掌握的信息是不相同，人类玩家往往利用“经验”来处理各种情况

类似的，输入的问题也会出现在输出当中

然后谈一点个人看法，有办法训练出来一个很强的ai虐杀所有职业选手吗，我觉得是有的，但是我觉得是没有意义的事情。面对一个状态最优解是存在的，人类能通过逻辑、经验这样的东西去寻找自己能想到的解法中认为的最优解，这里这个选择的正确性取决的一是主体能想到的解法的集合是否足够大，二是这个判断选择的方法是否合理。按照这样的方法其实这边比拼的就是记忆力\训练样本量和思考能力\计算能力。但是这么做无疑会打击玩家的信心，举个例子，像‘汐’这种跳跃难度设置得十分高得作品，不停的尝试对玩家水平的提升十分有限，玩家难以从成功中获得成就感，而使用按键精灵固定的按键顺序，反而更加容易过关。当然这里的讨论没有考虑rts、moba中一些“神来之笔”的操作。

打个简单的比方，就像是2000m比赛里面，3号道上的选手骑着摩托车

以上

第一点，增强学习和神经网络没有直接联系，不是衍生算法，深度增强算法的话是深度学习和增强学习的结合。

第二点，如果是开发者要训练AI，不会拿图像作为输入的，维度太高了，游戏的内部信息抽特征。游戏的AI的目的不是为了像Alpha GO一样达到人类玩游戏的水平，不过是有类似的工作的，比如用深度增强学习去玩DOOM，以及 multi-agent 的深度增强学习打 RTS 是有的。

@正直的香蕉君 ‍ 我大概吧增强学习理解为训练的策略0 0。对于第二点，我并没有说用图像作为输入，而是想说这个输入是很难找到的

@aL ‍ 直接拿坐标之类的就好，用神经网络来作为Q函数或者value函数就好，维度的问题可以用这种 approximate function 来模拟，现在的 DRL 就在做这种工作。