2048游戏的最佳算法是什么？

我对这款游戏的人工智能的想法产生了兴趣，它不包含硬编码的智能（即没有启发式、评分功能等）。人工智能应该只“知道”游戏规则，并“弄清楚”游戏玩法。这与大多数AI（如本线程中的AI）形成对比，在这些AI中，游戏玩法基本上是由代表人类对游戏理解的评分函数控制的暴力。

AI算法

我发现了一个简单但令人惊讶的好游戏算法：为了确定给定棋盘的下一步，AI使用随机移动在内存中玩游戏，直到游戏结束。这是在跟踪最终比赛分数的同时进行的几次。然后计算每次开始移动的平均结束得分。平均结束得分最高的起始动作被选为下一个动作。

每次移动仅运行100次（即内存游戏），AI可实现2048次平铺80%的次数和4096次平铺50%的次数。使用10000次运行可获得2048个平铺100%，4096个平铺70%，8192个平铺约1%。

在行动中看到它

最佳成绩如下：

关于这个算法的一个有趣的事实是，尽管随机游戏毫无疑问非常糟糕，但选择最佳（或最不糟糕）的招式会带来非常好的游戏效果：一个典型的人工智能游戏可以达到70000点，并持续3000步，但任何给定位置的记忆中随机游戏在死亡前都会在大约40次额外的招式中平均增加340点。（您可以通过运行AI并打开调试控制台自行查看。）

这张图说明了这一点：蓝线显示了每次移动后的棋盘得分。红线显示了该位置的算法的最佳随机运行结束游戏分数。本质上，红色值是将蓝色值向上拉向它们，因为它们是算法的最佳猜测。有趣的是，在每一点上，红线都比蓝线略高一点，但蓝线仍在不断增加。

我觉得很奇怪的是，算法不需要实际预测好的游戏玩法，就可以选择产生它的动作。

后来搜索发现，这个算法可能被归类为纯蒙特卡罗树搜索算法。

实施和链接

首先，我创建了一个JavaScript版本，可以在这里看到。这个版本可以在适当的时间内运行100次。打开控制台获取更多信息。（来源）

后来，为了玩更多，我使用了@nneonneo高度优化的基础设施，并用C++实现了我的版本。这个版本允许每次移动最多100000次，如果你有耐心的话，甚至可以达到1000000次。提供建筑说明。它在控制台中运行，也有一个遥控器来播放网络版本。（来源）

后果

令人惊讶的是，增加跑步次数并不能显著改善比赛。这一策略似乎有一个限制，即4096个区块和所有较小的区块在80000点左右，非常接近8192个区块。将跑步次数从100次增加到100000次会增加达到这一分数限制（从5%增加到40%）但无法突破的几率。

在关键位置临时增加到1000000次的10000次跑步打破了这一障碍，达到129892分的最高得分和8192分的次数不到1%。

改进

在实现这个算法后，我尝试了许多改进，包括使用最小或最大分数，或最小、最大和平均值的组合。我还尝试了使用深度：我没有尝试每次移动K次，而是尝试了给定长度的每次移动列表（例如“向上、向上、向左”）的K次移动，并选择最佳得分移动列表的第一个移动。

后来我实现了一个得分树，它考虑了在给定的移动列表之后能够进行移动的条件概率。

然而，这些想法都没有比简单的第一个想法显示出任何真正的优势。我将这些想法的代码注释在C++代码中。

我确实添加了一个“深度搜索”机制，当任何一次运行意外达到下一个最高的平铺时，该机制将运行次数临时增加到1000000次。这提供了时间上的改进。

我很想知道是否有人有其他改进想法来保持人工智能的领域独立性。

2048个变体和克隆

为了好玩，我还将AI实现为书签，与游戏的控件挂钩。这使得AI可以与原始游戏及其许多变体一起工作。

这是可能的，因为AI的领域独立性。一些变体非常独特，例如六边形克隆。

2014-05-25 09:25:52

我使用expectimax优化开发了2048 AI，而不是@ovolve算法使用的最小值搜索。AI简单地对所有可能的移动执行最大化，然后对所有可能瓦片产生进行期望（由瓦片的概率加权，即，4个瓦片为10%，2个瓦片为90%）。据我所知，不可能删减expectimax优化（除了删除极不可能的分支），因此所使用的算法是经过仔细优化的暴力搜索。

表演

AI在其默认配置（最大搜索深度为8）中执行移动需要10毫秒到200毫秒，具体取决于板位置的复杂性。在测试中，AI在整个游戏过程中实现了每秒5-10次的平均移动速度。如果搜索深度被限制在6次移动，AI可以轻松地每秒执行20次以上的移动，这使得观看更加有趣。

为了评估AI的得分表现，我运行了100次AI（通过远程控制连接到浏览器游戏）。对于每个平铺，以下是该平铺至少实现一次的游戏比例：

所有跑步的最低得分为124024分；最高得分为794076分。平均得分为387222。AI从未未能获得2048个区块（因此它从未在100场游戏中输掉过一次游戏）；事实上，它在每次运行中至少实现一次8192平铺！

以下是最佳跑步记录的截图：

这场比赛在96分钟内进行了27830次移动，即平均每秒4.8次移动。

实施

我的方法将整个电路板（16个条目）编码为单个64位整数（其中瓦片是nybbles，即4位块）。在64位机器上，这使得整个电路板可以在单个机器寄存器中传递。

位移位操作用于提取单独的行和列。单个行或列是16位的量，因此大小为65536的表可以对在单个行或行上操作的转换进行编码。例如，移动被实现为预计算的“移动效果表”中的4个查找，该表描述了每次移动如何影响单个行或列（例如，“向右移动”表包含条目“1122->0023”，描述了当向右移动时，行[2,2,4,4]如何变为行[0,0,4,8]）。

评分也使用表格查找来完成。这些表包含对所有可能的行/列计算的启发式得分，一个板的最终得分只是每行和每列的表值之和。

这种棋盘表示，以及移动和得分的表格查找方法，允许AI在短时间内搜索大量游戏状态（在我2011年中期笔记本电脑的一个核心上，每秒超过10000000个游戏状态）。

expectimax搜索本身被编码为递归搜索，它在“期望”步骤（测试所有可能的平铺生成位置和值，并根据每个可能性的概率加权其优化分数）和“最大化”步骤（检测所有可能的移动并选择具有最佳分数的移动）之间交替。当树搜索看到之前看到的位置（使用换位表）、达到预定义的深度限制或达到极不可能达到的板状态时（例如，通过从起始位置开始一行获得6“4”块而达到），树搜索终止。典型的搜索深度为4-8次移动。

启发式

使用几种启发式方法将优化算法引向有利位置。启发式算法的精确选择对算法的性能有着巨大的影响。各种启发式算法被加权并组合成一个位置得分，这决定了给定的董事会位置有多“好”。然后，优化搜索将旨在最大化所有可能董事会位置的平均得分。如游戏所示，实际得分不用于计算棋盘得分，因为它的权重太大，有利于合并瓦片（当延迟合并可能产生很大的好处时）。

最初，我使用了两种非常简单的启发式方法，即为开放正方形和边缘值较大的正方形授予“奖金”。这些启发式算法表现得很好，经常达到16384，但从未达到32768。

Petr Morávek（@xivicurk）使用了我的AI，并添加了两种新的启发式方法。第一个启发式是对非单调行和列的惩罚，这些行和列随着排名的增加而增加，从而确保小数字的非单调行不会强烈影响分数，但大数字的非非单调行会严重影响分数。第二个启发式算法除了计算开放空间之外，还计算了潜在合并（相邻的相等值）的数量。这两种启发式方法用于将算法推向单调板（更容易合并），以及大量合并的板位置（鼓励其在可能的情况下对齐合并以获得更大的效果）。

此外，Petr还使用“元优化”策略（使用称为CMA-ES的算法）优化了启发式权重，其中权重本身被调整以获得可能的最高平均分数。

这些变化的影响极其显著。该算法在大约13%的时间内实现了16384个瓦片，在90%的时间内完成了它，并且该算法在1/3的时间内开始实现32768个瓦片（而旧的启发式算法从未产生过32768个）。

我相信启发式方法还有改进的空间。这个算法肯定还不是“最佳”的，但我觉得它已经接近了。

人工智能在超过三分之一的游戏中获得32768分，这是一个巨大的里程碑；我会很惊讶地听到是否有人类玩家在官方游戏中达到了32768（即不使用保存状态或撤销等工具）。我认为65536瓷砖触手可及！

你可以自己尝试人工智能。该代码位于https://github.com/nneonneo/2048-ai.

2014-03-19 07:22:15

我在这里复制我博客上的一篇文章的内容

我提出的解决方案非常简单，易于实施。虽然，它已经达到131040分。给出了算法性能的几个基准。

算法

启发式评分算法

我的算法所基于的假设相当简单：如果你想获得更高的分数，那么棋盘必须尽可能保持整洁。特别地，最优设置由瓦片值的线性和单调递减顺序给出。这种直觉也会给你一个平铺值的上限：其中n是板上平铺的数量。

（如果需要时随机生成4个图块而不是2个图块，则有可能达到131072图块）

两种可能的董事会组织方式如下图所示：

为了以单调递减的顺序执行瓷砖的排序，得分si计算为板上线性化值的和乘以公共比率r＜1的几何序列的值。

可以同时评估多个线性路径，最终得分将是任何路径的最大得分。

决策规则

实现的决策规则不太聪明，Python代码如下：

@staticmethod
def nextMove(board,recursion_depth=3):
    m,s = AI.nextMoveRecur(board,recursion_depth,recursion_depth)
    return m

@staticmethod
def nextMoveRecur(board,depth,maxDepth,base=0.9):
    bestScore = -1.
    bestMove = 0
    for m in range(1,5):
        if(board.validMove(m)):
            newBoard = copy.deepcopy(board)
            newBoard.move(m,add_tile=True)

            score = AI.evaluate(newBoard)
            if depth != 0:
                my_m,my_s = AI.nextMoveRecur(newBoard,depth-1,maxDepth)
                score += my_s*pow(base,maxDepth-depth+1)

            if(score > bestScore):
                bestMove = m
                bestScore = score
    return (bestMove,bestScore);

minmax或Expectimimax的实现肯定会改进算法。显然更多复杂的决策规则会降低算法的速度，并且需要一些时间来实现。我将在不久的将来尝试一个最小值实现。（敬请关注）

基准

T1-121测试-8个不同路径-r=0.125T2-122测试-8个不同路径-r=0.25T3-132测试-8个不同路径-r=0.5T4-211测试-2条不同路径-r=0.125T5-274测试-2条不同路径-r=0.25T6-211测试-2条不同路径-r=0.5

在T2的情况下，十次测试中有四次生成平均分数为42000的4096分图块

Code

该代码可以在GiHub上的以下链接找到：https://github.com/Nicola17/term2048-AI它基于term2048，用Python编写。我将尽快用C++实现一个更高效的版本。

2014-03-26 22:13:01

许多其他答案使用人工智能，对可能的未来、启发式、学习等进行计算成本高昂的搜索。这些令人印象深刻，可能是正确的前进方向，但我想提出另一个想法。

模拟游戏中优秀玩家使用的策略。

例如：

13 14 15 16
12 11 10  9
 5  6  7  8
 4  3  2  1

按照上面显示的顺序读取正方形，直到下一个正方形值大于当前值。这就带来了试图将另一个具有相同值的平铺合并到此方形中的问题。

为了解决这个问题，他们有两种移动方式，没有留下或更糟，检查这两种可能性可能会立即发现更多问题，这形成了一个依赖关系列表，每个问题都需要先解决另一个问题。我认为我在决定下一步行动时，特别是在被卡住的时候，会有一条链条，或者在某些情况下，是内部的依赖树。

瓷砖需要与邻居合并，但太小：将另一个邻居与此邻居合并。

较大的平铺：增加较小的周围平铺的值。

等

整个方法可能比这更复杂，但并不复杂。这可能是一种机械的感觉，缺乏分数、体重、神经和对可能性的深入探索。可能性之树甚至需要足够大，完全需要分支。

2015-08-10 14:39:28

我对这款游戏的人工智能的想法产生了兴趣，它不包含硬编码的智能（即没有启发式、评分功能等）。人工智能应该只“知道”游戏规则，并“弄清楚”游戏玩法。这与大多数AI（如本线程中的AI）形成对比，在这些AI中，游戏玩法基本上是由代表人类对游戏理解的评分函数控制的暴力。

AI算法

我发现了一个简单但令人惊讶的好游戏算法：为了确定给定棋盘的下一步，AI使用随机移动在内存中玩游戏，直到游戏结束。这是在跟踪最终比赛分数的同时进行的几次。然后计算每次开始移动的平均结束得分。平均结束得分最高的起始动作被选为下一个动作。

每次移动仅运行100次（即内存游戏），AI可实现2048次平铺80%的次数和4096次平铺50%的次数。使用10000次运行可获得2048个平铺100%，4096个平铺70%，8192个平铺约1%。

在行动中看到它

最佳成绩如下：

关于这个算法的一个有趣的事实是，尽管随机游戏毫无疑问非常糟糕，但选择最佳（或最不糟糕）的招式会带来非常好的游戏效果：一个典型的人工智能游戏可以达到70000点，并持续3000步，但任何给定位置的记忆中随机游戏在死亡前都会在大约40次额外的招式中平均增加340点。（您可以通过运行AI并打开调试控制台自行查看。）

这张图说明了这一点：蓝线显示了每次移动后的棋盘得分。红线显示了该位置的算法的最佳随机运行结束游戏分数。本质上，红色值是将蓝色值向上拉向它们，因为它们是算法的最佳猜测。有趣的是，在每一点上，红线都比蓝线略高一点，但蓝线仍在不断增加。

我觉得很奇怪的是，算法不需要实际预测好的游戏玩法，就可以选择产生它的动作。

后来搜索发现，这个算法可能被归类为纯蒙特卡罗树搜索算法。

实施和链接

首先，我创建了一个JavaScript版本，可以在这里看到。这个版本可以在适当的时间内运行100次。打开控制台获取更多信息。（来源）

后来，为了玩更多，我使用了@nneonneo高度优化的基础设施，并用C++实现了我的版本。这个版本允许每次移动最多100000次，如果你有耐心的话，甚至可以达到1000000次。提供建筑说明。它在控制台中运行，也有一个遥控器来播放网络版本。（来源）

后果

令人惊讶的是，增加跑步次数并不能显著改善比赛。这一策略似乎有一个限制，即4096个区块和所有较小的区块在80000点左右，非常接近8192个区块。将跑步次数从100次增加到100000次会增加达到这一分数限制（从5%增加到40%）但无法突破的几率。

在关键位置临时增加到1000000次的10000次跑步打破了这一障碍，达到129892分的最高得分和8192分的次数不到1%。

改进

在实现这个算法后，我尝试了许多改进，包括使用最小或最大分数，或最小、最大和平均值的组合。我还尝试了使用深度：我没有尝试每次移动K次，而是尝试了给定长度的每次移动列表（例如“向上、向上、向左”）的K次移动，并选择最佳得分移动列表的第一个移动。

后来我实现了一个得分树，它考虑了在给定的移动列表之后能够进行移动的条件概率。

然而，这些想法都没有比简单的第一个想法显示出任何真正的优势。我将这些想法的代码注释在C++代码中。

我确实添加了一个“深度搜索”机制，当任何一次运行意外达到下一个最高的平铺时，该机制将运行次数临时增加到1000000次。这提供了时间上的改进。

我很想知道是否有人有其他改进想法来保持人工智能的领域独立性。

2048个变体和克隆

为了好玩，我还将AI实现为书签，与游戏的控件挂钩。这使得AI可以与原始游戏及其许多变体一起工作。

这是可能的，因为AI的领域独立性。一些变体非常独特，例如六边形克隆。

2014-05-25 09:25:52

我是一个2048控制器的作者，它的得分比本主题中提到的任何其他程序都要高。github上提供了控制器的有效实现。在单独的回购中，还有用于训练控制器状态评估功能的代码。本文描述了训练方法。

控制器使用expectimax搜索，该搜索具有通过时间差学习（强化学习技术）的变体从零开始学习的状态评估函数（没有人类2048专业知识）。状态值函数使用n元组网络，它基本上是板上观察到的模式的加权线性函数。总共涉及超过10亿重量。

表演

1次移动/秒：609104（平均100局）

10次移动/秒：589355（平均300场）

3局（约1500步/秒）：511759（平均1000局）

10次移动/秒的平铺统计如下：

2048: 100%
4096: 100%
8192: 100%
16384: 97%
32768: 64%
32768,16384,8192,4096: 10%

（最后一行表示在板上同时具有给定的瓷砖）。

对于3层：

2048: 100%
4096: 100%
8192: 100%
16384: 96%
32768: 54%
32768,16384,8192,4096: 8%

然而，我从未观察到它获得65536平铺。

2015-12-21 10:49:45

2048游戏的最佳算法是什么？

推荐文章

最新文章

标签