蒙特卡洛树搜索¶

蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）是一种用于决策和优化问题的启发式搜索算法，特别适用于那些状态空间巨大且难以穷尽的复杂问题。

基本原理¶

蒙特卡洛树搜索通过模拟对弈来决定下一步的决策动作，但不是模拟所有动作，而是选择胜率较高的节点进行模拟，并且向后多模拟几步，最后找到最佳的决策动作。也就是说，蒙特卡洛树搜索建立了一个决策树，由胜率较高的节点组成。

蒙特卡洛树搜索的实现一般包括如下四步：

假设下图中的节点代表一个棋盘状态，根节点的决策已经进行到了左一的情况，现在要决定下一步的动作。

至此，一轮迭代结束。

UCT 算法（Upper Confidence Bound for Trees），即上限置信区间算法，在决策时，平衡了探索（exploration）和利用（exploitation）：

\[\frac{w_i}{n_i} + C \sqrt{\frac{\ln N_i}{n_i}}\]

其中，\(w_i\) 为节点当前的胜利次数，\(n_i\) 为节点当前的模拟次数，\(N_i\) 为父节点当前总的模拟次数，\(C\) 为探索参数，通常取 \(\sqrt{2}\)。