人工智能 - 强化学习 - 探索和利用

探索和利用

假设有5个老虎机,你经过多次尝试,计算出了其中两台赚钱的概率(假设只有赚钱和赔钱)。一个老虎机赚钱的概率是10%,而另一台赚钱概率为90%!

接下来你要玩1000次老虎机,你要怎么玩呢?

在已知的这两台老虎机中,你肯定会倾向于选择赚钱概率为90%的那一台。那么剩下的三台老虎机呢?你要去尝试吗?

万一其中一台赚钱的概率是99.9%呢?你到底是利用已知,还是探索未知?

这就是探索和利用(exploration and exploitation)。经常被用在强化学习中。

这个问题也被称为多臂老虎机问题。

原创不易,转载请附上原文链接哦~
地址:https://blog.letmefly.xyz/2023/04/03/Other-AI-ReinforcementLearning-ExplorationAndExploitation/


人工智能 - 强化学习 - 探索和利用
https://blog.letmefly.xyz/2023/04/03/Other-AI-ReinforcementLearning-ExplorationAndExploitation/
作者
Tisfy
发布于
2023年4月3日
许可协议