1009|2

369

帖子

0

TA的资源

版主

楼主
 

一起读《深度强化学习实战》- 马尔可夫决策过程MDP以及V、Q函数 [复制链接]

理解

  • 马尔可夫性质 (Markov property),不必知道过去的信息,根据当前的状态就可以做出决策(产生奖励)。
  • 马尔可夫决策过程(Markov Decision Process, MDP),具有马尔可夫性质的控制任务称为MDP
  • 不具备Mp性质的问题可以通过插入状态信息,转换成MDP。例如给病人看病,需要了解过往情况才能判断,但如果将完整的就诊记录作为状态,则就可以变成MDP来解决。
  • 智能体根据t1时刻的状态s1做出的动作a1,则环境产生了t2时刻的s2,这时候产生的奖励r2(实质是因为状态s1切换s2才给的奖励,而不是a1,a1本身就会造成状态的好坏变化才是重要的)再给到智能体,状态之间切换的概率称为转移概率(transition probability)。
  • 策略函数(policy function),该状态下可能动作产生最大奖励的概率分布。例如E贪婪策略、softmax策略。
  • 最优策略(optimal policy),在某个状态下能够使得累积奖励最大(argmax)的行动,强化学习的目标就是找到一个最优的策略,使得智能体能够在与环境的交互中最大化累积奖励。
  • Q值(Q函数):它代表了智能体在某一状态下选择某个动作后,一直到最终状态的奖励总和的期望。换句话说,Q函数评估了在某个状态下采取某个动作的价值。更侧重于评估动作的价值,即在特定情境下执行某一动作的好坏
  • V值(价值函数):它代表了智能体在一个状态下,一直到最终状态的奖励总和的期望。简言之,价值函数评估了某个状态本身的价值。更侧重于评估状态的价值,即在某一状态下的优劣。

实践

import numpy as np

# 定义转移矩阵
P = np.array([[0.9, 0.1],
              [0.5, 0.5]])

# 初始状态
state = np.array([1, 0])

# 迭代次数
n_iterations = 10

# 马尔科夫链迭代
for _ in range(n_iterations):
    state = np.dot(state, P)
    print(state)

 

视频讲解


 

此帖出自编程基础论坛

最新回复

感谢楼主提供的技术分享,先收藏学习再发表个人意见,顶起来   详情 回复 发表于 2023-11-21 15:00
点赞 关注
 

回复
举报

756

帖子

5

TA的资源

纯净的硅(高级)

沙发
 

感谢楼主提供的技术分享,先收藏学习再发表个人意见,顶起来

此帖出自编程基础论坛

点评

感谢  详情 回复 发表于 2023-11-21 22:33
 
 
 

回复

369

帖子

0

TA的资源

版主

板凳
 
chejm 发表于 2023-11-21 15:00 感谢楼主提供的技术分享,先收藏学习再发表个人意见,顶起来

感谢

此帖出自编程基础论坛
 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/10 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表