橡胶接头_橡胶软接头_可曲挠橡胶接头-河南伟创管道科技有限公司

讀書月攻略拿走直接抄!
歡迎光臨中圖網 請 | 注冊
> >
強化學習的數學原理(英文版)

包郵 強化學習的數學原理(英文版)

作者:趙世鈺 著
出版社:清華大學出版社出版時間:2024-07-01
開本: 16開 頁數: 312
中 圖 價:¥87.3(7.4折) 定價  ¥118.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

強化學習的數學原理(英文版) 版權信息

  • ISBN:9787302658528
  • 條形碼:9787302658528 ; 978-7-302-65852-8
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

強化學習的數學原理(英文版) 本書特色

·從零開始到透徹理解,知其然并知其所以然; ·本書在GitHub收獲2000 星; ·課程視頻全網播放超過80萬; ·國內外讀者反饋口碑爆棚; ·教材、視頻、課件三位一體。

強化學習的數學原理(英文版) 內容簡介

本書從強化學習*基本的概念開始介紹, 將介紹基礎的分析工具, 包括貝爾曼公式和貝爾曼* 優公式, 然后推廣到基于模型的和無模型的強化學習算法, *后推廣到基于函數逼近的強化學習方 法。本書強調從數學的角度引入概念、分析問題、分析算法, 并不強調算法的編程實現。本書不要求 讀者具備任何關于強化學習的知識背景, 僅要求讀者具備一定的概率論和線性代數的知識。如果讀者 已經具備強化學習的學習基礎, 本書可以幫助讀者更深入地理解一些問題并提供新的視角。 本書面向對強化學習感興趣的本科生、研究生、研究人員和企業或研究所的從業者。 

強化學習的數學原理(英文版) 目錄

Overview of this BookChapter 1 Basic Concepts1.1 A grid world example1.2 State and action1.3 State transition1.4 Policy1.5 Reward1.6 Trajectories, returns, and episodes1.7 Markov decision processes1.8 Summary1.9 Q&AChapter 2 State Values and the Bellman Equation2.1 Motivating example 1: Why are returns important?2.2 Motivating example 2: How to calculate returns?2.3 State values2.4 The Bellman equation2.5 Examples for illustrating the Bellman equation2.6 Matrix-vector form of the Bellman equation2.7 Solving state values from the Bellman equation2.7.1 Closed-form solution2.7.2 Iterative solution2.7.3 Illustrative examples2.8 From state value to action value2.8.1 Illustrative examples2.8.2 The Bellman equation in terms of action values2.9 Summary2.10 Q&AChapter 3 Optimal State Values and the Bellman Optimality Equation3.1 Motivating example: How to improve policies?3.2 Optimal state values and optimal policies3.3 The Bellman optimality equation3.3.1 Maximization of the right-hand side of the BOE3.3.2 Matrix-vector form of the BOE3.3.3 Contraction mapping theorem3.3.4 Contraction property of the right-hand side of the BOE3.4 Solving an optimal policy from the BOE3.5 Factors that influence optimal policies3.6 Summary3.7 Q&AChapter 4 Value Iteration and Policy Iteration4.1 Value iteration4.1.1 Elementwise form and implementation4.1.2 Illustrative examples4.2 Policy iteration4.2.1 Algorithm analysis4.2.2 Elementwise form and implementation4.2.3 Illustrative examples4.3 Truncated policy iteration4.3.1 Comparing value iteration and policy iteration4.3.2 Truncated policy iteration algorithm4.4 Summary4.5 Q&AChapter 5 Monte Carlo Methods5.1 Motivating example: Mean estimation5.2 MC Basic: The simplest MC-based algorithm5.2.1 Converting policy iteration to be model-free5.2.2 The MC Basic algorithm5.2.3 Illustrative examples5.3 MC Exploring Starts5.3.1 Utilizing samples more efficiently5.3.2 Updating policies more efficiently5.3.3 Algorithm description5.4 MC ∈-Greedy: Learning without exploring starts5.4.1 ∈-greedy policies5.4.2 Algorithm description5.4.3 Illustrative examples5.5 Exploration and exploitation of ∈-greedy policies5.6 Summary5.7 Q&AChapter 6 Stochastic Approximation6.1 Motivating example: Mean estimation6.2 Robbins-Monro algorithm6.2.1 Convergence properties6.2.2 Application to mean estimation6.3 Dvoretzky's convergence theorem6.3.1 Proof of Dvoretzky's theorem6.3.2 Application to mean estimation6.3.3 Application to the Robbins-Monro theorem6.3.4 An extension of Dvoretzky's theorem6.4 Stochastic gradient descent6.4.1 Application to mean estimation6.4.2 Convergence pattern of SGD6.4.3 A deterministic formulation of SGD6.4.4 BGD, SGD, and mini-batch GD6.4.5 Convergence of SGD6.5 Summary6.6 Q&AChapter 7 Temporal-Difference Methods7.1 TD learning of state values7.1.1 Algorithm description7.1.2 Property analysis7.1.3 Convergence analysis7.2 TD learning of action values: Sarsa7.2.1 Algorithm description7.2.2 Optimal policy learning via Sarsa7.3 TD learning of action values: n-step Sarsa7.4 TD learning of optimal action values: Q-learning7.4.1 Algorithm description7.4.2 Off-policy vs. on-policy7.4.3 Implementation7.4.4 Illustrative examples7.5 A unifed viewpoint7.6 Summary7.7 Q&AChapter 8 Value Function Approximation8.1 Value representation: From table to function8.2 TD learning of state values with function approximation8.2.1 O
展開全部

強化學習的數學原理(英文版) 作者簡介

趙世鈺,西湖大學工學院AI分支特聘研究員,智能無人系統實驗室負責人,國家海外高層次人才引進計劃青年項目獲得者;本碩畢業于北京航空航天大學,博士畢業于新加坡國立大學,曾任英國謝菲爾德大學自動控制與系統工程系Lecturer;致力于研發有趣、有用、有挑戰性的下一代機器人系統,重點關注多機器人系統中的控制、決策與感知等問題。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 永久天堂 | 成人午夜精品无码区久久 | 99re5久久在热线播放 | 亚洲精品视频专区 | 青青草污视频 | 露脸真实国语乱在线观看 | 国产精自产拍久久久久久蜜 | 国产精品久久久午夜夜伦鲁鲁 | 日本欧美一区二区三区在线 | 最近中文字幕大全在线电影视频 | 欧美区一区二区三 | 性视频播放免费视频 | 美女扒开腿让男生捅 | 国产乱码精品一区二区三区四川人 | 毛片a级毛片免费观看 | 国产成人一区二区三区在线播放 | 国产在线精品一区二区中文 | 在线观看国产一区二区三区99 | 天天躁夜夜躁天干天干2020 | 两口子交换真实刺激高潮 | 91中文字幕yellow字幕网 | 九九热视频在线免费观看 | 亚洲国产视频网 | 亚洲精品无码久久久久牙蜜区 | 国产精品无码一区二区三区免费 | 综合色天天 | 久久人午夜亚洲精品无码区 | 国产不卡视频一区二区三区 | 欧美日韩在线一本卡 | 色哟哟国产精品免费观看 | 四虎免费电影 | 欧美韩国日本 | 国产一区二区精品久久凹凸 | 国产成人精品2021 | 亚洲精品无码久久久久牙蜜区 | 亚洲男人在线天堂 | 久久久久亚洲精品美女 | 综合久久伊人 | 免费看片aⅴ免费大片 | 黑巨茎大战俄罗斯美女 | 国产成人综合亚洲动漫在线 |