国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

讀書月攻略拿走直接抄!
歡迎光臨中圖網 請 | 注冊
> >
強化學習入門——基于Python(基于Python的數據分析叢書)

包郵 強化學習入門——基于Python(基于Python的數據分析叢書)

出版社:中國人民大學出版社出版時間:2023-03-01
開本: 其他 頁數: 192
中 圖 價:¥31.9(6.5折) 定價  ¥49.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

強化學習入門——基于Python(基于Python的數據分析叢書) 版權信息

強化學習入門——基于Python(基于Python的數據分析叢書) 內容簡介

強化學習是機器學習的重要組成部分。本書采用理論與實踐相結合的寫法,從強化學習的基本概念開始,詳細介紹了強化學習的算法理論和實踐操作,配有Python代碼實現(xiàn),完整呈現(xiàn)強化學習算法的實踐細節(jié)。通過這本書你將會:
(1)理解強化學習*關鍵方面的問題。
(2)探索馬爾可夫決策過程及動態(tài)規(guī)劃的過程。
(3)深入理解強化學習的各種方法,包括MC方法,TD方法,深度學習Q方法,SARSA方法等。
(4)通過大量的現(xiàn)實例子及Python實現(xiàn)程序,不斷地實踐,成為強化學習的高手。

強化學習入門——基于Python(基于Python的數據分析叢書) 目錄

**部分 強化學習基礎與實踐
第1章引 言
1.1 從迷宮問題談起
1.1.1 人類和動物所面對的迷宮問題
1.1.2 迷宮的說明性例子
1.1.3 例1.1: 獎勵矩陣
1.1.4 例1.1: 訓練以得到關于狀態(tài)和行動的獎勵: Q矩陣
1.1.5 例1.1: 使用Q矩陣來得到*優(yōu)行動(路徑)
1.1.6 例1.1: 把代碼組合成 class
1.2 熱身: 井字游戲*
1.2.1 兩個真人的簡單井字游戲
1.2.2 人和機器的井字游戲的強化學習實踐
1.2.3 井字游戲的強化學習代碼解釋
1.2.4 整個訓練過程
1.2.5 使用訓練后的模型做人機游戲
1.2.6 1.2.1節(jié)代碼
1.2.7 附錄: 1.2.3節(jié)人和機器的井字游戲代碼
1.3 強化學習的基本概念
1.4 馬爾可夫決策過程的要素
1.5 作為目標的獎勵
1.6 探索與開發(fā)的權衡
1.6.1 探索與開發(fā)
1.6.2 強化學習中的優(yōu)化和其他學科的區(qū)別
1.7 本書將會討論和運算的一些例子
1.7.1 例1.3格子路徑問題
1.7.2 例1.4出租車問題
1.7.3 例1.5推車桿問題
1.7.4 例1.6倒立擺問題
1.7.5 例1.7多臂老虎機問題
1.7.6 例1.7和其他例子(例1.3、例1.5及例1.6)的區(qū)別
第2章馬爾可夫決策過程和動態(tài)規(guī)劃
2.1 馬爾可夫決策過程簡介
2.1.1 馬爾可夫性
2.1.2 策略
2.1.3 作為回報期望的價值函數
2.1.4 通過例 1.3 格子路徑問題理解本節(jié)概念
2.2 動態(tài)規(guī)劃
2.2.1 動態(tài)規(guī)劃簡介
2.2.2 Bellman方程
2.2.3 *優(yōu)策略和*優(yōu)價值函數
2.3 強化學習基本方法概述
2.3.1 代理與環(huán)境的互動
2.3.2 策略迭代: 策略評估和策略改進
2.3.3 價值迭代
2.3.4 策略迭代與價值迭代比較
2.3.5 異步動態(tài)規(guī)劃
2.3.6 廣義策略迭代
2.3.7 策略梯度
2.3.8 off-policy, on-policy和offline RL
2.4 蒙特卡羅抽樣
2.4.1 MC策略評估
2.4.2 MC狀態(tài)-行動值的估計
2.4.3 on-policy: Q價值的MC估計
2.4.4 off-policy: MC預測
2.4.5 MC的策略梯度
2.5 和本章概念相關的例子
2.5.1 例1.3格子路徑問題使用Bellman方程做價值迭代
2.5.2 例1.3格子路徑問題的TD函數
第3章各種機器學習算法及實例
3.1 暫時差(TD)簡介
3.1.1 TD、DP和MC算法的比較
3.1.2 TD方法的特點
3.1.3 TD(0)方法的延伸
3.2 TD評估及策略改進
3.2.1 SARSA (on-policy)
3.2.2 Q學習 (off-policy)
3.2.3 加倍Q學習 (off-policy)
3.3 函數逼近及深度學習算法
3.3.1 基于價值和策略的函數逼近
3.3.2 深度Q學習
3.3.3 TD: 演員-批評者(AC)架構
3.3.4 A2C算法步驟
3.3.5 A3C 算法
3.3.6 DDPG 算法
3.3.7 ES 算法
3.3.8 PPO 算法
3.3.9 SAC 算法
3.4 用第1章的例子理解本章算法
3.4.1 例1.3格子路徑問題: SARSA
3.4.2 例1.4出租車問題: SARSA
3.4.3 例1.3格子路徑問題: 加倍Q學
3.4.4 例1.5推車桿問題: 深度Q學習
3.4.5 例1.5推車桿問題: A3C
3.4.6 例1.6倒立擺問題: DDPG
3.4.7 例1.5推車桿問題: ES
3.4.8 例1.5推車桿問題: PPO-Clip
3.4.9 例1.6 倒立擺問題: SAC
第二部分: 軟件及一些數學知識

第4章 Python基礎
4.1 引言
4.2 安裝
4.2.1 安裝及開始體驗
4.2.2 運行Notebook
4.3 基本模塊的編程
4.4 Numpy模塊
4.5 Pandas模塊
4.6 Matplotlib模塊
4.7 Python 的類――面向對象編程簡介
4.7.1 類的基本結構
4.7.2 計算*小二乘回歸的例子
4.7.3 子類
第5章 PyTorch與深度學習
5.1 作為機器學習一部分的深度學習
5.2 PyTorch 簡介
5.3 神經網絡簡介
5.3.1 神經網絡概述
5.3.2 梯度下降法
5.3.3 深度神經網絡的PyTorch表示
5.4 深度學習的步驟
5.4.1 定義神經網絡
5.4.2 轉換數據成訓練需要的格式
5.4.3 訓練并評估結果
第6章 回顧一些數學知識*
6.1 條件概率和條件期望
6.2 范數和收縮
6.3 線性代數
6.3.1 特征值和特征向量
6.3.2 隨機矩陣
6.4 馬爾可夫決策過程
6.4.1 馬爾可夫鏈和馬爾可夫決策過程
6.4.2 策略
6.4.3 關于時間視界的優(yōu)化
6.5 Bellman 方程
6.5.1 有折扣無限視界問題的Bellman問題
6.5.2 無折扣無限視界問題的Bellman問題
6.6 動態(tài)規(guī)劃
6.6.1 價值迭代
6.6.2 策略迭代
展開全部
商品評論(0條)
暫無評論……
書友推薦
本類暢銷
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 一级黄色片在线 | 美女航空一级毛片在线播放 | 亚洲免费视频一区二区三区 | www在线免费观看 | 日韩欧美在线观看成人 | 波多野42部无码喷潮 | 99噜噜噜在线播放 | 99在线热播 | 久草视频在线看 | 成年人小视频在线观看 | 色综合亚洲综合网站综合色 | 成人天堂婷婷青青视频在线观看 | 男女下面一进一出好爽视频 | 日韩吃奶摸下aa片免费观看 | 亚洲精品欧美一区二区三区 | 国产精品久久久久久久福利院 | 97在线碰碰观看免费高清 | 精品国产乱码久久久久久口爆 | 久草热在线 | 女人18片毛片60分钟 | 日本人69视频jizz免费看 | 久草视频电影 | 91影视在线 | 国产婷婷色一区二区三区在线 | 99热在线播放 | 99热久久只有精品6国产32 | 日韩亚洲欧洲在线rrrr片 | 亚洲高清在线观看播放 | 亚洲成熟丰满熟妇高潮xxxxx | 91成人在线视频 | 亚洲精品国产高清不卡在线 | 亚洲日韩中文字幕在线播放 | 国产精品久久久久久人妻精品动漫 | 午夜视频福利在线 | 国产喷水1区2区3区咪咪爱av | 色欲国产麻豆一精品一av一免费 | 日韩在线视频中文字幕 | 丰满的少妇xxxxx青青青 | 国产成年码av片在线观看 | 亚洲人成77777在线播放网站 | 日韩电影中文 |