国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

讀書月攻略拿走直接抄!
歡迎光臨中圖網 請 | 注冊
> >
強化學習入門——基于Python(基于Python的數據分析叢書)

包郵 強化學習入門——基于Python(基于Python的數據分析叢書)

出版社:中國人民大學出版社出版時間:2023-03-01
開本: 其他 頁數: 192
中 圖 價:¥31.9(6.5折) 定價  ¥49.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

強化學習入門——基于Python(基于Python的數據分析叢書) 版權信息

強化學習入門——基于Python(基于Python的數據分析叢書) 內容簡介

強化學習是機器學習的重要組成部分。本書采用理論與實踐相結合的寫法,從強化學習的基本概念開始,詳細介紹了強化學習的算法理論和實踐操作,配有Python代碼實現(xiàn),完整呈現(xiàn)強化學習算法的實踐細節(jié)。通過這本書你將會:
(1)理解強化學習*關鍵方面的問題。
(2)探索馬爾可夫決策過程及動態(tài)規(guī)劃的過程。
(3)深入理解強化學習的各種方法,包括MC方法,TD方法,深度學習Q方法,SARSA方法等。
(4)通過大量的現(xiàn)實例子及Python實現(xiàn)程序,不斷地實踐,成為強化學習的高手。

強化學習入門——基于Python(基于Python的數據分析叢書) 目錄

**部分 強化學習基礎與實踐
第1章引 言
1.1 從迷宮問題談起
1.1.1 人類和動物所面對的迷宮問題
1.1.2 迷宮的說明性例子
1.1.3 例1.1: 獎勵矩陣
1.1.4 例1.1: 訓練以得到關于狀態(tài)和行動的獎勵: Q矩陣
1.1.5 例1.1: 使用Q矩陣來得到*優(yōu)行動(路徑)
1.1.6 例1.1: 把代碼組合成 class
1.2 熱身: 井字游戲*
1.2.1 兩個真人的簡單井字游戲
1.2.2 人和機器的井字游戲的強化學習實踐
1.2.3 井字游戲的強化學習代碼解釋
1.2.4 整個訓練過程
1.2.5 使用訓練后的模型做人機游戲
1.2.6 1.2.1節(jié)代碼
1.2.7 附錄: 1.2.3節(jié)人和機器的井字游戲代碼
1.3 強化學習的基本概念
1.4 馬爾可夫決策過程的要素
1.5 作為目標的獎勵
1.6 探索與開發(fā)的權衡
1.6.1 探索與開發(fā)
1.6.2 強化學習中的優(yōu)化和其他學科的區(qū)別
1.7 本書將會討論和運算的一些例子
1.7.1 例1.3格子路徑問題
1.7.2 例1.4出租車問題
1.7.3 例1.5推車桿問題
1.7.4 例1.6倒立擺問題
1.7.5 例1.7多臂老虎機問題
1.7.6 例1.7和其他例子(例1.3、例1.5及例1.6)的區(qū)別
第2章馬爾可夫決策過程和動態(tài)規(guī)劃
2.1 馬爾可夫決策過程簡介
2.1.1 馬爾可夫性
2.1.2 策略
2.1.3 作為回報期望的價值函數
2.1.4 通過例 1.3 格子路徑問題理解本節(jié)概念
2.2 動態(tài)規(guī)劃
2.2.1 動態(tài)規(guī)劃簡介
2.2.2 Bellman方程
2.2.3 *優(yōu)策略和*優(yōu)價值函數
2.3 強化學習基本方法概述
2.3.1 代理與環(huán)境的互動
2.3.2 策略迭代: 策略評估和策略改進
2.3.3 價值迭代
2.3.4 策略迭代與價值迭代比較
2.3.5 異步動態(tài)規(guī)劃
2.3.6 廣義策略迭代
2.3.7 策略梯度
2.3.8 off-policy, on-policy和offline RL
2.4 蒙特卡羅抽樣
2.4.1 MC策略評估
2.4.2 MC狀態(tài)-行動值的估計
2.4.3 on-policy: Q價值的MC估計
2.4.4 off-policy: MC預測
2.4.5 MC的策略梯度
2.5 和本章概念相關的例子
2.5.1 例1.3格子路徑問題使用Bellman方程做價值迭代
2.5.2 例1.3格子路徑問題的TD函數
第3章各種機器學習算法及實例
3.1 暫時差(TD)簡介
3.1.1 TD、DP和MC算法的比較
3.1.2 TD方法的特點
3.1.3 TD(0)方法的延伸
3.2 TD評估及策略改進
3.2.1 SARSA (on-policy)
3.2.2 Q學習 (off-policy)
3.2.3 加倍Q學習 (off-policy)
3.3 函數逼近及深度學習算法
3.3.1 基于價值和策略的函數逼近
3.3.2 深度Q學習
3.3.3 TD: 演員-批評者(AC)架構
3.3.4 A2C算法步驟
3.3.5 A3C 算法
3.3.6 DDPG 算法
3.3.7 ES 算法
3.3.8 PPO 算法
3.3.9 SAC 算法
3.4 用第1章的例子理解本章算法
3.4.1 例1.3格子路徑問題: SARSA
3.4.2 例1.4出租車問題: SARSA
3.4.3 例1.3格子路徑問題: 加倍Q學
3.4.4 例1.5推車桿問題: 深度Q學習
3.4.5 例1.5推車桿問題: A3C
3.4.6 例1.6倒立擺問題: DDPG
3.4.7 例1.5推車桿問題: ES
3.4.8 例1.5推車桿問題: PPO-Clip
3.4.9 例1.6 倒立擺問題: SAC
第二部分: 軟件及一些數學知識

第4章 Python基礎
4.1 引言
4.2 安裝
4.2.1 安裝及開始體驗
4.2.2 運行Notebook
4.3 基本模塊的編程
4.4 Numpy模塊
4.5 Pandas模塊
4.6 Matplotlib模塊
4.7 Python 的類――面向對象編程簡介
4.7.1 類的基本結構
4.7.2 計算*小二乘回歸的例子
4.7.3 子類
第5章 PyTorch與深度學習
5.1 作為機器學習一部分的深度學習
5.2 PyTorch 簡介
5.3 神經網絡簡介
5.3.1 神經網絡概述
5.3.2 梯度下降法
5.3.3 深度神經網絡的PyTorch表示
5.4 深度學習的步驟
5.4.1 定義神經網絡
5.4.2 轉換數據成訓練需要的格式
5.4.3 訓練并評估結果
第6章 回顧一些數學知識*
6.1 條件概率和條件期望
6.2 范數和收縮
6.3 線性代數
6.3.1 特征值和特征向量
6.3.2 隨機矩陣
6.4 馬爾可夫決策過程
6.4.1 馬爾可夫鏈和馬爾可夫決策過程
6.4.2 策略
6.4.3 關于時間視界的優(yōu)化
6.5 Bellman 方程
6.5.1 有折扣無限視界問題的Bellman問題
6.5.2 無折扣無限視界問題的Bellman問題
6.6 動態(tài)規(guī)劃
6.6.1 價值迭代
6.6.2 策略迭代
展開全部
商品評論(0條)
暫無評論……
書友推薦
本類暢銷
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 亚洲欧美日韩国产综合 | 欧美性受xxxx黑人xxxx | 老司机在线永久免费视频观看 | 毛片黄片 | 一级做a爱过程免费视频日本 | 亚洲精品国产福利一区二区三区 | 亚洲国产天堂久久九九九 | 亚洲精品入口一区二区乱成人 | 亚洲精品老司机综合影院 | 在线观看精品视频网站 | 草草影院www色极品欧美 | 国产欧美性成人精品午夜 | 色一乱一伦一图一区二区精品 | 国产成 人 综合 亚洲绿色 | 午夜视频免费 | 亚洲欧美一区二区三区不卡 | 成人一级黄色大片 | 亚洲一在线 | 免费永久在线观看黄网 | 无码少妇一区二区 | 成人精品一区二区三区电影黑人 | 成人做爰免费视频 | 精品国产91乱码一区二区三区 | 极品粉嫩小泬无遮挡20p | 污污污污污污污网站污 | 国产成人亚洲影视在线 | 亚洲av无码一区二区三区电影 | 人妻丰满熟妇av无码区免 | 伊人久久精品一区二区三区 | 国产情趣酒店鸳鸯浴在线观看 | 免费福利在线 | 蝴蝶色综合综合成人网 | 91免费网站在线看入口黄 | 操久久久| 欧洲熟妇色xxxx欧美老妇 | 国产精品无码v在线观看 | 人人添人人麦人人爽夜欢视频 | 亚洲精品一区二区不卡 | 美国一区二区三区 | 国产精品亚洲综合色区韩国 | 欧美成人h亚洲综合在线观看 |