中圖網

>

計算機理論

深度強化學習

包郵深度強化學習

作者：(印)莫希特·塞瓦克著尹大偉,吳敏杰

出版社：國防工業出版社出版時間：2024-06-01

開本： 16開 頁數： 176

本類榜單：計算機/網絡銷量榜

中圖價:¥54.4(6.1折) 定價 ~~¥89.0~~ 登錄后可看到會員價

加入購物車收藏

開年大促， 全場包郵

?新疆、西藏除外

本類五星書更多>

>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

¥14.4¥45
>
決戰行測5000題(言語理解與表達)

決戰行測5000題(言語理解與表達)

¥44.1¥88
>
軟件性能測試.分析與調優實踐之路

軟件性能測試.分析與調優實踐之路

¥56.2¥69
>
第一行代碼Android

第一行代碼Android

¥55.4¥99
>
JAVA持續交付

JAVA持續交付

¥58.1¥119
>
EXCEL最強教科書(完全版)(全彩印刷)

EXCEL最強教科書(完全版)(全彩印刷)

¥31.1¥69.9
>
深度學習

深度學習

¥92.4¥168

商品詳情
商品評論(0條)

中圖價:¥54.4 加入購物車

版權信息
內容簡介
目錄
作者簡介

深度強化學習版權信息

ISBN：9787118131796
條形碼：9787118131796 ; 978-7-118-13179-6
裝幀：平裝-膠訂
冊數：暫無
重量：暫無
所屬分類：
計算機/網絡
>
計算機理論

深度強化學習內容簡介

本書主要內容包括：介紹了強化學習的基本概念，如智能體、環境、狀態、獎勵、動作等；介紹了強化學習的數學和算法原理，如馬爾可夫決策過程和貝爾曼方程，并在此基礎上討論了動態規劃、值迭代和策略迭代方法；介紹了強化學習的估計與控制問題，并通過實例展示了Q學習的編程；深入探討了深度學習的概念、架構機制，通過介紹激活函數、損失函數、優化器、卷積層、池化層、全連接層等概念，為后續章節與強化學習算法相結合作鋪墊。

深度強化學習目錄

第1章強化學習簡介：AI智能體背后的智能
1.1 什么是人工智能，強化學習與它有什么關系
1.2 理解強化學習的基本設計
1.3 強化學習中的獎勵和確定一個合適的獎勵函數所涉及的問題
1.4 強化學習的狀態
1.5 強化學習中的智能體
1.6 小結
第2章強化學習的數學和算法理解：馬爾可夫決策過程與解決方法
2.1 馬爾可夫決策過程
2.2 貝爾曼方程
2.3 動態規劃和貝爾曼方程
2.4 價值迭代和策略迭代方法
2.5 小結
第3章編碼環境和馬爾可夫決策過程的求解：編碼環境、價值迭代和策略迭代算法
3.1 以網格世界問題為例
3.2 構建環境
3.3 平臺要求和代碼的工程架構
3.4 創建網格世界環境的代碼
3.5 基于價值迭代方法求解網格世界的代碼
3.6 基于策略迭代方法求解網格世界的代碼
3.7 小結
第4章時序差分學習、SARSA和Q學習：幾種常用的基于值逼近的強化學習方法
4.1 經典DP的挑戰
4.2 基于模型和無模型的方法
4.3 時序差分（TD）學習
4.4 SARSA
4.5 Q學習
4.6 決定“探索”和“利用”之間概率的算法（賭博機算法）
4.7 小結
第5章 Q學習編程：Q學習智能體和行為策略編程
5.1 工程結構與依賴項
5.2 代碼
5.3 訓練統計圖
第6章深度學習簡介
6.1 人工神經元——深度學習的基石
6.2 前饋深度神經網絡（DNN）
6.3 深度學習中的架構注意事項
6.4 卷積神經網絡——用于視覺深度學習
6.5 小結
第7章可運用的資源：訓練環境和智能體實現庫
7.1 你并不孤單
7.2 標準化的訓練環境和平臺
7.3 Agent開發與實現庫
第8章深度Q網絡、雙DQN和競爭DQN
8.1 通用人工智能
8.2 Google“Deep Mind”和“AlphaGo”簡介
8.3 DQN算法
8.4 雙DQN算法
8.5 競爭DQN算法
8.6 小結
第9章雙DQN的代碼：用￡衰減行為策略編碼雙DQN
9.1 項目結構和依賴關系
9.2 雙DQN智能體的代碼（文件：DoubleDQN.py）
9.3 訓練統計圖
第10章基于策略的強化學習方法：隨機策略梯度與REINFORCE算法
10.1 基于策略的方法和策略近似介紹
10.2 基于價值的方法和基于策略的方法的廣義區別
10.3 計算策略梯度的問題
10.4 REINFORCE算法
10.5 REINFORCE算法中減少方差的方法
10.6 為REINFORCE算法選擇基線
10.7 小結
第11章演員-評論家模型和A3C：異步優勢演員-評論家模型
11.1 演員-評論家方法簡介
11.2 演員-評論家方法的概念設計
11.3 演員-評論家實現的架構
11.4 異步優勢行動者-評論家實現（A3C）
11.5 （同步）優勢演員-評論家實現（A2C）
11.6 小結
第12章 A3C的代碼：編寫異步優勢演員-評論家代碼
12.1 項目結構和依賴關系
12.2 代碼（A3C_Master—File：a3c_master.py）
12.3 訓練統計圖
第13章確定性策略梯度和DDPG：基于確定性策略梯度的方法
13.1 確定性策略梯度（DPG）
13.2 深度確定性策略梯度（DDPG）
13.3 小結
第14章 DDPG的代碼：使用高級封裝的庫編寫DDPG的代碼
14.1 用于強化學習的高級封裝的庫
14.2 Mountain Car Continuous（Gym）環境
14.3 項目結構和依賴關系
14.4 代碼（文件：ddpg_continout_action.py）
14.5 智能體使用“MountainCarContinous-v0”環境
參考文獻

展開全部

深度強化學習作者簡介

吳敏杰，博士，92728部隊助理研究員。2012年獲南京航空航天大學學士學位，2014年和2018年分別獲國防科技大學碩士、博士學位。以作者通信作者共發表論文十余篇，其中SCI檢索4篇，EI檢索6篇。

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦

>
唐代進士錄
唐代進士錄
陶易
¥16.1~~¥39.8~~
>
詩經-先民的歌唱
詩經-先民的歌唱
裴溥言
¥14.5~~¥39.8~~
>
大紅狗在馬戲團-大紅狗克里弗-助人
大紅狗在馬戲團-大紅狗克里弗-助人
[美] 諾爾曼·伯德韋爾著，杜可名譯
¥5.2~~¥10.0~~
>
伯納黛特,你要去哪(2021新版)
伯納黛特,你要去哪(2021新版)
[美] 瑪利亞·森普爾著，何雨珈譯
¥16.9~~¥49.8~~
>
二體千字文
二體千字文
本書編委會
¥14.0~~¥40.0~~
>
中國人在烏蘇里邊疆區:歷史與人類學概述
中國人在烏蘇里邊疆區:歷史與人類學概述
[蘇]阿爾謝尼耶夫著，劉宇譯
¥21.6~~¥48.0~~
>
羅曼·羅蘭讀書隨筆-精裝
羅曼·羅蘭讀書隨筆-精裝
[法]羅曼·羅蘭著,鄭克魯譯
¥32.9~~¥58.0~~
>
山海經
山海經
林非
¥18.7~~¥68.0~~

本類暢銷

大模型應用開發極簡入門基于GPT-4和ChatGPT

(比)奧利維耶·卡埃朗,(法)瑪麗-艾麗

¥41.9~~¥59.8~~
人工智能現代方法第4版(全2冊)

(美)斯圖爾特·羅素,(美)彼得·諾維格

¥120.8~~¥198~~
計算機視覺:算法與應用

RichardSzeliski、艾海舟

¥95.9~~¥139~~
必然(修訂版)

KevinKelly（凱文·凱利）

¥53.5~~¥89~~
GPT時代人類再騰飛

(美)里德·霍夫曼,美國GPT-4

¥54.9~~¥89.9~~
生成式人工智能(AIGC)應用

張亭婷,湯景,陶蕊編

¥64.9~~¥90~~

国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

包郵深度強化學習

深度強化學習版權信息

深度強化學習內容簡介

深度強化學習目錄

深度強化學習作者簡介

唐代進士錄

詩經-先民的歌唱

大紅狗在馬戲團-大紅狗克里弗-助人

伯納黛特,你要去哪(2021新版)

二體千字文

中國人在烏蘇里邊疆區:歷史與人類學概述

羅曼·羅蘭讀書隨筆-精裝

山海經

大模型應用開發極簡入門基于GPT-4和ChatGPT

人工智能現代方法第4版(全2冊)

計算機視覺:算法與應用

必然(修訂版)

GPT時代人類再騰飛

生成式人工智能(AIGC)應用

趙元任早年自傳

熊千佳昆蟲記

連科六短篇-短篇經典文庫

女孩們

上海灘的賈斯汀·比伯

朱仙鎮年畫:七日談

包郵 深度強化學習

深度強化學習 版權信息

深度強化學習 內容簡介

深度強化學習 目錄

深度強化學習 作者簡介

包郵深度強化學習

深度強化學習版權信息

深度強化學習內容簡介

深度強化學習目錄

深度強化學習作者簡介