国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

讀書(shū)月攻略拿走直接抄!
歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)
> >>
大數(shù)據(jù)預(yù)處理技術(shù)/朱曉姝

包郵 大數(shù)據(jù)預(yù)處理技術(shù)/朱曉姝

出版社:人民郵電出版社出版時(shí)間:2018-08-01
開(kāi)本: 其他 頁(yè)數(shù): 253
本類榜單:教材銷(xiāo)量榜
中 圖 價(jià):¥21.9(4.0折) 定價(jià)  ¥55.0 登錄后可看到會(huì)員價(jià)
加入購(gòu)物車(chē) 收藏
開(kāi)年大促, 全場(chǎng)包郵
?新疆、西藏除外
溫馨提示:5折以下圖書(shū)主要為出版社尾貨,大部分為全新(有塑封/無(wú)塑封),個(gè)別圖書(shū)品相8-9成新、切口
有劃線標(biāo)記、光盤(pán)等附件不全詳細(xì)品相說(shuō)明>>
本類五星書(shū)更多>
買(mǎi)過(guò)本商品的人還買(mǎi)了

大數(shù)據(jù)預(yù)處理技術(shù)/朱曉姝 版權(quán)信息

大數(shù)據(jù)預(yù)處理技術(shù)/朱曉姝 本書(shū)特色

作者針對(duì)大數(shù)據(jù)問(wèn)題,分析如何進(jìn)行大數(shù)據(jù)的導(dǎo)入,如何使用大數(shù)據(jù)工具進(jìn)行快速的數(shù)據(jù)預(yù)處理,以及如何構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)。詳細(xì)講解了Kettle工具的使用、數(shù)據(jù)集成、Kettle作業(yè)項(xiàng)設(shè)計(jì)等。

大數(shù)據(jù)預(yù)處理技術(shù)/朱曉姝 內(nèi)容簡(jiǎn)介

作者針對(duì)大數(shù)據(jù)問(wèn)題,分析如何進(jìn)行大數(shù)據(jù)的導(dǎo)入,如何使用大數(shù)據(jù)工具進(jìn)行快速的數(shù)據(jù)預(yù)處理,以及如何構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)。詳細(xì)講解了Kettle工具的使用、數(shù)據(jù)集成、Kettle作業(yè)項(xiàng)設(shè)計(jì)等。

大數(shù)據(jù)預(yù)處理技術(shù)/朱曉姝 目錄

第1章 數(shù)據(jù)預(yù)處理概述 1

1.1 數(shù)據(jù)預(yù)處理的背景與目的 1

1.1.1 數(shù)據(jù)預(yù)處理的背景:數(shù)據(jù)質(zhì)量 1

1.1.2 數(shù)據(jù)預(yù)處理的目的 3

1.2 數(shù)據(jù)預(yù)處理的流程 3

1.2.1 數(shù)據(jù)清理 3

1.2.2 數(shù)據(jù)集成 5

1.2.3 數(shù)據(jù)變換 6

1.2.4 數(shù)據(jù)歸約 8

1.2.5 數(shù)據(jù)預(yù)處理的注意事項(xiàng) 12

1.3 數(shù)據(jù)預(yù)處理的工具 12

第2章 Kettle工具的初步使用 14

2.1 Kettle的安裝 14

2.1.1 Java的安裝 14

2.1.2 Kettle的下載安裝與Spoon的啟動(dòng) 19

2.2 Kettle的使用 19

2.2.1 轉(zhuǎn)換的基本概念 19

2.2.2 **個(gè)轉(zhuǎn)換案例 21

第3章 基于Kettle的數(shù)據(jù)導(dǎo)入與導(dǎo)出 42

3.1 基于文件的數(shù)據(jù)導(dǎo)入與導(dǎo)出 42

3.1.1 文本文件的導(dǎo)入與導(dǎo)出 42

3.1.2 文本文件的導(dǎo)入與導(dǎo)出案例 43

3.1.3 Excel文件的導(dǎo)入與導(dǎo)出 49

3.1.4 Excel文件的導(dǎo)入與導(dǎo)出案例 50

3.1.5 XML文件的導(dǎo)入與導(dǎo)出 57

3.1.6 XML文件的導(dǎo)入與導(dǎo)出案例 57

3.1.7 JSON文件的導(dǎo)入與導(dǎo)出 62

3.1.8 JSON文件的導(dǎo)入與導(dǎo)出案例 62

3.2 基于數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入與導(dǎo)出 66

3.2.1 關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入與導(dǎo)出 67

3.2.2 MySQL數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入與導(dǎo)出案例 69

3.3 基于Web的數(shù)據(jù)導(dǎo)入與導(dǎo)出 75

3.3.1 HTML數(shù)據(jù)的導(dǎo)入與導(dǎo)出 76

3.3.2 HTML數(shù)據(jù)的導(dǎo)入與導(dǎo)出案例 76

3.3.3 基于HTTP GET請(qǐng)求的導(dǎo)入與導(dǎo)出 80

3.3.4 基于HTTP GET請(qǐng)求的導(dǎo)入與導(dǎo)出案例 80

3.4 基于CDC變更數(shù)據(jù)的導(dǎo)入與導(dǎo)出 83

3.4.1 基于源數(shù)據(jù)的CDC 83

3.4.2 基于源數(shù)據(jù)的CDC案例 84

3.4.3 基于觸發(fā)器的CDC 95

3.4.4 基于觸發(fā)器的CDC案例 95

3.4.5 基于快照的CDC 105

3.4.6 基于快照的CDC案例 105

3.4.7 基于日志的CDC 109

3.4.8 基于日志的CDC案例 109

第4章 數(shù)據(jù)清理 112

4.1 數(shù)據(jù)清理概述 112

4.1.1 常用的數(shù)據(jù)清理步驟 112

4.1.2 字符串清理 113

4.1.3 字段清理 118

4.1.4 使用參照表清理數(shù)據(jù) 125

4.1.5 數(shù)據(jù)校驗(yàn) 130

4.2 數(shù)據(jù)排重 134

4.2.1 如何識(shí)別重復(fù)數(shù)據(jù) 135

4.2.2 去除完全重復(fù)數(shù)據(jù) 135

4.2.3 去除不完全重復(fù)數(shù)據(jù) 136

4.3 使用腳本組件進(jìn)行數(shù)據(jù)清理 140

4.3.1 使用JavaScript代碼組件清理數(shù)據(jù) 140

4.3.2 使用正則表達(dá)式組件清理數(shù)據(jù) 142

4.3.3 使用其他腳本組件清理數(shù)據(jù) 145

第5章 Kettle作業(yè)設(shè)計(jì) 150

5.1 作業(yè)的概念及組成 151

5.1.1 作業(yè)項(xiàng) 151

5.1.2 跳 152

5.1.3 注釋 152

5.2 作業(yè)的執(zhí)行方式 152

5.2.1 回溯 152

5.2.2 多路徑和回溯 153

5.2.3 并行執(zhí)行 153

5.3 作業(yè)的創(chuàng)建及常用作業(yè)項(xiàng) 154

5.3.1 創(chuàng)建作業(yè) 155

5.3.2 “START”作業(yè)項(xiàng) 155

5.3.3 “作業(yè)”作業(yè)項(xiàng) 156

5.3.4 “轉(zhuǎn)換”作業(yè)項(xiàng) 158

5.4 變量 158

5.4.1 定義變量 159

5.4.2 使用變量 160

5.5 監(jiān)控 161

5.5.1 日志 161

5.5.2 郵件通知 162

5.6 命令行啟動(dòng) 163

5.7 作業(yè)實(shí)驗(yàn) 165

第6章 構(gòu)建數(shù)據(jù)倉(cāng)庫(kù) 193

6.1 構(gòu)建維度表 193

6.1.1 管理各種鍵 193

6.1.2 維度表的加載 197

6.1.3 緩慢變化維度 198

6.2 構(gòu)建事實(shí)表 203

6.2.1 批量加載 203

6.2.2 查找維度 206

6.2.3 事實(shí)表的處理 207

第7章 基于Python的數(shù)據(jù)導(dǎo)入與導(dǎo)出 216

7.1 Pandas 216

7.1.1 Series 216

7.1.2 DataFrame 219

7.2 文本文件的導(dǎo)入與導(dǎo)出 220

7.2.1 導(dǎo)入CSV文件 221

7.2.2 導(dǎo)出CSV文件 223

7.2.3 JSON格式數(shù)據(jù)的導(dǎo)入與導(dǎo)出 224

7.3 二進(jìn)制文件的導(dǎo)入與導(dǎo)出 225

7.4 數(shù)據(jù)庫(kù)的導(dǎo)入與導(dǎo)出 226

7.4.1 關(guān)系型數(shù)據(jù)庫(kù)的導(dǎo)入與導(dǎo)出 226

7.4.2 非關(guān)系型數(shù)據(jù)庫(kù)的導(dǎo)入與導(dǎo)出 227

第8章 基于Python的數(shù)據(jù)整理 231

8.1 合并多個(gè)數(shù)據(jù)集 231

8.1.1 使用key進(jìn)行DataFrame合并 231

8.1.2 使用index進(jìn)行DataFrame合并 234

8.1.3 沿著橫軸或縱軸串接 235

8.2 數(shù)據(jù)重塑 237

8.2.1 多級(jí)索引數(shù)據(jù)的重塑 238

8.2.2 應(yīng)用pivot方法重塑數(shù)據(jù) 239

8.3 數(shù)據(jù)轉(zhuǎn)換 242

8.3.1 移除重復(fù)數(shù)據(jù) 242

8.3.2 利用函數(shù)或映射進(jìn)行數(shù)據(jù)轉(zhuǎn)換 243

8.3.3 值轉(zhuǎn)換 243

8.3.4 重命名軸索引 244

8.3.5 離散化和面元?jiǎng)澐帧?45

8.3.6 檢測(cè)或過(guò)濾異常值 247

8.3.7 排列和隨機(jī)采樣 248

8.3.8 計(jì)算指標(biāo)/啞變量 249

參考文獻(xiàn) 253

展開(kāi)全部

大數(shù)據(jù)預(yù)處理技術(shù)/朱曉姝 作者簡(jiǎn)介

許桂秋 男,85年出生,計(jì)算機(jī)學(xué)士,工商管理碩士。 2009年-2012年,中國(guó)石油天然氣股份有限公司,負(fù)責(zé)項(xiàng)目管理工作,企業(yè)內(nèi)部高級(jí)講師; 2012年-2015年,曙光信息產(chǎn)業(yè)股份有限公司,負(fù)責(zé)項(xiàng)目管理與企業(yè)內(nèi)部培訓(xùn)工作,企業(yè)內(nèi)部高級(jí)講師; 2016年至今,曙光瑞翼教育合作中心,教學(xué)運(yùn)營(yíng)總監(jiān),負(fù)責(zé)各高校合作項(xiàng)目部的具體運(yùn)營(yíng)管理及指導(dǎo)工作。

暫無(wú)評(píng)論……
書(shū)友推薦
本類暢銷(xiāo)
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 99热这里精品 | 久久久精品 | 免费a级毛片无码a∨蜜芽试看 | 天天槽天天槽天天槽 | 北条麻妃在线一区二区 | 久久午夜无码鲁丝片 | a男人的天堂久久a毛片 | 国产av一区二区三区 | 性生交大片免费一级 | 成人午夜视频免费观看 | 三年中文在线观看免费大全 | 亚洲丝袜一区 | 成人影院久久久久久影院 | 免费看黄色的视频 | aaaaa国产毛片 | 中文字幕在线观看亚洲日韩 | 欧美牲交黑粗硬大 | 国产乱妇无码大片在线观看 | 99久久久无码国产精品不卡 | 国产h视频在线观看 | 午夜 福利 视频 | 欧美成视频无需播放器 | 亚洲成在人网站av天堂 | 91精品国产高清久久久久 | 男人天堂社区 | 午夜影院在线视频 | 中文字幕在线免费视频 | 欧美成人亚洲综合精品欧美激情 | 99精品国产高清一区二区麻豆 | 4hu影院最新地址www | 女性高爱潮视频 | 国产成人在线看 | 伊人久久久精品区aaa片 | 国产精在线 | 99国产精品久久99久久久 | 狠狠色婷婷久久综合频道毛片 | 国产精品无码av在线播放 | 99香蕉国产线观看免费 | 色欲综合一区二区三区 | 亚洲国产精品久久久久666 | 在教室伦流澡到高潮hgl动漫 |