中圖網

>

數據庫

>

數據倉庫與數據挖掘

基于PYSPARK的高級數據分析

包郵基于PYSPARK的高級數據分析

作者：Akash Tandon，Sandy R

出版社：中國電力出版社出版時間：2024-10-01

開本： 16開 頁數： 256

本類榜單：計算機/網絡銷量榜

中圖價:¥45.5(5.8折) 定價 ~~¥78.0~~ 登錄后可看到會員價

加入購物車收藏

開年大促， 全場包郵

?新疆、西藏除外

本類五星書更多>

>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

¥14.4¥45
>
決戰行測5000題(言語理解與表達)

決戰行測5000題(言語理解與表達)

¥44.1¥88
>
軟件性能測試.分析與調優實踐之路

軟件性能測試.分析與調優實踐之路

¥56.2¥69
>
第一行代碼Android

第一行代碼Android

¥55.4¥99
>
JAVA持續交付

JAVA持續交付

¥58.1¥119
>
EXCEL最強教科書(完全版)(全彩印刷)

EXCEL最強教科書(完全版)(全彩印刷)

¥31.1¥69.9
>
深度學習

深度學習

¥92.4¥168

商品詳情
商品評論(0條)

中圖價:¥45.5 加入購物車

版權信息
本書特色
內容簡介
目錄
作者簡介

基于PYSPARK的高級數據分析版權信息

ISBN：9787519891862
條形碼：9787519891862 ; 978-7-5198-9186-2
裝幀：平裝-膠訂
冊數：暫無
重量：暫無
所屬分類：
計算機/網絡
>
數據庫
>
數據倉庫與數據挖掘

基于PYSPARK的高級數據分析本書特色

編輯推薦
時至今日產生的數據量已經達到令人驚人的地步，而且還在不斷增長。Apache Spark已經成為分析大數據的實際工具，并且也是數據科學工具箱的關鍵部分。本書針對Spark*z新版本進行了更新，將Spark、統計方法和真實數據集結合在一起，教你如何運用 PySpark、Spark Python API和Spark編程中的其他*z佳實踐來解決分析問題。
數據科學家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wills介紹了Spark生態系統，然后深入研究將常用技術（包括分類、聚類、協同過濾和異常檢測）應用于以下的領域：基因組學、安全工作和金融。此更新版本還涵蓋圖像處理和Spark NLP庫。
如果你對機器學習和統計學有基本的了解，并且能夠使用Python進行編程，那么本書將幫助你開始進行大規模的數據分析。

基于PYSPARK的高級數據分析內容簡介

本書的主要內容有：熟悉Spark的編程模型和生態系統。學習數據科學的一般方法。檢查分析大型公共數據集執行步驟的完整性。發現哪些機器學習工具對特定問題有幫助。探索可適應多種用途的代碼。

基于PYSPARK的高級數據分析目錄

目錄前言 1第1 章大數據分析 711 使用大數據 812 Apache Spark 和PySpark10121 組件 10122 PySpark 12123 生態系統 1313 Spark 30 1414 PySpark 處理數據科學問題 1515 本章小結16第2 章 PySpark 數據分析簡介 1721 Spark 架構 1922 安裝PySpark 21目錄前言 1第1 章大數據分析 711 使用大數據 812 Apache Spark 和PySpark10121 組件 10122 PySpark 12123 生態系統 1313 Spark 30 1414 PySpark 處理數據科學問題 1515 本章小結16第2 章 PySpark 數據分析簡介 1721 Spark 架構 1922 安裝PySpark 2123 設置我們的數據 2424 使用DataFrame API 分析數據 3125 DataFrames 的快速匯總統計 3526 DataFrame 的透視和重塑 3727 關聯DataFrame 并選擇特征4028 評分和模型評估 4229 本章小結44第3 章音樂推薦和音頻編碼器的數據集 4731 設置數據4832 我們對推薦系統的要求 5133 數據準備5534 構建**個模型 5835 算法篩查推薦 6236 推薦質量評估 6437 計算AUC 6638 選擇超參數 6839 給出推薦71310 本章小結 72第4 章使用決策樹和決策森林進行預測 7541 決策樹和決策森林 7642 準備數據7943 **顆決策樹 8444 決策樹超參數 9245 調試決策樹 9446 重溫分類特征 9847 隨機森林10248 進行預測10549 本章小結105第5 章異常檢測與K-means 聚類算法 10751 K-means 聚類 10852 識別異常網絡流量 10953 初次嘗試聚類 11254 選擇K 值 11455 利用SparkR 實現可視化 11856 特征歸一化 12357 分類變量12458 使用熵（Entropy）標簽 12659 聚類實戰128510 本章小結 130第6 章通過LDA、Spark NLP 了解維基百科 13361 隱含狄利克雷分布 13462 獲取數據13563 Spark NLP 13764 解析數據13965 使用Spark NLP 準備數據 14166 TF-IDF 14667 計算TF-IDF 14768 創建LDA 模型 14869 本章小結151第7 章基于出租車行程數據的時空序列數據分析 15371 數據準備155711 將日期格式字符串轉換為時間戳 157712 處理無效記錄 15972 地理空間分析 161721 介紹GeoJSON 161722 GeoPandas 16373 PySpark 會話化 16674 本章小結170第8 章金融風險評估 17181 金融術語17282 VaR 的計算方法 173821 方差與協方差 173822 歷史模擬法 173823 蒙特卡羅模擬 17483 我們的模型 17484 獲取數據17585 準備數據17786 決定因子權重 18087 抽樣 18488 試驗運行18789 可視化收益分布 191810 本章小結 192第9 章分析基因組學數據和BDG 項目 19391 從建模中解耦存儲 19492 設置ADAM 19793 介紹如何使用ADAM 處理基因組數據 198931 使用ADAM CLI 進行文件格式轉換 199932 使用PySpark 和ADAM 采集基因組學數據 20094 預測轉錄因子結合位點 20695 本章小結212第10 章基于深入學習和PySpark LSH 的圖像相似度檢測 215101 PyTorch 216102 準備數據 217103 圖像矢量表示的深度學習模型 2191031 圖像嵌入 2191032 將圖像嵌入導入 PySpark 222104 使用PySpark LSH 進行圖像相似搜索 223105 本章小結 228第11 章使用MLflow 管理機器學習生命周期 229111 機器學習生命周期 229112 MLflow 231113 實驗跟蹤 232114 管理和服務ML 模型 236115 創建并使用MLflow 項目 239116 本章小結 243

展開全部

基于PYSPARK的高級數據分析作者簡介

Akash Tandon是Looppanel的聯合創始人兼首席技術官。曾在Atlan擔任高級數據工程師。Sandy Ryza是Apache Spark的核心貢獻人，領導了Dagster項目的開發。Uri Laserson是Patch Biosciences 的創始人兼首席技術官。曾在Cloudera從事大數據和基因組學的研究。Sean Owen是Apache Spark的核心貢獻人和PMC（項目管理委員會）的成員，同時也是Databricks專注于機器學習和數據科學的首席解決方案架構師。Josh Wills是WeaveGrid的軟件工程師，也是Slack的前數據工程主管。

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦

>
月亮與六便士
月亮與六便士
毛姆
¥19.1~~¥42.0~~
>
【精裝繪本】畫給孩子的中國神話
【精裝繪本】畫給孩子的中國神話
施英巍
¥18.6~~¥55.0~~
>
經典常談
經典常談
朱自清
¥16.7~~¥39.8~~
>
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
易竹賢
¥9.9~~¥23.0~~
>
回憶愛瑪儂
回憶愛瑪儂
[日]梶尾真治著，王瑋譯
¥24.0~~¥32.8~~
>
月亮虎
月亮虎
[英] 佩內洛普·萊夫利著，郭國良譯
¥15.4~~¥48.0~~
>
名家帶你讀魯迅:故事新編
名家帶你讀魯迅:故事新編
魯迅著，陳漱渝主編
¥13.0~~¥26.0~~
>
有舍有得是人生
有舍有得是人生
梁實秋
¥25.7~~¥45.0~~

本類暢銷

大數據

劉鵬

¥35.2~~¥58~~
大數據叢書數據可視化(第2版)

陳為等

¥163.2~~¥259~~
不良情緒應急處理包--孤獨感

中圖網

¥12.9~~¥30~~
不良情緒應急處理包--精神內耗

中圖網

¥12.9~~¥30~~
孩子、家庭和外部世界

唐納德·溫尼科特

¥17.8~~¥56~~
北魏政治史(二)

張金龍著

¥26.2~~¥70~~

橡胶接头_橡胶软接头_可曲挠橡胶接头-河南伟创管道科技有限公司

包郵基于PYSPARK的高級數據分析

基于PYSPARK的高級數據分析版權信息

基于PYSPARK的高級數據分析本書特色

基于PYSPARK的高級數據分析內容簡介

基于PYSPARK的高級數據分析目錄

基于PYSPARK的高級數據分析作者簡介

月亮與六便士

【精裝繪本】畫給孩子的中國神話

經典常談

新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)

回憶愛瑪儂

月亮虎

名家帶你讀魯迅:故事新編

有舍有得是人生

大數據

大數據叢書數據可視化(第2版)

不良情緒應急處理包--孤獨感

不良情緒應急處理包--精神內耗

孩子、家庭和外部世界

北魏政治史(二)

每日論語

趙元任早年自傳

時間停止的那一天

百年夢憶:梁實秋人生自述

人間草木

上海灘的賈斯汀·比伯

包郵 基于PYSPARK的高級數據分析

基于PYSPARK的高級數據分析 版權信息

基于PYSPARK的高級數據分析 本書特色

基于PYSPARK的高級數據分析 內容簡介

基于PYSPARK的高級數據分析 目錄

基于PYSPARK的高級數據分析 作者簡介

包郵基于PYSPARK的高級數據分析

基于PYSPARK的高級數據分析版權信息

基于PYSPARK的高級數據分析本書特色

基于PYSPARK的高級數據分析內容簡介

基于PYSPARK的高級數據分析目錄

基于PYSPARK的高級數據分析作者簡介