国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

讀書月攻略拿走直接抄!
歡迎光臨中圖網 請 | 注冊
> >>
基于PYSPARK的高級數據分析

包郵 基于PYSPARK的高級數據分析

出版社:中國電力出版社出版時間:2024-10-01
開本: 16開 頁數: 256
中 圖 價:¥45.5(5.8折) 定價  ¥78.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

基于PYSPARK的高級數據分析 版權信息

基于PYSPARK的高級數據分析 本書特色

編輯推薦
時至今日產生的數據量已經達到令人驚人的地步,而且還在不斷增長。Apache Spark已經成為分析大數據的實際工具,并且也是數據科學工具箱的關鍵部分。本書針對Spark*z新版本進行了更新,將Spark、統計方法和真實數據集結合在一起,教你如何運用 PySpark、Spark Python API和Spark編程中的其他*z佳實踐來解決分析問題。
數據科學家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wills介紹了Spark生態系統,然后深入研究將常用技術(包括分類、聚類、協同過濾和異常檢測)應用于以下的領域:基因組學、安全工作和金融。此更新版本還涵蓋圖像處理和Spark NLP庫。
如果你對機器學習和統計學有基本的了解,并且能夠使用Python進行編程,那么本書將幫助你開始進行大規模的數據分析。

基于PYSPARK的高級數據分析 內容簡介

本書的主要內容有:熟悉Spark的編程模型和生態系統。學習數據科學的一般方法。檢查分析大型公共數據集執行步驟的完整性。發現哪些機器學習工具對特定問題有幫助。探索可適應多種用途的代碼。

基于PYSPARK的高級數據分析 目錄

目錄前言 1第1 章 大數據分析 711 使用大數據 812 Apache Spark 和PySpark10121 組件 10122 PySpark 12123 生態系統 1313 Spark 30 1414 PySpark 處理數據科學問題 1515 本章小結16第2 章 PySpark 數據分析簡介 1721 Spark 架構 1922 安裝PySpark 21目錄前言 1第1 章 大數據分析 711 使用大數據 812 Apache Spark 和PySpark10121 組件 10122 PySpark 12123 生態系統 1313 Spark 30 1414 PySpark 處理數據科學問題 1515 本章小結16第2 章 PySpark 數據分析簡介 1721 Spark 架構 1922 安裝PySpark 2123 設置我們的數據 2424 使用DataFrame API 分析數據 3125 DataFrames 的快速匯總統計 3526 DataFrame 的透視和重塑 3727 關聯DataFrame 并選擇特征4028 評分和模型評估 4229 本章小結44第3 章 音樂推薦和音頻編碼器的數據集 4731 設置數據4832 我們對推薦系統的要求 5133 數據準備5534 構建**個模型 5835 算法篩查推薦 6236 推薦質量評估 6437 計算AUC 6638 選擇超參數 6839 給出推薦71310 本章小結 72第4 章 使用決策樹和決策森林進行預測 7541 決策樹和決策森林 7642 準備數據7943 **顆決策樹 8444 決策樹超參數 9245 調試決策樹 9446 重溫分類特征 9847 隨機森林10248 進行預測10549 本章小結105第5 章 異常檢測與K-means 聚類算法 10751 K-means 聚類 10852 識別異常網絡流量 10953 初次嘗試聚類 11254 選擇K 值 11455 利用SparkR 實現可視化 11856 特征歸一化 12357 分類變量12458 使用熵(Entropy)標簽 12659 聚類實戰128510 本章小結 130第6 章 通過LDA、Spark NLP 了解維基百科 13361 隱含狄利克雷分布 13462 獲取數據13563 Spark NLP 13764 解析數據13965 使用Spark NLP 準備數據 14166 TF-IDF 14667 計算TF-IDF 14768 創建LDA 模型 14869 本章小結151第7 章 基于出租車行程數據的時空序列數據分析 15371 數據準備155711 將日期格式字符串轉換為時間戳 157712 處理無效記錄 15972 地理空間分析 161721 介紹GeoJSON 161722 GeoPandas 16373 PySpark 會話化 16674 本章小結170第8 章 金融風險評估 17181 金融術語17282 VaR 的計算方法 173821 方差與協方差 173822 歷史模擬法 173823 蒙特卡羅模擬 17483 我們的模型 17484 獲取數據17585 準備數據17786 決定因子權重 18087 抽樣 18488 試驗運行18789 可視化收益分布 191810 本章小結 192第9 章 分析基因組學數據和BDG 項目 19391 從建模中解耦存儲 19492 設置ADAM 19793 介紹如何使用ADAM 處理基因組數據 198931 使用ADAM CLI 進行文件格式轉換 199932 使用PySpark 和ADAM 采集基因組學數據 20094 預測轉錄因子結合位點 20695 本章小結212第10 章 基于深入學習和PySpark LSH 的圖像相似度檢測 215101 PyTorch 216102 準備數據 217103 圖像矢量表示的深度學習模型 2191031 圖像嵌入 2191032 將圖像嵌入導入 PySpark 222104 使用PySpark LSH 進行圖像相似搜索 223105 本章小結 228第11 章 使用MLflow 管理機器學習生命周期 229111 機器學習生命周期 229112 MLflow 231113 實驗跟蹤 232114 管理和服務ML 模型 236115 創建并使用MLflow 項目 239116 本章小結 243
展開全部

基于PYSPARK的高級數據分析 作者簡介

Akash Tandon是Looppanel的聯合創始人兼首席技術官。曾在Atlan擔任高級數據工程師。Sandy Ryza是Apache Spark的核心貢獻人,領導了Dagster項目的開發。Uri Laserson是Patch Biosciences 的創始人兼首席技術官。曾在Cloudera從事大數據和基因組學的研究。Sean Owen是Apache Spark的核心貢獻人和PMC(項目管理委員會)的成員,同時也是Databricks專注于機器學習和數據科學的首席解決方案架構師。Josh Wills是WeaveGrid的軟件工程師,也是Slack的前數據工程主管。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 久久精品99久久香蕉国产色戒 | 黄色淫片 | 一二三四视频6在线观看 | 熟女体下毛毛黑森林 | 欧美日本免费一区二区三区 | 国精品人妻无码一区二区三区喝尿 | 色综合亚洲综合网站综合色 | 国产一区二区三区亚洲欧美 | av不卡国产在线观看 | 一插综合网| 色视频免费国产观看 | 久久精品国产精品亚洲毛片 | 精品国产亚洲人成在线 | 亚洲欧美色一区二区三区 | 人与动人物xxxx毛片 | 久久国产亚洲精品 | 国产亚洲精品久久久久久国模美 | 午夜激情福利 | 国产精品美女一区二区三区 | 国产精品青青青高清在线密亚 | 久久久久亚洲av无码专 | 2021国内精品久久久久影院 | 国产乱人伦偷精品视频不卡 | 在线看va | 欧美成人aaa片一区国产精品 | 久久久免费的精品 | 亚洲精品国产综合99久久一区 | 日本无遮挡边做边爱边摸 | 把女人弄爽特黄a大片 | 少妇三级全黄在线播放 | 激情毛片视频在线播放 | 欧美日韩国产亚洲一区二区 | 五月桃花网婷婷亚洲综合 | 欧美一区二区三区不卡视频 | 午夜影院入口 | 真实偷人视频 | 国产精品嫩草影院一二三区入口 | 亚洲欧美在线综合一区二区三区 | 老师脱了内裤让我进去 | 乱子伦一区二区三区 | 国产三级免费观看 |