最近更新|軟件分類|軟件專題|軟件排行|手機(jī)版|軟件發(fā)布apache spark源碼剖電子書 最新版
您的位置:首頁>行業(yè)軟件 > 電子書籍>apache spark源碼剖電子書 最新版

apache spark源碼剖電子書 最新版電子書籍

網(wǎng)友評(píng)分:

相關(guān)軟件

軟件介紹

apache spark源碼剖電子書是一本非常優(yōu)秀的電子書籍,這本書主要是為你講解Spark代碼方面的知識(shí),而且該書還結(jié)合了實(shí)際案例,讓你讀起來更加的容易懂,因此有需要的朋友歡迎下載!

apache spark源碼剖電子書

內(nèi)容介紹

《apache spark 源碼剖析》以Spark 1.02版本源碼為切入點(diǎn),著力于探尋Spark所要解決的主要問題及其解決辦法,通過一系列精心設(shè)計(jì)的小實(shí)驗(yàn)來分析每一步背后的處理邏輯。本書第1章和第2章簡(jiǎn)要介紹了大數(shù)據(jù)分析技術(shù)的產(chǎn)生背景和演進(jìn)過程;第3~5章詳細(xì)分析了Spark Core中的作業(yè)規(guī)劃、提交及任務(wù)執(zhí)行等內(nèi)容,對(duì)于要深刻把握Spark實(shí)現(xiàn)機(jī)理的讀者來說,這幾章值得反復(fù)閱讀;第6~9章就Spark提供的高級(jí)Lib庫進(jìn)行了簡(jiǎn)要的分析,分析的思路是解決的主要問題是什么、解決的方案是如何產(chǎn)生的,以及方案是如何通過代碼來具體實(shí)現(xiàn)的。

apache spark源碼剖電子書

目錄介紹

第一部分 Spark概述

第1章 初識(shí)Spark

1.1 大數(shù)據(jù)和Spark

1.1.1 大數(shù)據(jù)的由來

1.1.2 大數(shù)據(jù)的分析

1.1.3 Hadoop

1.1.4 Spark簡(jiǎn)介

1.2 與Spark的第一次親密接觸

1.2.1 環(huán)境準(zhǔn)備

1.2.2 下載安裝Spark

1.2.3 Spark下的WordCount

apache spark源碼剖電子書

第二部分 Spark核心概念

第2章 Spark整體框架

2.1 編程模型

2.1.1 RDD

2.1.2 Operation

2.2 運(yùn)行框架

2.2.1 作業(yè)提交

2.2.2 集群的節(jié)點(diǎn)構(gòu)成

2.2.3 容錯(cuò)處理

2.2.4 為什么是Scala

2.3 源碼閱讀環(huán)境準(zhǔn)備

2.3.1 源碼下載及編譯

2.3.2 源碼目錄結(jié)構(gòu)

2.3.3 源碼閱讀工具

2.3.4 本章小結(jié)

第3章 SparkContext初始化

3.1 spark-shell

3.2 SparkContext的初始化綜述

3.3 Spark Repl綜述

3.3.1 Scala Repl執(zhí)行過程

3.3.2 Spark Repl

第4章 Spark作業(yè)提交

4.1 作業(yè)提交

4.2 作業(yè)執(zhí)行

4.2.1 依賴性分析及Stage劃分

4.2.2 Actor Model和Akka

4.2.3 任務(wù)的創(chuàng)建和分發(fā)

4.2.4 任務(wù)執(zhí)行

4.2.5 Checkpoint和Cache

4.2.6 WebUI和Metrics

4.3 存儲(chǔ)機(jī)制

4.3.1 Shuffle結(jié)果的寫入和讀取

4.3.2 Memory Store

4.3.3 存儲(chǔ)子模塊啟動(dòng)過程分析

4.3.4 數(shù)據(jù)寫入過程分析

4.3.5 數(shù)據(jù)讀取過程分析

4.3.6 TachyonStore

apache spark源碼剖電子書

第5章 部署方式分析

5.1 部署模型

5.2 單機(jī)模式local

5.3 偽集群部署local-cluster

5.4 原生集群Standalone Cluster

5.4.1 啟動(dòng)Master

5.4.2 啟動(dòng)Worker

5.4.3 運(yùn)行spark-shell

5.4.4 容錯(cuò)性分析

5.5 Spark On YARN

5.5.1 YARN的編程模型

5.5.2 YARN中的作業(yè)提交

5.5.3 Spark On YARN實(shí)現(xiàn)詳解

5.5.4 SparkPi on YARN

第三部分 Spark Lib

第6章 Spark Streaming

6.1 Spark Streaming整體架構(gòu)

6.1.1 DStream

6.1.2 編程接口

6.1.3 Streaming WordCount

6.2 Spark Streaming執(zhí)行過程

6.2.1 StreamingContext初始化過程

6.2.2 數(shù)據(jù)接收

6.2.3 數(shù)據(jù)處理

6.2.4 BlockRDD

6.3 窗口操作

6.4 容錯(cuò)性分析

6.5 Spark Streaming vs. Storm

6.5.1 Storm簡(jiǎn)介

6.5.2 Storm和Spark Streaming對(duì)比

6.6 應(yīng)用舉例

6.6.1 搭建Kafka Cluster

6.6.2 KafkaWordCount

apache spark源碼剖電子書

第7章 SQL

7.1 SQL語句的通用執(zhí)行過程分析

7.2 SQL On Spark的實(shí)現(xiàn)分析

7.2.1 SqlParser

7.2.2 Analyzer

7.2.3 Optimizer

7.2.4 SparkPlan

7.3 Parquet 文件和JSON數(shù)據(jù)集

7.4 Hive簡(jiǎn)介

7.4.1 Hive 架構(gòu)

7.4.2 HiveQL On MapReduce執(zhí)行過程分析

7.5 HiveQL On Spark詳解

7.5.1 Hive On Spark環(huán)境搭建

7.5.2 編譯支持Hadoop 2.x的Spark

7.5.3 運(yùn)行Hive On Spark測(cè)試用例

第8章 GraphX

8.1 GraphX簡(jiǎn)介

8.1.1 主要特點(diǎn)

8.1.2 版本演化

8.1.3 應(yīng)用場(chǎng)景

8.2 分布式圖計(jì)算處理技術(shù)介紹

8.2.1 屬性圖

8.2.2 圖數(shù)據(jù)的存儲(chǔ)與分割

8.3 Pregel計(jì)算模型

8.3.1 BSP

8.3.2 像頂點(diǎn)一樣思考

8.4 GraphX圖計(jì)算框架實(shí)現(xiàn)分析

8.4.1 基本概念

8.4.2 圖的加載與構(gòu)建

8.4.3 圖數(shù)據(jù)存儲(chǔ)與分割

8.4.4 操作接口

8.4.5 Pregel在GraphX中的源碼實(shí)現(xiàn)

8.5 PageRank

8.5.1 什么是PageRank

8.5.2 PageRank核心思想

apache spark源碼剖電子書

第9章 MLLib

9.1 線性回歸

9.1.1 數(shù)據(jù)和估計(jì)

9.1.2 線性回歸參數(shù)求解方法

9.1.3 正則化

9.2 線性回歸的代碼實(shí)現(xiàn)

9.2.1 簡(jiǎn)單示例

9.2.2 入口函數(shù)train

9.2.3 最優(yōu)化算法optimizer

9.2.4 權(quán)重更新update

9.2.5 結(jié)果預(yù)測(cè)predict

9.3 分類算法

9.3.1 邏輯回歸

9.3.2 支持向量機(jī)

9.4 擬牛頓法

9.4.1 數(shù)學(xué)原理

9.4.2 代碼實(shí)現(xiàn)

9.5 MLLib與其他應(yīng)用模塊間的整合

第四部分 附錄

附錄A Spark源碼調(diào)試

附錄B 源碼閱讀技巧

使用說明

1、下載并解壓,得出pdf文件

apache spark源碼剖電子書

2、如果打不開本文件,請(qǐng)務(wù)必下載pdf閱讀器

3、安裝后,在打開解壓得出的pdf文件

4、雙擊進(jìn)行閱讀

  • 下載地址