图书介绍

大数据技术丛书 Spark与Hadoop大数据分析2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

大数据技术丛书 Spark与Hadoop大数据分析
  • (美)文卡特·安卡姆著;吴今朝译 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111569414
  • 出版时间:2017
  • 标注页数:234页
  • 文件大小:24MB
  • 文件页数:249页
  • 主题词:

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据技术丛书 Spark与Hadoop大数据分析PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 从宏观视角看大数据分析1

1.1大数据分析以及Hadoop和Spark在其中承担的角色3

1.1.1典型大数据分析项目的生命周期4

1.1.2 Hadoop和Spark承担的角色6

1.2大数据科学以及Hadoop和Spark在其中承担的角色6

1.2.1从数据分析到数据科学的根本性转变6

1.2.2典型数据科学项目的生命周期8

1.2.3 Hadoop和Spark承担的角色9

1.3工具和技术9

1.4实际环境中的用例11

1.5小结12

第2章Apache Hadoop和Apache Spark入门13

2.1 Apache Hadoop概述13

2.1.1 Hadoop分布式文件系统14

2.1.2 HDFS的特性15

2.1.3 MapReduce16

2.1.4 MapReduce的特性17

2.1.5 MapReduce v1与MapReduce v2对比17

2.1.6 YARN18

2.1.7 Hadoop上的存储选择20

2.2 Apache Spark概述24

2.2.1 Spark的发展历史24

2.2.2 Apache Spark是什么25

2.2.3 Apache Spark不是什么26

2.2.4 MapReduce的问题27

2.2.5 Spark的架构28

2.3为何把Hadoop和Spark结合使用31

2.3.1 Hadoop的特性31

2.3.2 Spark的特性31

2.4安装Hadoop和Spark集群33

2.5小结36

第3章 深入剖析Apache Spark37

3.1启动Spark守护进程37

3.1.1使用CDH38

3.1.2使用HDP、 MapR和Spark预制软件包38

3.2学习Spark的核心概念39

3.2.1使用Spark的方法39

3.2.2弹性分布式数据集41

3.2.3 Spark环境43

3.2.4变换和动作44

3.2.5 RDD中的并行度46

3.2.6延迟评估49

3.2.7谱系图50

3.2.8序列化51

3.2.9在Spark中利用Hadoop文件格式52

3.2.10数据的本地性53

3.2.11共享变量54

3.2.12键值对RDD55

3.3 Spark程序的生命周期55

3.3.1流水线57

3.3.2 Spark执行的摘要58

3.4 Spark应用程序59

3.4.1 Spark Shell和Spark应用程序59

3.4.2创建Spark环境59

3.4.3 SparkConf59

3.4.4 SparkSubmit60

3.4.5 Spark配置项的优先顺序61

3.4.6重要的应用程序配置61

3.5持久化与缓存62

3.5.1存储级别62

3.5.2应该选择哪个存储级别63

3.6 Spark资源管理器:Standalone、YARN和Mesos63

3.6.1本地和集群模式63

3.6.2集群资源管理器64

3.7小结67

第4章 利用Spark SQL、 Data-Frame和Dataset进行大数据分析69

4.1 Spark SQL的发展史70

4.2 Spark SQL的架构71

4.3介绍Spark SQL的四个组件72

4.4 DataFrame和Dataset的演变74

4.4.1 RDD有什么问题74

4.4.2 RDD变换与Dataset和DataFrame变换75

4.5为什么要使用Dataset和DataFrame75

4.5.1优化76

4.5.2速度76

4.5.3自动模式发现77

4.5.4多数据源,多种编程语言77

4.5.5 RDD和其他API之间的互操作性77

4.5.6仅选择和读取必要的数据78

4.6何时使用RDD、Dataset和DataFrame78

4.7利用DataFrame进行分析78

4.7.1创建SparkSession79

4.7.2创建DataFrame79

4.7.3把DataFrame转换为RDD82

4.7.4常用的Dataset/DataFrame操作83

4.7.5缓存数据84

4.7.6性能优化84

4.8利用Dataset API进行分析85

4.8.1创建Dataset85

4.8.2把DataFrame转换为Dataset86

4.8.3利用数据字典访问元数据87

4.9 Data Sources API87

4.9.1读和写函数88

4.9.2内置数据源88

4.9.3外部数据源93

4.10把Spark SQL作为分布式SQL引擎97

4.10.1把Spark SQL的Thrift服务器用于JDBC/ODBC访问97

4.10.2使用beeline客户端查询数据98

4.10.3使用spark-sql CLI从Hive查询数据99

4.10.4与BI工具集成100

4.11 Hive on Spark100

4.12小结100

第5章 利用Spark Streaming和Structured Streaming进行实时分析102

5.1实时处理概述103

5.1.1 Spark Streaming的优缺点104

5.1.2 Spark Streaming的发展史104

5.2 Spark Streaming的架构104

5.2.1 Spark Streaming应用程序流106

5.2.2无状态和有状态的流处理107

5.3 Spark Streaming的变换和动作109

5.3.1 union109

5.3.2 join109

5.3.3 transform操作109

5.3.4 updateStateByKey109

5.3.5 mapWithState110

5.3.6窗口操作110

5.3.7输出操作111

5.4输入数据源和输出存储111

5.4.1基本数据源112

5.4.2高级数据源112

5.4.3自定义数据源112

5.4.4接收器的可靠性112

5.4.5输出存储113

5.5使用Kafka和HBase的Spark Streaming113

5.5.1基于接收器的方法114

5.5.2直接方法(无接收器)116

5.5.3与HBase集成117

5.6 Spark Streaming的高级概念118

5.6.1使用DataFrame118

5.6.2 MLlib操作119

5.6.3缓存/持久化119

5.6.4 Spark Streaming中的容错机制119

5.6.5 Spark Streaming应用程序的性能调优121

5.7监控应用程序122

5.8结构化流概述123

5.8.1结构化流应用程序的工作流123

5.8.2流式Dataset和流式DataFrame125

5.8.3流式Dataset和流式DataFrame的操作126

5.9小结129

第6章 利用Spark和Hadoop的笔记本与数据流130

6.1基于网络的笔记本概述130

6.2 Jupyter概述131

6.2.1安装Jupyter132

6.2.2用Jupyter进行分析134

6.3 Apache Zeppelin概述135

6.3.1 Jupyter和Zeppelin对比136

6.3.2安装Apache Zeppelin137

6.3.3使用Zeppelin进行分析139

6.4 Livy REST作业服务器和Hue笔记本140

6.4.1安装设置Livy服务器和Hue141

6.4.2使用Livy服务器142

6.4.3 Livy和Hue笔记本搭配使用145

6.4.4 Livy和Zeppelin搭配使用148

6.5用于数据流的Apache NiFi概述148

6.5.1安装Apache NiFi148

6.5.2把NiFi用于数据流和分析149

6.6小结152

第7章 利用Spark和Hadoop进行机器学习153

7.1机器学习概述153

7.2在Spark和Hadoop上进行机器学习154

7.3机器学习算法155

7.3.1有监督学习156

7.3.2无监督学习156

7.3.3推荐系统157

7.3.4特征提取和变换157

7.3.5优化158

7.3.6 Spark MLlib的数据类型158

7.4机器学习算法示例160

7.5构建机器学习流水线163

7.5.1流水线工作流的一个示例163

7.5.2构建一个ML流水线164

7.5.3保存和加载模型166

7.6利用H2O和Spark进行机器学习167

7.6.1为什么使用Sparkling Water167

7.6.2 YARN上的一个应用程序流167

7.6.3 Sparkling Water入门168

7.7 Hivemall概述169

7.8 Hivemall for Spark概述170

7.9小结170

第8章 利用Spark和Mahout构建推荐系统171

8.1构建推荐系统171

8.1.1基于内容的过滤172

8.1.2协同过滤172

8.2推荐系统的局限性173

8.3用MLlib实现推荐系统173

8.3.1准备环境174

8.3.2创建RDD175

8.3.3利用DataFrame探索数据176

8.3.4创建训练和测试数据集178

8.3.5创建一个模型178

8.3.6做出预测179

8.3.7利用测试数据对模型进行评估179

8.3.8检查模型的准确度180

8.3.9显式和隐式反馈181

8.4 Mahout和Spark的集成181

8.4.1安装Mahout181

8.4.2探索Mahout shell182

8.4.3利用Mahout和搜索工具构建一个通用的推荐系统186

8.5小结189

第9章 利用GraphX进行图分析190

9.1图处理概述190

9.1.1图是什么191

9.1.2图数据库和图处理系统191

9.1.3 GraphX概述192

9.1.4图算法192

9.2 GraphX入门193

9.2.1 GraphX的基本操作193

9.2.2图的变换198

9.2.3 GraphX算法202

9.3利用GraphX分析航班数据205

9.4 GraphFrames概述209

9.4.1模式发现211

9.4.2加载和保存GraphFrames212

9.5小结212

第10章 利用SparkR进行交互式分析213

10.1 R语言和SparkR概述213

10.1.1 R语言是什么214

10.1.2 SparkR概述214

10.1.3 SparkR架构216

10.2 SparkR入门216

10.2.1安装和配置R216

10.2.2使用SparkR shell218

10.2.3使用SparkR脚本222

10.3在SparkR里使用DataFrame223

10.4在RStudio里使用SparkR228

10.5利用SparkR进行机器学习230

10.5.1利用朴素贝叶斯模型230

10.5.2利用K均值模型232

10.6在Zeppelin里使用SparkR233

10.7小结234

热门推荐