图书介绍

Hadoop大数据处理技术基础与实践2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

安俊秀，王鹏，靳宇倡编著著
出版社：北京：人民邮电出版社
ISBN：9787115400741
出版时间：2015
标注页数：291页
文件大小：173MB
文件页数：301页
主题词：数据处理软件－高等学校－教材

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：b95d5910eaa7306b71e7cdd2338a8827

下载说明

Hadoop大数据处理技术基础与实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章Hadoop概述1

1.1 Hadoop来源和动机1

1.2 Hadoop体系架构4

1.3 Hadoop与分布式开发6

1.4 Hadoop行业应用案例分析8

1.4.1 Hadoop在门户网站的应用8

1.4.2 Hadoop在搜索引擎中的应用9

1.4.3 Hadoop在电商平台中的应用9

1.5小结10

习题10

第2章Hadoop安装与配置管理11

2.1实验准备11

2.2配置一个单节点环境13

2.2.1运行一个虚拟环境CentOS13

2.2.2配置网络14

2.2.3创建新的用户组和用户18

2.2.4上传文件到CentOS并配置Java和Hadoop环境20

2.2.5修改Hadoop2.2配置文件24

2.2.6修改CentOS主机名28

2.2.7绑定hostname与IP29

2.2.8关闭防火墙29

2.3节点之间的免密码通信30

2.3.1什么是SSH30

2.3.2复制虚拟机节点30

2.3.3配置SSH免密码登录31

2.4 Hadoop的启动和测试34

2.4.1格式化文件系统34

2.4.2启动HDFS34

2.4.3启动Yarn35

2.4.4管理JobHistory Server36

2.4.5集群验证36

2.4.6需要了解的默认配置37

2.5动态管理节点38

2.5.1动态增加和删除datanode38

2.5.2动态修改TaskTracker39

2.6小结40

习题41

第3章HDFS技术42

3.1 HDFS的特点42

3.2 HDFS架构43

3.2.1数据块44

3.2.2元数据节点与数据节点45

3.2.3辅助元数据节点47

3.2.4安全模式48

3.2.5负载均衡49

3.2.6垃圾回收49

3.3 HDFSShell命令50

3.3.1文件处理命令50

3.3.2 dfsadmin命令56

3.3.3 namenode命令58

3.3.4 fsck命令58

3.3.5 pipes命令59

3.3.6 job命令59

3.4 HDFS中的Java API的使用60

3.4.1上传文件62

3.4.2新建文件63

3.4.3查看文件详细信息65

3.4.4下载文件66

3.5 RPC通信67

3.5.1反射机制68

3.5.2代理模式与动态代理71

3.5.3 Hadoop RPC机制与源码分析74

3.6小结78

习题78

第4章MapReduce技术79

4.1什么是MapReduce79

4.2 MapReduce编程模型81

4.2.1 MapReduce编程模型简介81

4.2.2 MapReduce简单模型82

4.2.3 MapReduce复杂模型82

4.2.4 MapReduce编程实例——WordCount83

4.3 MapReduce数据流84

4.3.1分片、格式化数据源（InputFonnat）84

4.3.2 Map过程86

4.3.3 Shuffle过程86

4.3.4 Reduce过程91

4.3.5文件写入（OutputFormat）92

4.4 MapReduce任务流程92

4.4.1 MRv2基本组成92

4.4.2 Yarn基本组成93

4.4.3任务流程93

4.5 MapReduce的Streaming和Pipe94

4.5.1 Hadoop Streaming95

4.5.2 Hadoop Pipe96

4.6 MapReduce性能调优98

4.7 MapReduce实战100

4.7.1快速入门100

4.7.2简单使用Eclipse插件113

4.8小结122

习题123

第5章Hadoop I／O操作124

5.1 HDFS数据完整性124

5.1.1校验和125

5.1.2 DataBIockScanner126

5.2基于文件的数据结构126

5.2.1 SequenceFile存储126

5.2.2 MapFile131

5.2.3 SequenceFile转换为MapFile135

5.3压缩136

5.3.1 Codec136

5.3.2本地库139

5.3.3如何选择压缩格式140

5.4序列化141

5.4.1 Writable接口142

5.4.2 WritableComparable143

5.4.3 Hadoop writable基本类型144

5.4.4自定义writable类型150

5.5小结152

习题152

第6章海量数据库HBase技术153

6.1初识HBase153

6.2 HBase表视图154

6.2.1概念视图154

6.2.2物理视图155

6.3 HBase物理存储模型156

6.4安装HBase163

6.4.1 HBase单节点安装163

6.4.2 HBase伪分布式安装166

6.4.3 HBase完全分布式安装167

6.5 HBase Shell169

6.5.1 general一般操作172

6.5.2 ddl操作172

6.5.3 dml操作175

6.6小结178

习题178

第7章ZooKeeper技术179

7.1分布式协调技术179

7.2实现者180

7.3角色180

7.4 ZooKeeper数据模型181

7.4.1 Znode181

7.4.2 ZooKeeper中的时间182

7.4.3 ZooKeeper节点属性182

7.4.4 watch触发器183

7.5 ZooKeeper集群安装184

7.6 ZooKeeper主要Shell操作186

7.7典型运用场景188

7.7.1数据发布与订阅（Data pulica-tion and subscription）188

7.7.2统一命名服务（Name Service）189

7.7.3分布通知／协调（Distribution of notification／coordination）190

7.8小结191

习题191

第8章分布式数据仓库技术Hive192

8.1 Hive出现原因193

8.2 Hive服务组成193

8.3 Hive安装195

8.3.1 Hive基本安装195

8.3.2 MySQL安装195

8.3.3 Hive配置196

8.4 Hive Shell介绍199

8.5 HiveQL详解200

8.5.1 Hive管理数据方式201

8.5.2 Hive表DDL操作203

8.5.3 Hive表DML操作213

8.6小结217

习题217

第9章分布式数据分析工具Pig218

9.1 Pig的安装和配置219

9.2 Pig基本概念219

9.3 Pig保留关键字221

9.4使用Pig223

9.4.1 Pig命令行选项223

9.4.2 Pig的两种运行模式223

9.4.3 Pig相关Shell命令详解224

9.4.4 Pig程序运行方式228

9.4.5 Pig输入与输出230

9.5模式（schemas）232

9.6 Pig相关函数详解240

9.7小结245

习题245

第10章Hadoop与RDBMS数据迁移工具Sqoop246

10.1 Sqoop基本安装247

10.2 Sqoop配置247

10.3 Sqoop相关功能248

10.3.1 sqoop-import操作251

10.3.2 sqoop-import-all-tables操作256

10.3.3 sqoop-export操作258

10.3.4 sqoop-list-databases操作260

10.3.5 sqoop-list-tables操作261

10.4 Hive、 Pig和Sqoop三者之间的关系261

10.5小结262

习题262

第11章Hadoop1.x与Hadoop2.x的比较263

11.1 Hadoop发展历程263

11.2 Hadoop 1.x与Hadoop 2.x之间的差异264

11.2.1 Hadoop 1与Hadoop 2体系结构对比265

11.2.2 Hadoop 1与Hadoop2之间配置差异266

11.2.3 YARN267

11.2.4 HDFS联邦机制（Federation）269

11.3小结272

习题272

第12章Hadoop实时数据处理技术273

12.1 Storm-YARN概述274

12.1.1 Apache Storm组成结构274

12.1.2 Storm数据流274

12.1.3 Storm-YARN产生背景276

12.1.4 Storm-YARN功能介绍276

12.2 Apache Spark概述277

12.2.1 Apache Spark组成结构277

12.2.2 Apache Spark扩展功能278

12.3 Storm与Spark的比较279

12.4小结279

习题280

附录A使用Eclipse提交H adoop任务相关错误解决281

附录B常用Pig内置函数简介283