图书介绍

大数据离线分析2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

大数据离线分析
  • 傅德谦著 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302483298
  • 出版时间:2017
  • 标注页数:170页
  • 文件大小:20MB
  • 文件页数:182页
  • 主题词:数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据离线分析PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

绪论1

第1章 走进Hive3

1.1 Hive简介3

1.1.1 Hive发展史3

1.1.2体系结构4

1.2 Hive的安装部署5

1.2.1安装配置Hive5

1.2.2启动Hive8

1.3 Hive命令9

1.3.1 Hive命令行选项9

1.3.2 CLI命令行界面10

1.3.3 Hive中CLI命令的快速编辑11

1.3.4 Hive中的脚本11

1.3.5 dfs命令的执行13

1.4数据类型和文件格式14

1.4.1基本数据类型14

1.4.2集合数据类型15

1.4.3文本文件数据编码16

本章小结18

习题18

第2章HiveQL数据定义20

2.1数据库的创建与查询20

2.2数据库的修改与删除21

2.3创建表22

2.3.1管理表23

2.3.2外部表23

2.3.3查看表结构24

2.4修改表25

2.5删除表26

2.6分区表27

2.6.1外部分区表28

2.6.2自定义表的存储格式30

2.6.3增加、修改和删除分区表31

2.7桶表31

本章小结32

习题33

第3章HiveQL数据操作34

3.1数据加载与导出34

3.1.1数据加载34

3.1.2数据导出36

3.2数据查询37

3.2.1 SELECT...FROM语句37

3.2.2 WHERE语句40

3.2.3 GROUP BY语句与HAVING语句42

3.2.4 JOIN语句43

3.2.5 ORDER BY语句和SORT BY语句46

3.2.6 CLUSTER BY语句47

3.2.7 UNION ALL语句48

3.3抽样查询48

3.3.1数据块抽样49

3.3.2分桶表的输入裁剪49

本章小结51

习题51

第4章HiveQL视图和索引52

4.1视图52

4.1.1创建视图52

4.1.2显示视图53

4.1.3删除视图54

4.2索引54

4.2.1创建索引55

4.2.2重建索引55

4.2.3显示索引56

4.2.4删除索引56

本章小结57

习题57

第5章Hive的函数58

5.1函数简介58

5.1.1发现和描述函数58

5.1.2调用函数59

5.1.3标准函数59

5.1.4聚合函数61

5.1.5表生成函数67

5.2用户自定义函数UDF68

5.3用户自定义聚合函数UDAF72

5.4用户自定义表生成函数UDTF74

5.5 UDF的标注75

5.5.1定数性标注(deterministic)76

5.5.2状态性标注(stateful)76

5.5.3唯一性标注(distinctLike)76

本章小结76

习题77

第6章 认识Pig78

6.1初识Pig78

6.1.1 Pig是什么78

6.1.2 Pig的应用场景78

6.1.3 Pig的设计思想79

6.1.4 Pig的发展简史80

6.2安装、运行Pig80

6.2.1安装Pig80

6.2.2运行Pig81

本章小结82

习题82

第7章Pig基础84

7.1命令行工具Grunt84

7.1.1输入Pig Latin脚本84

7.1.2使用HDFS命令85

7.1.3控制Pig87

7.2 Pig数据类型88

7.2.1基本类型88

7.2.2复杂类型89

7.2.3 NULL值89

7.2.4类型转换90

本章小结92

习题92

第8章Pig Latin编程93

8.1 Pig Latin介绍93

8.1.1基础知识93

8.1.2输入和输出94

8.2关系操作95

8.2.1 foreach语句96

8.2.2 filter语句96

8.2.3 group语句97

8.2.4 order语句97

8.2.5 distinct语句98

8.2.6 join语句98

8.2.7 limit语句98

8.2.8 sample语句99

8.2.9 parallel语句99

8.3用户自定义函数UDF101

8.3.1注册UDF102

8.3.2 define命令和UDF103

8.3.3调用Java函数104

8.4开发工具104

8.4.1 describe104

8.4.2 explain105

8.4.3 illustrate107

8.4.4 Pig统计信息109

8.4.5 M/R作业状态信息111

8.4.6调试技巧112

本章小结113

习题113

第9章 数据ETL工具Sqoop115

9.1安装Sqoop115

9.2数据导入117

9.2.1导入实例118

9.2.2导入数据的使用119

9.2.3数据导入代码生成120

9.3数据导出121

9.3.1导出实例121

9.3.2导出和SequenceFile123

本章小结123

习题124

第10章Hadoop工作流引擎Oozie125

10.1 Oozie是什么125

10.2 Oozie的安装125

10.3 Oozie的编写与运行131

10.3.1 Workflow组件131

10.3.2 Coordinator组件133

10.3.3 Bundle组件134

10.3.4作业的部署与执行134

10.3.5向作业传递参数136

10.4 Oozie控制台136

10.4.1控制台界面136

10.4.2获取作业信息137

10.5 Oozie的高级特性139

10.5.1自定义Oozie Workflow139

10.5.2使用Oozie JavaAPI141

本章小结143

习题143

第11章 离线计算实例145

11.1微博历史数据分析145

11.1.1数据结构145

11.1.2需求分析146

11.1.3需求实现146

11.2电商销售数据分析160

11.2.1数据结构160

11.2.2需求分析161

11.2.3需求实现161

本章小结169

参考文献170

热门推荐