QQ在线客服
免费咨询热线
400-615-1233
工作时间-工作日
8:30-17:30

Hadoop大数据开发实例教程(双色)

  • 类  别:计算机系列
  • 书  名:Hadoop大数据开发实例教程(双色)
  • 主  编:喻衣鑫 张鲁燕
  • 定  价:43
  • 开  本:16开
  • 印刷方式:
  • 页  数:224
  • 时  间:2024年7月
  • 出  版  社:上海交通大学出版社
  • 书  号:978-7-313-24061-3

内容摘要

        本书共分10个模块,各模块自成体系又相互关联,从大数据生态系统引申出Hadoop生态系统,然后依次介绍Hadoop的安装与基本配置、Hadoop文件系统、基于Shell和Java API操作HDFS、MapReduce和YARN技术、分布式数据仓库——Hive技术、分布式协调服务——ZooKeeper技术、分布式数据库——HBase技术、Hadoop中的数据迁移工具——Sqoop技术、Spark的安装与基础应用。
        本书适合作为大数据技术与应用等专业相关课程的教材,也可作为从事大数据开发工作的技术人员的参考用书。

目录

模块1 大数据生态系统
 1.1了解大数据
  1.1.1大数据的产生
  1.1.2大数据的概念
  1.1.3大数据的特征
  1.1.4大数据应用案例
  1.1.5“物、云、大、智”的关系
 1.2Hadoop简介
  1.2.1认识Hadoop
  1.2.2Hadoop核心组件
 1.3实训1:收集Hadoop相关案例
模块2 Hadoop的安装与基本配置
 2.1Linux环境搭建
  2.1.1安装部署虚拟机
  2.1.2安装系统与远程连接
  2.1.3配置网络服务
  2.1.4安装并配置JDK
 2.2Hadoop环境变量配置
  2.2.1下载及解压Hadoop压缩包
  2.2.2设置Hadoop环境变量
  2.2.3修改hadoopenv.sh
  2.2.4规划部署Hadoop实验环境
 2.3Hadoop的安装模式
  2.3.1单机安装与配置
  2.3.2伪分布式安装与配置
  2.3.3完全分布式安装与配置
 2.4Hadoop的格式化与启动验证
  2.4.1创建并格式化HDFS目录
  2.4.2确认集群服务器之间可SSH免密登录
  2.4.3启动HDFS集群
  2.4.4Web验证集群HDFS
 2.5实训2:Hadoop的安装与基本配置——伪分布式
模块3 Hadoop文件系统
 3.1HDFS简介
 3.2HDFS架构
  3.2.1block
  3.2.2NameNode
  3.2.3DataNode
  3.2.4SecondaryNameNode
  3.2.5客户端
  3.2.6副本存放策略
  3.2.7安全模式
 3.3HDFS读写文件流程
  3.3.1HDFS写文件流程
  3.3.2HDFS读文件流程
 3.4HDFS接口
  3.4.1了解四类接口
  3.4.2HDFS Web接口下的验证
 3.5实训3:Hadoop的安装与基本配置——完全分布式
模块4 基于Shell和Java API操作HDFS
 4.1基于Shell的操作
  4.1.1HDFS文件级命令
  4.1.2HDFS系统级命令
 4.2Eclipse的安装、配置与应用
  4.2.1Eclipse的安装与配置
  4.2.2DFS Locations操作HDFS
  4.2.3Java API连接HDFS
 4.3基于Java API的操作
  4.3.1上传文件/目录
  4.3.2下载文件/目录
  4.3.3创建空白文件/目录
  4.3.4浏览文件/目录
  4.3.5删除文件/目录
 4.4实训4:HDFS文件操作
模块5 MapReduce和YARN技术
  5.1MapReduce简介
  5.2MapReduce程序运行——WordCount实例
  5.3MapReduce执行过程——WordCount过程分析
 5.4MapReduce编程基础——WordCount代码分析
  5.4.1Mapper类
  5.4.2Reducer类
  5.4.3主函数
  5.4.4Mapper输入和Reducer输出类型
 5.5分布式资源管理器YARN
  5.5.1ResourceManager与NodeManager进程
  5.5.2YARN的工作流程
  5.5.3YARN的部署与启动
 5.6MapReduce编程实例
  5.6.1单词计数
  5.6.2数据排序
  5.6.3数据去重
  5.6.4利用Eclipse调试MapReduce
 5.7实训5:部署并应用MapReduce和YARN
模块6 分布式数据仓库——Hive技术
 6.1了解Hive
  6.1.1Hive简介
  6.1.2Hive体系架构
  6.1.3Hive的数据存储
  6.1.4厘清Hive、HDFS、MySQL和MapReduce之间的关系
  6.1.5Hive部署的模式
  6.1.6内嵌模式部署
 6.2MySQL的安装与配置
  6.2.1安装与启动mariadb服务
  6.2.2MariaDB的管理
  6.2.3使用SQL命令管理数据库
  6.2.4管理数据库用户与访问权限
  6.2.5数据库的备份与恢复
 6.3Hive的安装与配置(本地独立模式)
  6.3.1下载并解压Hive
  6.3.2配置Hive
  6.3.3启动并验证Hive
  6.3.4查看Hive的元数据信息
  6.3.5slaves节点的配置
 6.4Hive的基本应用
  6.4.1Hive的两种应用模式
  6.4.2Hive表的DDL操作
  6.4.3Hive表的DML操作
  6.4.4Hive表的SQL 操作
 6.5Hive综合示例
  6.5.1统计男性和女性出现的次数
  6.5.2topN
 6.6实训6:部署并应用Hive
模块7 分布式协调服务——ZooKeeper技术
 7.1了解ZooKeeper
  7.1.1ZooKeeper简介
  7.1.2ZooKeeper架构
  7.1.3ZooKeeper数据模型
 7.2ZooKeeper的安装与配置
  7.2.1单机模式安装配置
  7.2.2伪分布式安装配置
 7.3ZooKeeper Shell
  7.3.1创建节点
  7.3.2读取节点
  7.3.3更新节点
  7.3.4删除节点
  7.3.5配额节点
  7.3.6其他命令
 7.4基于Java API的监听和CURD
  7.4.1ZooKeeper的Watcher
  7.4.2Java API对节点的基本操作
 7.5实训7:部署并应用ZooKeeper
模块8 分布式数据库——HBase技术
 8.1了解HBase
  8.1.1HBase简介
  8.1.2HBase数据模型
  8.1.3HBase使用场景
 8.2HBase的安装与配置
  8.2.1单机模式安装配置
  8.2.2伪分布式安装配置
  8.2.3完全分布式安装配置
 8.3HBase Shell的基本使用
  8.3.1登录HBase Shell
  8.3.2创建表
  8.3.3增加/修改数据
  8.3.4查询数据与修改表结构
  8.3.5删除数据与删除表
 8.4实训8:部署并应用HBase
模块9 Hadoop中的数据迁移工具——Sqoop技术
 9.1Sqoop简介
 9.2Sqoop的安装与配置
  9.2.1完全分布式实验环境部署
  9.2.2下载并解压
  9.2.3配置sqoopenv.sh
  9.2.4启动并验证Sqoop与MySQL的连接
 9.3Sqoop数据导入导出实例
  9.3.1MySQL数据与HDFS数据的互导
  9.3.2MySQL数据与Hive数据的互导
  9.3.3MySQL数据与HBase数据的互导
  9.3.4向HDFS/Hive/HBase导入查询结果
 9.4实训9:部署并应用Sqoop
模块10 Spark的安装与基础应用
 10.1了解Spark
  10.1.1Spark简介
  10.1.2Scala简介
  10.1.3Spark与Hadoop的比较
 10.2Spark集群模式和Scala
  10.2.1了解Spark的集群模式
  10.2.2Scala的安装与配置
 10.3本地模式安装与配置
  10.3.1Spark安装
  10.3.2启动pyspark交互式界面
  10.3.3本地模式运行pyspark程序
 10.4集群模式——Hadoop YARN模式的安装与配置
  10.4.1Hadoop+YARN完全分布式环境部署
  10.4.2Spark安装
  10.4.3Hadoop YARN运行pyspark程序
  10.4.4通过Web界面查看PySparkShell应用程序
 10.5集群模式——Standalone模式的安装与配置
  10.5.1Spark安装
  10.5.2Spark Standalone运行pyspark程序
  10.5.3通过Web界面查看pyspark Shell应用程序
  10.5.4Spark读取HDFS文件
 10.6配置Jupyter Notebook运行Python Spark程序
  10.6.1Anaconda的安装
  10.6.2单机模式下的Jupyter Notebook
  10.6.3YARNclient模式下的Jupyter Notebook
  10.6.4Standalone模式下的Jupyter Notebook
 10.7PySpark运行WordCount
  10.7.1创建WordCount程序
  10.7.2WordCount详细解说
  10.7.3使用sparksubmit执行案例程序
 10.8实训10:部署并应用Spark
参考文献
喻衣鑫,重庆电信职业学院副教授。