本书共分10个模块,各模块自成体系又相互关联,从大数据生态系统引申出Hadoop生态系统,然后依次介绍Hadoop的安装与基本配置、Hadoop文件系统、基于Shell和Java API操作HDFS、MapReduce和YARN技术、分布式数据仓库——Hive技术、分布式协调服务——ZooKeeper技术、分布式数据库——HBase技术、Hadoop中的数据迁移工具——Sqoop技术、Spark的安装与基础应用。
本书适合作为大数据技术与应用等专业相关课程的教材,也可作为从事大数据开发工作的技术人员的参考用书。