内容简介
全书共16章,3个附录,涉及的主题包括:Haddoop简介;MapReduce简介;Hadoop分布式文件系统;Hadoop的I/O、MapReduce应用程序开发;MapReduce的工作机制等。
目录
�?章�?初识Hadoop
数据!数据!
数据存储与分�?br /> 与其他系统相�?br /> 关系型数据库管理系统
网格计算
志愿计算
1.3.4 Hadoop 发展简�?br /> Apache Hadoop和Hadoop生态圈
�?章�?关于MapReduce
一个气象数据集
数据的格�?br /> 使用Unix工具进行数据分析
使用Hadoop分析数据
map阶段和reduce阶段
横向扩展
合并函数
运行一个分布式的MapReduce作业
Hadoop的Streaming
Ruby版本
Python版本
Hadoop Pipes
编译运行
�?章�?Hadoop分布式文件系�?br /> HDFS的设�?br /> HDFS的概�?br /> 数据�?br /> namenode和datanode
命令行接�?br /> 基本文件系统操作
Hadoop文件系统
接口
Java接口
从Hadoop URL中读取数�?br /> 通过FileSystem API读取数据
写入数据
目录
查询文件系统
删除数据
数据�?br /> 文件读取剖析
文件写入剖析
一致模�?br /> 通过 distcp并行拷贝
保持 HDFS 集群的均�?br /> Hadoop的归档文�?br /> 使用Hadoop归档文件
不足
�?章�?Hadoop I/O
数据完整�?br /> HDFS的数据完整�?br /> LocalFileSystem
ChecksumFileSystem
压缩
codec
压缩和输入切�?br /> 在MapReduce中使用压�?br /> 序列�?br /> Writable接口
Writable�?br /> 实现定制的Writable类型
序列化框�?br /> Avro
依据文件的数据结�?br /> 写入SequenceFile
MapFile
�?章�?MapReduce应用开�?br /> 配置API
合并多个源文�?br /> 可变的扩�?br /> ..
书摘
�?br /> Hadoop起源于Nutch项目。我们曾尝试构建一个开源的Web搜索引擎,但是始终无法有效地将计算任务分配到多台(也就寥寥几台)计算机上。直到谷歌公司公布了GFS和MapReduce的相关论文,我们的思路才清晰起来。他们设计的系统已可精准地解决我们在Nutch项目中面临的困境。因此,我们(两个半工制的人)也尝试重建这些系统,将其作为Nutch的一部分�?br /> 我们成功地在20多台机器上运行Nutch。但是我们很快就意识到,只有在几千台机器上运行Nutch才能够应付Web的超大规模,但这实在超出两个半工制的开发者的应对能力�?br /> 几乎就在那个时候,雅虎公司也对这项技术产生了浓厚的兴趣,并迅速组建了一支开发团队。我有幸成为一员。我们剥离了Nutch的分布式计算模块,并称之为Hadoop。在雅虎的帮助下,Hadoop很快就能够真正处理Web数据�?br /> �?006年起,TomWhite就对hadoop贡献良多。我早就是通过他的一篇关于Nutch的非常优秀的论文认识了他,在这篇论文中,他以一种优美而清晰的笔调清晰地阐述了深刻的想法。很快,我发现他开发的软件也是同样的优美和易于理解�?br /> Tom从一开始就乐于站在用户和项目的角度来考虑问题。与其他开源程序开发者不同,Tom不会刻意调整系统以更加符合他个人的需要,而是尽可能地让所有用户用起来都很方便�?br /> Tom最初专注于如何让Hadoop在亚马逊公司的EC2和S3服务上运行良好。之后,他转而解决更为广泛的难题,包括如何提高MapReduceAPI、如何加强网站、如何设计对象序列化框架等。在所有工作中,Tom都非常精准地阐明了想法。在很短的时间里,Tom进入了Hadoop委员会,并在不久之后成为Hadoop项目管理委员会的一员�?br /> 现在,Tom是一个受人尊敬的Hadoop开发者社区的高级成员。尽管他是这个项目的多个技术领域的专家,但是不得不说他的专长是让Hadoop易于理解和使用�?br /> 因此,当得知Tom有意写一本关于Hadoop的书时,我非常高兴。是的,又有谁能够比他更胜任呢?现在,你们有机会向这位大师学习Hadoop——不单单是技术..