Hadoop 套件匹配问题

因为Hadoop相关组件很多,有hadoop,hbase,hive,pig等,但没有发行套件。而每个组件的开发进度不一,一些组件还没有稳定,版本号很低,经常遇到组件之间不配套引发的莫名其妙的问题。

由于hadoop是这套系统的核心,可能需要找一个大家都兼容的版本。
目前hadoop已经出了一个1.03和2.0 alpha的版本,这是所有组件中版本最高的。但其他组件都没有跟上,为了兼容可能得花很大精力。我们以hadoop为核心,看目前2012.6.18为止,各组件应该采用什么版本,配合较好。

Hadoop:23 May, 2012: Release 2.0.0-alpha available

Hadoop:27 December, 2011: release 1.0.0 available
hbase:Release Date: 14/May/12 0.94

zookeeper:20 March, 2012: release 3.3.5 available
hive:30 April, 2012: release 0.9.0 available
pig:25 April, 2012: release 0.10.0 available

配套:
hbase 0.92 – hadoop 0.22
hbase 0.94 – hadoop 0.23
hive 0.9 – hadoop 0.20.x
pig 0.10 – hadoop 0.20.x

可见,当前hadoop周边配套组件版本落后hadoop较大。就低不就高,最好选hadoop 0.20.x版本作为测试的核心,以减少麻烦。未来再逐步往最新版本上迁移。hadoop 2.0版本将解决namenode的单点问题,并使用google protobuf来封装传递数据。

版本配套选择:
hadoop 0.20.x – hbase 0.92 – hive 0.9 – pig 0.10 – zookeeper-3.3.4 – jdk 1.7.0

2019-03-28 13:40

知识点

相关教程

更多

Hadoop和Couchbase结合使用的技巧

Hadoop 和数据处理 Hadoop 将许多重要特性结合在一起,这使 Hadoop 对于将大量数据分解为更小、实用的数据块非常有用。 Hadoop 的主要组件是 HDFS 文件系统,它支持将信息分布到整个集群中。对于使用这种分布格式存储的信息,可以通过一个名为 MapReduce 的系统在每个集群节点上进行单独处理。MapReduce 进程将存储在 HDFS 文件系统中的信息转换为更小的、经过处

Hadoop的环境搭建和编写一个简单的hadoop job

Hadoop 入门: 0hadoop的简要介绍 google之所以能够成功,一个重要的技术就是map-reduce。map-reduce是google为大规模的、分布式数据进行处理的一种编程模式。 而本文介绍的hadoop是apache的开源map-reduce实现。本文不过多的介绍map-reduce,主要精力放在hadoop的配置和编写 一个简单的haoop程序上 hadoop服务器的安装:

Hadoop相关的考题

//Hadoop基础 Doug Cutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是 A. Hadoop B. Nutch C. Lucene D. Solr 答案:D 配置Hadoop时,JAVA_HOME包含在哪一个配置文件中 A. hadoop-default.xml B. hadoop-env.sh C. hadoop-site.xml D. configura

Hadoop API 学习笔记

一、从Hadoop URL 中读取数据 使用java.net.URL对象打开一个数据流 InputStream in = new URL("hdfs://host/path").openStream(); 二、FileSystem 对象 取得FileSystem实例有两种静态方法: (1)public static FileSystem get(Configuration co

使用Ganglia监控Hadoop集群

0 环境  1 安装Ganglia         1.1 添加EPEL软件仓库  1.2 Ganglia服务器端安装  1.3 Ganglia客户端安装    2 配置Ganglia         2.1 监控端配置  2.2 服务器端  2.3服务器端Apache配置    3 配置Hadoop metrics         0环境  操作系统:CentOS6.2 hadoop版本:had

荐 中文分词算法 之 基于词典的正向最大匹配算法

基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。 算法流程图如下: Java实现代码如下: /***基于词典的正向最大匹配算法*@author杨尚川*/publicclassWordSeg{privatestaticfinalList<String>DIC=newArrayList<>();privatestati

Hadoop API 学习小结

一、从Hadoop URL 中读取数据 使用java.net.URL对象打开一个数据流 InputStream in = new URL("hdfs://host/path").openStream(); 二、FileSystem 对象 取得FileSystem实例有两种静态方法: (1)public static FileSystem get(Configuration co

Hadoop安装指南

支持平台       GNU/Linux是产品开发和运行的平台。 Hadoop已在有2000个节点的GNU/Linux主机组成的集群系统上得到验证。  Win32平台是作为开发平台支持的。由于分布式操作尚未在Win32平台上充分测试,所以还不作为一个生产平台被支持。     所需软件    Linux和Windows所需软件包括:     JavaTM1.5.x,必须安装,建议选择Sun公司发行的

Hadoop实战实例

Hadoop是Google   MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样,MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或

Hadoop 应用总结

参考网络众多资料,结合自己的实践,记录了Hadoop hdfs应用的一些注意事项和知识点,希望对您有所帮助。 一、 Hadoop伪分布配置      1.在conf/hadoop-env.sh文件中增加:export JAVA_HOME=/home/Java/jdk1.6      2. 在conf/core-site.xml文件中增加如下内容: <!--fs.default.name- 这

HPCC 和 Hadoop 的详细比较

件环境 通常使用基于Intel或AMD CPU的刀片服务器来构建集群系统,为了降低成本可以使用已经停止销售的过时硬件。节点有本地内存和硬盘,通过高速交换机相连(通常为千兆交换机),如果集群节点很多,也可以使用分层交换。集群内的节点是对等的(所有资源可以简化为相同配置),但这一点并非必须。 操作系统 Linux或windows 系统配置 实现HPCC集群用两种配置:数据加工(Thor)类似于Hado

php匹配问题

文章内容:我是中国人,我喜欢上javaeye  填写的标签:中国  显示的效果是:我是 <a href="china.com">中国 </a>人,我喜欢上javaeye  在显示的时候,我用正则表达式进行匹配是可以实现,但是如果文章中有图片的话,如 <img src="photo.jpg" alt="这是一张中国风景图

有关Hadoop的六大误解

Hadoop是一种用于存储和分析大型数据集开源软件框架,可处理分布在多个现有服务器中的数据。Hadoop适合处理来自手机、电子邮件、社交媒体、传感器网络和其它不同渠道的多样化、大负荷的数据,因此通常被认为是一种大数据操作系统。 迄今为止,Hadoop和大数据实际上是同义词。然而随着大数据的炒作不断升温,出现了很多对Hadoop如何应用于大数据的误解。 Hadoop是一种用于存储和分析大型数据集开源

Linux下单机模式的Hadoop部署

需要软件: ssh:fedore 9 自带。 jdk:http://java.sun.com/javase/downloads/index.jsp,下最近版本jdk-6u18-linux-i586 Hadoop:http://apache.etoak.com/hadoop/core/hadoop-0.20.1/,最新版本0.20.1,据说这个版本jdk必须1.6以上。 三种运行模式: 单机(非分布

C++ Hadoop实战备忘

前言:Hadoop用于解决大数据处理问题。看到这么火,咱也来凑把热闹,瞧瞧到底是什么神奇的技术。 实战过程,还是很波折。毕竟,对这些Hadoop的命令不是很熟。 所幸,天不负有心人,终于跑通了第一个示例。 对我而言,这个的意义,不亚于输出了开天辟地的“hello world”。 配置过程中出错时,不要泄气,一般是由于路径配置不对引起,可与本文档对比查错。 操作系统:Ubuntu 10.04 LTS

最新教程

更多

java线程状态详解(6种)

java线程类为:java.lang.Thread,其实现java.lang.Runnable接口。 线程在运行过程中有6种状态,分别如下: NEW:初始状态,线程被构建,但是还没有调用start()方法 RUNNABLE:运行状态,Java线程将操作系统中的就绪和运行两种状态统称为“运行状态” BLOCK:阻塞状态,表示线程阻塞

redis从库只读设置-redis集群管理

默认情况下redis数据库充当slave角色时是只读的不能进行写操作,如果写入,会提示以下错误:READONLY You can't write against a read only slave.  127.0.0.1:6382> set k3 111  (error) READONLY You can't write against a read only slave. 如果你要开启从库

Netty环境配置

netty是一个java事件驱动的网络通信框架,也就是一个jar包,只要在项目里引用即可。

Netty基于流的传输处理

​在TCP/IP的基于流的传输中,接收的数据被存储到套接字接收缓冲器中。不幸的是,基于流的传输的缓冲器不是分组的队列,而是字节的队列。 这意味着,即使将两个消息作为两个独立的数据包发送,操作系统也不会将它们视为两个消息,而只是一组字节(有点悲剧)。 因此,不能保证读的是您在远程定入的行数据

Netty入门实例-使用POJO代替ByteBuf

使用TIME协议的客户端和服务器示例,让它们使用POJO来代替原来的ByteBuf。

Netty入门实例-时间服务器

Netty中服务器和客户端之间最大的和唯一的区别是使用了不同的Bootstrap和Channel实现

Netty入门实例-编写服务器端程序

channelRead()处理程序方法实现如下

Netty开发环境配置

最新版本的Netty 4.x和JDK 1.6及更高版本

电商平台数据库设计

电商平台数据库表设计:商品分类表、商品信息表、品牌表、商品属性表、商品属性扩展表、规格表、规格扩展表

HttpClient 上传文件

我们使用MultipartEntityBuilder创建一个HttpEntity。 当创建构建器时,添加一个二进制体 - 包含将要上传的文件以及一个文本正文。 接下来,使用RequestBuilder创建一个HTTP请求,并分配先前创建的HttpEntity。

MongoDB常用命令

查看当前使用的数据库    > db    test  切换数据库   > use foobar    switched to db foobar  插入文档    > post={"title":"领悟书生","content":"这是一个分享教程的网站","date":new

快速了解MongoDB【基本概念与体系结构】

什么是MongoDB MongoDB is a general purpose, document-based, distributed database built for modern application developers and for the cloud era. MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。

windows系统安装MongoDB

安装 下载MongoDB的安装包:mongodb-win32-x86_64-2008plus-ssl-3.2.10-signed.msi,按照提示步骤安装即可。 安装完成后,软件会安装在C:\Program Files\MongoDB 目录中 我们要启动的服务程序就是C:\Program Files\MongoDB\Server\3.2\bin目录下的mongod.exe,为了方便我们每次启动,我

Spring boot整合MyBatis-Plus 之二:增删改查

基于上一篇springboot整合MyBatis-Plus之后,实现简单的增删改查 创建实体类 添加表注解TableName和主键注解TableId import com.baomidou.mybatisplus.annotations.TableId;
import com.baomidou.mybatisplus.annotations.TableName;
import com.baom

分布式ID生成器【snowflake雪花算法】

基于snowflake雪花算法分布式ID生成器 snowflake雪花算法分布式ID生成器几大特点: 41bit的时间戳可以支持该算法使用到2082年 10bit的工作机器id可以支持1024台机器 序列号支持1毫秒产生4096个自增序列id 整体上按照时间自增排序 整个分布式系统内不会产生ID碰撞 每秒能够产生26万ID左右 Twitter的 Snowflake分布式ID生成器的JAVA实现方案