Hadoop 套件匹配问题

因为Hadoop相关组件很多，有hadoop，hbase，hive，pig等，但没有发行套件。而每个组件的开发进度不一，一些组件还没有稳定，版本号很低，经常遇到组件之间不配套引发的莫名其妙的问题。

由于hadoop是这套系统的核心，可能需要找一个大家都兼容的版本。
目前hadoop已经出了一个1.03和2.0 alpha的版本，这是所有组件中版本最高的。但其他组件都没有跟上，为了兼容可能得花很大精力。我们以hadoop为核心，看目前2012.6.18为止，各组件应该采用什么版本，配合较好。

Hadoop：23 May, 2012: Release 2.0.0-alpha available

Hadoop：27 December, 2011: release 1.0.0 available
hbase:Release Date: 14/May/12 0.94

zookeeper：20 March, 2012: release 3.3.5 available
hive:30 April, 2012: release 0.9.0 available
pig:25 April, 2012: release 0.10.0 available

配套：
hbase 0.92 – hadoop 0.22
hbase 0.94 – hadoop 0.23
hive 0.9 – hadoop 0.20.x
pig 0.10 – hadoop 0.20.x

可见，当前hadoop周边配套组件版本落后hadoop较大。就低不就高，最好选hadoop 0.20.x版本作为测试的核心，以减少麻烦。未来再逐步往最新版本上迁移。hadoop 2.0版本将解决namenode的单点问题，并使用google protobuf来封装传递数据。

版本配套选择：
hadoop 0.20.x – hbase 0.92 – hive 0.9 – pig 0.10 – zookeeper-3.3.4 – jdk 1.7.0

2019-03-28 13:40

知识点

hadoop

Hadoop的环境搭建和编写一个简单的hadoop job

Hadoop 入门： 0hadoop的简要介绍 google之所以能够成功，一个重要的技术就是map-reduce。map-reduce是google为大规模的、分布式数据进行处理的一种编程模式。 而本文介绍的hadoop是apache的开源map-reduce实现。本文不过多的介绍map-reduce，主要精力放在hadoop的配置和编写 一个简单的haoop程序上 hadoop服务器的安装：

Hadoop相关的考题

//Hadoop基础 Doug Cutting所创立的项目的名称都受到其家人的启发，以下项目不是由他创立的项目是 A． Hadoop B． Nutch C． Lucene D． Solr 答案：D 配置Hadoop时，JAVA_HOME包含在哪一个配置文件中 A． hadoop-default.xml B． hadoop-env.sh C． hadoop-site.xml D． configura

Hadoop API 学习笔记

一、从Hadoop URL 中读取数据 使用java.net.URL对象打开一个数据流 InputStream in = new URL("hdfs://host/path").openStream(); 二、FileSystem 对象 取得FileSystem实例有两种静态方法： （1）public static FileSystem get（Configuration co

使用Ganglia监控Hadoop集群

0 环境  1 安装Ganglia         1.1 添加EPEL软件仓库  1.2 Ganglia服务器端安装  1.3 Ganglia客户端安装    2 配置Ganglia         2.1 监控端配置  2.2 服务器端  2.3服务器端Apache配置    3 配置Hadoop metrics         0环境  操作系统：CentOS6.2 hadoop版本：had

荐中文分词算法之基于词典的正向最大匹配算法

基于词典的正向最大匹配算法（最长词优先匹配），算法会根据词典文件自动调整最大长度，分词的好坏完全取决于词典。 算法流程图如下： Java实现代码如下： /***基于词典的正向最大匹配算法*@author杨尚川*/publicclassWordSeg{privatestaticfinalList<String>DIC=newArrayList<>();privatestati

Hadoop API 学习小结

一、从Hadoop URL 中读取数据 使用java.net.URL对象打开一个数据流 InputStream in = new URL("hdfs://host/path").openStream(); 二、FileSystem 对象 取得FileSystem实例有两种静态方法： （1）public static FileSystem get（Configuration co

Hadoop安装指南

支持平台       GNU/Linux是产品开发和运行的平台。 Hadoop已在有2000个节点的GNU/Linux主机组成的集群系统上得到验证。  Win32平台是作为开发平台支持的。由于分布式操作尚未在Win32平台上充分测试，所以还不作为一个生产平台被支持。     所需软件    Linux和Windows所需软件包括:     JavaTM1.5.x，必须安装，建议选择Sun公司发行的

Hadoop实战实例

Hadoop是Google   MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样，MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器的失效，并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或

Hadoop 应用总结

参考网络众多资料，结合自己的实践，记录了Hadoop hdfs应用的一些注意事项和知识点，希望对您有所帮助。 一、 Hadoop伪分布配置      1.在conf/hadoop-env.sh文件中增加：export JAVA_HOME=/home/Java/jdk1.6      2. 在conf/core-site.xml文件中增加如下内容： <!--fs.default.name- 这

HPCC 和 Hadoop 的详细比较

件环境 通常使用基于Intel或AMD CPU的刀片服务器来构建集群系统，为了降低成本可以使用已经停止销售的过时硬件。节点有本地内存和硬盘，通过高速交换机相连（通常为千兆交换机），如果集群节点很多，也可以使用分层交换。集群内的节点是对等的（所有资源可以简化为相同配置），但这一点并非必须。 操作系统 Linux或windows 系统配置 实现HPCC集群用两种配置：数据加工（Thor）类似于Hado

php匹配问题

文章内容：我是中国人，我喜欢上javaeye  填写的标签：中国  显示的效果是：我是 <a href="china.com">中国 </a>人，我喜欢上javaeye  在显示的时候，我用正则表达式进行匹配是可以实现，但是如果文章中有图片的话，如 <img src="photo.jpg" alt="这是一张中国风景图

有关Hadoop的六大误解

Hadoop是一种用于存储和分析大型数据集开源软件框架，可处理分布在多个现有服务器中的数据。Hadoop适合处理来自手机、电子邮件、社交媒体、传感器网络和其它不同渠道的多样化、大负荷的数据，因此通常被认为是一种大数据操作系统。 迄今为止，Hadoop和大数据实际上是同义词。然而随着大数据的炒作不断升温，出现了很多对Hadoop如何应用于大数据的误解。 Hadoop是一种用于存储和分析大型数据集开源

Linux下单机模式的Hadoop部署

需要软件： ssh：fedore 9 自带。 jdk：http://java.sun.com/javase/downloads/index.jsp，下最近版本jdk-6u18-linux-i586 Hadoop：http://apache.etoak.com/hadoop/core/hadoop-0.20.1/，最新版本0.20.1，据说这个版本jdk必须1.6以上。 三种运行模式: 单机(非分布

C++ Hadoop实战备忘

前言：Hadoop用于解决大数据处理问题。看到这么火，咱也来凑把热闹，瞧瞧到底是什么神奇的技术。 实战过程，还是很波折。毕竟，对这些Hadoop的命令不是很熟。 所幸，天不负有心人，终于跑通了第一个示例。 对我而言，这个的意义，不亚于输出了开天辟地的“hello world”。 配置过程中出错时，不要泄气，一般是由于路径配置不对引起，可与本文档对比查错。 操作系统：Ubuntu 10.04 LTS

redis从库只读设置-redis集群管理

默认情况下redis数据库充当slave角色时是只读的不能进行写操作，如果写入，会提示以下错误：READONLY You can't write against a read only slave.  127.0.0.1:6382> set k3 111  (error) READONLY You can't write against a read only slave. 如果你要开启从库

Netty环境配置

netty是一个java事件驱动的网络通信框架，也就是一个jar包，只要在项目里引用即可。

Netty基于流的传输处理

在TCP/IP的基于流的传输中，接收的数据被存储到套接字接收缓冲器中。不幸的是，基于流的传输的缓冲器不是分组的队列，而是字节的队列。 这意味着，即使将两个消息作为两个独立的数据包发送，操作系统也不会将它们视为两个消息，而只是一组字节(有点悲剧)。 因此，不能保证读的是您在远程定入的行数据

Netty入门实例-使用POJO代替ByteBuf

使用TIME协议的客户端和服务器示例，让它们使用POJO来代替原来的ByteBuf。

Netty入门实例-时间服务器

Netty中服务器和客户端之间最大的和唯一的区别是使用了不同的Bootstrap和Channel实现

Netty入门实例-编写服务器端程序

channelRead()处理程序方法实现如下

Netty开发环境配置

最新版本的Netty 4.x和JDK 1.6及更高版本

电商平台数据库设计

电商平台数据库表设计：商品分类表、商品信息表、品牌表、商品属性表、商品属性扩展表、规格表、规格扩展表

HttpClient 上传文件

我们使用MultipartEntityBuilder创建一个HttpEntity。 当创建构建器时，添加一个二进制体 - 包含将要上传的文件以及一个文本正文。 接下来，使用RequestBuilder创建一个HTTP请求，并分配先前创建的HttpEntity。

MongoDB常用命令

查看当前使用的数据库    > db    test  切换数据库   > use foobar    switched to db foobar  插入文档    > post={"title":"领悟书生","content":"这是一个分享教程的网站","date":new

快速了解MongoDB【基本概念与体系结构】

什么是MongoDB MongoDB is a general purpose, document-based, distributed database built for modern application developers and for the cloud era. MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。

windows系统安装MongoDB

安装 下载MongoDB的安装包：mongodb-win32-x86_64-2008plus-ssl-3.2.10-signed.msi，按照提示步骤安装即可。 安装完成后，软件会安装在C:\Program Files\MongoDB 目录中 我们要启动的服务程序就是C:\Program Files\MongoDB\Server\3.2\bin目录下的mongod.exe，为了方便我们每次启动，我

Spring boot整合MyBatis-Plus 之二：增删改查

基于上一篇springboot整合MyBatis-Plus之后，实现简单的增删改查 创建实体类 添加表注解TableName和主键注解TableId import com.baomidou.mybatisplus.annotations.TableId;
import com.baomidou.mybatisplus.annotations.TableName;
import com.baom

分布式ID生成器【snowflake雪花算法】

基于snowflake雪花算法分布式ID生成器 snowflake雪花算法分布式ID生成器几大特点： 41bit的时间戳可以支持该算法使用到2082年 10bit的工作机器id可以支持1024台机器 序列号支持1毫秒产生4096个自增序列id 整体上按照时间自增排序 整个分布式系统内不会产生ID碰撞 每秒能够产生26万ID左右 Twitter的 Snowflake分布式ID生成器的JAVA实现方案

Hadoop 套件匹配问题

知识点

相关教程

Hadoop和Couchbase结合使用的技巧

Hadoop的环境搭建和编写一个简单的hadoop job

Hadoop相关的考题

Hadoop API 学习笔记

使用Ganglia监控Hadoop集群

荐中文分词算法之基于词典的正向最大匹配算法

Hadoop API 学习小结

Hadoop安装指南

Hadoop实战实例

Hadoop 应用总结

HPCC 和 Hadoop 的详细比较

php匹配问题

有关Hadoop的六大误解

Linux下单机模式的Hadoop部署

C++ Hadoop实战备忘

最新教程

java线程状态详解(6种)

redis从库只读设置-redis集群管理

Netty环境配置

Netty基于流的传输处理

Netty入门实例-使用POJO代替ByteBuf

Netty入门实例-时间服务器

Netty入门实例-编写服务器端程序

Netty开发环境配置

电商平台数据库设计

HttpClient 上传文件

MongoDB常用命令

快速了解MongoDB【基本概念与体系结构】

windows系统安装MongoDB

Spring boot整合MyBatis-Plus 之二：增删改查

分布式ID生成器【snowflake雪花算法】

Hadoop 套件匹配问题

知识点

相关教程

Hadoop和Couchbase结合使用的技巧

Hadoop的环境搭建和编写一个简单的hadoop job

Hadoop相关的考题

Hadoop API 学习笔记

使用Ganglia监控Hadoop集群

荐 中文分词算法 之 基于词典的正向最大匹配算法

Hadoop API 学习小结

Hadoop安装指南

Hadoop实战实例

Hadoop 应用总结

HPCC 和 Hadoop 的详细比较

php匹配问题

有关Hadoop的六大误解

Linux下单机模式的Hadoop部署

C++ Hadoop实战备忘

最新教程

荐中文分词算法之基于词典的正向最大匹配算法