Hadoop——Microsoft大数据战略的核心

如今,Microsoft已经将Hadoop作为自身大数据战略的核心。Microsoft此举的理由就是看中了Hadoop的潜力,在大数据领域Hadoop已经成为分布式数据处理的标准。通过集成Hadoop技术,Microsoft允许客户访问快速增长的Hadoop生态系统。同时随着越来越多善于在Hadoop平台进行开发的人才涌出,这对Hadoop发展极其有利。

Microsoft的目标不仅仅是将Hadoop集成到Windows系统之中,Microsoft有意向Apache Hadoop社区贡献代码,并希望得到社区的采纳。最终使任何人都可以在Windows上运行纯粹开源的Hadoop。

打上Microsoft烙印的Hadoop

Microsoft的Hadoop版本目前发展到“客户技术预览版”的阶段。这意味着Microsoft在接受客户群体的评价,预计正式版会在2012年中期推出。Microsoft的Hadoop基于Windows Server平台或Microsoft云平台Azure之上。在将要推出的1.0版本之中,产品核心包括MapReduce、HDFS、以及Hadoop组件Pig和Hive。

Microsoft的目标是兼容所有的Hadoop组件。Hadoop生态系统中的Zookeeper、HBase、HCatalog和Mahout等组件也会被附加到Microsoft的Hadoop版本之中。

同时Microsoft推出的Hadoop还会与自身之前的商业智能分析产品做整合。

●Hadoop连接器将使Hadoop与SQL Server和SQL Server并行数据仓库之间的通信变得简单。

●Hive的ODBC驱动,允许任何Windows应用程序访问并对Hive数据仓库进行查询。

●Excel对Hive的访问,使数据直接从Hive移动到Excel和PowerPivot。

在后端,Microsoft对Hadoop进行了其他的改善,Microsoft将整合Active Directory方便访问控制。同时集成System Center用于管理人员管理。

Microsoft官方计划在即将于6月举行的TechED大会上公布有关WAAD(Windows Azure Active Directory)的更多细节。这与Microsoft在Windows Server系统上的Active Directory的概念如出一辙。未来使用ACS(Access Control Service)与现有的Active Directory部署时可保证良好的互操作性。

2019-03-28 13:55

知识点

相关教程

更多

企业大数据战略规划高级培训课程

一、课程对象   本课程是大数据高级培训课程,主要面向企业中层及以上管理人员,IT战略规划部门。理论联系实际,就大数据的应用方向,演进路线和企业大数据战略规划进行探讨,结合完整的大数据项目实施案例,进行讲解。旨在帮助企业IT战略决策部门解决大数据时代,企业大数据战略面临的各种问题:是否需要大数据?为何要上大数据?大数据能够给企业带来什么样的价值和意义?大数据平台如何和企业现有业务系统进行整合? 二

微信数据分析功能为大数据战略铺路

在运营者的翘首期盼下,微信公众平台的数据分析功能终于上线了。公众平台推出一年后数据分析功能才姗姗来迟,效果却很华丽。     数据分析提供了用户、图文传播和用户互动情况三方面的分析,包括用户性别、地域、语言、增长情况,图文消息阅读、分享情况、消息互动情况等近20个指标,还提供了可视化的效果,对我这类普通微信运营者来说已经基本够用了。    数据分析功能并非全由微信团队完成,兄弟支持     在此之

大数据及hadoop是什么? 有什么用?

在云计算和大数据大行其道的今天,Hadoop及其相关技术起到了非常重要的作用,是这个时代不容忽视的一个技术平台。无论你身在互联网企业还是传统软件公司,都应该了解和学习这门技术

Hadoop和大数据的关系分析

Henry和我正在进行一项检查大数据以及其真正意义的工作。大数据是一个流行语。和许多流行语一样,大数据这个词用得有些滥了,但是它包含了一些真正的有用性和技术。我们决定在这个主题上对大数据进行一番分析,努力挖掘其中的真实性以及它们对存储解决方案的意义。 Henry用一个很好的介绍开始了这个系列。他对大数据的定义是我所见过的最好的定义。因此,我将重复这个定义: 大数据是将数据变为信息然后变为知识的过程

大数据总结 (zz)

最近刚看了新的一期《程序员》杂志的一篇大数据的文章,总结的特别好,为了方便我去查找所有将里面的内容再次精简后写下来。 在这篇文章里主要是几个方面: 数据传输、数据存储、数据计算、数据展现、数据开发平台、数据应用市场 我之前对数据的总结在:数据存储、数据管理、数据计算 数据传输包括:实时同步、批量同步。一般常用方式采用时间线。 数据存储包括:内核级分布式存储、用户级分布式文件存储、业务级数据存储。

Hadoop详细介绍:你不得不了解的大数据工具

如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper、Flume)。 Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化、非结构化等)的能力。但这与之前有什么不同? 现今企业数据仓库和关系型数据库擅长处理结构化

Hadoop 2.0:大数据的新突破在即

以往Hadoop似乎就是大数据的代名词。不过最近随着大数据应用的深入,大家已经越来越倾向于仅仅把它看成是大数据的一个存储工具了。 不过这并不一定就是坏事。把Hadoop当作廉价有效的存储正好是Hadoop下一阶段演进的的完美起点。今年夏天就要亮相的Hadoop 2.0将会令数据仓库中的信息以及非结构化数据池前所未有地容易访问。 Hadoop大桶 自成为大数据工具以来,Hadoop就是一个非常棒的数

Hadoop:打开大数据之门的金钥匙

  如今的Hadoop 风头正劲,一些技术实力比较强的企业,特别是互联网企业纷纷应用或正在考虑应用它,以应对大数据的挑战,而掌握Hadoop 编程经验和数据分析技术人才缺乏的问题也开始显现。   大数据是眼下很多企业面临的一个挑战,由于数据量非常巨大,而且数据类型异常复杂,传统的基于关系型数据库的存储和分析办法显露出不足。Hadoop的出现给人们带来解决大数据问题的希望,特别是一批著名的大企业,如

深入浅出Hadoop 高效处理大数据

Hadoop与Google一样,都是小孩命名的,是一个虚构的名字,没有特别的含义。从计算机专业的角度看,Hadoop是一个分布式系统基础架构,由Apache基金会开发。Hadoop的主要目标是对分布式环境下的“大数据”以一种可靠、高效、可伸缩的方式处理。设想一个场景,假如您需要grep一个100TB的大数据文件,按照传统的方式,会花费很长时间,而这正是Hadoop所需要考虑的效率问题。      

虚拟化+Hadoop VMware破解大数据之道

  云计算成为IT应用的趋势,大数据的爆发正在冲击传统数据处理和企业应用,大数据和云计算相遇会产生怎样的剧变呢?日前,云计算虚拟化行业巨头VMware与EMC共同举办了云时代的大数据——VMware&EMC大数据云高峰论坛,向业界和企业用户阐述了大数据蕴藏的巨大商机,以及VMware在大数据分析系统方面的最新进展。 ▲云时代的大数据——VMware&EMC大数据云高峰论坛现场   

Hadoop为大数据关键部分 将推2.0版本

  随着越来越多的公司开始使用   Hadoop处理大数据,因此我们预测Hadoop不久就会推出2.0版本。      如今,Apache的Hadoop技术在帮助企业管理海量数据中变得越来越关键。包括NASA、推特和Netflix等用户对这一开源分布式计算平台的依赖性越来越大。   Hadoop作为一种处理大数据的机制已经获得了越来越多的支持。因为企业计算机系统中的数据量正在快速增长,企业开始尝试

大数据分析时代:Hadoop MapReduce

  当Yahoo宣布成立新公司Hortonworks接手Hadoop服务之后,业内的目光再次集中到这家大型互联网公司,而这一次的关键字是“大数据”。   在波士顿举行的Enzee Univers 2011大会上,厂商、分析师以及咨询师认为目前大数据技术已经在企业软件中占据了一席之地。无论目前结构化数据还是非结构化数据,它们在深度与广度上都飞速地增长着,企业能否有效管理并挖掘利用这些数据将决定信息化

掌握方法 如何利用Hadoop廉价大数据分析

  大数据将成为本年度的云计算。这是必然发生的结果:随着时间的推移,企业产生的数据集已经越来越大了,这些数据包括客户购买偏好趋势、网站访问和习惯、客户审查数据等等;那么您怎样才能把这么大量的数据整理成综合形式呢?传统的商业智能(BI)工具(关系型数据库和桌面数学计算包)在处理企业这么大量的数据时已经有点不够用了。当然,数据分析行业也有开发工具和框架,支持数据研究人员和分析师们挖掘大数据集,并能承受

采用MapReduce与Hadoop进行大数据分析

随着捕获的数据的数量每年增加,我们的存储也需要增加。很多公司正在认识到“数据为王”这一道理,但是我们如何分析这些数据呢?答案就是“通过Hadoop”。在这篇文章中,也是三部曲中的第一篇,Steven Haines 对Hadoop的架构作了综述,并从一定高度上演示了如何编写MapReduce应用程序。 在数据处理的发展进程中,我们从文件转到关系型数据库,从关系型数据库转到NoSQL数据库。实质上,随

Hadoop+SQL Server+Excel=大数据分析

  几个月前,微软宣布了自己的用于大数据管理、分析和挖掘的Hadoop发布版HDInsight。InfoQ联系到了SQL Server的高级产品营销经理Val Fontama,希望进一步了解微软的企业级大数据到底如何。   关于企业中数据集规模的增长趋势:   数据的海洋一直在增长。有预测表明业务信息存储量每年都会加倍。例如,Gartner发现全世界的信息量每年在以最少59%的速率增长,而其中大约

最新教程

更多

java线程状态详解(6种)

java线程类为:java.lang.Thread,其实现java.lang.Runnable接口。 线程在运行过程中有6种状态,分别如下: NEW:初始状态,线程被构建,但是还没有调用start()方法 RUNNABLE:运行状态,Java线程将操作系统中的就绪和运行两种状态统称为“运行状态” BLOCK:阻塞状态,表示线程阻塞

redis从库只读设置-redis集群管理

默认情况下redis数据库充当slave角色时是只读的不能进行写操作,如果写入,会提示以下错误:READONLY You can't write against a read only slave.  127.0.0.1:6382> set k3 111  (error) READONLY You can't write against a read only slave. 如果你要开启从库

Netty环境配置

netty是一个java事件驱动的网络通信框架,也就是一个jar包,只要在项目里引用即可。

Netty基于流的传输处理

​在TCP/IP的基于流的传输中,接收的数据被存储到套接字接收缓冲器中。不幸的是,基于流的传输的缓冲器不是分组的队列,而是字节的队列。 这意味着,即使将两个消息作为两个独立的数据包发送,操作系统也不会将它们视为两个消息,而只是一组字节(有点悲剧)。 因此,不能保证读的是您在远程定入的行数据

Netty入门实例-使用POJO代替ByteBuf

使用TIME协议的客户端和服务器示例,让它们使用POJO来代替原来的ByteBuf。

Netty入门实例-时间服务器

Netty中服务器和客户端之间最大的和唯一的区别是使用了不同的Bootstrap和Channel实现

Netty入门实例-编写服务器端程序

channelRead()处理程序方法实现如下

Netty开发环境配置

最新版本的Netty 4.x和JDK 1.6及更高版本

电商平台数据库设计

电商平台数据库表设计:商品分类表、商品信息表、品牌表、商品属性表、商品属性扩展表、规格表、规格扩展表

HttpClient 上传文件

我们使用MultipartEntityBuilder创建一个HttpEntity。 当创建构建器时,添加一个二进制体 - 包含将要上传的文件以及一个文本正文。 接下来,使用RequestBuilder创建一个HTTP请求,并分配先前创建的HttpEntity。

MongoDB常用命令

查看当前使用的数据库    > db    test  切换数据库   > use foobar    switched to db foobar  插入文档    > post={"title":"领悟书生","content":"这是一个分享教程的网站","date":new

快速了解MongoDB【基本概念与体系结构】

什么是MongoDB MongoDB is a general purpose, document-based, distributed database built for modern application developers and for the cloud era. MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。

windows系统安装MongoDB

安装 下载MongoDB的安装包:mongodb-win32-x86_64-2008plus-ssl-3.2.10-signed.msi,按照提示步骤安装即可。 安装完成后,软件会安装在C:\Program Files\MongoDB 目录中 我们要启动的服务程序就是C:\Program Files\MongoDB\Server\3.2\bin目录下的mongod.exe,为了方便我们每次启动,我

Spring boot整合MyBatis-Plus 之二:增删改查

基于上一篇springboot整合MyBatis-Plus之后,实现简单的增删改查 创建实体类 添加表注解TableName和主键注解TableId import com.baomidou.mybatisplus.annotations.TableId;
import com.baomidou.mybatisplus.annotations.TableName;
import com.baom

分布式ID生成器【snowflake雪花算法】

基于snowflake雪花算法分布式ID生成器 snowflake雪花算法分布式ID生成器几大特点: 41bit的时间戳可以支持该算法使用到2082年 10bit的工作机器id可以支持1024台机器 序列号支持1毫秒产生4096个自增序列id 整体上按照时间自增排序 整个分布式系统内不会产生ID碰撞 每秒能够产生26万ID左右 Twitter的 Snowflake分布式ID生成器的JAVA实现方案