IT168首页 | 产品报价 | ChinaUnix社区 | ITPUB社区 | 文库 | 博客 | 自测 | 专题 | ITPUB学院

hadoop

作为最具代表性的大数据技术之一,Hadoop对那些准备探索业务影响力数据的IT部门非常有吸引力。Hadoop的分布式处理方法更适合处理海量非结构化数据,但是Hadoop及其相关的MapReduce编程模型并不是万灵药,MapReduce和Hadoop的问题时刻影响着大数据新手们。

09日更新
直面Hadoop MapReduce问题与复杂性

Hadoop早已成为大数据时代的关键应用,作为hadoop的主要贡献者之一,雅虎将Hadoop从创始人Doug Cutting的科学项目变成一个世界级平台,并将hadoop用于搜索、防止网络钓鱼和垃圾邮件等方面。本届中国数据库技术大会的演讲嘉宾George Chu(朱金生)就是雅虎北京全球研发中心的一员,近五年主要专注于云计算以及高性能计算领域。George Chu一年半前加入雅虎北京全球研发中心,担任雅虎北京全球研发中心首席架构师……

27日更新
标签: hadoop 大数据 DTCC
雅虎George Chu:2013大数据处理新趋势

O'Reilly Strata是IT业界最知名也是规模最大的数据管理大会,在本次的Strata大会中,Hadoop成为了其中最热门的话题。EMC公司在本次大会上发布的Pivotal HD(Hadoop发行版)受到了广泛的关注。而目前在Apache Hadoop发行版越来越多的情况下,如何进行区分?如何选择最适合自己的解决方案?数据库技术顾问Curt Monash对提供商以及他们各自的Hadoop发行版进行了对比,希望对您进一步了解Hadoop生态系统起到一定帮助。

06日更新
标签: hadoop
选择合适的Hadoop发行版 各版本优势PK

EMC公司于今天发布了自身的Apache Hadoop发行版——Pivotal HD,同时发布的还有一个名为HAWQ的技术,通过HAWQ能够将Greenplum(2010年被EMC收购的MPP数据库厂商)分析型数据库与Hadoop分布式架构进行紧密地融合。

27日更新
标签: hadoop IT业界
EMC发布Hadoop发行版:Pivotal HD

Gartner提醒组织,不要把大数据看作是一个独立的类别;如果忽视了移动化和桌面计算的差别就很有可能存在风险;企业将数据转为现金很有商机。

22日更新
标签: hadoop 大数据 BI
Gartner警示大数据项目不应独立实施

数据的海洋一直在增长。有预测表明业务信息存储量每年都会加倍。例如,Gartner发现全世界的信息量每年在以最少59%的速率增长,而其中大约85%的数据是“非结构化”的——比如视频剪辑、RFID标签和网站日志。这些非结构化数据用传统的数据管理系统来处理并不容易。此外,在很多场景下,客户在实时收集新数据时发现数据增长速率还在增加。

微软企业级大数据分析策略:融合Hadoop

在之前的文章中,我们介绍过如何在Linux上安装与配置Hadoop,本文将以Windows为平台介绍Hadoop的安装与配置方法。相对于Linux,Windows版本的JDK安装过程更容易。

19日更新
标签: hadoop
详解如何在Windows上安装与配置Hadoop

Hadoop的安装非常简单,大家可以在官网上下载到最近的几个版本,Hadoop最早是为了在Linux平台上使用而开发的,但是Hadoop在UNIX、Windows和Mac OS X系统上也运行良好。不过,在Windows上运行Hadoop稍显复杂,首先必须安装Cygwin以模拟Linux环境,然后才能安装Hadoop。

28日更新
实战:如何在Linux上安装与配置Hadoop

这篇文章由Datasalt的创始人Ivan de Prado和Pere Ferrera提供,Datasalt是一家专注于大数据的公司,推出了Pangool和Spoilt SQL Big Data等开源项目。在这篇文章中,通过BBVA信用卡支付的例子详解了云计算中的低延时方案。

21日更新
大数据实例:高负载低延迟动态算法解析

电影《天下无贼》中一句经典的“21世纪什么最贵?人才!”,体现了以人为本的价值观。而实际上,深处大数据时代的我们,是不是也应该幽默一回:“21世纪什么最值钱?数据!”。对于企业而言,除了人才,数据也是最重要资产之一。

11日更新
初体验SQL Server 2012的Hadoop连接器

数据库和文件中储存的数据量每天都在增长,因此我们需要构建能够储存大量数据(“大数据”),并且廉价、可维护、可伸缩的环境。传统的关系数据库(RDBMS)系统在当前的需求下成本过高并且不可伸缩,因此开发、使用能够满足需求的新技术正合时宜。

10日更新
标签: hadoop
实战:构建可伸缩Hadoop集群的方法步骤

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。作为一个数据仓库,Hive的数据管理按照使用层次可以从元数据存储、数据存储和数据交换三个方面来介绍。

04日更新
标签: hadoop
Hadoop数据仓库工具Hive的数据管理

当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量,实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发,通常被比作“实时的Hadoop”。然而Storm远比Hadoop来的简单,因为用它处理大数据不会带来新老技术的交替。

实例:使用Storm实现实时大数据分析

HBase是一个类似Bigtable的分布式数据库,它的大部分特性和Bigtable一样,是一个稀疏的、长期存储的(存在硬盘上)、多维度的排序映射表。这张表的索引是行关键字、列关键字和时间戳。每个值是一个不解释的字符数组,数据都是字符串,没有类型。用户在表格中存储数据,每一行都有一个可排序的主键和任意多的列。由于是稀疏存储的,所以同一张表里面的每一行数据都可以有截然不同的列。

27日更新
标签: NoSQL hadoop HBase
Hadoop分布式数据库HBase的数据管理

本文来自ZDnet的记者Adrew Brust的博客文章。主要陈述大数据业内人士对2013年发展的预测和作者自己的一些观点。在大数据领域,虽然对技术产业的预测是不可缺少的,但是Adrew对宣传一个具体公司的计划明显缺乏兴趣,而且许多业内公司都把他们明年的计划发给了Adrew,所以他认为:如果能把这些2013年的预测整合一下,再融入自己的观点,将是一件非常有意思的事情。

24日更新
标签: hadoop 大数据
大数据玩家们对2013年趋势的预测

无论是在构建大数据的应用程序,还是仅仅只想从开发的移动应用中得到一点点启发,程序员现在比以往任何时候都需要数据分析工具。这绝对是一个好东西,所以很多公司从程序员的需求和技能出发,构建了一些数据分析工具。

24日更新
标签: hadoop 大数据
玩转大数据:需要知晓的12种工具

在今天上午的演讲中,微软Windows Azure和微软的大数据技术架构专家林默带来主题演讲《Big Data, Big Deal?》,介绍了大数据的起源和概况,分析了大数据和传统关系型数据库的优缺点,以及微软对Hadoop的支持。

06日更新
微软TechEd:大数据与传统数据库的对比

中国IT界技术盛会——Hadoop与大数据技术大会在北京新云南皇冠假日酒店隆重开幕。

03日更新
标签: hadoop 大数据
2012 Hadoop与大数据技术大会盛大开幕

HDFS是分布式计算的存储基石,Hadoop分布式文件系统和其他分布式文件系统有很多类似的特质:对于整个集群有单一的命名空间;具有数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前是无法看到文件存在的……

29日更新
标签: hadoop
Hadoop数据管理之分布式文件系统HDFS

Facebook已经开源了Corona,这是一款内部开发的用以改善Hadoop MapReduce调度的软件。Corona将集群管理和作业跟踪这两个关键任务分开。这与Apache YARN在概念上不谋而合,YARN也是MapReduce调度器和资源管理器的一个改进版本。

22日更新
标签: hadoop MapReduce
Facebook用Corona提升Hadoop的可伸缩性
金秋十月 与你饮酒论道
热门文章
it168文库会议频道上线

热门标签

热点推荐