近日,《连线》杂志编辑凯德·梅茨近日在这份杂志的网络版上撰文称,谷歌的大数据工具Hadoop已经衍生出了两个开源平台,这两个平台分别是由硅谷创业公司Cloudera和MapR所构建的。其中,MapR已经发布了一个名为Drill的开源项目,寻求模仿谷歌的数据分析工具。
Google在2003年到2004年公布了关于GFS、MapReduce和BigTable三篇技术论文,这也成为后来云计算发展的重要基石,如今Google在后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel再一次影响着全球大数据技术的发展潮流。
大数据拥有巨大的发展空间,从各国政府对大数据的政策中可见一斑。美国总统奥巴马推出数据星球计划,集合全美最顶尖的专家,将数据转变成商业资产和价值。中国的大数据市场同样毋庸置疑,大数据蕴藏着巨大的潜力和商机。近几年,IT厂商纷纷推出各自的大数据战略,EMC也不例外。
天云趋势源于趋势科技,拥有趋势科技100%前沿技术给养。Hadoop生态系统已经成熟应用在趋势科技的云端杀毒、垃圾邮件过滤、机器学习等生产系统多年。在此我们积累了宝贵的应用级经验,并且在多个开源系统中我们保持着较高的代码提供量,Hadoop使用活跃度全球第六。
IT领域处于产业链底层的处理器供应商英特尔也在本次大数据论坛上宣布了Hadoop发行版解决方案,据了解,英特尔hadoop发行版优势包括:
谁在用Hadoop?这是个问题。在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深。但谁才是Hadoop的最大用户呢?首先想到的当然是它的“发源地”,像Google这样的大型互联网搜索引擎,以及Yahoo专门的广告分析系统。
目前,互联网正从数据爆炸进一步发展到海量数据分析和挖掘的时代,而基于Hadoop技术的解决方案为海量数据存储和处理提供了经济、高效、高安全性和高可靠性的保障,Apache Hadoop也因此成为大数据行业发展背后的驱动力。
Facebook Hadoop集群内目前的HDFS物理磁盘空间承载超过100PB的数据(分布在不同数据中心的100多个集群)。由于HDFS存储着Hadoop应用需要处理的数据,因此优化HDFS成为Facebook为用户提供高效、可靠服务至关重要的因素。
CitusDB是一个可伸缩的分析数据库,它是基于开源的对象关系型数据库PostgreSQL开发而成。用户可以像使用常规数据库那样访问CitusDB的主节点,然后由主节点将数据与查询请求分配到数据库集群的工作节点中,底层架构与Hadoop类似。换句话说,CitusDB是一个将SQL的表现力、关系型数据库的性能……
EMC最近更新了自己的Greenplum数据库,使其能够更容易地处理大数据。如前一代,Greenplum数据库有两种形式:一个运行在Greenplum自己的硬件设备上(基于未指定的OEM伙伴的硬件),另一个是纯软件的发行版,客户能够在任何X86服务器上运行,支持Red Hat Enterprise Linux、Oracle Solaris或者Apple OS X.
虽然Hadoop伴随大数据一同火爆起来,但相信还是有许多用户对于它不甚了解。在上周名的TDWI解决方案峰会中, TDWI研究主任兼行业分析师Philip Russom发表了“关于Hadoop的12点事实”的主题演讲,TechTarget编辑在本文中将对其精华内容进行总结,希望对您进一步了解Hadoop有所帮助。
Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高。
所有人都喜欢 R 语言,尤其是大数据产品销售商,比如数据仓库与 Hadoop 数据过滤器。部分原因在于,R 作为开源语言吸引了大量的统计学家与定量分析师,由这些聪明人构成的社区能够引领该语言开发。
2012年6月9日,由ChinaUnix社区承办的2012年华东运维技术大会在上海召开,本次大会面向CIO、CTO、技术总监、运维总监、系统架构师、系统工程师、网络工程师、安全工程师、运维工程师、运维经理等人群,并以运维自动化、Web服务器的优化与架构、云计算、虚拟化技术为主题,共吸引了400多人参加。
大数据时代的信息爆炸,使得分布式/并行处理变得如此重要。无论是传统行业,还是新兴行业(特别是互联网行业),日常业务运行所产生的海量用户和服务数据都需要更大的硬件资源来处理。需要并行处理的应用领域主要为网页搜索、广告投放和机器翻译等。
近几年,随着数据量的爆炸式增长,数据挖掘也迎来大数据的新时代。单纯的对购买数据进行挖掘已经不能满足市场的需求,而对潜在客户的行为分析逐渐成为主流。比如在电子商务网站购物,能够看到最近浏览的商品、商品销量排行榜,以及购买了这件商品的人还买了哪些商品等等,将消费者的行为数据进行……
“企业信息集成(EII):实用方式”于2005年发布,描述了一套集成不同数据源的方法论,它利用了当时的先进技术,如面向服务架构(SOA)、Web Services、XML、资源描述架构(RDF)、基于XML的元数据格式、数据提取、转换和加载(ETL)等。
2012年5月31日消息,精诚集团今天正式发布Big Data解决方案品牌Etu。作为国内首个基于Hadoop的Appliance产品,Etu能够为用户提供软硬结合的端到端的大数据一体化解决方案,协助企业从每天大量涌现的数据中发掘商业智能,找出更多潜在的商机。
主题为“发挥示范引领作用,推动云计算创新实践”的“第四届中国云计算大会”在北京国家会议中心召开。微软公司全球资深副总裁、微软亚太研发集团主席张亚勤介绍大数据挑战下如何让云计算更加深入民生。
鉴于围绕Hadoop建立的 整个行业的迅速发展,这会使某些人觉得非常惊讶,那就是阿帕奇软件基金会最近才推出了Apache Hadoop 1.0。