很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。比如,很多时候我们常常以为一个文件是会被完整读入到内存,然后做各种变换,这很可能是受两个概念的误导:RDD的定义,R......
2016-04-22 关键字:今年一季度,大数据开源圈内最热闹的一件事大概就是Hadoop迎来了它的十岁生日,收到了来自世界各地的各种祝福。Hadoop正式诞生于2006年1月28日,作为一个开源项目的生态系统,它从根本上改变了企......
2016-04-06 关键字:由于移动互联网数据量庞大且类型多样的特性,分布式计算在这一领域极受欢迎。Hadoop无疑是大数据开源环境下的王者,而本文的主角Spark和Storm与其一起并列为最主流的三大分布式计算系统。今年1月初......
2016-03-23 关键字:近两年,Spark技术发展速度惊人,用户越来越多,社区也愈加活跃,生态更加丰富,这些都证明了Spark的魅力。在生态建设上,Spark取得了极大的成功,主要体现在Application、Environ......
2015-09-25 关键字:企业级基础云服务商青云QingCloud日前宣布,Spark服务作为QingCloud大数据基础平台的重要组件现已正式上线。通过QingCloud Spark服务,用户能够在2-3分钟内创建一个Spa......
2015-08-25 关键字:在大数据基础架构选型时,经常听到的一个说法是——“如果数据规模在TB级可以选择MPP架构的关系型数据库,如果数据规模上升到PB级则应该选择Hadoop”。但事实上MPP架构的关系型数据库与Hadoop......
2015-04-22 关键字:时代在变迁,市场在变化,周边的软硬件环境也突飞猛进般的发展,同时企业的业务需求也不断升级,从规模到成本都有较高的要求,这刺激Hadoop生态圈的变革。据AMR研究显示,到2020年Hadoop将拥有5......
2015-04-04 关键字:在本文中,我们了解了Apache Spark框架如何通过其标准API帮助完成大数据处理和分析工作。我们还对Spark和传统的MapReduce实现(如Apache Hadoop)进行了比较。Spark......
2015-04-03 关键字:大数据的概念被吵的越来越厉害,这对于一个新技术领域的诞生是一个必经过程。对于“大数据”(Big Data),研究机构Gartner给出的定义是:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现......
2015-03-04 关键字:出身名门雅虎的Hortonworks拥有许多优秀的Hadoop架构师与源代码的贡献者,它们为Apache Hadoop项目贡献了超过80%的源代码。随着各种Hadoop发行版的涌现,Hortonwor......
2015-02-03 关键字: