CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与最新的spark稳定版Spark2.2.1集......
2018-07-11 关键字:Apache Spark是处理和使用大数据最广泛的框架之一,Python是数据分析、机器学习等领域最广泛使用的编程语言之一。如果想要获得更棒的机器学习能力,为什么不将Spark和Python一起使用呢......
2018-06-22 关键字:在“Hadoop是否已失宠?”的选题调研中,笔者调查了银行、Hadoop发行商、Hadoop企业用户以及部分工程师的意见,所处环境、业务需求以及看问题角度的不同让这些组织或个人有着不同的意见。如果你的......
2018-06-19 关键字:在笔者持续调研国内Hadoop生态系统生存现状的同时,KDnuggets发布的2018年数据科学和机器学习工具调查报告再次将“Hadoop失宠”言论复活。报告一出,“Hadoop被抛弃”几个字瞬时成为......
2018-06-13 关键字:hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情......
2018-06-08 关键字:Spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技......
2018-05-31 关键字:BlockManager是spark 中至关重要的一个组件, 在spark的的运行过程中到处都有BlockManager的身影, 只有搞清楚BlockManager的原理和机制,你才能更加深入的理解s......
2018-05-22 关键字:2017年,Gartner的一份《2017年数据管理技术成熟度曲线》报告极其明显得标识出Hadoop即将进入衰落席。对此,IT168走访了国内一系列大数据厂商,在过去几个月,我们共同探讨了Gartne......
2018-05-03 关键字:前不久,笔者整理了部分一线互联网公司的大数据平台架构图(感兴趣可自行查看《摸底10余家一线互联网公司大数据架构图:Hadoop渗透力太强!》),引来不少用户的关注。从文章可以看出:Hadoop生态系统......
2018-03-24 关键字:计算机世界充斥着大量先动者的产品,但最终都会被追随者所取代,后来者从创新者的错误中学习并继续发展。我相信这是Hadoop的命运,因为Spark和Cassandra等已经在大数据社区获得了持续发展的动......
2018-03-07 关键字: