数据湖正在成为一种越来越可行的解决方案,用于企业从大数据中提取价值,并代表早期大数据采用者合乎逻辑的下一步。这一概念是2011年提出来的,最初的数据湖是对数据仓库的一个补充,主要是为了解决数据仓库开发......
2018-09-30 关键字:在本章的第一章节介绍中,我们简单了解了Mapreduce数据序列化的概念,以及其对于XML和JSON格式并不友好。本节作为《Hadoop从入门到精通》大型专题的第三章第二节将教大家如何在Mapredu......
2018-09-17 关键字:作为Hadoop 2.0中出现的资源管理系统,Yarn总体上仍然是master/slave结构,在整个资源管理框架中,resourcemanager为master,nodemanager是slave。......
2018-09-13 关键字:提供正版、高清、流畅的视频播放服务始终是爱奇艺所追求的目标, 除了播放体系本身的建设之外, 爱奇艺也立足于用户,从用户视角对爱奇艺播放时的播放故障、 卡顿等指标进行实时分析,以提供立体的、多维度的实时......
2018-09-11 关键字:SQL是数据处理中使用最广泛的语言。它允许用户简明扼要地声明他们的业务逻辑。大数据批计算使用SQL很常见,但是支持SQL的实时计算并不多。Apache Flink是一款同时支持批和流计算的引擎,Fli......
2018-09-05 关键字:为了应对滴滴数据量爆炸性增长和对实时计算低延迟的高要求,滴滴引入Flink 实时计算框架,目前Flink Streaming已在滴滴的实时监控,实时BI,实时CEP ,和在线业务等领域有了广泛的应用。......
2018-09-03 关键字:随着网易云音乐、新闻、考拉、严选等互联网业务的快速发展,网易开始加速大数据平台建设,以提高数据获取速度,提升数据分析效率,更快发挥数据价值。......
2018-08-28 关键字:本文作者是一位软件工程师,他对20位开发人员和数据科学家使用Apache Kafka的方式进行了最大限度得深入研究,最终将生产实践环节需要注意的问题总结为本文所列的20条建议。......
2018-08-24 关键字:在单一DataNode管理多个磁盘的情况下,执行普通写操作时的每个磁盘用量比较平均。但是,添加或者更换磁盘将会导致DataNode磁盘用量严重不均衡,传统的HDFS均衡器关注点是DataNode之间(......
2018-08-14 关键字:HDFS是基于Java的文件系统,可在Hadoop生态系统中提供可扩展且可靠的数据存储。因此,我们需要了解基本的HDFS配置和命令才能正常使用它。在使用之前,我们首先讨论如何配置安装HDFS。Hado......
2018-08-13 关键字: