IT168首页 | 产品报价 | ChinaUnix社区 | ITPUB社区 | OA维修站 | 文库 | 博客 | 会议 | 自测 | 专题 | 订阅 | IT选型顾问 | ITPUB学院
热点推荐 加盟IT168选型顾问俱乐部 获享5大权益

大数据

降价、AI养猪、冬奥会、ET大脑、新品、开源、公测......这些关键词同时出现在了阿里云2018云栖大会·上海峰会的现场。在国人的惯性思维中,越大的企业所需承载的社会责任和期望越大。随着互联网新兴技术的发展,中国有机会重新定义城市,阿里云ET大脑则承担了部分重任,但阿里云显然并未止步于智慧城市

现场迁移数据、开源产品文档,阿里云真敢玩!

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。因此,各种基于Hadoop的工具应运而生,本次为大家分享Hadoop生态系统中最常用的13个开源工具,其中包括资源调度、流计算及各种业务针对应用场景。首先,我们看资源管

07日更新
标签:Hadoop 大数据

经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几次。

07日更新
大数据存储平台之异构存储实践深度解读

如果你善于使用Pandas变换数据、创建特征以及清洗数据等,那么你就能够轻松地使用Dask和Numba并行加速你的工作。单纯从速度上比较,Dask完胜Python,而Numba打败Dask,那么Numba+Dask基本上算是无敌的存在。

07日更新
Python数据预处理:Dask和Numba并行化加速!

5月3日,星环科技在上海举办了2018第二届前沿科技论坛暨星环用户大会,在此次大会上,星环宣布了众多的重磅消息:发布最新的系列产品、星环TDH平台通过TPC-DS基准测试、与新加坡人工智能核心项目签署了战略合作协议……

06日更新
标签:大数据
面对国产基础软件困境,进击的星环如何突围?

Druid是一款支持数据实时写入、低延时、高性能的OLAP引擎,具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、监控等领域都有特定的应用场景,是大数据基础架构建设中重要的一环。Druid在滴滴承接了包括实时报表、监控、数据分析、大盘展示等应用场景的大量业务,作为大数据基础设施服务

06日更新
刘博宇:Druid在滴滴应用实践及平台化建设

从3月份到现在2个月过去了,整个数据平台从0到1,算是有了一个基本的样子,跌跌撞撞的勉强支撑起运营的一些基本业务,当然这仅仅是开始,下一步还要从零打造自己的UBS系统,想想都兴奋呢!接下来总结下自己这段时间的得失,以及下一阶段的演化目标。

06日更新
实践:大数据平台1.0总结和2.0演化路线

以下资料来源于互联网,很多都是面试者们去面试的时候遇到的问题,我对其中有的问题做了稍许修改了并回答了部分空白问题,有些考题出的的确不是很好,但也不乏有很好的题目,这些都是基于真实面试而来,希望对即将面试或想继续学习hadoop,大数据等方向的朋友有所帮助!

06日更新
Hadoop大数据面试题全版本,必看跳槽指南!

本文根据井诚老师于第九届中国数据库技术大会(DTCC 2018)的现场演讲《把大象装进冰箱 企业级大数据轻量云的实践》内容整理而成。

阿里专家分享:企业级大数据轻量云实践

这离不开Hitachi Vantara“前世”的积累,更离不开的,是Hitachi Vantara已经从数据存储管理,走向了让数据价值释放的转变。

03日更新
标签:大数据
深耕中国市场 Hitachi Vantara双增长的秘密

每年,市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中,Spark和hadoop是获得最大关注的两个。然而该怎么判断哪一款适合你?如果想批处理流量数据,并将其导入HDFS或使用Spark Streaming是否合理?如果想要进行机器学习和预测建模,Mahout或MLLib会更好地满足您的需求吗

01日更新
深度:Hadoop对Spark五大维度正面比拼报告!

在过去几个月的走访调研中,针对Gartner《2017年数据管理技术成熟度曲线》做出的Hadoop“即将在到达生产成熟期之前衰落”的结论,笔者询问了数十位大数据领域技术专家的观点,Hadoop在国内大数据市场的地位正如笔者所预料的一样稳固。既然如此,那么是Gartner的结论有误吗?我们应该如何正确解读这份报告

01日更新
标签:Hadoop 大数据
阿里云封神:Gartner看衰的并不是Hadoop生态

运行bin/sqoop import --connect jdbc:mysql://ip:port/database --username *** --password ****--hbase-bulkload --hbase-create-table --column-family info --hbase-row-key username --hbase-table detects --table detects将Mysql中detects表导入到Hbase中的detects表,提示找不到users Class错误

31日更新

直接限制队列堆积的大小。当堆积到一定程度后,事实上后面的请求等不到server端处理完,可能客户端先超时了。并且一直堆积下去会导致OOM,1G的默认配置需要相对大内存的型号。当达到queue上限,客户端会收到CallQueueTooBigException 然后自动重试。通过这个可以防止写入过快时候把server端写爆,有一定

31日更新
标签:大数据 HBase API

Spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。本文依次从spark生态,原理,基本概念,spark streaming原

31日更新

Spark作为大数据计算引擎,凭借其快速、稳定、简易等特点,快速的占领了大数据计算的领域。本文主要为作者在搭建使用计算平台的过程中,对于Spark的理解,希望能给读者一些学习的思路。文章内容为介绍Spark在DataMagic平台扮演的角色、如何快速掌握Spark以及DataMagic平台是如何使用好Spark的。

30日更新
标签:Hadoop 大数据
如何在万亿级别规模的数据量上使用Spark?

银行拥有海量数据,多维度的应用系统,这使得其在人工智能技术上有很大发展空间。加拿大皇家银行数据及分析技术高级副总裁Neil Bartlett表示,我们现在看到的不仅是一项技术、一个系统,对银行来讲,我们需要看整个创新风貌,判断如何使用各种创新和技术推动银行业绩的改造。

29日更新
三大知名银行探讨:AI是伪需求还是真需要?

经历了近三个月对国内厂商及企业用户的走访调研,笔者发现国内大部分厂商及企业对Hadoop,尤其是其核心组件的未来十分看好,并且Hadoop已经成为国内大多数互联网公司和大数据厂商基础架构中很重要的一部分,似乎并未把Gartner的“Hadoop在到达生产成熟期之前即会被淘汰”的结论放在心上。然而,在近期对

28日更新
国外银行Hadoop态度调查,Gartner所言非虚!

当前,以互联网、大数据、人工智能为代表的新一代信息技术日新月异,给各国经济社会发展、国家管理、社会治理、人民生活带来重大而深远的影响。把握好大数据发展的重要机遇

28日更新
标签:大数据

自然语言处理(NLP)是一项令人兴奋的前沿研究,Siri、Alexa和谷歌Home等产品都在努力完善自然语言处理方面的能力。为了使用NLP,我们必须了解这种处理方式的工作原理,我们可以用它来做哪些事情以及如何从原始数据到最终产品。

25日更新
基础入门:如何用自然语言分析大型数据集?
金秋十月 与你饮酒论道
热门文章
it168文库会议频道上线

热门标签

热点推荐