IT168首页 | 产品报价 | ChinaUnix社区 | ITPUB社区 | OA维修站 | 文库 | 博客 | 会议 | 自测 | 专题 | 订阅 | IT选型顾问 | ITPUB学院
热点推荐 加盟IT168选型顾问俱乐部 获享5大权益

大数据

自然语言处理(NLP)是一项令人兴奋的前沿研究,Siri、Alexa和谷歌Home等产品都在努力完善自然语言处理方面的能力。为了使用NLP,我们必须了解这种处理方式的工作原理,我们可以用它来做哪些事情以及如何从原始数据到最终产品。

25日更新
基础入门:如何用自然语言分析大型数据集?

要想进入大数据领域,Hadoop是一件非常重要的事情,它具有复杂的安装过程,大量的集群,数百台机器以及TB(或者PB)级别的数据等。但实际上,用户可以下载简单的JAR并在个人笔记本电脑上运行带HDFS的Hadoop以供练习,这对于想了解Hadoop的新手而言是个不错的方式。

25日更新
八步教你在笔记本电脑创建Hadoop本地实例!

HDFS是什么? 易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制为大量用户提供性能不错的文件存取服务。HDFS是什么? 易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制为大量用户提供性能不错的文件存取服务。源自于Google的GFS论文发表于2003年10月HDFS是GFS克隆版

25日更新
技术解析:HDFS应用场景、原理和基本架构

当你得到一个很不错的干净数据集时,下一步就是探索性数据分析(Exploratory Data Analysis,EDA)。EDA 可以帮助发现数据想告诉我们什么,可用于寻找模式、关系或者异常来指导我们后续的分析。尽管在 EDA 中有很多种可以使用的方法,但是其中最有效的启动工具之一就是散点图矩阵(pairs plot,也叫做 sca

25日更新

近年来,数据科学和机器学习应对一系列主要金融任务的能力已成为一个特别重要的问题。 公司希望知道更多技术带来的改进以及他们如何重塑业务战略。为了帮助您回答这些问题,我们准备了一份对金融行业影响最大的数据科学应用清单。 它们涵盖了从数据管理到交易策略的各种业务方面,但它们的共同点是增强

25日更新
案例|金融领域七大数据科学应用实践案例

现今,HBase 所支持的现代产品对Hbase读写性能的期望越来越高。理想情况下,HBase 也希望在保证其可靠的持久存储的前提下能同时享有内存数据库的速度。社区的贡献者在HBase 2.0中引入了一种名为Accordion的新算法,这促使Hbase又朝着其理想的目标迈出了重要的一步。

24日更新
Accordion:HBase “呼吸式”内存压缩算法

目前,大数据领域每年都会涌现出大量新的技术,成为大数据获取、存储、处理分析或可视化的有效手段。大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为人类社会经济活动提供依据,提高各个领域的运行效率,甚至整个社会经济的集约化程度。

24日更新
大数据分析,你不能不懂的6个核心技术!

如果一家企业经历了信息化时代、互联网时代到数字化时代的变迁,那么这家企业很可能被打上“传统”的标签,如果这家企业几十年一直在做一件事情,那么被贴标签的概率就可能翻倍。越是几十年专注某一领域的大企业,其努力和创新越容易被忽略,就好比当Teradata天睿公司连续16年入选Gartner分析型数据管理

23日更新
42年数据分析,Teradata这次关键字是

如果有一个电子商务平台一直是大数据的试验场所,那么它就是亚马逊。这是一家众所周知的公司,不仅仅是一个在线商家。还是一家大数据行业巨头和先驱,擅长寻找将客户数据与业务主动性联系起来的方法。

23日更新
国外电商巨头:亚马逊如何塑造大数据环境

毋庸置疑,现如今是属于大数据(Big Data)的,革命性的时代。从社交媒体到企业,每时每刻都在产生大量的数据。无所作为,从而把这样的宝藏白白浪费掉是及其愚蠢的。企业已经学会了收集大数据以获取更高的利润,并提供更好的服务以及更深入地了解其目标客户。

23日更新
新手速读:你想知道的大数据知识都在这

先说说写一份好的数据分析报告的重要性,很简单,因为分析报告的输出是是你整个分析过程的成果,是评定一个产品、一个运营事件的定性结论,很可能是产品决策的参考依据,既然这么重要那当然要写好它了。

22日更新
写好一份数据分析报告需要注意的13个要点

现如今,人们对基于HBase的产品的读写速度要求越来越高。在理想情况下,人们希望HBase 可以在保证其可靠的持久存储的前提下能并拥有内存数据读写的速度。为此,在HBase2.0中引入Accordion算法。

22日更新
Accordion :一种HBase内存压缩算法介绍

BlockManager是spark 中至关重要的一个组件, 在spark的的运行过程中到处都有BlockManager的身影, 只有搞清楚BlockManager的原理和机制,你才能更加深入的理解spark。 今天我们来揭开BlockaManager的底层原理和设计思路。

22日更新
spark的分布式存储系统BlockManager介绍

Kafka是由Scala和Java编写的最流行的发布者 - 订阅者模型之一。它最初由LinkedIn开发,后来经过开源。Kafka是一种高吞吐量的分布式发布订阅消息系统,因可以处理重负载量的信息而著名。这里从安装到设置为您详解Kafka的各种属性。

22日更新

大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,但是您至少

21日更新
基于Hadoop大数据平台实施整体架构设计

“大数据杀熟”成为热点话题已经一段时间了,为大家科普原理和揭秘本质的文章也数不胜数。然而,相比起“大数据杀熟”背后的策略和原理,我想大家可能更关心的是——我该怎么做,才能避免被“大数据杀熟”。

20日更新
如何对抗大数据杀熟?数据分析师教你反套路

经过这么多年的发展,已经从大数据1.0的BI/Datawarehouse时代,经过大数据2.0的Web/APP过渡,进入到了IOT的大数据3.0时代,而随之而来的是数据架构的变化。

18日更新
标签:Hadoop 大数据 IOT
下一代大数据即时分析架构——IOTA架构

Apache Hive是一个构建在hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询–因为它只能够在Haoop上批量的执行Hadoop。

18日更新
HIVE和HBASE之间,主要的区别是什么?

Google一直在努力围绕Google Cloud构建更深入的企业业务,但在推广和营收方面始终落后于亚马逊的AWS和微软的Azure。为了改变这一情况,谷歌最近收购了一家名为Cask Data的初创公司,该公司专门为基于Hadoop的大型数据分析服务提供解决方案。

17日更新
标签:大数据
Google收购Cask Data 强化大数据分析能力

通常,企业在知晓编写代码和构建内部解决方案所需的成本和复杂性之后,首先会意识到对ETL工具的需求。提取,转换和加载(ETL)工具使企业能够在不同的数据系统中访问有意义且可用的数据。企业也可尝试组装开源ETL工具。有时,这种方法更节省成本,同时可自定义需要的功能,提供更多灵活性和支持。但是,如

17日更新
现代ETL工具与传统解决方案清单附对比
金秋十月 与你饮酒论道
热门文章
it168文库会议频道上线

热门标签

热点推荐