Spark作为大数据计算引擎,凭借其快速、稳定、简易等特点,快速的占领了大数据计算的领域。本文主要为作者在搭建使用计算平台的过程中,对于Spark的理解,希望能给读者一些学习的思路。文章内容为介绍Sp......
2018-05-30 关键字:当前,以互联网、大数据、人工智能为代表的新一代信息技术日新月异,给各国经济社会发展、国家管理、社会治理、人民生活带来重大而深远的影响。把握好大数据发展的重要机遇......
2018-05-28 关键字:自然语言处理(NLP)是一项令人兴奋的前沿研究,Siri、Alexa和谷歌Home等产品都在努力完善自然语言处理方面的能力。为了使用NLP,我们必须了解这种处理方式的工作原理,我们可以用它来做哪些事情......
2018-05-25 关键字:要想进入大数据领域,Hadoop是一件非常重要的事情,它具有复杂的安装过程,大量的集群,数百台机器以及TB(或者PB)级别的数据等。但实际上,用户可以下载简单的JAR并在个人笔记本电脑上运行带HDFS......
2018-05-25 关键字:HDFS是什么? 易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制为大量用户提供性能不错的文件存取服务。HDFS是什么? 易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机......
2018-05-25 关键字:当你得到一个很不错的干净数据集时,下一步就是探索性数据分析(Exploratory Data Analysis,EDA)。EDA 可以帮助发现数据想告诉我们什么,可用于寻找模式、关系或者异常来指导我们......
2018-05-25 关键字:近年来,数据科学和机器学习应对一系列主要金融任务的能力已成为一个特别重要的问题。 公司希望知道更多技术带来的改进以及他们如何重塑业务战略。为了帮助您回答这些问题,我们准备了一份对金融行业影响最大的数据......
2018-05-25 关键字:现今,HBase 所支持的现代产品对Hbase读写性能的期望越来越高。理想情况下,HBase 也希望在保证其可靠的持久存储的前提下能同时享有内存数据库的速度。社区的贡献者在HBase 2.0中引入了一......
2018-05-24 关键字:目前,大数据领域每年都会涌现出大量新的技术,成为大数据获取、存储、处理分析或可视化的有效手段。大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为人类社会经济活动提供依据,提高各个领域的运行效率,......
2018-05-24 关键字:如果一家企业经历了信息化时代、互联网时代到数字化时代的变迁,那么这家企业很可能被打上“传统”的标签,如果这家企业几十年一直在做一件事情,那么被贴标签的概率就可能翻倍。越是几十年专注某一领域的大企业,其......
2018-05-23 关键字: