友情链接
日 报周 报杂 志 人民网
中国城市报 2017年01月02日 星期一

2017年大数据十大发展趋势

■中国城市报记者 叶中华 《 中国城市报 》( 2017年01月02日   第 19 版)

  作为智慧城市的运行血液,大数据以2015年出台的《促进大数据发展行动纲要》为标志,已上升为国家战略性发展资源,那么,经过一年来的发展,2017年又将呈现出怎样的发展趋势?综合权威信息渠道,中国城市报记者为您梳理出十大发展趋势。

  趋势一:开放源码占据主导

  Apache Hadoop、Spark等开源应用程序已经在大数据领域占据了主导地位。一项调查发现, 到2016年年底,近60%企业的Hadoop集群投入生产。佛瑞斯特的研究显示,Hadoop的使用率正以每年32.9%的速度增长。专家表示,2017年许多企业将继续扩大他们的Hadoop和NoSQL技术应用,并寻找方法来提高处理大数据的速度。

  趋势二:内存技术加速数据处理

  很多公司正试图加速大数据处理过程,它们采用的一项技术就是内存技术。在传统数据库中,数据存储在配备有硬盘驱动器或固态驱动器(SSD)的存储系统中。而现代内存技术将数据存储在RAM中,这样大大提高了数据存储的速度。佛瑞斯特研究的报告中预测,内存数据架构每年将增长29.2%。

  趋势三:机器学习将成新常态

  随着大数据分析能力的不断提高,很多企业开始投资机器学习(ML)。机器学习是人工智能的一项分支,允许计算机在没有明确编码的情况下学习新事物。换句话说,就是分析大数据以得出结论。高德纳咨询公司(Gartner)称,机器学习是2017年十大战略技术趋势之一。它指出,当今最先进的机器学习和人工智能系统正在超越传统的基于规则的算法,创建出能够理解、学习、预测、适应,甚至可以自主操作的系统。

  趋势四:预测分析工具成新宠

  预测分析与机器学习密切相关,事实上ML系统通常为预测分析软件提供动力。在早期大数据分析中,企业通过审查他们的数据来发现过去发生了什么,后来他们开始使用分析工具来调查这些事情发生的原因。预测分析则更进一步,使用大数据分析预测未来会发生什么。最近,许多供应商都推出了预测分析工具。

  趋势五:APP成智能应用不二之选

  企业使用机器学习和AI技术的另一种方式是创建智能应用程序。这些应用程序采用大数据分析技术来分析用户过往的行为,为用户提供个性化的服务。推荐引擎就是一个大家非常熟悉的例子。在2017年十大战略技术趋势列表中,高德纳公司把智能应用列在了第二位。高德纳公司副总裁大卫·希尔里(David Cearley)说:“未来10年,几乎每个app,每个应用程序和服务都将一定程度上应用AI。”

  趋势六:大数据提供智能安保

  许多企业也将大数据分析纳入安全战略。企业的安全日志数据提供了以往未遂的网络攻击信息,企业可以利用这些数据来预测并防止未来可能发生的攻击,以减少攻击造成的损失。一些公司正将其安全信息和事件管理软件(SIEM)与大数据平台(如Hadoop)结合起来。还有一些公司选择向能够提供大数据分析能力产品的公司求助。

  趋势七:处理物联网数据

  物联网也可能对大数据产生相当大的影响。根据IDC 2016年9月的报告,“31.4%的受访公司推出了物联网解决方案,另有43%的公司希望在未来12个月内部署物联网解决方案。” 随着这些新设备和应用程序上线,许多公司需要新的技术和系统,才能够处理和感知来自物联网的大量数据。

  趋势八:边缘计算处理物联网数据

  边缘计算是一种可以帮助公司处理物联网大数据的新技术。在边缘计算中,大数据分析非常接近物联网设备和传感器,而不是数据中心或云。对于企业来说,这种方式的优点显而易见。因为在网络上流动的数据较少,可以提高网络性能并节省云计算成本。它还允许公司删除过期的和无价值的物联网数据,从而降低存储和基础架构成本。边缘计算还可以加快分析过程,使决策者能够更快地洞察情况并采取行动。

  趋势九:大数据人才成高薪职业

  对于IT工作者来说,大数据的发展意味着大数据技能人才的高需求。IDC称,“到2018年,美国将有181,000个深度分析岗位,是数据管理和数据解读相关技能岗位数量的五倍。”由于人才缺口过大,罗伯特·哈夫技术公司预测,到2017年数据科学家的平均薪资将增长6.5%,年薪在116,000美元到163,500美元之间(当然这是美国的标准,中国国内目前尚未统计)。

  趋势十:自助服务将大幅增强

  由于聘请高级专家的成本过高,许多公司开始转向数据分析工具。IDC先前预测,“视觉数据发现工具的增长速度将比其他商业智能(BI)市场快2.5倍,到2018年,所有企业都将投资终端用户自助服务。一些大数据供应商已经推出了具有“自助服务”能力的大数据分析工具,专家预计这种趋势将持续到2017年以后。数据分析过程中,信息技术的参与将越来越少,大数据分析将越来越多地融入到所有部门工作人员的工作方式之中。

  回顾2016年大数据十大最热岗位

  早在2014年,高德纳咨询公司就预测,到2016年将有73%的公司在大数据项目中投入重金。时至年末岁首之际,我们回顾大数据一年来的成长历程,不难发现十大最热门的数据岗位跃然纸上。

  1、首席数据官(CDO)

  三军不可无帅,所有想在大数据项目中取得成功的公司都需要首席数据官坐镇指挥。首席数据官负责公司的数据框架搭建、数据管理、数据安全保证、商务智能管理、数据洞察和高级分析。2014年CDO数量只有400人,2015年增长到了1000人,据此,加德纳预计,到2019年90%的英国大公司都会拥有自己的首席数据官。

  2、营销分析师/客户关系管理分析师

  客户忠诚度项目、网络分析和物联网技术积攒了大量的用户数据,很多先进公司已经在使用相关策略来支持公司的发展计划。尤其是市场部门能够运用这些数据进行更有针对性的营销。营销分析师能够发挥他们在Excel和SQL等数据分析工具方面的专业特长,对客户进行细分,确保数字化营销能够到达目标客户群体。当与AdobeCampaigns等广告系列管理软件配合使用时,公司企业就可以确保其营销策略达到最佳效果。

  3、数据工程师

  随着Hadoop和非结构化数据仓库的流行,所有分析功能的第一要务就是要得到正确的数据。商务智能和数据科学都要求有干净、有序且可用的数据框架,而这通常是通过SQL服务器、甲骨文(Oracle)和SAP公司数据库来实现的。高水平的工程师需要掌握数据管理技能,熟悉提取转换加载过程,很多公司都急需这样的人才。

  4、商务智能开发工程师

  商务智能开发工程师的最基本职能,是管理结构数据从数据库分配至终端用户的过程。商务智能最重要的技术目前都掌握在主要科技巨头手中,包括微软商务智能软件包(SSIS/SSAS/SSRS/PowerBI),甲骨文(OBIEE,OBIA),SAP(BusinessObjects)和IBM(Cognos)。

  5、可视化研发工程师

  随着指示板和可视化工具的增多,商务智能“前端”研发工程师需要更熟练掌握Tableau、QlikView/QlikSense、SiSense和Looker。能够使用d3.js在网络浏览器中制作数据可视化的研发工程师也越来越受到公司欢迎。很多大公司开出的年薪已经超过了7万5千英镑,平均日薪500多英镑。

  6、软件研发工程师

  随着大数据的发展,很多公司都开始打造基于大数据平台的网页应用。除了掌握Javascript、C#、PHP和DiangoPython框架等传统软件研发工具,大数据软件研发工程师还需要熟练使用Pyramid或者Flask。

  7、大数据工程师

  数据工程师的工作是负责管理公司的数据,包括数据的收集、存储、处理和分析。大数据工程师需要能够搭建并维护大型异构数据框架,这些数据通常是在MongoDB等NoSQL数据库中。

  8、洞察分析师

  从技术的角度来说,洞察分析师需要掌握各种数据编程工具,如SQL、SAS和SPSS等。但是很多公司都希望能够使用R和Python来获得更深度的分析,同时还要与RStudio等软件包配合使用,来生动地表达可视化数据分析结果。

  9、数据架构师

  一个卓越的数据架构师可为尖端的大数据解决方案提供基础,其职责包括使用AWS,Azure和GoogleCloud了解云中的数据存储和使用Hadoop或NoSQL设计基础架构数据库来管理非结构化数据。

  10、数据科学家

  数据科学家能够使用先进的分析原理和Python,R或Spark等数据编程工具来识别并解决高度复杂的业务问题。他们的分析将在决策中发挥核心作用,提供智力支持,以确保公司能够在日益复杂的商业环境中获得成功。

  链接

  何为数据统计、数据挖掘、大数据、OLAP?

  从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看,可以把数据分析分为以下4个层次:数据统计,联机分析处理(olap),数据挖掘,大数据。

  数据统计 是指通过统计学方法对数据进行排序、筛选、运算、统计等处理,从而得出一些有意义的结论。即告诉你数据库中有什么(What happened)。

  联机分析处理 (On-Line Analytical Processing缩写为OLAP)是指基于数据仓库的在线多维统计分析。它允许用户在线从多个维度观察某个度量值,从而为决策提供支持。即告诉你下一步会怎么样(What next),如果我采取这样的措施又会怎么样(What if)。

  数据挖掘 是指从海量数据中找到人们未知的、可能有用的、隐藏的规则,可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次原因,从而作出精准的对策。

  大数据 是指用现有的计算机软硬件设施难以采集、存储、管理、分析和使用的超大规模的数据集。大数据具有规模大、种类杂、快速化、价值密度低等特点(4V特性)。大数据的“大”是一个相对概念,没有具体标准,如果一定要给一个标准,那么10-100TB通常称为大数据的门槛。

2017年大数据十大发展趋势