大数据在给经济社会发展带来巨大便利和商机的同时,也蕴藏着各种潜在的风险。大数据的真实性风险是指大数据的质量高低,在现实中面临三种风险。
一是数据出处来源的可靠性风险。随着网络存储技术和手段的发展,各种移动设备、智能终端通过有线和无线网络彼此交互相连,数据呈海量式增长,数据种类也日益繁多,许多不科学、不真实、不可靠、未经验证的数据进入了数据库,这就很难保证每一条数据信息都是真实可信的。
二是数据传递过程的失真性风险。数据传递过程的失真性风险主要是指大数据信息在网络传播的过程中有可能失真。包括人为操作失真和由于数据版本的变更而导致数据出现误差和失真。
三是数据分析结果的可信度风险。在大数据时代,任何研究者所接触和所获得的数据很难包括全部数据。所谓的全数据分析往往也只是某些“专家”以及大数据的相关处理者按照自己的需要对超大的数据规模进行搭配、组合和筛选后,再进行分析与研究所形成的真真假假的许多“规律”,使得数据分析和处理的结果具有很大的不确定性。而普通大众又很难判别分析结果及结论的可靠性,在现实以及网络传播的过程中容易导致虚假信息泛滥。
有效防范大数据的真实性风险,应从三方面着手。
一是确保数据出处来源真实可靠。在进行数据的初始收集和整理时,应该对所收集整理数据的真实性和可信度进行严格的监测和细致的过滤,通过严格鉴别数据的出处和来源,正确识别并剔除掉虚假甚至恶意数据信息,真正收集整理出真实有用的数据信息。
二是确保数据传递过程不出现误差。只有最大限度地降低人为影响和干预,提高数据操作人员的技术熟练度,应用最新的数据版本,方可降低数据在传递过程中失真的可能性以及出现误差的概率。
三是确保数据分析结果真实可信。只有数据分析者自身本着求真求实的态度以及对数据分析技术、方法和手段的精准掌握与运用才能避免虚假信息和结论的泛滥,增强数据分析结果的可信度。
(作者系中共长春市委党校哲学与文化教研部副教授)
上一版




放大
缩小
全文复制
上一篇


