本专栏面向科普工作者和社会公众常年征稿(点击“投稿说明”查看详情),征稿邮箱:zhaozheng@cstm.org.cn 。
随着社会的发展,利用前沿科技手段侦破案件的方式也越来越多地出现在影视作品中。一部于2011年播出的科幻剧《疑犯追踪》,就生动讲述了利用大数据来预测追踪犯罪的故事。
《疑犯追踪》的剧情设置在美国“911”恐怖袭击事件之后虚构的平行时空里。剧中的男主人公——计算机天才芬奇,制造了一台“机器”,这台“机器”可以从政府收集的大数据中自动识别出两种信息:一种是可能危害国家和社会安全的恐怖事件信息,另一种是可能谋划侵害普通人的犯罪信息。对于前者,芬奇将其交由官方进行后续处理,而对于后者,芬奇将其保存下来,与其搭档里斯共同进行跟踪调查,在犯罪真正发生之前,及时赶到相关地点将犯罪扼杀在摇篮里。而在这种守护正义的过程中,大数据技术发挥了至关重要的作用。
大数据技术最早由谷歌公司在2004年前后发表的3篇论文中提出,一石激起千层浪,各大公司开始启动研发大数据相关技术。随着信息技术的发展,大数据的技术构架和基本生态体系逐渐于2011年左右形成。
那么,现实中的大数据又是被如何定义的?麦肯锡全球研究所给出的答案是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
与以往通过采样分析处理海量数据不同,大数据处理时采用的是全部数据,即收集到的所有数据。这种方式能使我们从更全面的角度研究分析数据。
在这部剧中,从车辆监控视频、信用卡和医保卡使用记录、行车罚单等方式获取到的数据增速很快,且包含了图像、音视频、文本等多种格式。这些采集到的数据所构成的情报,成为了男主角后续追踪犯罪的信息基础。
这些海量数据在何处进行处理呢?大数据的体量之庞大、种类之繁多,依靠普通单个计算机是无法胜任的,通常需要依托云计算中的服务器集群和分布式处理等技术来存储和快速处理。这项技术在《疑犯追踪》中进行了现实水平之上的展示,描绘了未来高效而灵活的大数据处理的场景。
大数据如何提供更强的决策力和预测力呢?“大数据之父”维克托·麦尔·舍恩伯格曾说,大数据重视相关关系,而不是因果关系。这说明大数据技术是在数据的因果关系并不明确的情况下,只利用其明显存在的相关性就能做出更高效的预测,就像在这部剧中,机器可能因为某两个人的某种强关联性,在判断其中一人有犯罪可能性的同时也会把另一人标识出来。
剧中的大数据技术主要应用于维护社会安定,而在现实社会中,大数据已渗透到教育服务、医疗卫生、商务贸易、交通出行等行业,已成为维持社会正常运转的关键要素,对我们的生活和工作甚至思维也产生了全方位的影响。在未来发展中,大数据将持续在新领域中创造价值,科技改变生活的美好愿景也会从概念变为现实。
尽管大数据本身具有多重优势,但我们也应清醒地认识到,大数据的特性是混杂性而不是精确性。剧中那个具有超强分析判断能力的“机器”,也曾因为偶然因素做出过错误判断。现实生活中也是如此,海量数据的收集必然会出现不准确因素,虽然这种混杂性在当前技术水平下不可避免,但大数据预测仍能使我们离真相更近一步。
因此,针对大数据应用过程中存在的问题,我们应当对其使用方式给出一些必要和合理的约束,从而最大程度发挥出技术应有的价值,给人类的发展带来长远积极的影响。
(作者:张文静 中国科技馆网络科普部工程师)
(专栏编辑:李竞萌 赵铮)
(本文转载自:《科普时报》2020-8-21(第2版)“媒眼看世界”栏目)