关于“大数据”的五大误解
“大数据”是当前的时髦术语,是技术界用来解决世界上最难处理的问题的全能办法,对于大数据的鼓吹者来说,没有什么问题是解决不了的。然而,大数据真的完全像人们吹嘘的那样吗?
“大数据”是当前的时髦术语,是技术界用来解决世界上最难处理的问题的全能办法。这个术语一般用来描述对海量信息进行分析,从而发现规律、收集有价值的见解和预言复杂问题答案的技巧与科学。
“对社会的好处将是无穷无尽的,因为大数据在一定程度上将解决迫在眉睫的全球问题,如处理气候变化、根除疾病以及促进善政和经济发展等。”
利用对这些原始数据进行解码的计算能力,人们可以获得数不胜数的有价值的见解。
1.“有了足够的数据,数字就可以自己说话”
仍然是人类设计的产物。并不能使我们摆脱曲解、隔阂和错误的成见。当大数据试图反映我们所生活的社会化世界时,这些因素变得尤其重要,而我们却常常会傻乎乎地认为这些结果总是要比人为的意见来得客观些。偏见和盲区存在于大数据中,就像它们存在于个人的感觉和经验中一样。不过存在一种值得怀疑的信条,即认为数据总是越大越好,而相关性也等同于因果关系。但是存在许多理由对这些数据的含义提出质疑。
2.“大数据将使我们的城市变得更加智能和高效
在一定程度上是的。大数据可以提供帮助改善我们城市的宝贵见识,但是它对我们的帮助仅此而已。因为数据在生成或采集的过程并不都是平等的,大数据集存在“信号问题”———即某些民众和社区被忽略或未得到充分代表,这被称为数据黑暗地带或阴影区域。因此大数据在城市规划中的应用在很大程度上取决于市政官员对数据及其局限性的了解。
3.“大数据对不同的社会群体不会厚此薄彼”
几乎不是这样。对大数据所号称的客观性的另一个期待是对于少数群体的歧视将会减少,然而,由于大数据能够作出有关群体不同行为方式的论断,它们的使用通常恰恰就是为了实现一个目的———即把不同的个体归入不同的群体中。例如,最近有一篇论文指科学家听任自己的种族偏见影响有关基因组的大数据研究。
4.“大数据是匿名的,因此它不会侵犯我们的隐私”
大错特错。尽管许多大数据的提供者尽力消除以人类为对象的数据集中的个体身份,但身份重新被确认的风险仍然很大。
关于个性化医疗有很多谈论,人们的希望是将来可以针对个人研制药物和其他疗法,就好像这些药物和疗法是利用患者自己的DNA制作出来的。就提高医学的功效而言,这是个美妙的前景,但这本质上依赖于分子和基因水平上的个人身份确认,这种信息一旦被不当使用或泄露就会带来很大的风险。但在实践中用大数据改善医疗服务仍然还只是一种愿望,而不是现实。
5.“大数据是科学的未来”
随着时间的推移,这将意味着找到把大数据策略和小数据研究相结合的新途径。确切地说,新的混合式方法将会询问人们做某些事情的原因,而不只是统计某件事情发生的频率。这意味着在信息检索和机器学习之外,还将利用社会学分析和关于人种学的深刻认识。
技术企业很早就意识到社会科学家可以帮助它们更加深刻地认识人们与其产品发生关系的方式和原因,
不仅是为了检验各自的研究成果,而且还要以更加严格的态度提出截然不同的各类问题。我们无法回避这样的事实,即数据绝不是中立的,它很难保持匿名。但是我们可以利用跨越不同领域的专业知识,从而更好地辨别偏见、缺陷和成见,正视隐私和公正将面临的新挑战。
美国《外交政策》杂志网站/王飞/摘