数据风险 - 走看看

zoukankan html css js c++ java

数据风险
本文节选自：https://blog.csdn.net/Tw6cy6uKyDea86Z/article/details/84001518

一文了解AI时代的数据风险（后真相时代、算法囚徒和权利让渡）

当今，在基于数据的个性化推荐算法机制满足了人们猎奇心、窥探欲、表演欲，让人们在网络中寻找到共鸣感和认同感时，我们未曾意识到一些新问题和新风险的出现。这些新问题和风险能够影响个人对世界的认知，影响群体达成共识，甚至影响到整个时代的价值观。根据清华新闻与传播学院彭兰教授的观点，目前数据时代所面临的风险来自以下几个方面：
- 客观性数据可能成为后真相时代的另一种推手；
- 个性化算法虽然带来了个人信息服务水平的提升，但也给人们带来偏见、歧视、思想被禁锢等困扰；
- 相关权利保护则受到更多挑战，特别是在隐私权和被遗忘权方面。
风险一：大数据带来的假象

2016年，《牛津英语词典》将“后真相”（post-truth）作为年度词汇，揭示世界进入了后真相时代。罗辑思维曾对该名词做出一个精辟的总结：“过去，我们相信认知源于事实；现在，认知本身就是事实”。

这其中原因，技术自然逃离不了干系。例如谷歌和脸书等公司开发的算法是基于用户从前的搜索和点击进行的，随着每次搜索和每次点击，用户就发现自己的偏见再次得到确认。如今的社交媒体已成为大部分人获得新闻信息的主要渠道，其中的推荐算法机制引导我们进入观念类似者的小群体空间内，它只为用户提供他们喜欢、或选择相信的信息，是否真实并不重要。

后真相现象提醒我们，数据与算法这些看上去客观的手段与方法，并不一定能带来更多真相，反而可能走向它的反面。如果应用数据的过程不遵守一套完整的规范，或者在数据应用中出现了漏洞而未能察觉，未来我们或许会被更多由貌似客观的数据堆积成的假象所包围。根据彭兰教授的观点，数据生产的每一个步骤都存在导致假象的风险：

1. 数据样本偏差带来的“以偏概全”

此前马蜂窝被爆1800万条以上的所谓真实用户数据是抄袭自其他OTA平台。

2. “脏数据”带来的污染

3. 数据分析模型偏差带来的方向性错误

大部分的模型根本没有矫正的环节，如果模型的结果有偏差，系统本身无从得知，根据错误结果持续优化，最终反而变本加厉。

除了以上三个环节可能造成假象外，包括数据挖掘能力有限、数据解读能力有限，都有可能带来偏差。总之，当今的某些大数据分析在某种意义上就是在分析甚至“制造”人们的视角，然后将符合视角的“事实”推送给他们，虽然推送的“事实”似乎是客观的，但是，当它们被放置在人们的“视角”下时，就成为了影响主观判断和态度的重要手段。

风险二：数据时代个人所面临的风险

在大数据时代，从个人角度看，目前数据应用与他们最直接的关联，是各种具有个性化算法推荐的应用。但事实上，这种算法既会对个人视野格局产生影响，也会暴露用户隐私。

1. 算法是否会将人们囚禁在信息茧房中？

“信息茧房”一词出自于美国学者桑斯坦，在他看来，信息茧房意味着人们只听他们选择和愉悦他们的东西。

尽管每个人都有自己的阅读偏好是正常的现象，但如果每个人关注的只是自己兴趣内的那一小片天地，他对这以外的世界，就会越来越缺乏了解。这或许不会影响到他个人的生活，但是，在需要公共对话的时候，人们会缺乏共同的 “视角”。而共同 “视角”的缺乏，意味着人们对一些事实的判断会出现差异，共识难以形成。同时，信息环境的封闭与狭隘，也可能会进一步固化人们的某些观点与立场。

2. 算法是否会将人们囚禁在偏见与固有的社会结构中？

算法的另一种风险，是对社会偏见的继承，以及这些偏见可能带来的文化或社会禁锢。当算法用于不当的目的时，会对某些人群或个体造成歧视与伤害。算法不仅在归纳与“同构”现有文化中存在偏见、歧视，还可能用某种方式将它们放大。譬如此前举例的亚马逊AI招聘系统性别歧视一样，机器的歧视来自于数据的偏差，而数据的偏差来自于人的偏见。

这一点，一些大数据的开发者体会更深，如国内大数据应用领域的代表性学者周涛所言，“让我们不安的是，这种因为系统设计人员带来的初始偏见，有可能随着数据的积累和算法的运转慢慢强化放大。”

3. 算法是否会使人陷入“幸福地被操纵”？

或许，个性化算法还会带来另一个深层风险，那就是在个性化服务下，个体逐渐失去自主判断与选择能力，越来越多地被算法或机器控制。从人的本性来说，懒惰是天然的，想以最小的成本或付出获得最大的报偿，是人之常情，个性化服务在这方面迎合了人性，但是，它也可能正在以方便、幸福的名义，渐渐地使人们对它产生依赖，并在不知不觉中被其麻痹，被其囚禁。

风险三个人权利的让渡是数据时代的必然代价？

1. 用户缺乏对自己数据的知情能力

2. 用户数据的边界问题值得探讨

3. 用户是否应该拥有绝对隐身的权利

4. 保护用户隐私的法律并不能完全保护隐私

尽管数据与算法应用的价值不可否定，但我们需要对数据和算法应用的失误或失范有足够的警惕，也需要增强对抗风险的能力。在国内，由于观念、基础条件、规范等方面的障碍，都意味着大数据应用的推进需要时间。任何功利、草率的思维和行为都是对数据应用的损害而非推动。在数据技术的大跃进过程中，我们也需要回归原点，完成一些基本建设，譬如数据素养的培养、数据资源基础设施建设、数据质量评估体系建立、信息伦理规范的约束等。在这个时代，数据、算法将会成为决定我们生存方式的重要因素。识别、抵抗这其中的种种风险，也应该成为我们生活的一部分，成为各种数据应用机构的基本责任。
查看全文

相关阅读:
P4005 小 Y 和地铁
 P1039 侦探推理
 P2766 最长不下降子序列问题
 P2312 解方程
 P2169 正则表达式
 UOJ#22. 【UR #1】外星人
 UOJ#21. 【UR #1】缩进优化
 Palindromeness CodeChef
bzoj5392 [Lydsy1806月赛]路径统计
 997D Cycles in product

原文地址：https://www.cnblogs.com/myshuzhimei/p/11907705.html