周涛：数据时代的算法偏见，隐秘的穷人与狗不得入内？

2017-06-19 09:12:33 来源：大数据文摘抢沙发

2017-06-19 09:12:33 来源：大数据文摘

摘要：不管我们心中是否还带着对旧时代的眷念和对新时代的惶恐，一个“一切都被记录，一切都被分析”的数据化时代已经到来。
关键词：数据算法

　　不管我们心中是否还带着对旧时代的眷念和对新时代的惶恐，一个“一切都被记录，一切都被分析”的数据化时代已经到来。

　　我们在互联网上的每一次点击，我们和朋友们的嬉笑与争吵，我们与所爱之人的喃喃呓语，甚至我们的每一次心跳与呼吸，都被各种互联网应用和穿戴设备记录了下来。我们现在全球数据存储量高达16ZB，也就是16,000,000PB，而这个数字在接下来的8年内还会增长10倍，达到163ZB。

　　拥有这些数据，并不等于我们能够轻松地驾驭它们。亚马逊上有几百万本书，淘宝上有超过10亿单品，互联网上有数万亿网页，我们终其一生，所能接触到的信息不过是沧海一粟罢了。事实上，大数据时代最大的矛盾就是可获取数据量爆炸性的增长和普通人分辨甄别分析数据能力之间的矛盾。

　　我们的祖先用了上千万年的时间，才学会了用双脚在大地上行走。而我们从一个信息高度匮乏的社会走到今天，不过几十年光景。我们的身体和大脑都还来不及为这样的时代做任何准备。与其说我们是数据的主人，还不如说我们是被数据喂养的婴儿。

　　实际上，当互联网的各种服务把信息推送到我们嘴边的时候，我们没有办法知道这一勺勺的数据中间有多少有益的营养成分，有多少可能的副作用，我们只能选择咽下去。

　　我们每一个个人，乃至我们整个社会，已经为数据时代的到来做好准备了吗？我们有能力做好这个准备吗？我认为，对当前社会基础冲击最大的，还不是数据安全与数据隐私的问题，而是大数据和人工智能带来的新的伦理问题。

　　首先，我想谈谈数据中立性的问题。

　　表面上中立的设计，也可能产生非中立的结果。Luck Dormehl在《算法时代》一书中讲了一个名为罗伯特·摩西的设计者。他在二十世纪20年代至70年代，为纽约设计并修建了多处道路、公园和桥梁。

　　在罗伯特·摩西的设计下，进入公园前的桥梁特别矮，只有2.7米左右，这就使得那些买得起轿车的富人才能进入公园，而乘坐公共汽车的穷人——其中有很多是非裔——则只能绕道而行。

　　这在当时是一种有代表性的观念，现在来看，则是难以容忍的偏见。这种偏见并不是诉诸文字法律，而是嵌入在城市的设计中了。所以，看起来中立的设计，也可能带来偏见。

　　刚才我讲的这种偏见，是由设计者内心的偏见带来的。而在数据时代，冷冰冰的数据和理性的算法，也可能产生和积累结果的偏见。

　　我从2007年开始，就一直做个性化推荐方面的算法研究。

　　个性化推荐系统的算法本身是没有什么偏见可言的，无非是根据你以前的购买记录，来预测你最可能购买的东西，然后给你推荐。

　　我们在亚马逊和淘宝等电商网站上看到的“猜你喜欢”等推荐栏和收到的各种优惠券，都是通过个性化推荐算法得到的。

　　如果你是一个穷人，以前买过的东西都是相应品类中单价最低的，那么，在系统画像里一个名为“价格敏感程度”的维度中，你的分数就会非常高。

　　于是乎，当你搜索一个关键词后，从前到后翻十页，你看到的都是为囊中羞涩的人量身定做的便宜货。

　　如果说LV的店门上挂一个横幅，说“穷人与狗不得入内”，那肯定会被砸了——这是非常严重的偏见甚至歧视。

　　但是在互联网上，数据和算法带来的偏见却很隐蔽。

　　随着数据化浪潮的进一步发展，个人获取和处理信息的难度会进一步加大，我们会更加依赖各种各样的信息中介。

　　例如我们到一个陌生的城市，如何规划一条一日游的路线？又比如作为一个新手，我们如何通过在线教育，选择若干课程，进入一个新的领域？再比如我们怎么在读书的时候就规划和选择自己的职业道路？

　　我相信，高度发达的人工智能会充分考虑你的家庭、性别、民族、消费水平等等因素，给出“最适合你的选择”。于是，穷人和富人会抵达城市中不同的角落、下载不同的课程、规划不同的人生。

　　未来在数据的世界中，不同出身的人所获取到的信息差异，可能比现实世界的差异还大，也因此很可能形成截然不同的视野、格局和能力。

　　技术本身所涉及的各个方面并不可能是完全平衡的，而这种不平衡也可能带来明显的偏差。

　　在中国，重男轻女的陋习有几千年的历史，因此有无数的女孩子一生下来就被弃杀——仅仅因为她们是女孩。

　　后来，通过超声技术，在妊娠4个月左右，我们就能够非常准确地判断出胎儿的性别。于是，曾经有一段时期，如果胎儿是家人不满意的性别，那么这个胎儿很有可能被人工引产。

　　因此，即便到了今天，我们原则上也不允许医生告知父母胎儿的性别。

　　刚才讲的是一个极端的例子。在现代的中国，因为重男轻女的原因故意引产甚至弃杀女婴的行为已经越来越少了。但是我们能够理解和接受引产具有先天缺陷的婴儿。

　　随着B超技术的发展和普及，同样严重等级的出生缺陷，凡是能从B超中检查出来的，就很可能被人工引产，而不能被B超检查出来的，“活着生出来”的概率就大得多。

　　我不是说这种技术不好，实际上这种技术很有价值，我只是想强调具有同样严重程度的先天缺陷，其“出生的权利”实际上掌控在技术手中。

　　显然，如果我们的基因技术发展快于B超，那么一个孩子能不能生下来的机会可能很不相同。

　　随着生物医疗技术的进一步发展，我们可以在胎儿早期就判断他未来罹患重大代谢性疾病的可能性，甚至期望他的智力水平。

　　那么，一个能够健康活到20岁，但之后可能会成为一个很不健康的人、一个智力水平中等偏下但不是弱智的人，还有机会出生吗？

　　如果这些技术有偏差，对某些类型的“先天不足”检查能力更强，那么这种偏差是不是客观上扼杀或放行了一些生命？

　　接下来，我想谈谈数据时效性的问题。

　　我们每个人都应该尊重历史，也应该怀揣梦想，但更多的时候我们生活在当下。如果每做一件事情，我们都必须承受因过历史的影响，都必须考虑对未来发展的影响，那么这样的人生是不堪重负的。现在，具有几乎无限记忆和分析能力的人工智能可能把这副担子压在我们身上。

　　在《大数据时代》一书中，Viktor Mayer-Schonberger讨论过一个可能的情形，就是当智能机器预测到你将在某时某地犯罪，就可以在你还没有实施犯罪的时候逮捕你。这听起来比George Orwell笔下的《一九八四》还要恐怖。

　　当然，这是一个极端的情况，实际上并没有发生过。

　　然而Luck Dormehl在《算法时代》一书中讲了一个温和得多但已经现实发生的版本，就是美国政府根据姓名、出生地、宗教信仰、人脸识别算法、历史行为数据——例如所有旅行数据等等，会对每一位航空旅客是恐怖分子的嫌疑度进行打分，一些无辜的人因为疑似恐怖分子，而经常在机场被羁留检查，甚至多次错过飞机。

　　通过数据和算法，机器可以预测你犯罪的概率，如果这个概率足够大，那么在你还没有实施犯罪行为时，就已经实质上受到了惩罚，尽管你可能是完全无辜的。

　　从功利主义的角度讲，我不怀疑这些智能化的方法能够降低犯罪率，但是这里面一个核心的伦理问题就是“我们是否应该为尚未发生的一种可能性付出代价”，至于说算法到底有多精确，那都是其次的问题。

　　如果刚才的例子隔大家生活比较远，那么我们来看一个现实的例子——酒驾。

　　简单地说，对于机动车驾驶员来说，饮酒驾车是违法，醉酒驾驶可入刑。这条法律受到了数据的有力支撑：“当驾驶者血液中酒精含量达80mg/100mL时，发生交通事故的几率是血液中不含酒精时的2.5倍；达到100mg/100mL时，发生交通事故的几率是血液中不含酒精时的4.7倍。即使在少量饮酒的状态下，交通事故的危险度也可达到未饮酒状态的2倍左右。”

　　事实上，这条法规的出台，有效降低了严重交通事故的发生率。但是从法理上来琢磨，这里面有些微妙的味道。

　　首先，驾车不违法；其次，喝酒也不违法。如果一个醉酒驾驶者，还没有发生交通事故，就被警察逮捕投入监狱，从某种意义上讲，他实际上是因为“存在较高概率发生严重犯罪”而被惩处。

　　当然，醉酒驾驶的法规赋予了这种惩处合法性——因为他触犯了酒驾的法规，就已经是犯罪，而不是尚未犯罪。

　　但是我们不能回避的是，这条法律的基本精神是惩处可能的尚未发生的更严重的犯罪。当数据的采集和分析能力进一步增强之后，我们肯定能够发现更多可能危害安全的因素，并把他们写进法规中。

　　几十年后，如果自动驾驶的车辆占有相当的比例，很可能主要的交通肇事都是由人驾驶的车辆引起的。那个时候的法律，可能就不是针对饮酒后驾车了，但凡你自己手动驾驶，就会成为问题。

　　因此，你没问题，你乘坐一辆由机器驾驶的车也没问题，但你自己手动驾驶就应该入刑——因为在那个时候，人驾驶车辆本身，就是一种对公共安全的危害。

　　数据拥有几乎无限的记忆力，因此我们今天的错误可能会在很长一段时间内，给我们带来难以消除的影响。

　　中学期间一次冲动的打架斗殴，大学期间因为攀比借了校园贷，没有及时还款……这些记录，可能在你30岁的时候影响你申请车贷房贷、可能让你在婚介所的系统中无法匹配上心仪的女孩儿、可能让你的创业融资遭遇阴影……

　　中国有句古话，叫做“浪子回头金不换”，你的爸爸妈妈、你的亲朋好友会原谅你，但是数据会被删除吗？人工智能会原谅你吗？我认为不会。

　　当你可能因为尚未发生的事情遭受伤害，当你的行为可能影响十年、二十年后的你，那么，你应该如何选择呢？

　　迟早有一天，我们会被数据和机器人所包围。当人工智能深度渗透进我们的社会后，我们不得不把人类最后的尊严，道德和伦理规则的制定，让位给它们。

　　举一个迫在眉睫的例子。当你手动驾驶的汽车在公路上行驶的时候，你面前突然出现了一群横穿马路的人。你已经来不及刹车了，只能有三种选择。一是冲过去，压死这群人；二是转向压死一个马路边无辜的人；三是转向冲出公路，自己可能会因此受重伤甚至死亡。那么，你会做什么选择呢？

　　那一个艰难的瞬间，你的选择呈现了你灵魂的声音。或许你是一个自私的人，宁愿压死别人也不愿意伤及自己；或许你是一个伟大的人，宁愿牺牲自己也不愿意伤及别人……不管你做什么选择，在这个灵魂拷问中，给出答案的是人类。

　　但是，在无人驾驶的时代，机器必须替我们做出回答。当机器人，包括各种无人设备，深度融入我们的社会后，我们的所有道德和伦理判断都必须先变成一条条的规则，再变成一行行的代码。那个时候，我们还有尊严吗？我们还有灵魂吗？我们还需要进行道德和人格的修炼吗？

　　任何一个物种，都有盛衰，都会终结，人类应该也不例外。

　　我们可能毁于一场来自外太空小行星的撞击，我们可能毁于自身对环境的破坏，我们可能毁于一场热核战争。更可能的是，因为脑科学的发展，我们可以不费吹灰之力就获得事业和情爱上完全真实的满足感，从而被卸去了在历史中跋涉的动力。又或者，因为大数据和人工智能的发展，一种全新的智能生命接管了我们的世界。

　　几千万年前，一群战战兢兢从树上下到地面的猴子，成了我们的祖先。或许，其他的猴子们应该恨它们吧？因为这些家伙的后代在他们栖息生活的地方建造了钢筋水泥的高楼大厦，已经、正在和即将消灭他们。

　　但如果我是他们中的一员，我不会怨恨，反而，会为孕育出更高的智能体——人类，而感到无比骄傲。不管未来在哪里，我都希望我们能够在科学的发展和伦理的考量中不断摸索，尽可能为我们的子孙后代，或者我们今天难以描述的新的物种，做最好的准备。

第三十五届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：houlimin

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。