半佛仙人：原谅宝的数据真相与隐私埋葬

评论网 · 发表于 2019-8-8 01:34:58

　　0

　　这篇文章中涉及到的一些技术名词和多重逻辑嵌套的描述，可能对于部分读者的阅读体验不是很友好，但我觉得只有这么写才对的起各位长期以来的支持，该写硬核的内容还是要写的硬核。

　　我要把这件事情彻底写清楚，也希望可以让读者们意识到这件事情背后的恶心。

　　1

　　这一阵出现了一个很神奇的东西，叫做“原谅宝”，一时闹得整个微博沸沸扬扬的。

　　起因是一个身在德国的程序员在微博上公布了自己的一个发明，来龙去脉可以看一下这张图。

　　简而言之，就是这位程序员，利用技术，抓取了大量色情网站的视频+音频，利用这些视频资料和音频资料作为素材来进行机器学习训练，然后比对热门社交网络和短视频APP中的女孩脸和声音的相似度，以此来确定一些活跃在社交网络上的女孩们，是不是有着另一段历史。

　　某些看起来羞答答的姑娘是不是背地里酷爱羞答答地做一些羞答答的事情，并且拍下来以证明自己羞答答；

　　某些抖音网红是不是背后还是91网红，不仅在抖音打广告，还在91为自己代言；

　　某些B站大神是不是同样还是P站大神，发B站的视频是电脑正常的，发P站的视频是电脑显卡坏掉了，显示不出衣服的那些残缺视频；

　　听起来效果出色。

　　并且依照他的说法，比对的准确率高达99%（视频）和100%（声纹），基本上算是抓到就能确认，并且当前已经找到了10万左右的女孩有一段历史。

　　并且这位程序员朋友自称收到翟欣欣案的启发，要给老实的程序员们设计这款产品来防止他们成为绿巨人和武大郎，堪称正义使者。

　　于是一时之间鸡飞狗跳，男性欢呼女性痛骂，大家在微博上你争我吵，情绪爆炸。

　　很多读到这个消息的人第一反应是，绿茶婊该死，老实人有救了，凭什么给绿茶接盘。

　　但我却在这件事情中发现了几个问题，并在深究过程中感受到了一种恐惧，发自内心的恐惧。

　　2

　　作为一名长年累月和数据打交道的风控，我首先想到的问题是，我凭什么相信他的数据？

　　这个所谓准确率99%和100%，是怎么定义的，计算标准是什么？统计口径是什么？

　　从技术上讲，这个人自称的准确率，在其描述的场景中基本不可能实现，或者说，他说的准确率与读者们理解的准确率是完全不同的概念。

　　我给大家举个例子，很简单的例子。

　　假使我们测试一个机器人算2位数加减法的准确率，应该怎么测试？

　　很简单，不断输入2位数加减法的问题，然后依据机器人算出的答案，和正确答案来比对即可，正确的次数除以总的测试数，就是正确率。

　　但是这里面有一个前提，就是我们本身必须知道正确答案是什么，这样我们才知道机器算的对还是不对，假使我们不知道正确答案，那么我们是没有办法判定机器的计算。

　　所以定理1，测试的前提是自身已知正确答案。

　　在测试的过程中，测试的次数越多，准确率结论就越靠谱。

　　只让机器算1次，那么最终的准确率要么是100%，要么是0%，单次结果对于准确率的影响是100%。

　　让机器算10次，那么单次结果对于准确率的影响是10%。

　　让机器算100次，那么单次结果对于准确率的影响是1%。

　　如果让机器算1亿次，那么单次结果对于准确率的影响就是1亿分之1，单次误差基本可以忽略。

　　一个测试了1亿次的实验结论和一个测试了100次的实验结论摆在你面前，你当然知道哪个更值得信赖。

　　所以定理2，测试次数越多（基数越大），得出的结论越靠谱。

　　大家思考一下，自己的月收入是多少？

　　或许你会脱口而出一个数字，我们就随机定义为10000元吧。

　　那么我要问了，你的税前收入是多少？

　　你的税后收入是多少？

　　你加上公积金的收入是多少？

　　你每个月扣除绩效的纯工资是多少？

　　发现了么，在这个过程中，面对不同的问题，你的答案是完全不同的，但你的收入其实一直没有变化，变的是如何定义你的收入，这个定义的过程，叫做统计口径。

　　所以定理3，即使是同样的数据，使用不同的统计口径，依然会得出不同的结论。

　　记住这3个定理，面对任何数据时，都要问一下这3个定理，这有利于帮助各位更清晰的认知这个世界。

　　以及看破很多误导。

　　3

　　了解三定理之后，我想各位再看这个所谓的准确率，你就会有疑问。

　　这位程序员朋友所谓的99%（视频）和100%（声纹）准确率，到底是怎么算出来的？

　　他在推导准确率的过程中，使用了什么统计口径，测试了多少样本，他自己有多少正确答案，全部都是未知的，我们看到的只有一个干巴巴的结论。

　　一个没有公布过所有数据细节的统计结论，往往是不可轻信的。

　　再考虑到他这次操作的方向为人脸和声纹，进一步验证了他的结论不可能靠谱。

　　当前面部识别（CV）领域最常见的训练模式是半监督。

　　所谓半监督，就和我们上面讲到的机器人算数一样，给机器大量照片和视频来做识别训练，同时给到机器答案。

　　简单举例给机器2张猫的照片，让机器来比对是否是同一只猫，等机器输出结果后，告诉机器这次比对是正确的，还是错误的，机器会依照这次的结果与正确答案的误差，来调整下一次的比对逻辑。

　　这里面最重要的一点就是，训练者必须知道答案，并且可以把答案输出给机器。

　　市面上的视觉算法独角兽们是怎么做的？

　　他们雇佣大量的外包人员，专门用人眼来给这些照片打标，区分哪个对哪个错，然后把结果输出给机器，这是非常非常高的成本。

　　而这位发明原谅宝的程序员，在训练机器之前，必须要有足够多的正确比对样本，不然算出来的内容，准确度一定是有问题的。

　　这里所谓的正确比对样本，就是他必须明确知道这个人既出现在成人视频中，又出现在微博和抖音中，他必须本身明确知道这一点，而且必须有足够多的这样的正确的案例，才能拿来训练机器。

　　那么这里就出现了一个硬伤，他只是一个普通人，有一点点技术，但背后没有公司也没有钱，他哪里来的大量正确样本来做训练？他怎么可能知道她们谁是谁？

　　如果说少数几个人他认识，那么是有可能的，但是训练模型起码要百万甚至千万级的正确样本，他是不可能有的，这个在逻辑上不成立。

　　他最多下载一些开源的训练样本，但是针对色情网站和社交媒体的训练样本，他自己也是没有的，他所谓的100TB数据，只是素材，不是经过验证的样本。

　　再者，他所谓的100TB数据，本身也有问题，首先就是100TB的数据，不是一个普通程序员能够处理的，这个量级的数据清洗，需要专业的数仓团队在云加持下做。

　　而且再说直接一点，他说的这些色情网站和社交网站，任何一家爬下来的数据，都是PB（1024TB=1PB）级以上，怎么可能这么多家爬下来才100TB，这不现实。

　　所以他所谓的训练，一开始就是有问题的，因为他解决不了原始样本准确度的问题，他没有答案，也就无从利用答案来训练机器。

　　4

　　看到这里，你或许已经有点发蒙了，但我还要继续。

　　虽然他说的事情在当前是基本不可能实现的，但我们可以假设他所言不虚，那么就还有新的问题。

　　假使他不知道从哪里搞来了一堆可信的训练样本，也通过某种超自然的爬虫和数据清洗能力找到了各大网站上100TB的精华，通过训练掌握了一种相对靠谱的匹配模型，那么他做出来的产品是可信的吗？

　　答案是，同样不可信。

　　因为有2个很现实的问题摆在面前。

　　问题1，从技术上，素材的精准度是失控的，没有办法保证她是她。

　　我想各位日常在拍照的时候，一定会发现，同一个人，拍出来的照片是不一样的。

　　不同的角度，不同的距离，脸上的表情，是否逆光，美颜开了几档，有没有有化妆等等等等，即使是同一个人，拍出来的照片都可能完全不同，差距之大甚至好像换了一个人。

　　在视频与图片的对比中，这种误差会被进一步放大，对匹配造成干扰。

　　并且由于P图软件在社交媒体上的盛行，各种美颜工具的滥用，导致很多现实中长得不太一样的人通过同一款软件P成了差不多的网红脸，这会进一步干扰机器比对。

　　简而言之，就是被机器认定为一致的2个人，很有可能只是使用了同样的P图软件，或者说是两个不同的人刚好在不同的角度距离光线下拍出了类似的照片。

　　而机器对于图片的理解和人是不同，所以机器认可的同一个人，可能在人眼中完全不是同一个人。

　　例如一个同一个女孩，同样的照片，一张是黑头发，一张是白头发，人可以确认这是同一个人。

　　但是机器可能就认为黑头发的和熊猫是同一个人，因为他们的特征都是颜色黑白相间，机器与人的认知不同。

　　当然这一切可以通过调整算法和参数来修改，但是这个作者本身没有开源自己的这套算法，所以谁也不知道他怎么做的，同样也不知道他做的是否可信。

　　问题2，这套算法无法还原视频或者照片背后的真实原因。

　　假使这位程序员通过超越时代的技术，彻底还原照片与视频的图像误差，百分百确认她就是她，那么可以相信他吗？

　　很抱歉，还是不可以。

　　因为仅仅通过视频音频和图像，无法精准的还原事件的来龙去脉。

　　你可以看到的是某个女孩/男孩有着某一段视频，但是你不知道这段视频背后是什么背景，这段视频是怎么来的。

　　可能是女孩真的不自爱，玩的很嗨。

　　可能是女孩以为只是跟男朋友在做一件隐私的事情，结果被男孩拍了下来上传。

　　可能是这根本就是某些不干净的酒店里的摄像头，偷偷录下的。

　　甚至可能这背后是胁迫，是威胁。

　　另外这些视频是因为什么原因被上传上去的，也是黑盒。

　　可能是你情我愿，可能是单方面报复，可能是信息泄露，各种可能性都有。

　　懂了么，即使知道一个人是视频的主角，依然不能确认她就是需要被指责的坏人，因为这个视频拍摄的背景，上传的原因，都是未知的。

　　而技术只能解决匹配问题，解决不了匹配背后的现实问题。

　　世界是复杂的。

　　5

　　说到这里，可能你只会觉得这项技术或许不太靠谱，但是感受不到什么恐惧。

　　下面我要说的，是为什么我一眼就能看到这件事不靠谱，但是依然从骨子里感到害怕。

　　因为从原谅宝和微博性别大战背后，我看到了一种可能性的出现，一种利用技术优势越过法律来对人做出定性的可能性。

　　互联网是有记忆的，我们只要上网，必定会从网上留下痕迹，或许是好的，或许是坏的。

　　而这些记忆，将在技术的发展下被挖掘出来。

　　我们每个人都知道人肉搜索和网络暴力，但截至目前，这些事件尽管恐怖，但往往是针对某一个或者某几个个体，而非群体。

　　只有在某些人出名或者犯了众怒的极端情况下，才会出现全网搜索的盛况。

　　而现在，随着技术的进步，完全可以做到针对我们每一个人，来进行无差别搜索。

　　你10年前在QQ空间里面发布过的一些脑残照片，你7年前在校内网上说过的一句话冲动的话语，你5年前发在微博里的脑残言论，你3年前在贴吧里问候别人父母，你1年前在朋友圈中针对某些事件的刻薄评价。

　　都会被挖出来。

　　即使你本身没有留下什么痕迹，但是与你相关的人如果在网上对你做出过什么评价，则这些评价也会被挖出来。

　　更重要的是，这一切信息，仅仅是与你有关，并不能代表真正的你。

　　过去的你你所表达的一切，都是有特定环境，特定场景，特定事件，特定心情，乃至特定的诱导。

　　但是技术分辨不了这一切，技术能做的，就是找出你的一切（疑似）痕迹，然后公布出来。

　　而看客们，则只会看到他们想看到的，然后对你评头论足。

　　这会对参与其中的每一个人的人生，造成毁灭性打击，每一个人的形象，都会崩塌，每一个人。

　　因为这个世界上没有完美无瑕的人，谁还没有点黑历史？

　　一个拼搏创业事业有成的人，完全可能在初中时偷过同学东西。

　　一个为灾区捐献数亿善款的人，完全可能曾经对灾区的苦难施加嘲讽。

　　一个众人眼中无比顾家的男明星，完全可能在10年前发表性别歧视的言论。

　　一个热衷于用技术造福大众，并硕果累累的前辈，完全可能在年轻的时候偷看过女生洗澡。

　　但是这些能代表他的现在么？这些能代表他的一生吗？

　　人是会变的，甚至每一年都会变，除非违法犯罪实锤，否则不能用过去做过的某些事情来对其现在来下定论，这是一个基础常识。

　　但在互联网年代，这个常识被窥探别人隐私的欲望和打标签的快感所遮蔽。

　　我们每个人都在毁掉我们每个人的隐私。

　　6

　　我们应该如何评价一个人？

　　这是一个不存在答案的问题。

　　因为我们永远没法完全公平客观的评价一个人，我们只能依照自己的主观来对某个人在某件事情的表现作出评价。

　　即使要评价，也应该是在他死后，把他一生所做过的好事坏事都罗列出来，可惜这样就什么热点也都没有了。

　　对于同一个人同一件事，随着社会的发展，观念的更新，又会有新的理解。

　　我们的三观是变动的，衡量事物的标准是变化的。

　　这就必然导致我们对于所有人的评价都不是客观的，而在这种前提下，技术一旦出现把我们的一切都强制暴露出来，这带来的就是我们每个人都会立刻面临这种不客观的评价。

　　尤其是我们追逐热闹的本能会让我们只能一眼看到一件事里最近发生爆点最多的部分。

　　然后基于某一件或某几件在众人眼中特别有爆点的事件，来得出结论。

　　这个结论是靠不住的。

　　为什么浪子回头总是得到掌声，一个一辈子做好事的人临到晚年出轨就会被骂的一文不值？

　　说穿了就是人对于别人的评价只会基于最近的一件事情，人没有资格随便给别人的一生下结论。

　　为什么各种热点事件总是反转再反转？吃瓜群众总是道歉唾骂又道歉？

　　因为我们总是依照当前的线索来给事情定性，而当新的线索出现后，整件事情又将得到一个新的评价。

　　原本事物就是这样交替评价的，但是随着技术出现，我们未来将会不断被爆出各种黑历史，我们每个人都将处在这个轮回中，不停被翻来翻去。

　　7

　　虽然原谅宝这个东西本身不靠谱，但是他开了一个坏头，带来了一种全新的模式，技术挖掘人的隐私。

　　原谅宝之后，再没有女孩子再敢放心去爱一个人了，谁知道对方会不会给她来一个惊喜？这一切都会被翻出来，然后被嘲笑。

　　不管这个是不是那个女孩，也不管那个女孩当初的状况如何，反正只要有不雅视频，先羞辱一通再说。

　　然后男女关系会被前所未有的对立起来，夫妻关系也要重新审视。

　　现在是针对女孩子的产品，后面呢？下一个类似的产品是针对谁呢？

　　渣男宝？备胎宝？

　　吃瓜群众也不用幸灾乐祸，谁都逃不了，现在是她们，后面就是我们。

　　尽管这个产品当前过于粗糙，但不重要，因为开了头就可以。

　　我来告诉你们接下来会发生什么。

　　接下来，会有人去做专门的爬虫，来爬社交媒体的全部资料，然后梳理出我们每一个人在网络上留下的痕迹，可能是我们曾经的言论，图片，声音，视频，也可能是我门熟悉的人评价我们或者在他们自己的分享中带出我们的资料（例如合影）。

　　当这些资料被收集齐之后，就是对这些资料的拆分，整理，打标。

　　考虑到这里面的工作量，应该是机器算法来实现，还有5G技术可以帮助算法提供效率，万物互联的年代这些都不会困难。

　　我上文说过了，机器算法没有价值观，对于世界的认知也不同于人类，用这种算法来评价人类，公平吗？

　　更可怕的是，我们每个人都将被这种异于常人的算法标记后的内容，会被公开。

　　然后这种标记将被我们所有人用来评价所有人。

　　这类项目或许一开始会试图商业化，付费删资料或者付费查询等，就像每个人的开房记录与征信报告一样。

　　然后这个项目会被曝光，并最终彻底开源，人人都可以使用。

　　然后失控。

　　我们的一切信息都被前所未有的串联到一起，我们每个人都要接受每一个人的审视，一点点瑕疵都不能有。

　　我们不能犯任何错误，不能有任何情绪过激的表达，我们甚至不敢有任何道德瑕疵，因为会被技术打标处理，然后挂出来被人所有人随意点评。

　　不要想着自己能置身事外，技术是针对所有人的。

　　个人隐私从未如此重要，也从未如此无力。

　　原谅宝自己的发明者都知道拼命保护自己的隐私，在他疯狂侵害所有人隐私的前提下，其他人居然还在欢呼。

　　真的是。

　　可笑又可悲。