百科问答小站 logo
百科问答小站 font logo



个人隐私是否会随着互联网的发展而逐渐消失以至不存在? 第1页

  

user avatar   sarah.zhang 网友的相关建议: 
      

开了两次Information Privacy的课程,在备课的过程中,我也很震惊。从读到的文献和新闻来看,我们在网络上留下的印记 footprints,早已经成为商品了。商家在购买消费者在网络上留下的行为,进行分析,更好地了解用户。

根据这篇文章的发现,

Authors: Balachander Krishnamurthy, Craig E. Wills
Source: Proceedings of the World Wide Web Conference, April 2009 www2.research.att.com/~

这个商业领域有几大巨头,Google, Adobe, Microsoft, Yahoo, AOL. 这些巨头在这个领域有不少并购,你可以想象他们对于用户的网络行为相关的信息是多么感兴趣。这个研究做的比较早,2009年发表的。这个研究里面没有提到Facebook。现在Facebook也是这个领域的巨头之一了。

这篇文章的作者,模拟用户的访问方式,访问了很多网站,分析了很多http的数据。在我们访问first party server, 但是同时,就涉及了有third party, 第三方,的http的数据流动。比如去纽约时报看个新闻,本来只是需要从纽约时报的服务器接收新闻相关的数据就好了,但却也涉及了和double click之间的数据往来。这意味着double click在收集用户访问纽约时报过程中的行为。而且double click这类的数据公司,是在很多网站上收集用户行为的。比如你对纽约时报的访问,对某个电子商务网站的访问,等等。

看一下这方面的收购,就知道这些巨头们对这个领域有多在意了。

Google acquired FeedBurner in 2007, for a rumored price of $100 million.
Google acquired DoubleClick for US$3.1 billion in 2007.

Micorsoft acquired aQuantive in 2007 for $6.2 billion.

“Adobe Systems acquired Omniture, an online marketing and web analytics, in 2009.
Until 2011, Omniture operated as a business unit within Adobe as the “Omniture Business Unit”.
As of 2012 Adobe began retiring the Omniture name as former Omniture products were integrated into the Adobe Marketing en.wikipedia.org/wiki/O

“This increase is significant because it shows that now for a majority of these first-party servers, users are being tracked by two and more thrid-party entities.”

怎么保护自己呢?

事实上,我们在自己电脑上能做的很有限。但我还是列出来一些我知道的方式。不过,我们还可以推动立法和规管。

IE有privacy settings, 可以设置。有do not track mode

support.microsoft.com/e

windows.microsoft.com/e

Google Chrome 有 “incognito” mode

support.google.com/chro



可以安装Ghostery,看一下网站有什么trackers, 也可以disable the trackers

ghostery.com/

Ghostery显示,H&M的网站有不少tracker, 比如doubleclick


也可以试试看lightbeam

mozilla.org/en-US/light

会显示你访问的网站,和那些网站上的trackers


在信息隐私领域,立法远远落在了业界的实际情况后面。但是,有一些人,一些和你我一样普通的消费者,在尝试改变这方面的情况。

感兴趣的,可以搜索

Murphy, Patrick E., Gene R. Laczniak, and Fiona Harris. Ethics in marketing: International cases and perspectives. Routledge, 2016.

books.google.fi/books/a

比如这本书里提到的欧盟在信息隐私方面的一些里程碑式的进展

Milestones in data privacy regulations in the European Union

1995 Data Protection Directive
2000 Safe Harbor Decision
2009 Charter of Fundamentals Rights of the European Union
2014 Google Spain SL, Google Inc. v Agencia Española de Protección de Datos, Mario Costeja González
2015 Maximillian Schrems v. Data Protection Commissioner
2016 Trans-pacific Partnership (TPP)
2016 EU-U.S. Privacy Shield

其中一个,2015 Maximillian Schrems v. Data Protection Commissioner, Maximillian Schrems就是一个普通的学生。


"要想了解欧洲对Facebook的强烈不满,看看马克斯·施雷姆斯(Max Schrems)的经历就够了。施雷姆斯是奥地利的一名法学系学生,一直带头反对这家公司搜集和使用全世界用户数据的做法。

27岁的施雷姆斯最近表示,他对网络数据的担忧至少要追溯到2011年,在加州的一个大学课堂上。他说,在那门课上,几家美国西海岸科技公司的雇员公开嘲笑了欧洲严苛的数据保护规定。这些规定郑重其事地表示,隐私权是一项基本人权。

回到欧洲之后,他开始了一项长期活动,抗议Facebook搜集某些类型的数据,比如地理位置信息。

为了限制Facebook的做法,施雷姆斯多次向爱尔兰的数据保护监管机构投诉。后者负责监管Facebook设在都柏林的国际总部的活动。这引发了对Facebook数据搜集方式的长达三个月的审核,并且迫使Facebook改变了一些获取和使用用户网上信息的操作。

施雷姆斯对爱尔兰监管机构处理该案的手法并不满意,此后加大了自身行动的力度。

他向爱尔兰的最高法院提出了上诉,后者将案子转交给了欧盟地区的最高法院——欧洲法院(European Court of Justice)。该院关于Facebook等公司能否继续在欧洲和美国之间传输用户数据的最初裁决,预计将于6月底做出。

许多美国科技巨头依靠在不同地区之间传输网络信息来支撑其商业模式,比如个性化的数字广告业务。如果欧洲法院的裁决支持施雷姆斯,那么这些操作或将大大受限。

在征集了逾7.5万个网上签名之后,施雷姆斯还在奥地利发起了另一桩集体诉讼。他说,这家公司违反了欧洲的隐私规定——Facebook强烈否认这些指控——如果胜诉,他这一方可以获得至多1400万美元的赔偿。此案至少要等到2016年初才会有裁决。

“这是为了限制Facebook可以对欧洲用户的数据进行的操作,”施雷姆斯说。尽管与Facebook存在法律纠纷,他仍然是该网站的活跃用户。“应该允许他们在多大程度上挖掘用户的灵魂?这就是我们在努力抗争的问题。”"

cn.nytimes.com/technolo

生活在美国的朋友,不知道你们有没有留意到一个新闻

April 3, 2017
“ President Donald Trump on Monday signed into law a controversial measure repealing online privacy protections established by the Federal Communications Commission under the Obama Administration.
The rules, which would have taken effect in December, required internet service providers — including Comcast, Verizon and AT&T — to obtain permission from customers before sharing personal data like their web-browsing history. The rules were aimed at preventing internet providers from selling that data without permission.”

简单的说,在美国,互联网服务提供商,比如Comcast, Verizon and AT&T,也可以买卖用户上网浏览的信息了。

time.com/4724128/donald
money.cnn.com/2017/04/0
一方面,一些人在推对立法和规管,试图让大众保有隐私。另一方面,企业也在通过立法,试图让隐私变成可交易的商品,让企业拥有对这些信息买卖的权利,收集和分析的权利,使用的权利。沉睡的大多数,我们得醒来,了解情况,保护自己。

我们先得了解目前的实际状况,然后思考我们可以怎样保护自己,保护其他用户,并且行动起来。


user avatar   cui-zhong-qiang 网友的相关建议: 
      

……我觉得我可以用我的例子亲身演示一下这个时代多么的恐怖。

【多图预警】

假定

有一天,领导要介绍我相亲。我问领导这个人有什么个人信息没,领导只甩下了一句话:

“崔忠强,通化市气象局的。我只知道这些”

“够了!”

首先是百度。以崔忠强+通化市气象局为关键字,第一页如以下结果:

除了人人网的那条,剩下的都是发表过的论文。所以我们可以从人人网下手了。点开这个人人网连接,得到如下结果:


看,崔忠强小强强,这正是我们要搜索的人。

这时就得到了这个人的人人名字,点开主页看一看吧。


开了个小号去瞅了一眼……发现这个人填的信息不忍直视……

我擦,居然性别是个女的!(画外音,不要在意细节)

这时候我们得到了这个人的兴趣爱好:古典音乐,游戏,爱打篮球,喜欢天文。

哇~看起来是个浪漫的技术宅(画外音:别闹,不看电影不看动漫不看书,这种三无产品一定很肤浅)

好吧看完了这些,我们看看相册吧。


居然都是和妹子的合影!(画外音:没准是EX呢。)

我们看一看日志吧,看看他都发表过啥。


果然是EX!

不过文笔不咋的嘛~

呐~这些支线剧情看完了,我们可以看一看主线了。回到上面的个人资料栏,我们看到了这个人的毕业学校:齐齐哈尔市第一中学。

百度一下吧。

崔忠强+齐齐哈尔市第一中学:无结果

崔忠强+第一中学

这里有两个和齐齐哈尔市有关的,第一个是2004年中学生天文奥赛。我们点进去发现这个崔忠强也是齐齐哈尔的,根据上面人人网得到的消息,这个人应该就是他本人了。

看起来蛮厉害嘛~

继续往下看,这个tbc_astrosoft是什么鬼…点进去看看吧



………………

原来是他的博客…浓浓的中二气息……为什么会喜欢张含韵……TBC战队又是什么鬼……下一步,我们搜一搜这里的那个昵称吧。T.BC]astrosoft。继续使用万能的百度。


这次的搜索结果也很满意,这个锐派游戏论坛里面的astrosoft,应该就是这货了。

大概这个人的常用id是astrosoft吧。这时候社工库出场了

……然后我们知道了这个人的两个常用邮箱,一个是hotmail的,这个毫无疑问是他。

另一个是他的qq邮箱,也就是他的qq号。我们搜一下他的qq吧


好的,齐齐哈尔,下面还有hotmail邮箱。就是这个人无误了。

然后我们就动用qq群关系数据库吧!搜索110445870


我擦我的电脑好卡!这人有毒!是个加群狂魔!

还好我们有个利器,点击去除独立节点!


我们看到了很多关键字,比如09防雷(可能是专业名吧),比如plu(这个人可能是plu的水友),比如黑龙江天协(天文爱好者嘛),比如dotacn管理组(可能是做过dota的汉化吧),比如各种各样的新生群…and so on…

既然知道了他的id和网络轨迹,这种人肯定是上贴吧的。我们看一下贴吧资料吧。(这一步手机更优,因为可以看到所有关注过的贴吧)


还有各种各样的帖子就不发了。

大概这个人是个游戏狂魔,又喜欢足球,又喜欢鲁尼,喜欢天文,喜欢桌游,喜欢围棋。

爱好好广泛,不过估计样样都不咋地……

呐~其实和上面的信息有很大一部分已经开始重合了。

在一大堆的帖子中,我们找到了一张图片,图片的右下角水印显示出了他的微博地址。@崔大傻要加油。里面都是他画过的画~还有乱七八糟的看不懂的文字。

比如


有原创也有模仿,看来是个挺逗比的人。。。

再看看往常的帖子,微博,一个有血有肉的人出现了。

进一步调查资料,南京信息工程大学的校园论坛叫南气风云,南气风云里有个id叫astrosoft,后来更换了id叫爱死戳扫福特。做过版主,也活跃了好几年。里面也有n多帖子可以挖掘。详情不表了。

好信的话以很多社交网站比如豆瓣、知乎为关键词,还可以搜到一些消息。

综上所述,我们得到了如下信息:

这个人,业余爱好天文,曾经是半个学霸,情感经历丰富,为人比较逗比,当过很多论坛的版主、管理员,爱玩游戏,在游戏战队也当过领队,所以组织能力尚可,办事应该很有条理。但是根据一系列情感方面的文章来看,对待女朋友的时候情商比较低,比较自卑,可能谈起来恋爱会比较累。另外,他是自己在外地工作,经常在网络上发泄寂寞情绪,也比较依赖父母,看起来是个没长大的孩子。

所以,还是不要见面了吧。

最主要的是,他真的太丑了。


----------------------------------------------------------------------------------

崔忠强这边的视角:

科长:“小崔啊,给你介绍个女朋友,我觉得挺合适的,过几天安排你们见面啊~”

崔忠强:“好啊好啊,谢谢领导还念着我。”

三天后

科长:“小崔啊,姑娘说了,看了你的照片对你没感觉。你在等等吧,有合适的给你介绍。”

崔忠强:“嘤嘤嘤…”


user avatar   tai-ping-yang-dian-nao-wang-ruan-jian-pin-dao 网友的相关建议: 
      

最近的确有越来越多的网友注意到了隐私问题。长久以来,国内的互联网公司取用户隐私似乎如同探囊取物,视节操若无物;而随着越来越多企业意识到大数据的作用,窃取隐私又有了更强烈的动机。

国内的互联网服务窃取隐私的激烈程度,远胜于国外。例如,随便找一个国内APP安装,你很大概率会碰上甚至两三页都翻不完的权限列表。要如何阻止个人隐私被窃取?有的用户采取了技术手段,例如安卓平台上可以通过Xposed安装Xprivacy等工具来进行防范。而一些手机厂商也意识到了这一点,安卓ROM普遍都已经配备权限管理系统。

但是,技术手段显然仍彻底阻止隐私被窃取。例如,某些APP如果检测到无法申请到某个权限,那么这个APP甚至直接拒绝打开。在这种霸王条款般的设定下,用户不得不将隐私拱手相让。况且,某些系统级别的网络服务,本身就会触及隐私部分——无论是桌面端还是移动端,操作系统都越来越朝云端靠拢,用户一昧拒绝服务读取隐私信息,恐怕并非长久之计。

换言之,仅仅依靠技术手段来防范个人隐私窃取,是远远不够的。就算互联网服务不再乱偷隐私,但如果要正常使用互联网服务,不可避免地需要交出部分个人信息。在享受移动互联网时代的红利之时,如何才能防范大数据带来的副作用?或许欧洲的GDPR法案可以给予大家一些启示。

在今年的5月份,欧盟通过了一部保护隐私数据相关的法案《通用数据保护条例》,简称GDPR。这部法案在欧盟28个成员国生效,而且适用于任何收集、处理、管理或存储欧洲公民数据的组织——这意味着如果某个互联网公司在欧盟成员国展开活动,那么它也会受此法案影响。如果只是影响范围广大,那也倒没什么;但GDPR对隐私数据的保护,严苛程度可谓是前所未有,于是一下子在业界引起了轩然大波。

GDPR法案全文很长,在网络上也有中文翻译的版本,这里就不贴上全文了,只挑几个值得关注的重点来说说。

首先,GDPR严格限制了数据收集。在GDPR中,不仅仅用户的姓名、地址、网络属性(IP地址、定位信息、Cookie等等)被纳入了保护的范围,连指纹虹膜DNA等生物数据,乃至种族民族、政治观点、性取向、犯罪记录等社会信息都被严密保护。如果想要收集用户数据,必须经由用户同意,而用户也随时可以询问到底有哪些隐私数据是被收集的,可以要求收集者提供数据的副本,企业必须一个月内答复。如果你是16岁以下的未成年人,那么还必须经由父母同意,企业组织才能处理关于你的隐私数据。想要不知不觉就把你扒精光?在GDPR条例下,再也行不通了。

其次,GDPR让用户拥有了对隐私数据的自主控制权。例如,你可以请求互联网企业修改某项数据、以保证准确性,也可以要求企业删除关于你的某项数据。国内很多互联网服务都不提供注销服务,隐私信息一旦被互联网企业收集,恐怕以后再也没有了删除的机会。而在GDPR下,用户对隐私的把控权利,无疑是值得国人羡慕的。

再者,GDPR要求企业不能对用户虚与委蛇,随便套路用户。在国内,你在使用某项服务之前,往往会碰到长得令人脑仁疼的用户协议,必须同意协议才能使用;而一旦同意后,才发现协议中存在霸王条款,例如可以将你的数据随时共享等等,出了什么事企业完全不用负责任,这时悔之晚矣。而GDPR要求必须以“明确简练”的语言,告知用户关于隐私收集处理的种种信息,想要下套路再也不是那么容易了。

然后,一旦企业发生了数据泄露的事故,GDPR还要求在72小时内通知用户,否则将会面临数以亿计的巨额罚款。在国内,我们时常会听到某某网、某某公司被脱库,动辄数百万用户信息被盗取甚至公诸于众;而用户在听到此类消息后,才慌不迭地去网上查询自己的信息有没有被爆出去,往往为时已晚。在GDPR的保护下,企业一旦对数据失去控制,那么必须72小时内通知用户以及数据保护当局(DPA),并采取种种具体措施,来评估、保护用户数据,这无疑大大减轻了用户隐私被不法使用的风险。

前面知友的高票回答当中,隐私问题存在不对称性、难以追回等特征。而在这些方面,GDPR都提出了详细具体甚至可以用严苛来形容的要求,这让很多互联网服务提供商都觉得吃不消。

GDPR所产生的影响,是长远深刻的,在当前甚至逼迫很多企业公司在欧盟修改隐私政策,甚至停止服务。例如,一些手机厂商更新了自己的隐私保护条款,并且以醒目的方式推送给用户;而一些网站更加粗暴,直接屏蔽了欧洲约5亿的用户,Twitter、WhatsApp等社交工具则禁止了欧洲16岁以下儿童使用;国际版QQ一度宣布不再为欧洲用户服务,但随后紧急回应不会下线。比较搞笑的是,USA Today发布了遵循GDPR专用版APP,移除了所有跟踪脚本和广告,大小一下子从5.2MB缩减到了500KB。可见,除了保护隐私,GDPR对用户体验的提升也有一定程度的积极作用。

不少媒体认为GDPR属于保护隐私的里程碑,将会极大程度改变整个互联网。但遗憾的是,国内目前尚未有如此程度的法律法规出现,个人的隐私想要在国内得到有效保护,似乎任重而道远。

当然,在国内我们也可以看到一些积极的迹象。例如,去年开始施行的《中华人民共和国网络安全法》,就有不少关于网络隐私保护的条文。很多朋友可能会发现,微信、QQ等网络服务突然就能注销了,这主要是由于《网络安全法》有相应的条文作要求。而工信部也大力推动了网络服务注销机制,虽然目前大部分网络服务仍注销困难,但情况正得到好转。


不仅如此,更严厉的数据保护法案已经在路上。有人大代表递交了《中华人民共和国个人信息保护法》的议案,而《个人信息保护法》也已经有了成文的草案。不过,《个人信息保护法》目前仍处于制订阶段,未纳入今年的立法计划,不过相信该来的还是会来的。

总结

个人隐私是否会随着互联网的发展而逐渐消失?越来越多人已经意识到了问题的严重性,GDPR的出现更是为隐私保护打了一针强心剂。想要在互联网和大数据时代更好地保护隐私,技术方面的努力固然重要(例如安卓加入的权限保护系统),但想要更彻底地解决问题,恐怕还有赖于强有力的法律法规,希望在将来人们的隐私信息都能得到更好的保护吧。


user avatar   kevin-zhang 网友的相关建议: 
      

看到这个题目,我又想起李彦宏的那段话:


“中国人对隐私问题的态度更开放,也相对来说没那么敏感。如果他们可以用隐私换取便利、安全或者效率。在很多情况下,他们就愿意这么做。当然我们也要遵循一些原则,如果这个数据能让用户受益,他们又愿意给我们用,我们就会去使用它的。我想这就是我们能做什么和不能做什么的基本标准。” ——李彦宏


其实这个观点有一定道理,因为事实上很多用户就是这么做的。当然,其中部分用户知晓互联网应用收集了部分隐私数据,但是为了继续使用其服务不得已被迫授权;更多的用户根本不清楚被收集了哪些隐私数据以及它们被用来干什么,甚至不知道隐私政策在哪、是什么。之所以这个言论激起民愤,主要还是百度的口碑近年来每况愈下所致。大家不自觉的联想到百度的负面新闻上,或者联想到国内绝大多数应用“不授权不给用”的霸王条款。

个人认为这是市场发展的一个必经阶段。互联网金融的飞速发展,与信用体系建设的进度不匹配,加上国外Zestfinance等机构证明了利用替代数据进行风控的可行性,使得大数据风控作为央行征信体系的补充,几年之内迅速发展,衍生出各类黑灰产,在《网络安全法》及两高司法解释发布之前,很多数据已经在市场上流通,数据堂等公司被立案之后,行业才逐步往合规方向发展。随后,我们看到八家准个人征信牌照变成一张,相关隐私保护法规密集出台(近期《个人金融信息(数据)保护试行办法》初稿也在征求意见了),官方数据接口(如学信等)逐渐收紧,以及最近的爬虫供应商处在风口浪尖。法规在逐渐完善,用户在基本的移动互联网应用基本需求被满足了之后,隐私保护意识也在逐渐觉醒。

而爬虫只是众多技术的冰山一角,本文希望通过对当前各类新技术(大数据、网络爬虫、云计算、移动互联网、物联网及边缘计算、区块链、生物特征识别、黑产技术等)给隐私保护带来的挑战说起,探讨企业、个人及监管机构可能的应对措施。由于内容过长,本文将分三次发布,本次发布第一部分,重点探讨大数据技术对隐私带来的挑战。

引言

根据Hootsuite和Weare social的《2020 Global Digital Statshot》,截止2020年一月,全球网民已达到45.4亿人,互联网普及率达59%:

这意味着,全球半数以上的人口数据已经在互联网上留有记录。当然,这是非常保守的估计,随着金融科技的发展,更多的人在知情或不知情的情况下,个人信息已经被各类智能家电、公共摄像头、智能医疗器械等等采集,并且被加工后用于产品升级和精准营销。个人信息数字化的趋势已不可避免,随之而来的便是个人隐私数据的泄露愈发严重。根据Gemalto《2018上半年数据泄露水平指数报告》,2018年上半年全球数据泄露总量为45亿条,比2017年同期增加133%,值得注意的是,泄露事件的总数相比去年反而下降了,说明每次事件造成的后果更加严重。[1]尤其是还发生了Facebook-剑桥分析这样影响重大的泄露事件,给全球的数据安全行业再次敲响了警钟。

接下来,我们将从各类新技术的本质切入,探讨其给隐私保护带来的新挑战,以及各方的应对措施。

金融科技给隐私保护带来的挑战

一、大数据技术给隐私保护带来的挑战

在谈论具体技术之前,我们先来看看隐私的定义,早在1890年,沃伦(SamuelD.Warren)与布兰代斯(Louis D. Brandeis)在《论隐私权》一文中就提出:隐私权指公民享有的私人生活安宁与私人信息依法受到保护,不被他人非法侵扰、知悉、搜集、利用和公开的一种人格权。作为一项法律权利。其中就明确提出了“私人信息”的概念,信息即数据,因此隐私这一概念从一开始就和数据密不可分。

大数据时代,私人信息的用途越来越多,价值越来越大,因此也更容易被提供,更容易获取,更容易被分发,自然也更容易泄露。本节我们暂不考虑多样化的数据源头,仅就大数据相关技术本身对隐私保护带来的挑战进行讨论。

1. 相关性分析

相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法[2]。大数据分析的一个重要特点就是着力于分析相关关系而不是因果关系,不过相关性分析和个人隐私有什么关系呢?

2006年10月,Netflix举办了一项奖金高达百万美金的大赛,公开征集电影推荐系统最佳算法,以提升现有电影推荐系统Cinematch的算法推荐成功率10%为目标,为此Netflix发布了一个训练用数据集,并提供了免责声明:为保护客户隐私,可识别单个客户的个人信息已被删除,并且所有客户ID已用随机分配的ID[sic]替代。Netflix不是网络上唯一的电影评级门户网站,其他网站还有很多,包括IMDb。个人可以在IMDb上注册和评价电影,并且可以选择匿名化自己的详情。德克萨斯州大学奥斯汀分校的研究员Arvind Narayanan和VitalyShmatikov将Netflix匿名化的训练数据库与IMDb数据库(根据用户评价日期)进行匹配[3],仅选取了50位IMDb用户的小样本,居然识别出了2位用户的具体身份[4]。

虽然Netflix已经把训练数据集的客户ID做了匿名处理,但是采用相关性分析,还是可以通过与其他数据源的匹配来识别客户,这在大数据技术普及之前是难以想象的。这类情况也直接导致了差分隐私技术的发展,后文会介绍差分隐私的相关概念。

2. 回归分析

回归分析是大数据分析技术中常用的另一种技术,主要用于预测性建模,研究的是因变量和自变量之间的关系,常用的方法有线性回归、逻辑回归等。

最经典的例子莫过于美国零售商塔吉特利用购物清单预测女性顾客是否怀孕了,明尼苏达州一家塔吉特门店被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一个高中生。但没多久他却来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。[5]

谈论塔吉特公司的例子时,大家可能觉得事不关己,而说起Facebook-剑桥分析事件,则更有切身体会。通过一个心理测试三方小程序,以五美元为诱饵,吸引27万用户答题并且用Facebook账号授权登录,借此获取了他们的公开数据以及近五千万的好友信息,通过寻找摇摆州的部分情绪不稳定选民,对其投放广告施加影响,剑桥分析间接的操纵了大选。[6]


虽然很难说剑桥分析的广告到底对大选造成了多少影响,但是这个事件的真正可怕之处,在于开启了一种隐私数据滥用的全新模式,为全球的黑产提供了一个新的思路。攻击者可以通过社交网络平台提供的公开接口,以少量金钱或积分进行诱导,让用户自行提供账号相关信息。攻击者不必知道客户的具体身份,只要获取用户在平台的ID,就可以对其进行广告投放,恶意欺诈,身份伪冒等等,轻则导致个人隐私和财产受到损失,重则煽动群体立场,进而操纵各类投票、选举,甚至引发群体性事件。

3. 开源大数据平台

目前最流行的大数据开源框架Hadoop,最初是基于Google的GFS和MapReduce论文,基于服务器环境可信的前提下构建的,并未考虑整体的安全规划。尽管目前开源社区已经增加了一些访问控制、加密等安全机制,来解决不断增加的用户需求,但是仍然缺乏统一的安全体系,特别是在账号权限部分,访问控制仍然依赖于底层Linux的权限管理。而开源的特性更是导致很多隐患暴露在开放的互联网中。根据CVE(Common Vulnerabilitiesand Exposures )漏洞列表,2012年~2018年共有22个Hadoop平台漏洞[7],其中多个与数据泄露有关。而Hadoop的核心——分布式存储HDFS,由于默认配置和MongoDB类似,允许非授权用户访问,2018年1月,就有攻击者利用这些设备的漏洞,将文件夹全部删除,并且建立了一个名为“NODATA4U_SECUREYOURSHIT”的目录,预计影响了8000-10000个HDFS节点。[8]根据在线设备搜索引擎Shodan在2017年5月的报告,已有超过5120TB基于HDFS存储的数据存在泄露风险,其中美国和中国的HDFS节点最多,[9]分别为1900个和1426个。[10]

二、 网络爬虫技术给隐私保护带来的挑战


网络爬虫技术并不是一个新技术,最初是搜索引擎用来抓取散落在因特网上的海量网站,解析后为用户提供搜索服务的一种技术,本质上是模拟浏览器浏览网页的行为,用程序获取网页上展示(或隐藏)的数据。Web 1.0时代,互联网上的个人信息少之又少,以门户、新闻等信息为主,爬虫低调而务实,仅仅是一个搜索引擎收集数据的工具。Web 2.0时代,随着UGC(User Generate Content)的增加,爬虫可以用来做一些群体用户行为分析了。互联网+时代,特别是互联网金融的发展,大数据供应商们绞尽脑汁,寻找一切可以判定个人信用的数据,从最早的信用卡邮箱账单,到社保、公积金、运营商通话详单,甚至通过模拟登陆网贷平台,来判断一个手机号是否曾经注册过,或者登陆B网贷平台,用其额度和利率来作为A平台的风控参考。

诚然,技术并无对错,这几年由于需求旺盛,大数据供应商如雨后春笋般遍地开花,替代数据风控模式如百花齐放般层出不穷,确实使得国内互联网企业、金融机构在大数据风控方面有了不小的发展。然而监管的滞后,让大量无牌照的大数据公司赚得盆满钵满,还把爬取到的数据通过批量出售、交换等方式获取多次利润和更多的数据。

出来混,总是要还的,通过违法方式收集数据的公司必然会受到法律的制裁,但是由于数据作为资产的特殊性,流通到黑市和暗网上的数据,却已经难以追回,因此隐私泄露,只有0次和无数次,一旦泄露,造成的危害难以想象。

关于如何使用网络爬虫技术才是合规的,近期已经有不少文章做过精彩论述,本文不再赘述。这里数据玩家主要想探讨的是,不管企业合不合规,爬虫技术到底可能带来哪些隐私泄露的风险,我们应该如何避免?这里我们分成公开数据和非公开数据两类分别讨论。


1. 公开数据


即任何人不需要登录任何账号、或登录一般账号就可以查看的数据,比如用户在各类论坛、贴吧、微博等发布的内容

大家会感觉这些数据没什么隐私,因为都是自主发布的,一般人也不会把自己的隐私信息公开发布。当然,完整的隐私信息没人会公开发布,但是由于隐私保护意识不够,社交媒体上经常见到有人晒出各种暴露隐私的信息,再加上之前介绍的大数据相关分析技术,可以很容易的复原一套完整的个人隐私信息。

我们举个栗子:

小明为了在社交网络上刷存在感,所有平台的ID都是一样的,叫xiaoming0229(疑似生日get)。

  • 国庆出国去玩,小明在微博晒了自己的登机牌(姓名get)
  • 在贴吧找一个资源,小明留下了自己的邮箱:xm137xxxxxxx@qq.com(疑似手机号get)
  • 小明出差很多,有一次在知乎回答“整天出差的工作是一种什么体验”的问题时,小明晒出了一叠火车票,大部分信息都遮住了,但是身份证后四位没遮住(身份证后四位get)
  • 小明在某个地区论坛认老乡,发帖说到自己的身份证也是XXXXXX开头的(身份证前六位get)
  • 小明是某闰年2月29日出生的(ID也可以看出来),在豆瓣加入了2月29日出生的小组,并且晒出了出生年月日(身份证中间八位get)

看到这里,大家应该发现,拿到小明的姓名+身份证+手机号三要素一点难度都没有,如果小明神经再大条些,在某个羊毛论坛晒自己的借记卡没把卡号遮住,在某个社交媒体晒自己的身份证大头照有多不满意……一套完整的四要素,加上身份证照片都可以做好了。

四要素能干嘛呢?可以做的事情太多了,我们留到黑产章节再详细介绍。

大家看到这里可能认为这个案例太极端了,而且很多数据并非标准化(如登机牌、火车票的照片等)。确实这是一个极端的例子,难以大规模实施攻击,但是如果黑客有意针对一个个体进行攻击的话,完全是可以做到的。与其抱有侥幸心理认为下一个不会是你,不如提升隐私保护意识,防患于未然。


2. 非公开数据

即必须登录特定账号才能查看的数据。比如邮箱、社保、公积金、运营商官网等。

相比公开数据来说,由于需要用户授权自己的用户名、密码,大多数用户对于这类数据是相对比较谨慎的。但是由于需要获取这些数据的,一般都是金融相关的企业,用于辅助信用评估,所以当一个人有了金融需求,真的需要借钱时,往往对于隐私的谨慎就排不到第一位了。

这类爬虫最大的风险点除了获取的数据外,在于获取了用户的密码。如果非要授权,至少应该改一个临时的密码,授权之后再改回自己常用的密码,毕竟大多数人常用的密码就那几套,我们可以相信一个企业的底线,但是难以估计企业里每一个员工的素质。

另外,关于邮箱的授权,一般是用于信用卡账单管理,这是一个需要持续授权的服务,最好单独用一个邮箱来做信用卡账单邮箱授权。如果已经有常用的邮箱又懒得改,也可以用邮箱提供的来信分类功能,将特定邮件转发到特定邮箱(51信用卡已经提供了这个功能)。常用邮箱密码一旦泄露是非常麻烦的,绝大多数社交平台、甚至有些金融机构直销银行的密码,都可以通过邮箱重置。

总之,在隐私保护这件事上,建议做到以“小人”之心度“君子”之腹。


三、云计算技术给隐私保护带来的挑战


云计算给互联网和金融行业带来了诸多益处,比如接入方便,压缩成本,弹性计算等等,同时也带来一系列问题,尤其是数据安全方面。由于云计算服务提供商的承载了多家企业的生产系统,如果出现故障,很容易造成大面积企业受到影响,进而造成更大面积的个人用户受到影响,如2018年8月发生的腾讯云数据丢失事件[11],虽然类似大规模数据丢失事件极少发生,但是通过搜索相关云服务商数据丢失的情况,发现非常多局部数据丢失的情况,出于对云服务的信任,多数用户并没有保存本地备份,导致数据无法找回。同样,我们有理由担心,如果发生云服务商数据泄露,造成的影响也是单个企业数据泄露所无法比拟的。

由于云计算的底层服务器,包括操作系统、组件等,都是多租户共享的,因此黑客有可能通过底层服务入侵,一旦破解,那将如入无人之境。攻击者可以通过自身安全意识不强的企业用户作为突破口,从木桶的短板进攻,使得同一云平台的其他企业用户同样危险。而且由于公有云服务的接口都暴露在公网上,使得攻击更容易进行。

更为危险的是内部人作案,如果云服务商的内部员工作案,将会导致极大规模的数据泄露,再加上不少金融机构也开始上云了,金融机构的数据如果泄露,后果不堪设想,事实上这种情况在Capital One已经发生了[12]。云服务商为了给各地用户提供低延迟的服务,会建立多个物理数据中心,不同地区的数据中心,在物理设施、人员配备、管理细则上参差不齐,也给了攻击者可乘之机。[13]

企业上云是大势所趋,遗憾的是,我们没什么办法来在这趋势中更好的保护自己的隐私,只能寄希望于上云的企业,以及云服务供应商,在技术上做好安全防护、数据加密,管理上做好权责分离。


四、移动互联网技术给隐私保护带来的挑战


1.定位数据


区别于PC互联网时代,移动互联网时代最有特点的数据就是定位数据,从原来的IP定位,已经发展到GPS定位以及运营商基站定位。人们在享受定位数据带来的便捷服务的同时,也承担着相应的风险。比如,通过提供LBS(LocationBased Service)服务的App,变换三次位置可以框定附近某个用户的位置;通过手机相机拍摄的照片Exif(ExchangeableImage File)信息,也可以获取该照片拍摄的GPS定位;更不用说用户们在社交网络上主动分享自己定位了。

定位信息仅仅泄露的是个人隐私,风险相对可控,但是结合大数据分析及可视化技术,大量用户的定位信息可能带来更大的危害,比如揭示军事机密。这并非天方夜谭,Strava是一款户外运动健身App,由于用户中有很多军人,结合他们的运动轨迹和已知军事基地的大概范围,可以挖掘非常多的信息,甚至揭露隐藏的军事基地。[14]


2.设备数据

除定位数据外,各类App还会收集各类设备信息,尤其是具有金融借贷属性的App,为了识别用户的还款能力和还款意愿,以及对用户是否本人进行判断时,常常收集App安装列表、通讯录、通话记录、短信等,持牌金融机构会在用户授权的前提下获取数据,并且保证数据的安全,但其他机构则未必,轻则提供数据给外包催收公司进行暴力催收,重则违法出售数据给黑产牟取暴利。


收集部分设备数据主要是用来防范黑产,比如图6这种设备农场,这一批设备的陀螺仪角度、电池电量、App版本、操作系统版本等等都是类似的,当营销活动中出现一批类似的设备时,通常是黑产来了。如果不加防范,大量的营销费用可能都进了黑产的口袋。

对于持牌金融机构的App,大家不用过于紧张,除了通讯录、通话记录、短信之外,设备数据绝大多数是去隐私化的,即无法识别用户的身份。但是有一类数据比较特殊,也容易被大家忽略,数据玩家这里重点提一提,那就是相册数据。

相册数据需要的权限比较低,读写外部存储权限即可。相册中经常保存着一些我们容易忽略的敏感信息:

  • 通过微信发送、接收的图片
  • 各类App调用摄像头拍摄过的照片
  • 人脸识别过程中产生的自拍图片、视频
  • 手机截图
  • ……


这是我自己的相册,刚看了一眼,才清理过又发现了不少敏感信息,比如身份证照片,这是之前在某App做了OCR证件识别以后留下的,这个如果被别有用心的App拿去,后果难以想象。如果有人脸识别的视频就更麻烦了,拿去做个活体监测一点问题也没有。大家也可以看下自己的相册,希望没有惊喜,有的话尽快清理,不然会变成惊吓。
在安装App时一定要慎之又慎,选择可信的渠道,安装可信的App,对于非必须的授权一律禁止,必须授权才能使用的App尽量寻找替代品。

2019年8月8日,《信息安全技术移动互联网应用(App)收集个人信息基本规范(草案)》公开征求意见,明确了个人信息最少够用的原则,并且针对21类常用App可收集到的最少信息及使用要求做了规定,当用户拒绝提供最少信息之外的个人信息时,APP不得以任何理由拒绝该类型服务,同时,对外共享、转让个人信息前,APP应事先征得用户明示同意。相信对于设备数据的收集会逐渐规范起来。


五、物联网及边缘计算给隐私保护带来的挑战


2016年10月22日, Mirai病毒将数百万路由器、智能摄像头当做“肉鸡”向美国域名服务器管理机构Dyn发动大规模的DDos (分布式拒绝服务)攻击,致使美国互联网大面积瘫痪。[15]

此外还有360水滴直播事件[16], LG智能家居漏洞事件[17]等等,甚至RFID(RadioFrequency Identification)技术也会导致隐私泄露[18],物联网及边缘计算相关的安全事件频发。究其原因,主要是因为物联网和边缘计算的风险集中在设备端,多种类型、多种型号的设备处于开放的环境中,更容易被攻击,无防火墙防护,更易损耗,难以远程修复漏洞和升级补丁,更易获取用户相关隐私信息。

大家普遍认为摄像头数据泄露是带来隐私危害最大的,却忽略了路由器最为所有智能设备的入口,其安全性的重要性。如果路由器被攻破,所有家用智能设备也等于被攻破。360安全大脑通过对用户的调研显示,61.7%的用户会修改密码并设置高防护密码,而30.5%的用户会使用弱密码,还有6.8%的用户根本不去修改密码。[19]由于wifi的连接密码可能被可以共享wifi密码的App共享出去,而很多路由器的控制台通过admin/admin就可以登陆,钓鱼网站、流量劫持,黑客便可以如入无人之境。另一个被忽略的智能设备是智能音箱。正常情况下,用户唤醒音箱后,音箱才可以收集用户语音等信息,由于识别率不高或唤醒算法缺陷等,有可能智能音箱在未被唤醒的情况下,自行唤醒,从而造成隐私泄露。[20]

由于物联网、边缘计算本身还处在发展初期,自然会出现较多的安全漏洞,相信随着相关技术的完善,安全体系也能够得以加强。


六、区块链技术给隐私保护带来的挑战


本节仅针对公有链带来的隐私保护问题进行讨论。由于每个节点都能够获取全部的交易数据备份,因此每个节点进行的所有交易都是透明的。虽然通过交易地址无法关联到个体的真实身份,但是通过相关性分析,通过交易所实名注册信息、社交媒体用户自行发布的信息、IP地址等等,仍然有可能推测出账户与个体的关联。加上区块链不可篡改的特性,一旦用户的地址与真实身份被关联起来,该用户的所有交易将会大白于天下,和他有过交易的客户也难以幸免。

针对以上问题,业界目前主要有三类比较好的应对方法,环签名、同态加密与零知识证明。

其中,环签名可以在多个公钥中,隐藏自己拥有私钥的那个公钥,可以在区块链交易中隐藏交易的发起人;

同态加密是指有一种加密方法,可以允许我们对加密后的密文进行运算,其结果解密后等于明文做同样运算的结果。打个比方,有一颗钻石希望找人加工,但是又怕被加工的人掉包,可以将钻石锁在一个带手套的操作箱内,这样就可以通过手套加工钻石而又无法取出,加工完成后自己开锁即可;

零知识证明是指在不像验证者提供任何信息的前提下,是验证者相信某个论断是正确的。比如两个数学家都声称掌握了某种方法,但是为了不让对方掌握细节,又不能把具体方法披露出来,如果通过零知识证明的方法,就能够在不泄露具体方法的前提下,证明自己掌握了该方法。

不过区块链技术的应用目前还不太多,仍然以数字货币为主,随着更多应用的落地,很可能会出现新的隐私泄露问题。


七、生物特征识别技术给隐私保护带来的挑战


账号密码泄露了可以更改,手机号泄露了可以更换,设备被入侵了也可以更换,但是如果你的指纹被盗取了呢?

生物特征不同于后天产生的数据,具有普遍性、唯一性、稳健性、易采集性等多种特点。即这些生物特征是普遍存在的,且不同个体具有不易改变和容易采集等特点,这些特点导致了生物特征一旦泄露造成的危害将会更大。目前常用的生物特征识别技术包括:指纹识别、人脸识别、虹膜识别、掌静脉识别、声纹识别、姿态识别等,还包括结合多种生物特征的多模态识别。[21]

生物特征通过专用的传感器进行采集,转换为生物信号,经过特征处理和识别,完成生物特征识别,值得一提的是,为了防止被破解,常使用活体识别技术,通过生物特征在一定物理条件下的自然变化,以及按指定要求发出的特定动作,来判断用户是否本人。

然而就算是活体识别技术也并不安全,2017年的央视315晚会上,主持人就现场演示了活体识别破解的过程,只需要用户本人的照片即可,常在朋友圈晒自拍的你是否感觉到不寒而栗。

通过用户分享的照片进行攻击通常具有较强的个体针对性,即容易对单个用户展开,不易对群体用户发起。不过我们假设这样一个场景:朋友圈里有一个小程序【测测你的颜值有几分】在传播,你好奇的试了一下,小程序的服务提供方就获取了你的高清照片,甚至是一段活体影像,谁能保证这个服务商不是第二个剑桥分析呢?

事实上,这类小程序早就存在了,而且用户不少:

看上面的数据已经有近百万人做过了,大家可能都对自己的面向有点蜜汁自信,但是自信就照照镜子得了,干嘛非要把人脸数据给别人呢?

由于用户的防范意识薄弱,获取照片比用户密码容易得太多,加上人脸识别技术本身不够成熟,使得黑产有机可乘。现在,基于生成式对抗网络(GAN)已经可以做到视频换脸,所以破解活体识别从一个技术问题,变成了一个成本问题,只要收益能覆盖成本,就有人会铤而走险。

在所有生物特征中,人脸照片确实易于获取,相比之下,指纹则似乎更安全,必须获取到用户本人接触过的物品才行,难以被黑产大规模盗取。不过日本国立情报学研究所的研究人员Isao Echizen表示,即使无意中在镜头前摆出“剪刀手”也会泄露自己的指纹,而且任何人都可以轻而易举地获取它,根本不需要高科技手段的帮助。他说:“将强光集中在照片中人像的指纹,指纹数据就可以再现。”[22]不禁让人感叹,防不胜防。


黑产相关技术给隐私保护带来的挑战


黑产相关技术对个人隐私产生非常严重的危害,整个生态可以总结为下游黑客盗信息,中游黑客卖工具,上游黑客钓大鱼。下文将对常见的黑产技术及攻击方式进行介绍。


1. 木马及病毒


危害最大的方式仍然是木马和病毒,通过这种方式,攻击者可以控制或损害用户的设备,造成用户的直接资产损失或通过勒索达到目的。PC端通常通过恶意网站、垃圾邮件、U盘中附带的恶意程序来达到控制用户设备的目的,手机端则是通过恶意App、恶意网站(或二维码)或者直接通过充电线连接手机(通常通过免费手机充电等设备实施攻击),引诱用户打开USB调试模式,进行攻击。造成直接资产损失的案例数不胜数,通过勒索达到目的的案例有臭名昭著的比特币勒索病毒WannaCry。


2. 中间人攻击


随着用户安全意识的提高,木马及病毒的成功率逐渐降低,中间人攻击更容易达到效果。中间人攻击(英语:Man-in-the-middle attack,缩写:MITM)在密码学和计算机安全领域中,是指攻击者与通讯的两端分别建立独立的联系,并交换其所收到的数据,使通讯的两端认为他们正在通过一个私密的连接与对方直接对话,但事实上整个会话都被攻击者完全控制。在中间人攻击中,攻击者可以拦截通讯双方的通话并插入新的内容。[23]

通过中间人攻击,黑客想在不被用户感知的情况下,获取用户的隐私信息,包括但不限于:姓名、证件号、密码、短信验证码、金融账户信息、照片等等,攻击手段多种多样,常见的有:

通过虚假wifi,受害者设备连接后上网流量对攻击者透明,如果有网站使用明文传输卡号、密码等信息,则会被攻击者截获;

伪基站+短信嗅探,通过伪基站“吸附”2G状态的手机,并嗅探对应手机接收到的所有短信[24]。目前很多金融、支付类App,为了提升用户体验,小额支付通常采用免密或短信验证码单因素验证,加上反欺诈规则薄弱,无法识别陌生设备登录,黑产可以通过小额多次交易来盗刷客户的账户。

钓鱼网站,通过模拟一个和真实的银行网银一模一样的虚假网站,引诱用户输入账号、登录密码、交易密码、短信验证码,同时将相关信息填入真正的银行网站,转账给目标账户,达到盗取客户资产的目的。钓鱼网站从界面上与原版网站完全一致,区分方法主要是通过网址,黑产通常也会把网址设置为与原版网站高度一致,比如1001O.com

太阳底下没有新鲜事,18年年3月虚拟币交易所币安被攻击,也是通过钓鱼网站开始的。[25]



3. 社会工程学

通过以上手段很有可能仍然无法获取足够的信息,此时就要借助社会工程学来进行进一步的攻击。在计算机科学中,社会工程学指的是通过与他人的合法地交流,来使其心理受到影响,做出某些动作或者是透露一些机密信息的方式。这通常被认为是一种欺诈他人以收集信息、行骗和入侵计算机系统的行为。[26]

在社会工程学的开山鼻祖凯文·米特尼克的《欺骗的艺术》一书中,举了一个社会工程学的经典案例,负责开发电汇交易备份系统的斯坦利·马克·瑞夫金偷看到了电汇交易员为了图省事写在纸片上的交易密码,随后通过伪装成银行工作人员像电汇交易员发起汇款指令,获利超过一千万美元。[27]

现在的系统复杂度不可能通过如此简单的办法进行破解,但是社会工程学的思路通过上例已经充分展现了,即利用人的认知偏差,让受害者自行提供相关的敏感信息。比如常见的电信诈骗,利用人们畏惧权威的心理,攻击者通过伪装成法院、公安人员,威胁受害者转账到指定账户,或伪装成高校老师,威胁受害学生转学费到指定账户等,通常目标是青少年和中老年。

为了利用人们一套密码多处使用的习惯,黑客建立了很多“社工库”,通过社工库可以查询被泄露的网站用户名密码,获取这些隐私数据的过程叫做“拖库”,使用这些用户名密码尝试登陆其他网站的过程叫做“撞库”,如果客户使用一套用户名密码登陆多个网站,则容易被撞库攻击,并且获取多个网站的相关信息,可能包含姓名、手机号、邮箱地址、证件号、金融账户信息等等,造成难以估量的损失。

举一个社工库的例子,为避免造成不好的影响,具体地址我就不放了,大家可以在搜索引擎里尝试搜索。里面包括了几次比较重大的数据泄露事件泄露出的数据,其中包括某易邮箱,某商城和某书城看链接名字就能猜到(某东和某当),大家可以尝试用一个非敏感信息查询,比如邮箱或账号,看看自己的数据是否被泄露过,比较麻烦的是密码,如果看到自己的邮箱关联出一个常用明文密码,尽快把所有用过这个密码的地方都改掉。需要注意的是,这个网站本身就可能钓鱼,比如,同一IP、Cookie,查询了一套姓名、手机号、邮箱,这本身就是一套用户主动泄露的隐私,这也是为什么数据玩家建议大家用非敏感信息来查询。风险常在,警钟长鸣。



一个完整的社工案例可以参见:

shangyexinzhi.com/artic

帮大家简单总结一下路径:网站客服QQ->社工库获取密码->密码为常用密码被彩虹表破解->密码推测常用ID->全网搜索ID->获取常用QQ->腾讯微博获取身份证号(关键)->邮箱作为支付宝账号获取姓名->黑产工具通过二要素获取身份证照片->黑产工具获取手机号->QQ号域名反查获取个人网站->个人网站原图获取EXIF信息->EXIF信息获取GPS定位->完成。

这个案例是白帽子为了追回被骗资金获取个人信息,在交涉时起到威慑作用,如果用来做其他事情呢?

如果不是威慑,而是伪装成亲友借钱呢?

或者伪装成公安、司法、刑侦要求你转账到安全账户呢?

毕竟你的信息对方一清二楚,你可能也会怀疑自己的判断,可能今后还有层出不穷的骗局出现,源头都是隐私信息的泄露。

因此,最关键的还是在源头保护好自己的隐私,防止自己的隐私数据在黑市上流转。


4. 隐私数据的变现


还记得第二篇里的小明吗,假设我们获取了小明的四要素,能做什么呢?

  1. 直接出售,通过暗网或者黑市,一套四要素大概在数十元至数百元不等,由更专业的黑客筛选、购买。低水平黑客看量不看质,只注重获取的信息数量,通过倒卖大批量数据获利。而高水平黑客则相反,则筛选高价值的信息,即寻找高价值的个人信息单点突破,目标是单个个体的账号入侵、资金盗取。
  2. 隐私数据被专业的黑产团伙购买后,可以进行体系化、产业化的获利与变现。
    他们分工明确,有专门的漏洞发现团队,寻找各互联网平台的漏洞;
    专门的数据采购团队,负责采购泄露的隐私数据;
    专门的工具团队,负责研发黑产工具;
    专门的攻击团队,实施攻击和欺诈。

    在无法获取短信验证码的情况下,主要是利用新平台的营销获客活动漏洞,注册平台账号获取营销费用,甚至注册某些银行的直销银行开立二类户。

    是的,有些平台为了快速冲量,短信验证码都不验,甚至平台的市场部或者运营部关键岗位和黑产勾结,让黑产用买来的四要素帮平台冲量,黑产赚取营销费用,市场运营完成KPI,投资人看到高增长,皆大欢喜。
    此情况下仍然是以大量账户的控制为主,单个账户的获利较少。
  3. 假设黑产通过钓鱼网站、木马、伪_基_站设备吸附等手段,截获了短信验证码,那损失就不可控了。

    除了可以想到的所有银行账户、支付宝、微信余额被转移之外,危害更大的是通过支付通道购买虚拟物品变现,特别是利用信_用_卡、花呗、借呗、微粒贷等产品,形成大量透支余额和借款。

    甚至,通过新开立二类户,用二类户注册各类网贷平台下款,一般的小贷平台开户下款完全没问题(目前具备五要素验证,即验证账户是否二类户的平台少之又少),更不用说714高炮了,下款到二类户以后,通过购买虚拟商品套现。
    幸运的是央行为了防止二类户盗用风险,限制了二类户的单笔单日消费金额,所以损失相对可控。
  4. 更麻烦的情况是,遇到更专业的黑产团伙,会通过各类网赚平台,招募代开账户的人,要求是:
    长得和他们买到的身份证上的人比较像。
    其实也不用长得太像,本来身份证照片和本人就有一定差距,加上很多四五六线小城市电信营业厅、银行网点审核不严,所以完全可以用身份证复印件,甚至临时身份证开出N个手机号吗,甚至一张一类银行卡。
    后面的事情就难以想象了。

    万幸,现在银行网点开户过程中,人脸识别逐渐普及,甚至开手机卡也要人脸识别了[28],这类线下的欺诈手段逐渐会消亡。
    不过信息仍然会流转到电信诈骗团伙的手中,大家应该也听过不少电信诈骗的案例,此处不再赘述。


各方应对措施


随着消费者隐私保护意识的逐渐增强,相关法规的密集出台,隐私保护的整体趋势越来越严。换个角度看,在如此严格的保护下获取的个人隐私数据,具有更大的商业价值,黑产只会更加蠢蠢欲动,因为造成的损害越大,黑产获利越高。在这种趋势下,个人、企业、监管机构应该如何应对?

个人应对措施

对于个人用户而言,妥善保管自己的账号、密码、证件及设备,不同账户采用不同的账号/密码,重要账户的密码最好能够定期更改。安装软件或手机应用时,应选择可信的渠道,不随意打开垃圾邮件、垃圾短信或扫描不可信的二维码。

除了比较关键的App或平台,尽量不使用手机号登录,关闭微信、支付宝等【通过手机号找到你】【通过QQ号找到你】【通过邮箱找到你】等功能,如果有人想转账给你,发给他你的收款码即可,实在不方便也可以临时打开相关功能。

不同网站尽量使用不同的邮箱注册和关联,可以分享的小技巧是:

Gmail邮箱在中间任意加英文句号”.”算作别名,和不加之前是等价的,比如abc@gmail.com和a.b..c.@gmail.com是一个邮箱,发往这两个地址的邮件都会被收到,但是可以用这两个甚至更多类似的邮箱注册不同的平台。

另外,有的邮箱提供别名功能,比如Outlook,也可以达到类似效果,甚至更好。

社交平台生日避免提供自己真实生日,因为它是你身份证号的一部分。同时,也避免在社交平台发布自己生日的信息,或者避免陌生人看到这些信息。

谨慎提供个人信息,不管是遇到以中奖、威胁等各类理由有意套取的陌生人,还是对无法验证身份的熟人;自己主动在社交媒体分享也要格外小心,特别是照片、位置、截屏等信息,拍照的时候关掉定位,开启定位会让你的照片EXIF信息中包含GPS地址;机票、火车票、购物小票等也需要做模糊处理,最好还是避免晒出这些信息。

谨慎提供手机应用授权,仅提供必需的授权。尽可能选择持牌金融机构接受金融服务,其他行业则尽可能选择行业头部的知名机构。

现在流量便宜了,别蹭免费WIFI,甚至不要经常打开手机的WIFI开关,因为路由器可以协助定位,你的手机能接收到哪些WIFI信号,以及这些信号的强度,也可以定位出你的精确位置。

当然,隐私泄露的关键,不在于个人是否愿意授权机构采集自身数据,而在于机构是否能够妥善保管隐私数据。过于在意个人隐私,拒绝一切需要提供个人信息的服务,在当下也会造成诸多不便。只有让渡部分个人信息,才可能让企业为个人提供更精准和优质的服务。每个人都需要在提供个人信息以享受更好的个性化服务,与保护个人隐私之间寻求一个平衡。


更多行业文章,请移步我的专栏:

———————————————————————
[1]中国信息通信研究院信息安全研究所,“大数据安全白皮书(2018年)”
[2]百度百科“相关性分析”词条,baike.baidu.com/item/%E
[3]维基百科“差分隐私”词条,zh.wikipedia.org/zh-han
[4]POhm, Broken promises ofprivacy: responding to the surprising failure of anonymization[J].UCLA LawReview, 2010, 57, p.1722
[5]世界上十大有意思的“大数据”实例,gl.baidu.com/view/d76b2
[6]沈粹华,隐私已死:Facebook数据“泄露”事件解读,mp.weixin.qq.com/s/vQay
[7]Common Vulnerabilities and Exposures search results,cve.mitre.org/cgi-bin/c
[8]Fidelis, Revenge of the DevOps Gangster: Open Hadoop Installs WipedWorldwide , fidelissecurity.com/thr
[9]中国信息通信研究院信息安全研究所,“大数据安全白皮书(2018年)”
[10]John Matherly, The HDFS Juggernaut,blog.shodan.io/the-hdfs

[11]段倩倩,来莎莎:“腾讯云故障致客户数据丢失遭千万索赔”,yicai.com/news/10000715,最后访问时间2018年10月31日
[12]InfoQ, 33 岁大学肄业女黑客“云”上窃取美银行 1.06 亿用户数据, infoq.cn/article/UjLx6O
[13]Wayne Jansen , TimothyGrance, Guidelines on Security and Privacy in Public Cloud Computing, NISTSpecial Publication 800-144, Gaithersburg, MD, 2011, pp. 10-34
[14]Kumar, “健身APP泄露军事机密,包括中国南海”,wttech.org/archives/525
[15]360企业安全,“边缘计算安全现状:关键且脆弱”,afzhan.com/news/detail/
[16]陈菲菲,“一位92年女生致周鸿祎:别再盯着我们看了”,tech.sina.com.cn/i/2017
[17]Covfefe, “智能家居设备存在漏洞,吸尘器秒变监视器”,freebuf.com/articles/te
[18]刘雅辉、张铁赢、靳小龙、程学旗:大数据时代的个人隐私保护[J]. 计算机研究与发展,2015,52(1): 229-247
[19]新华网,智能设备“偷走”多少隐私?摄像头安全隐患尤其突出, xinhuanet.com/fortune/2
[20]国家互联网应急中心网络安全应急技术国家工程实验室、启明星辰积极防御实验室(ADLab)、西安四叶草信息技术有限公司、北京同余科技有限公司联合发布,CNCERT:智能音箱隐私与网络安全分析报告,secrss.com/articles/119
[21]中国电子技术标准化研究院-全国信息技术标准化技术委员会生物特征识别分技术委员会:“生物特征识别白皮书(2017版)”
[22]中国日报网,“比个“剪刀手”也能泄露指纹信息?看看技术专家怎么说”,tech.sina.com.cn/d/i/20

[23]维基百科“中间人攻击”词条,zh.wikipedia.org/zh-han
[24]终结诈骗,“利用伪基站捕获手机号,借短信嗅探,原来网银盗刷都是这么玩的”,new.qq.com/omn/20180809
[25]张林成,“币安回应黑客攻击事件:无法实现交易回滚”,cn.technode.com/post/20
[26]维基百科“社会工程学”词条,zh.wikipedia.org/zh-han
[27][美]米特尼克,[美]西蒙:《反欺骗的艺术》,潘爱民译,清华大学出版社2014年版,第12页
[28]工信部持续加强电话用户实名登记管理工作维护公民网络空间合法权益,http://www.miit.gov.cn/n1146285/n1


user avatar   tsingrun 网友的相关建议: 
      

从我开始接触互联网开始,我就意识到,人的隐私迟早会消失,看看美国最新的政府决议,推翻了奥巴马时通过的互联网隐私相关的法案(具体名称不去查询了),大意就是允许进行网络上的记录数据传播和个人信息的使用。

从2000年我正式开始进行互联网软件开发的时候,我就更加明确了这一点,因为session的会话期间一定是可查的,你的mac地址,你的ip地址的分配中所谓的随机也都是可以记录在案的,你的上网账号你的个人信息是绑定的,没有任何事情是你可以真正藏起来的。

一个人可以谨慎一时,不可能谨慎一辈子都不出错,所以,没有人可以真正在互联网上藏起来,除非我不想找你,否则,一定能找到你。

所以,从那时起,我就选择了真实身份的面对和记录,所以我直接用了我那时候就已经使用了快20年的笔名直接注册了网络上所有可以注册的地方,一直到现在。

我选择了我自己自行公开所有数据的方式,表示我的光明正大,表示我的无所畏惧,我不怕任何人查我,不是我没有弱点,不是我一定不会去做见不得光的事情,而是我知道我应该是什么样子的,这样的作用也是在监督警醒自己有些事情是绝对不能做的。

是的,此前的十多年对于我们这种普通人来说是没有人会刻意查找你的信息的,很多网站倒闭,很多服务器数据丢失都可以给你带来一定程度的隐藏,但是心底无私自然无所畏惧,做好自己,也是道德标准虽然无人监督但内心应该有的尺度和自我控制。

明白这个道理,才会避免一些极端事件的最终发生,每个人都会在生气的时候想去做一些无法控制后果的事情,但是,是否真的会去实施,其实就是心里的道德底线的约束。

希望大家都好,不要太介意,只要你心里无鬼,行不逾矩,何必介意这些呢?

2020年07月23日补充:

三年多了,突然又被推了出来,这次想补充一点,那就是大家好像混淆了隐私和公共场合的概念。

隐私是个人需要保密不想让别人知道的事情。

如果某个人在公共场合自己掀开了衣裤,被人拍下来,这不是隐私,这是ta自己暴露的,公共场合下没有隐私可以谈。隐私应该回到家里自己去使用,也就是说,如果有人故意拍摄你非主动暴露出来的部位,那是侵犯隐私,但是主动暴露的,都不是隐私。如果有人在你家里安装了摄像头进行拍摄,那是侵犯隐私,在公共场合,正常角度拍摄照片或者录像,不是侵犯隐私。

如果是商业行为,属于商业侵权,比如某人拍摄了你在公路上的视频,然后因为很漂亮,拿去卖,那就是商业侵权。如果你不想让别人看到你多漂亮,不想被别人看到,那就戴口罩,不能说别人眼睛看到了你漂亮的样子,就是侵犯隐私,这是不对的。


user avatar   xu-shen-da 网友的相关建议: 
      

终于来更新一下这件事儿啦,我把后续写在了结尾,想看更新的朋友可以往后拉~



-----------我是分割线-----------



哇没想到这篇答案有这么多人关注,谢谢大家哈!收到的私信有点多所以有些没来得及回 先说声抱歉啦,很多朋友都问到有什么好用的社工库可以推荐,这种在灰色地带的工具我就不作具体的推荐了,大家去Google搜索一下吧还是可以找到不少的!


希望大家看完之后知道提高防范意识的重要性,不管是防骗还是防止信息的泄漏,虽然这个时代"个人隐私"都应该重新定义了,毕竟很多在以前都算是个人隐私的信息现在感觉都不算隐私了 而且很容易能被找到,但我们还是要做好功课把该藏的信息藏好,别以为自己是个小人物信息泄漏了也没人看,万一你明天就火了呢? (手动微笑)


至于这件事的后续呢 因为前段时间事情有点多(其实就是因为懒)一直到现在都还没更新,其实算是解决了一半啦,过几天等我考完试就更新吧!没错...我还在考GMAT……


BTW答主不是CS相关专业的,还是要向各位专业的大神学习啦!



---------------这里是分割线--------------------



我来讲一下我是怎么一步步查到骗子的资料吧,先说说事情的背景:


就在上个月,我在广州岗顶总统数码港二楼B0**店购买一台S7 egde的时候就遭遇到了被骗的情况。购买的时候卖家告诉我这是港版行货,有正规的发票支持三星官方保修,而且带发票的手机要贵上两百多块。为了保险起见,我选择了带有购买发票的港版行货。


没想到用了才两个星期,手机的屏幕就出现了暗纹,我把手机送去了三星在广州应该算是最大的官方维修点,在天河中山大道。由于是港版,那边表示需要返厂维修需要等大半个月。我说等就等吧,算我倒霉遇上了这问题机子。然而过了两个星期,三星维修点的工作人员打电话告诉我说我提供的发票跟香港经销商那边的出货记录对不上,换句话说就是这张发票是假的,不过手机倒是正品。这个是三星给我的凭证:



我马上联系卖家,卖家说这个不可能啊以前消费者也是通过这个去保修的。我把这凭证给他发过去了,说官方验出来这发票是假的。证据确凿他没办法反驳了,于是说他要联系一下供货商,要我等一下,我就傻傻地等了一晚。


第二天他告诉我说会给我补一张发票,大概十月三号可以给到我,而且保证这个发票是可以保修的。我竟然相信了。。。因为我10月5号要参加GMAT考试,所以就没想太多,想继续准备考试打算考完试6号再过去拿发票。到了3号这天,我以为他已经把新的发票准备好了,我准备发信息过去说我6号再过来拿,没想到他已经把我的微信删掉了!!!我打电话过去也没人接!心中无数个草泥马!!!他在总统数码港的实体店还在,应该不会为了我这一单跑掉吧?然而我搜了一下,发现了这个。。。



???!!! 我是9月1日去他这里买的手机,原来他在7月份就打算转让他的店铺了,我真的是这么倒霉吗,手机发票出问题发现被骗了之后他刚好把店铺卖掉了顺便畏罪潜逃。。。


我于是打电话给岗顶总统数码港的总机,那边的客服说店主谢润森(就是卖手机给我假发票的那个骗子)因为拖欠铺租,在9月30日已经跟总统数码港解除了合同。怪不得他故意把我拖到十月份,原来是留时间给自己跑路!总统数码港说要我联系天河工商局,通过工商局来向他们这边要谢润森的身份资料。因为马上就要考试了而且国庆工商局也不一定开门,我打算考完试再折腾折腾。


但是我特别不爽,记得当时我拿了那个谢润森的名片,我马上掏出来看看有没有什么有价值的信息把他挖出来,名片是这样的:



名字不知道是真是假,先通过名字试一下!通过谷歌的进阶搜索,我输入了这些关键字:谢润森 filetype:xls,看看能不能搜索到一些数据文件。如我所料,一个相关的文件出现了:



之前听他跟旁边的人说的是潮汕话,可能是汕头那边的人,这个文件是搜索结果里面唯一跟潮汕地区有关的资料了,看网址是广东省民政厅的官网,我把这个文件下载了下来,里面显示谢润森是潮南区陇田镇人,除此之外就没有别的信息了。不知道信息是否准确,继续挖!


有QQ对吧,我先注册一个小号来添加你为好友:



英文名叫ventrue,点进去之后可以看到他更详细的资料:生日是11月17日,广东汕头人(果然!),以前是学IT的。



发现手机号码跟名片上的对得上,就是他肯定错不了!


然后我进他的qq空间看看有什么有价值的信息,发现他的用户名是“爱老婆”,看来这骗子是个有女朋友或者是已经结婚了的人啊,之后可以考虑通过他的老婆入手来联系到他。然后我来到了他的相册,里面有很多个相册,有的家庭相册是加了密码的但是密码问题很弱智,比如:我的手机号码是?我的英文名是?。。。这不都是直接可以从你的qq资料里面看到的吗?!于是我很轻松地进入了他的几个相册。


先来看第一个相册,是他和他朋友在潮州玩耍的照片,马上我就认出了这骗子!



百分百就是他,再次确认我的搜索对象。在加密的相册里面还有很多他家庭的照片,瞧,家人我都锁定了,找到你不是难事嘛!问题来了,光知道样子不管用,我得想办法找找他们的联系方式等信息。于是我打开了他qq空间的说说,看到的是很明显卖手机人的风格:



我继续翻,发现了疑似他女朋友的qq留言(当然他和他女朋友的照片我都在他的加密相册里看到了),有两个账号可疑,是他不同的女票还是他女票先后换了两个不同的账号?



调查个骗子都要被他秀一脸【手动微笑】


这两个疑似骗子女友的账号都很奇怪,不仅空间都锁住了,而且搜索q号也找不到什么资料。我把评论中其他跟他关系比较密切的人的qq号都记录了下来,通过微信来搜索,毕竟还是有不少人是用qq来登陆微信的。这过程还挺顺利,找到了一些人的微信,虽然不知道对方跟谢润森的关系,我先发送添加好友验证来试探试探。


在这之后我又有了重大发现,我发现了有个人评论了谢润森,从说话的语气来看他们的关系比较亲近,点进去之后发现了这个人最近发了这么一个qq动态:



在下面的评论可以看出,这就是他姐。在之前的相册里我也是看到了他家庭成员的照片记录,可以确定这就是跟他一块长大的亲姐。怎么查她的名字呢?我灵机一动,通过空间的网址可以知道她的qq号码,要通过qq号码知道她的名字,需要找到实名制的东西。支付宝!



点击忘记登录密码,通过证件来进行安全校验,得知了她的名字叫做林婕(音),所以全名就应该是谢林婕(音)。同理,我挖了一下骗子本人的支付宝:



正确无误!不过短短两天时间,今天我想再用这个方法查人名已经不行了,支付宝取消了这个可以直接看到对方姓名的验证方式。太巧了,刚好赶上了这个方法被取消的前一天拿到了骗子他姐的信息。


接下来我就使用了更加神奇的方式来进行深度挖掘,没错,传说中的社会工程学。按照某资料上的说法,这并不是一个科学学科,而是一门艺术。。。


我在相关网站进行了搜索,发现了谢润森的qq曾经使用的密码:



有的部分打了码?那我就再深挖,于是有了下面这个结果:



通过他曾经使用过的密码,基本可以确定他的生日是19901117,而且透过ip地址可以知道有段时间他是住在深圳。接着,我通过查找他加入了哪些qq群来进一步查询他的背景:



每个群我都进去看了一下资料,分析出来的信息是:

  1. 他曾在汕头谢易初中学读书,资料显示有两个班级,初二(9)班和初三(7)班;
  2. 计算机应用技术301班,这也跟之前他的it专业相吻合;
  3. 他在2011年读的大一。

他的姐姐谢林婕(音):

  1. 曾在汕头***中学就读,初三(*)班;
  2. 高三(*)班美术生;
  3. 惠州**学校**电子班;
  4. 手机号码:尾号为**04;
  5. 今年*月份之前结婚,并有其朋友谢雯儒(音)参加。

(因为不是当事人,所以我尽可能把信息打码)


做到这里,我感慨通过现在的互联网我们可以挖掘到一个骗子的信息实在是太多了。通过一个qq,我了解到了他的家庭背景甚至地址,家庭成员,爱好,各类账户信息,还有其家庭成员更进一步的资料。还记得之前我通过搜索qq号加了很多他以前的好友吗,其中不少已经通过了我的好友验证,这才是细思恐极的。


接下来我并不打算通过这些私人渠道解决这件事,毕竟还有考试和不少资料要准备,我决定先去工商局把所有的证据包括收据,假的发票以及我们的聊天记录提供给那边,购买手机当天我也拍了不少照片作为资料,现在也可以派上用场了。我倒是想看看咱工商局的工作效率和能力如何,还有岗顶总统数码港那边配不配合以及愿不愿意承担它的那部分责任,毕竟是在其卖场内出现的消费欺诈案件,虽然基本不怎么抱希望了^_^|||


好的,出发!接下来我还会继续更新这件事的发展情况~骗子们都去死吧!


----------更新分割线-----------


数码港和工商局至今仍然没有找到这货(见怪不怪),不过在这件事发生之后一周左右的时间数码港给出的解决方案是他们那边承担一半更换屏幕的费用,我也承担一半。


在这儿顺便说一下我为什么会来这里买手机吧,平时用惯了iPhone,不过这款三星的屏幕颜值太高了忍不住想换机,而且因为个人原因我需要一台Google架构安卓系统的手机,国行的没有Google Play来下载app所以需要刷rom,我这么懒决定索性直接买一台港行,又不想多等几天从网上买,最近也没有去香港的打算,所以就入了这个坑......


一般这种数码卖场会设置一个专门检测手机的地方,毕竟场地都是租出去给了杂七杂八的卖家,为了监管出售产品的质量,大家在里面买了数码产品之后可以把产品拿到楼上的消费者服务中心去检测真伪。我就比较特殊,手机是真品,问题是拿了张假发票失去了保修的权利,同时运气也比较背,偏偏三星就让我出了个质量问题,这就很尴尬(微笑)


回到正题,个人隐私会不会随着互联网发展而逐渐消失至不见?我觉得这除了跟互联网的发展有关,还跟当地的政策密切相关。比如不同国家对于企业(比如电商平台)对于客户信息(比如消费习惯)进行收集,分析和应用的允许程度是不同的,这就造成了某些国家可能通过宽松的政策让其国内的公司得以“合法”收集到更多的数据,而这种收集可能在另一个国家不被允许。在大数据时代这就造成了各国相关企业的不公平发展,毕竟大数据的分析跟AI的发展息息相关,这也难怪不少学者开始呼吁要制定一个全球都要遵守的对于个人隐私定义的底线。


说一个有趣的点,以前打开一个微信个人公众号查看信息是可以看到注册人的姓氏的,最近这个信息已经被隐去,查看不到了。算是一种互联网发展对隐私的关注吧......?


目前来说,自己把自己觉得是隐私的信息保护好是最重要的,就算互联网加密技术再发达,法律对个人隐私的保护再完善,也经不起你把自己的密码抄下来贴在电脑旁边,对吧~


user avatar    网友的相关建议: 
      

长文预警。这是极重要的问题,也许会在未来几十年内主导人们生活的方方面面,同时恰好与自己正在做的研究交叉。这里结合自己体会和Acquisti,Taylor和Wagman刚刚发表的综述,尝试对此问题做一全面分析。挂一漏万,敬请谅解。结论是不会,但从当下局面,到最终形成有序格局,中间可能爆发大量争议,耗费高额成本。个人立场,无论是法律还是政策,应以保障个体权益为绝对重心,个人数据相关权益,如果不是社会公认,或平台/企业明确告知且消费者同意前提下,都应给予个人。涉及环境、性别等议题的公益组织和活动很多,涉及隐私或数据的却很少,尤其是在中国。同时,在个人能做到的范围内,每个人都该反思和重视自身隐私的安全。



隐私给人独处的可能。早孕的女孩害怕婴幼用品指南寄到家里,刚刚失业的父亲会因浏览器弹出的就业培训广告不安。仅仅是想象陌生人拿到自己的基因序列就会让人恐惧,想要再就业的获释犯,或许会跪地祈求雇主不要查询自己的犯罪记录。为隐私一词,法学家争论了许多年,都写进来太冗长,只能讨论具体项目。对具体信息,也有几个层面的保护。最重要几项,一是你是否有权阻止别人接触这项信息,二是你是否有权要求获得信息企业为信息保持匿名,三是你是否有权要求限制企业对信息用途,四是一旦企业侵犯,你预期能获得的赔偿。权利可以摆在你手里,也可以放在企业手里。赔偿可高可低。中间这条界限划在哪,是大家讨论重点。



隐私问题有许多独特之处。一是极其严重的信息不对称。如果不是熟谙相关学科,个人很难弄清楚自己被采集了什么信息,这些信息由谁采集,以及这些信息拿来做了什么。搜索引擎搜完,网站马上跳出关键词广告已经不是新鲜事。打车软件可能会记录运动轨迹,搜索引擎可能记下你搜索的疾病关键词,社交媒体忠实记录你过往的欢笑和糗样。雇主、民营医院和保险公司都可能对这些信息很感兴趣。个人也很难想象数据在企业手里怎样使用,比如说,在2009年就有美国学者指出可以利用公开信息推断社保安全号码(SSN)(Acquisti和Gross,2009)。学术界另一精彩案例是用社交网络内容和好友关系推断性向(Jernigan和Mistree,2009)。数据挖掘科学进展日新月异,7年过去的业界,对数据利用的程度和方式很可能是普通人完全无法想像的。



隐私问题独特性第二点在你几乎无法追回隐私。前面提到,我们很难想象企业拿个人信息做了什么,其中就包括企业究竟把信息卖给了谁。如果你在搜索引擎搜索关键词“运动鞋”,这一信息可能马上就汇入洪流,和其它几百上千人搜索记录一起,被实时投标拍卖,然后形成广告,“恰好”显示在你正欲观看的电视剧之前。你可能不喜欢自己信息被这样利用,希望说不要再收集了,已经收集的是不是能删掉(似乎谈不上归还)。可是,这信息在短短时间里也许几经易手多次,从引擎到广告投放平台,再到另一家广告投放平台再到厂商,最后再绕回来。仅仅是弄清楚这条产业链就要花很大力气,遑论追回。这个问题恐怕比在线维权还要困难很多,很可能连求偿对象都找不到。也许自己主动公开或被收集的信息现在没什么问题,但要准确估计未来影响,难。



隐私问题独特性第三点在个人很难在无孔不入的非法侵犯面前保守隐私。让我先来讲个故事。电子邮件和垃圾邮件诞生日不差多少,可谓两兄弟。20世纪末全世界已深受垃圾邮件困扰。当时就有经济学家建议用如下方式遏制:将电子邮件和个人账户绑定,发件人要为每封邮件向收件人支付一笔小小费用,比如1分。普通人成本不大,垃圾邮件发送者大亏。但是,限制这一想法推行的就是网络安全约束,黑客完全可以侵入个人电脑,然后滥发邮件,坐着赚钱。21世纪初,又有学者提出可以建立隐私市场,让个人把数据买卖权攥在自己手里。想法是好的,但考虑到全世界“肉鸡”的规模,黑客恐怕又要发一笔大财。互联网上,“安全”是热词,“黑产”也是。如果很多手机可能会被远程遥控装上app,再删掉,算日活量,恐怕我们也很难指望上面的隐私得到合理保护。



隐私问题独特性第四点在个体这方面严重的认知偏差。经济学有一分支叫行为经济学,其中重要话题包括:为什么很多人会注意不到唾手可得而非常有用的信息,为什么很多人会偏离看起来不难做到而对自己大有好处的行为。隐私问题,简直是行为经济学成果展览馆。可能场景包括:在各类社交媒体披露信息时,怕是很少想过以后。注册各类账户时几乎不看用户协议,也很少去关注更新。明知Cookies会定期抓取用户数据也不去清理。各种使用相同密码,仿佛在说欢迎撞库。有一经典成果叫默认选项偏差:即使是决定社保储蓄这种重大问题,把默认选项设在“是”,或者“否”,或者不设,会有十几个百分点的选择差距,就不要说平时在网上遇到林林总总的选项了。



隐私问题独特性第五点在个人无处可逃。即使个人精心打理自己的社交平台,努力捂好自己的信息,平台依然可以从朋友、亲人发布的公开信息推断你的信息,比如性向。同时,周围使用社交软件或平台者越多,个人压力就越大。网络外部性(所谓护城河的重要支流)真真切切存在。同时,即使你不提供信息,只要和你类似个体提供得足够多,你的努力是徒劳的。也许一位在X办公楼工作的男士不愿暴露家庭住址,也不想让人知道自己的菜肴口味,防止企业利用自己的家庭地址或饮食口味来价格歧视(比如Katja,2015,给出了某文具网站按邮编显示不同价格的例子)。但只要他/她的同事,或者他/她的邻居显示了这些信息,并且他和这些人通过一款或几款软件连在了一起,概率的力量还是逃不脱。考虑到许多学习模型的特征,暴露信息越多,新披露信息带来影响可能越大。



最后,隐私很难被恰当定价。很难定价不代表无法定价,也不代表没有这方面市场。专门在快递周围捡单子的人、大批量收购电话号码的人、利欲熏心出卖储户数据的银行员工、火车站门口收打过孔车票的人,他们都是隐私市场一员。隐私有价,但难被恰当定价。前面提到过,个人很难知晓自己被收集的信息会被拿来做什么,以及可以拿来做什么。也许企业知道自己要用数据来做什么,以及这部分数据可以提升多少绩效。但是,即使企业也不知道这些数据明年会有什么用途,或者与另一个数据库拼在一起会擦出什么火花。以当下条件,恐怕也很难维持一个个体企业自愿平等交易数据的市场。因此,尽管定义、保护或规制隐私都不能忽略相关的市场,但单靠市场无法解决这个问题。前面提到的几点都是考虑这一问题无法忽略的因素,也是塑造生态的力量。



前面的说法可能给人留下印象:大数据不好。意不在此。数据科学进步给社会带来福利早已遍及社会方方面面。从各类分享经济,再到全方位细化的社交平台,许多冗余资源利用起来,很多曾经无法传递的信息快速整合,形成新知识。新的关系,在无比广阔地域内形成。社会从中享受了甚多福利。但是,前面讲的问题确实存在,重要性可能低估,且规制的法律或政策没有跟上。为方便个人了解和评估自己在其中可能面临的风险,有必要对这领域做全面整理分析。前面讲的所有这些问题也并不意味着题主所说会成为现实。大的原因主要有两点。一是企业、平台和个人都有各自激励,三方互动,相互掣肘,可能路径很多。既然有企业旨在收集数据,很快也会有企业专门保护隐私。二是政府会跟上。欧盟最早,20世纪末已有比较严格法律。美国在21世纪初也加强了对隐私保护,限制网络数据收集。我国也刚刚通过了《网络安全法》。可以预期相关公益组织也会崛起。



经济学界50年前就开始关注隐私问题,重点在企业和个体间权利界限。Acquisti,Taylor和Wagman将这方面研究分三拨整理,条理非常清晰。此处直接沿用,补入部分研究。第一拨主要早在年代和1980年代早期,参与者多与芝加哥大学有关联。法经济学巨擘Posner首先反对规制数据披露和收集可能影响。以企业为例,他们在意雇员特征,因为这会影响企业未来利润。如果不准企业去了解婚姻状况,他们就会在另外一些方面动心思,比如说减少招年轻女性比例。因为结婚生产可能抬高成本。反映在整体,导致两个问题:一是一部分本来会被录用的应聘者因此被拒,利益受损。二是加剧统计性歧视。美国法律中有许多“不能问”,同时也有企业不能单纯以种族、性别等指标决定是否录用的规定。目的之一就是保护基本权利同时,解决可能加重的歧视问题。



第二点对规制的批评来自Stigler,他在信息经济学有很大贡献。他的论点是:即使规制隐私不会带来种种坏处,它也很可能无效。以成绩为例,假设政府规定企业不能主动去了解应聘者成绩,这类政策真的会得到施行么?成绩最好的那部分学生会用各种办法主动和企业说,比方说,在面试时,不经意地从袖口掉出学校盖章的成绩单。最好的学生已经披露,次好的当然也会这么干。否则,用人单位会把他/她和剩下所有学生混在一起评估,亏了。这个过程会一直持续下去,到最后,只有成绩最低那部分学生会选择不披露,而企业对此也了然于心。政策形同虚设。这结论很有意思的一项推论是:部分商学院为保护学生利益,直接盖掉所有学生成绩(Gottlieb和Smetters,2011)。相比于竞相披露情况,这很可能改善了所有学生的福利。



反对者中有著名的Hirshleifer,他的观点影响很大。个人角度,对隐私泄漏的担忧,可能导致他/她为了声誉不去做对自己,对社会很重要的事。比如说,如果医院可能自由传递病人信息,艾滋病人可能就不会去接受治疗,因为名声很可能毁掉。无论是个人不接受治疗,还是社会对疫情缺乏了解,都不是好事。社会角度,为防护和获取隐私努力可能纯是社会浪费。不妨想象以下场景:厂商竞相收集消费者数据投放广告,消费者下载软件,清理cookies,花时间精力避免“精准投放”。如果广告为消费者提供了新信息,有价值,那得失可能相抵。但是,也有一些广告是利用心理学知识诱导,甚至或明或暗造假(比如部分医院投放的竞价广告)。它们没有提供新信息,纯粹是把钱从一部分人口袋转进另一部分口袋,中间各种成本都浪费掉了。税常有扭曲损失,智商税也有。争着收智商税,以及努力争取不被收智商税,一来一往都是效率的消散。



第一代成果对后世影响很大。很多第二代、第三代研究,以及许多现行法律、政策、通俗书,拆到根子上还是基于这些原理。但是,即使只是基本原理组合,或与现实稍加结合,问题也会变得十分复杂。第二代研究和第一代中间隔了十年,主要是多了很多具体议题,同时信息产业本身发展,比如密码学等也被考虑进来。Varian,后来谷歌的首席经济学家,在1997年就主张要为更开放自由的数据共享提供方便。消费者可能需要更加个性化的服务,或者被一个小社区接纳,他们愿意为此给出一部分个人信息。但是,如果没有足够的信息,没有可靠的传递和验证这些信息的渠道,厂商无法利用这些数据,小社群也难以审查申请加入者。能不能搞在线信息市场?前面提过不行。安全是一个问题。另一糟糕可能是:如果你周围的人都出售个人信息,你没有理由不卖。厂商可以推断太多你的特征。与其捏在手里,不如换一张100减30优惠券。有时候“出售”会换个名字,叫“同意用户许可,马上体验”。再加上技术条件和个人知识限制,这市场怕是建不起来。



有些学者尝试用科斯定理解决这一问题,认为只要把产权明确好,隐私问题可以得到有效解决(Noam,1997;Kahn,McAndrews和Roberds,2000等)。这个观点很简明,但实践中用处可能不大。考虑到一开始自己总结的六点特征,界定干净隐私的产权可能是一个漫长过程。有许多杰出法学家和法律实务工作者在努力,但新问题在不断冒。隐私无形,去处难控,组合效果可能1加1大于2,这些都是阻碍因素。另一问题是财富效应。雾霾问题也可以用科斯定理,但是,把排污权利分配给市民,还是工厂,对财富分配影响很大。既然可能存在财富效应,用科斯定理可靠性有疑问。隐私问题同理,利用这么多信息权利不同,不太可能没有财富效应。此外,相关问题中有信息不对称,利益相关方一般至少有三方(个人、平台、企业),这些都可能导致定理失效。



以上是第二代理论的一些主要成果。第三代理论更复杂,主要有两特点。首先,模型变得更复杂。带有三个甚至更多参与者的模型,稍稍一般化的设定,求解就会非常困难。各派间理论非常多。其次,经济学家开始利用互联网公司生成的海量数据检验理论,估计模型,为政策制定者或企业提供建议。其中一部分非常复杂,也许其实没有必要。自己见解,新模型最大进展在两方面,一是允许更复杂信息结构,比如引入声誉系统、评价系统,或者考虑企业根据消费者各类信息来价格歧视,二是严格处理平台。以前者为例,如果企业可以严格记录消费者浏览历史,进而得知消费者对何种产品感兴趣,企业就可能提价。如果消费者预期到这一点,他们就会推迟,或者干脆减少购买来逃避价格歧视。无论是担心转卖,还是担忧价格歧视,都有可能导致消费者延迟提供信息,或故意扭曲信息,或特意匿名,甚至弃绝服务。这方面有许多理论,@司马懿 知乎专栏对其中两个例子有精彩介绍。他的评论直指核心:消费者在信息披露中受益或受损取决于消费者和企业相对地位,讨价还价能力相对的差距。但是,这个地位的差距,很可能与前期的信息披露有关。



引入平台后,三方博弈会有许多更精彩结果,但要真正说明现实就是如此,难度更高。这一块研究在快速发展。核心在于弄清楚搜索引擎或其它平台的激励。再次以搜索引擎为例,它一方面要搜集信息,改善搜索质量,与其它企业交易,一方面也通过出售竞价广告或修改排名算法等方法直接参与企业与顾客匹配。首先,引擎与顾客利益可能直接冲突。顾客希望引擎不断改善算法,如实展示结果,不要有广告。如果搜索引擎真坚持这么做,顾客可能不愿付钱,厂商也不愿付钱,无利可图。因此,引擎要赚钱,要么得影响用户使用体验,引入广告;要么直接操纵排名,篡改信息。其次,引擎与厂商利益也可能直接冲突。如果引擎大量把准确信息卖出,厂商以后对自己信息需求可能下降。因此引擎可能限制信息自由流动(Bergemann和Bonatti,2015)。



这方面还有很多意想不到的结果。比方说,消费者日益关注隐私安全未必能改善自身处境,反而可能加强垄断(Campbell,Goldfarb和Tucker,2015)。由于选择太多,同时无法详细了解各厂商保护政策,消费者可能集中选择知名度较高或信誉较好厂商。对大厂软件,他们可能一路勾勾勾,不会对具体内容关注太多;对于小厂软件,他们则会认真审查。这会导致“强者愈强”。近年来有多篇研究发现,精准投放对厂商而言,效果非常一般(Mayer和Mitchell,2012,Blake等,2015等)。还是之前那个问题,激励互动很复杂。消费者可能安全专门的隐私保护软件,也会有企业专门推出这类产品。他们使用搜索引擎久了以后,第一眼看的可能是页面中部而非顶部,谁不知道都是推广呢。如果你的投放太“精准”,太“及时”,消费者甚至会心生反感,效果为负。



林林总总写了很多,简单概括成一句话:即使不考虑政府规制,题主所说的世界也不会很快到来。市场各方各有激励,相互掣肘。他们常常可能藏着信息,甚至特意传递错误信息。透明的世界,不太可能到来。包括A/B实验在内,这几年不少研究发现这些新工具未必能带来想象中的高收益。消费者也会变,变得更聪明,更主动。未来也许会有组织,也许会有诉讼。不清晰的边界,就像近代海边落潮露出的肥沃滩涂,常常引发战争,不过不是械斗而已。最后,隐私定义本身也在变。大家不仅为挖掘出已有数据新用途,还会创造出新的数据指标,不停刷新“信息”的定义。隐私也需要跟着变。因此,在实现相对平和有序环境之前,漫长的纷争和缠斗免不了。对个人,考虑到开头的六个点,不应该仅仅期待法律和政策跟上漏洞,那也许会滞后很久。也许应该设法对数据产业有基本了解,然后看看手机里各个app,如支付宝、微信、浏览器等,想想可能记录了哪些信息,哪些后果也许自己承受不了,设法补救。保护隐私的企业、公益组织和律师也可能很快多起来。一些关键信息,比如个人基因,应该暂时给予最高的保护。虽然全文很少谈及基本权利,但那非常重要。



部分参考文献:



Acquisti, Alessandro, and Ralph Gross. "Predicting Social Security numbers from public data." Proceedings of the National Academy of Sciences 106.27 (2009): 10975-10980.



Acquisti A, Taylor C R, Wagman L. The Economics of Privacy[J]. Forthcoming, Journal of Economic Literature.



Anderson, Ross, and Tyler Moore. "The economics of information security." Science 314.5799 (2006): 610-613.



Bergemann, Dirk, and Alessandro Bonatti. "Selling cookies." American Economic Journal: Microeconomics 7.3 (2015): 259-294.



Blake, Thomas, Chris Nosko, and Steven Tadelis. "Consumer Heterogeneity and Paid Search Effectiveness: A Large‐Scale Field Experiment." Econometrica 83.1 (2015): 155-174.



Campbell, James, Avi Goldfarb, and Catherine Tucker. "Privacy regulation and market structure." Journal of Economics & Management Strategy 24.1 (2015): 47-73.



Goldfarb, Avi, and Catherine Tucker. "Online display advertising: Targeting and obtrusiveness." Marketing Science 30.3 (2011): 389-404.



Gottlieb, Daniel, and Kent Smetters. Grade non-disclosure. No. w17465. National Bureau of Economic Research, 2011.



Hirshleifer, Jack. "Privacy: Its origin, function, and future." The Journal of Legal Studies 9.4 (1980): 649-664.



Jernigan, Carter, and Behram FT Mistree. "Gaydar: Facebook friendships expose sexual orientation." First Monday 14.10 (2009).



Kahn, Charles M., James McAndrews, and William Roberds. "A theory of transactions privacy." (2000).



Seim, Katja, and Michael Sinkinson. "Mixed pricing in online marketplaces." Quantitative Marketing and Economics (2015): 1-27.



Mayer, Jonathan R., and John C. Mitchell. "Third-party web tracking: Policy and technology." 2012 IEEE Symposium on Security and Privacy. IEEE, 2012.



Noam, Eli M. "Privacy and self-regulation: Markets for electronic privacy." Privacy and Self-Regulation in the Information Age (1997): 21-33.



Posner, Richard A. "The economics of privacy." The American Economic Review 71.2 (1981): 405-409.



Resnick, Paul, and Hal R. Varian. "Recommender systems." Communications of the ACM 40.3 (1997): 56-58.



Stigler, George J. "An introduction to privacy in economics and politics." The Journal of Legal Studies 9.4 (1980): 623-644.


user avatar   david-dong-20 网友的相关建议: 
      

其实这是个挺重要的问题,之前开会的时候才跟一帮Computer Scientists讨论过一番。

首先其实我觉得现代社会基本不存在绝对的隐私,只要你还上网,基本上所有网上的行为最终都是可追踪的。我们之前聊天的时候,大家就讨论了一番SnapChat,大家就在聊怎么有人真的觉得通过SnapChat发出的照片几秒之后就真的消失了,不提公司会不会留备份,不提收件方会不会截图,就算是互联网的网络路由里,也肯定有相关的数据留存的。绝对的隐私,其实在现代科技下,基本上是很难存在的;你生活中的大多数行为,最终都是可以追踪的。

当时在讨论的时候,有几个德国的研究人员就在吐槽他们德国的各种隐私保护和管制极其严格,导致他们的很多研究和设想都无法进行。如果有些公司想要获取用户的一些信息,需要有厚厚的一沓子合同需要用户签订,并且企业有责任详细解释每一份合同并且确认用户确实明白了所有的相关后果。至于像我国这种遍布摄像头的推广,就更是几乎不可能了。

先不提这些对技术进步的阻碍吧,因为我觉得保护隐私确实也挺重要的,讨论的时候重要的论点之一就是,掌握到生活细节的信息,本身就是一种强大的权力,这种信息不对称其实是十分可怕的。有几个人说他们来中国的时候为了保护自己的信息,甚至邮箱都没敢登录-_-

但是我真正忧虑的其实是另一种问题,主要是随着弱人工智能的发展,这种信息不对称会使技术的优势到达一种十分可怕的程度,从而导致对隐私的保护反而造成更大的安全隐患。

比如说,如果我们现在可以用弱人工智能生成一些虚拟的用户,这些虚拟的用户可以在网上好像正常人一样的发帖,有他们的社交圈,我们先假设这种智能的程度到达了我们完全无法从单纯的信息上检测出他们其实不是一个真正的人。那么如果我用这种技术在类似facebook这种地方大量的生成用户,假设我造出了1亿个不存在真人,但是在网络上看起来完全就像一个真正的人一样的账户。通过这些账户产生的舆论引导就会极其的可怕,几乎可以为所欲为,操纵国家政治,操纵个体心理,成就或者毁掉一个公司,成就或者毁掉一个人,甚至破坏一个国家。

如果我们没有办法在最终的层面上检查出一个账户是不是一个真正的人,这种情况是极有可能会发生的。如果要能验证一个网上虚拟的身份是不是一个真正的人,对于个人隐私的侵入几乎是无法避免的。

最终这个问题变得越来越两难,看起来不管怎么选择,都有一些糟糕的负面作用。我们对于这个时代下,个人的权利,隐私,自由,似乎都需要重新的定义。但是现代技术的发展已经把人类社会推进了一个新的篇章里,我们确实非常需要重新考虑一些事情。

其实对我个人来说,我觉得像北欧对于个人财产的那种机制挺好的,就是个人公开一些信息,任何人都可以查询任何人,但是每次查询必然会留下记录。信息本身有强大的力量,但是这是在稀有的情况下才有的力量,如果所有人都知道的信息,就没啥力量了;与其让极少数人获得这种信息,不如让部分信息完全透明化。当然,这个过程必然会损失部分个人的隐私及自由;这又要涉及个人自由要如何定义的问题了........


user avatar    网友的相关建议: 
      

人类的大脑实在太神奇了。

我出生以来,它24小时不间断工作,但却偏偏在考试的时候,大脑会猛的开始循环播放各类沙雕歌曲。

不会的题越多,想起的歌词越多。

题目越难,想起的歌词越沙雕。


user avatar   yang-feng-he-57 网友的相关建议: 
      

谢邀

没看过《少年的你》,仅从小说构成层面对“融梗抄袭”进行一个质疑。

简而言之,我不认为“融梗”可以作为抄袭判定的理由。如果要判定抄袭,大概需要其他的证据进行证明。

或者说,要么直接讲这本小说抄袭,要么就是没有抄袭,融梗不应该介于其中的一个中间状态被使用。

以下是本文内容纲要,用以方便各位迅速定位:

一、“梗”的存在在小说构成中占据什么样的位置?

二、“梗”的雷同现象出现的可能性。

三、有关“融梗”是否构成抄袭的个人看法。

四、有关抄袭判定的个人意见。


一、小说构成


一般来说,在进行写作前总要进行规划。

由于写作过程中的许多突发情况不能预测,为了保证作品整体不至于因受到干扰而失去控制,作者一般会做一些约束准备,一方面对必要素材进行积累,另一方面对小说框架进行构建。

当然,也不排除一部分作者会在完全不进行准备的情况下进行写作。在这种情况下,作品的完成度视作者的能力情况而定。一部分作者可以做到横跨几万字埋设伏笔,而我超过两千字就得写具体纲要。这种对小说控制力的差别普遍存在,不过我在这里做一个假设:

进行初期准备的作者的作品控制力要比没有进行初期准备的作者强。


那么,作者在进行一个小说的构建的时候,首先要做的是确定一个主题。而确定主题的过程一般会与灵感来源绑定,换而言之,一部分作者是通过一个原型事件来进行主题的确定,这种情况下,作者会同时获得事件原型和主题。另一种情况下,作者是在特定主题下寻找原型事件,网络小说通常就处于这种状态:根据其题材及最终目的,确定小说的主题。在这里讨论的主题实际上比较抽象,它不能和核心思想等同,更多情况下,它属于一种基调,或者关键要素。

主题是进行事件选择的第一个约束:一旦当事件不符合主题就将事件否决。


在主题的基础上,作者会寻找一个原型事件。原型事件的来源实际上非常广泛,一部分是真实事件,另一部分是经典故事,还有的是作者完全虚构的产物。

一般来说,我倾向于调查真实事件选定原型事件。以此为例,我在这里简单说明一下原型事件的意义:

几天前我去一个中学考察,本来是打算记录我的好朋友“衣锦还乡”的表现。途中却发现了一个情况。

有一个小朋友一直被同学欺负,他去找老师,老师解释成闹着玩,没有理睬。有一天他突然生气了,把以前欺负他的小朋友打了,老师反而惩罚了他。小朋友很郁闷。

我于是将这个原型事件提取了出来。一般情况下,作者不会原模原样的把原型事件引用至故事,他们还需要对原型事件进行加工处理:

譬如说,上面的事件,我将它抽象化为:强势者对弱势者实行双重标准,而弱势者无可奈何。

这样一来,我就一次性消灭了“人物”和“具体情节”两个要素。这样,我就可以把原型事件与主题复合,用复合得到的新主题进行约束,筛选具体情节。

同样的,我也可以仅保留具体情节:弱势者受强势者打压,诉诸权威而没有回应。弱势者于是自己处理问题,反制强势者,此时却受到了权威的干涉。

这种情况下,这个具体情节,实际上更符合于梗的定义。不过现在网络上提到的梗有时也会和人物或背景要素相复合。

而提取原型故事的目的就是为了精确化主题或者寻找具体情节。精确化主题要受到更高等级主题的约束,而具体情节则会应用到故事框架中,成为主题的具体表现。而人物设定与背景一般会由总体主题和局部主题确定,与具体情节复合,就实现了故事纲要。

以上,我简单重复一下在小说的前期准备中所使用的结构:

  1. 总主题确定总情节。
  2. 总情节表现为分主题集合和最小情节集合。
  3. 分主题确定分情节。
  4. 分情节表现为分主题集合和最小主题集合。
  5. 最小主题决定最小情节。
  6. 最小情节复合人物背景要素,结合修辞进行实际表现。

也就是:

  • 1 总主题→总情节
  • 1.1分主题→分情节
  • 1.1.1最小主题→最小情节←人物要素,背景要素
  • 1.1.2分主题→分情节
  • 1.1.2.1最小主题→最小情节←人物要去,背景要素
  • 1.2分主题→分情节
  • ……

由此可见,原型故事的确定非常重要,也是“梗”的直接来源。而梗本身在小说构成中所代替的就是情节部分。

那么,我们补充一下另外两种原型故事来源的状态:

从经典故事中获得灵感的情况并不少见。一般来说,是那些经典故事对作者达成了某种启发,从而使得作者创造了某种结构。同时也有一部分作者干脆提取经典故事的结构拿来自己用,这也无所谓:很明显的,阿喀琉斯的脚后跟这一结构已经被反复提取到随处可见了。

而作者自己虚构,这种情况其实一般可以与前两种情况等同。或者说,作者虚构行为本身就是调用自己的经验,而自己的经验就来自于故事或现实经历。

以上,“梗”在小说构成过程中起到关键作用,但单个梗的意义并不是很大。


二、雷同梗的出现原因


1.约束条件相似

我们知道生物学有个概念叫趋同进化,也就是两种不同源的生物由于受到相似的生活环境的筛选,特征变得相似。而以上面的构成原理为前提,在小说构成的过程中也会出现这种情况。

举一个比较直观的例子,村上春树和川端康成的作品(自己和自己对比),都存在(自己的作品和自己的作品的)大框架相似的情形。这大概就是因为其最上级或者较上级主题反复使用的缘故:由于表达思想类似,所以表达手段也接近,虽然具体表现并不相同,但宏观看待,这些作者反复在讲同一个故事。

一部分单元剧也会出现这种情况。由于其消灭了主线,换而言之最上级主题分离代替每一个次一级主题,导致次一级主题基本相同,进而导致约束条件也类似。不过单元剧出现这种情况就属于写坏了,因为自己和自己重复。

网络文学(在这里特指网文)应该是这种情况最普遍发生的地点。由于其收到题材影响强烈,又受商业目的约束,同时作品量大,撞梗几乎不可避免。这种相似一部分是由于接近“最优解”的缘故,另一部分则是模板化写作的结果。我们批判网文的“套路化”严重,实际上就是因为套路本身就是一个特定时间段的情节最优解。因为有效故而被模仿,然而随着时间过去变得不那么有效或引起审美疲劳,故而被批判。

综上所述,在约束条件相似的情况下,很有可能会出现雷同情况。

2.原型事件相似

这种情况现在并不多见,但偶尔也有。比较常见的情况可能是一些作者根据某个热点事件进行改编,从而写出了相似的作品。

另一种情况是,作者们在一同考察后,写出了相似的作品。以网络为载体,可以实现这种共同考察的机会并不多。前段时间我与其他作者去台湾考察,回来写的小短篇就撞了梗。不过这种时候,由于共同考察的作者们互相有联系,一般不会同时发表相似的作品。故而少见。

从相同的经典作品中获得类似的灵感,这种情况当然也存在,不过机会更加渺茫。直观一年讲,可能相隔十年,两个灵魂相似的人撞了个梗,这种情况,与其纠结于雷同,不如说是有缘分。这种情况多发于学生作文,刚学完某个文章就拼命引用。

当然,从原型事件的最后之来源也可以判断,生活经历相似的作者很可能写出类似的作品。这种情况大家应该可以理解,譬如说在相同历史环境下写出的文学作品会有一定的相似性。

3.借鉴或抄袭

一般被我们深恶痛绝的就是最后一种情况了。羊毛出在羊身上,薅羊毛薅久了就能织毛衣。转手把毛衣卖了,就自在。不过有的羊羊大毛多,不在乎几根毫毛,可能不搭理薅羊毛者。有的羊本来毛就少,薅到最后薅秃了,是我我也得发飙。


作者抄袭的话一般有两种情况,其一是嫉妒,其二是懒。

第一种情况出现的机会不多,一般是抄名家名作。作者与作者之间普遍是互相瞧不起的关系,因为小说构成的精妙之处不太容易被发现,但丢手艺一眼就看得出来。

第二种情况一般在诸如卡文,或者对小说质量有硬性需求的情况下出现。在卡文的时候,由于懒得进行细致构成,于是抄袭。或者对小说某章节有质量要求,譬如说开篇部分,简介部分,而作者自身能力不足,往往也会寻找范例进行模仿。


三、我对“融梗抄袭”的质疑


首先,以下讨论的“融梗”仅指多情节多来源雷同。

在出现这种“融梗”雷同情况时,由于两个因素影响,雷同的“梗”越细碎,来源越多,作为抄袭的立论越没有说服力。

具体地说:

1.“梗”越基础,它的雷同机会越大。而“梗”的来源越多,抄袭难度,雷同机会也就越大。

针对小说,抄袭指责被反驳的一套常见的说辞是“每个字都抄新华字典”。这种反驳实际上就表现出了一个问题:梗越基础,其组合性越小,越容易在已知作品集中找到雷同点。

在这个比喻中,新华字典可以替换成已知作品的全部情节集。而每个字则可以替换成构成小说的最小情节集。

我们再比喻一下:

设作品情节集

  • 90865
  • 32146
  • 79645
  • 12457
  • 36980

0到9九个数字(即最小情节集)都能在作品情节集中找到。

而两个数字的组合(即复杂情节集)在作品情节集中就没有全部出现了。如70/07

于是数字组合的位数越多,抄袭证明越有力。换而言之,越复杂的情节组合重复,抄袭证明越有力。


同样的,如果扩充进行比较的抄袭来源作品数量,我们这样比喻:

抄袭嫌疑作品:

  • 1095860

抄袭来源作品:

  • 5812437A
  • 1096534B
  • 2586460C

我们一眼就可以看出来。抄袭嫌疑作品和作品来源B很相似,以它们两个为对比:

1095860 1096534B

有数字109完全一致,另有5 6非常接近。

而如果将A C加入并对比:

  • 1095860
  • 5812437A
  • 1096534B
  • 2586460C

那么,疑似作品的109与B雷同,58与AC雷同,60与C雷同,简直没有自己原创的部分。然而58/60作为两位的数字组合,出现雷同的机会还是比较高。

在进行作品比较的时候,只要作品来源足够广,就一定会增大雷同情节的出现概率。这种时候一些细碎情节的雷同不应该作为补充证据用以论证抄袭,而应该舍弃。

之前看到某本小说被指责融梗上百本小说,实际上属于后面提到的这种情况,大量的样本扩充了用来比较的作品情节库,可是雷同的仅仅是一点细碎的情节。这样一来,在论证过程中,好像原书作者无恶不赦,一连抄袭了上百个作者,可是实际上,可能这个作者仅仅对其中几个作者进行了创造剽窃。


2.受前文所说雷同梗出现原因影响,题材越接近,主题越相似,出现大面积雷同的可能性越大。

这一点在类型文中经常出现,假如一本小说的疑似梗来源来源于多部小说,我们就应该考虑这个梗的来源是否由于同题材所导致,而非草率地下一个全员抄袭的结论。

值得注意的是,遭遇这种状况时,我们反而应该扩充对比作品集,用大量同题材同主题作品,去除其公共雷同部分,再进行雷同部分比较,以减小由于约束条件相似所带来的影响。换而言之,就是减少“烂梗”被误判为抄袭的机会。


以上,融梗这种说法有一定的不合理。我个人认为,如果在抄袭判定的过程中能在去除上面两个因素的影响后,还可以认定成抄袭,那么没必要谈融梗,直接炮打即可。

反过头来,如果是因为受到以上两个因素的干涉才做出抄袭的结论,那么这个结论是站不住脚的,或者说误差太大,没有说服力的。


四、我个人认为的抄袭判定条件


我个人判定抄袭的标准相比较法律标准还是比较激进的。以下仅提供一些判断思路,但可能存在一定的合理性问题。

1.直接使用原文而未引用来源。

这一判据最直接,但要谨慎处理诸如百度百科一类的内容……

2.在去除合理的雷同情况下,大量复杂情节组合/关键点来自于同一部/几部作品。

此判定条件需要大量同题材同主题对比材料确定公共雷同情节部分,在排除掉这部分情节后,若疑似抄袭作品与疑似抄袭来源作品在一段足够长度的内容中存在大量复杂情节的雷同,则可判定抄袭。

同时,应当排除如:存在多雷同点,但雷同点细碎且不集中的疑似抄袭来源作品。

3.逻辑链断裂。

此条作为前一条的论证补充,若存在较简单非公共雷同点,且疑似抄袭作品在此雷同点出现严重逻辑链断裂的情况下,可以将此雷同点判定为抄袭。

如果规划相对完善,逻辑应该也是相对连贯的。但一部分作者不写细纲或干脆不打草稿,这种状态也很容易出现逻辑链断裂的情况。判断逻辑链断裂的雷同点相较于第二判据可以简单一些,但仍要保证一定程度的复杂度。

4.终端修辞表述大量相似。

这一根据有混淆借鉴与抄袭的嫌疑。大部分作者不会在具体的表达方法上考虑雷同问题。所以此根据只可作为在特殊情况下进行补充判定的根据。

判断方法如下:

在一段足够长的纯粹功能性内容中,疑似抄袭作品与疑似抄袭来源使用同样的修辞表述结构,譬如递进强调的比喻等。两段功能性内容的目的必须相同,且表达结构必须完全一致。

这种方法只能作为判断补充,不能作为单独判断雷同的根据。


大概就是这样了。




  

相关话题

  如何看待社会主义国家,当前5个个个穷困潦倒,东德保加利亚波兰是脱离了社会主义才变得富强还是? 
  当人们无法接受某些网红爆红时,是否说明现在人们受信息茧房的影响而难以接受与自己审美不合的内容? 
  2018年5月1日开始实施的《个人信息安全规范》对互联网企业和普通用户有哪些影响? 
  如果一个国家,拼命印钱,同时强行政策要求国内所有物价维持不变,谁敢擅自提价就59上门,会怎么样? 
  为什么当初会选择深圳作为经济特区? 
  如何评价#雪乡明码标价#再引争议,央视:明码标价就不算宰客了吗?? 
  「资本回报率太高,劳动回报率太低」的说法是正确的吗?为何出现这样的现象? 
  如何看UCBerkeley RISELab即将问世的Ray,replacement of Spark? 
  剑桥资本争论(“资本”概念争论)是什么?如何理解论战双方的观点? 
  三段式中介效应模型真的适用于经济学研究吗?还可以用什么方法来检验影响机制? 

前一个讨论
空投 1 吨或更多钠到太平洋里,会发生什么?
下一个讨论
有哪些在饭局后与他人保持联系的方法?





© 2024-05-17 - tinynew.org. All Rights Reserved.
© 2024-05-17 - tinynew.org. 保留所有权利