百科问答小站 logo
百科问答小站 font logo



如何看待QQ邮箱翻译出他人的快递通知? 第1页

  

user avatar   zhu-wang-xiao-miao-o 网友的相关建议: 
      

看样子是因为模型在训练的时候用到了一些个性化的数据,但是这些数据在送入模型进行训练前没有做相应的处理,因此在遇到特殊词汇的时候就会还原出了训练数据中的内容,进而泄露了用户的隐私数据,类似于被用户套话了。

上个月的时候,某三岁半小朋友 @lokinko 同学曾在群里分享过一篇 @量子位公众号文章,讲的就是GPT-2的隐私泄露问题。

可以看到,只需要你说出一串“神秘代码”:“East Stroudsburg Stroudsburg……”,自然语言模型GPT-2就像是收到了某种暗号,立刻“送出”一套个人信息:姓名、电话号码,还有地址、邮箱和传真,这就是所谓的“吃了吐”。另外,这篇文章还谈到泄露个人隐私信息的概率还会随着模型的变大而升高。

这是我想说的第一个问题,即一部分模型训练过程中使用到的个性化数据会被不经意间泄露出来,导致个人隐私信息受到侵害。

解决这个问题也有方法,例如可以进行数据的清洗处理,以及等等其它手段。

不过我更为关注的是,这些数据都是从哪里来的?

是从网上爬取的吗?

还是说,tx和一些电商平台以及物流平台达成了某种协议,来获得一部分客户的个人信息进行,用以进行训练?

前段时间刚爆出QQ会读取用户的浏览器历史记录,可这部分信息被用作了什么至今还未知,不过目前至少可以知道不会是它所说的恶意网站检测。

所以在这件事发生后,我的第一反应就是腾讯又被发现在窃取用户隐私了。

希望能够在后续看到这些用于训练的个人信息的来源,是用户不小心泄露被爬取到了,还是背后有些刻意为之的事情?(原谅我怀着恶意揣测了一波)


user avatar   Gh0u1L5 网友的相关建议: 
      

我想我已经找到这条快递通知泄漏的源头了。

事实上如果你拿这条短信里的片段去搜索的话,已经能搜出一些相似的东西来了:

但是这些结果显然不是短信的源头,因为它们错字漏字太多,比如那个菜鸟骚站是什么玩意儿?而且最敏感的取货码和手机号也没有出现。

出于好奇我又重新排列组合了一下关键字,终于在一个不知名的香港电商网站上找到了线索。

然而打开网站后会发现网页已经更新了,于是我只好再去翻了一下网页快照,在快照的源代码里我终于搜到了那条短信:


考虑到这个电商网站恰好提供英文、简体、繁体三种语言,我猜测这一切发生的顺序是这样的:

某个粗心的商家复制了自己的短信内容(可能是想让朋友代领快递),扭头在上架商品的时候不小心压到了粘贴,把自己的私人短信插进了商品简介里。之后没什么顾客来光顾,TA自己也没再注意到这条简介。

后来腾讯为了训练AI翻译模型,用爬虫定期爬取互联网上各种多语言版本的网页,其中恰好就有这个电商网站,于是这条短信就稀里糊涂的混进了腾讯训练AI的语料库里,让腾讯的AI把一些奇怪的词翻译成了这条短信。

虽然现在扭头看看,这次的“隐私泄漏事件”应该是个有点滑稽的乌龙,隐私内容是当事人自己稀里糊涂上架到电商网站上的。

但是我觉得腾讯各团队也该反思一下,为什么现在出点什么事,围观群众第一时间的反应就是:“不愧是tx”、“腾讯又在偷隐私了”。

取信如登,失信如崩,望诸君自省。


user avatar   huo-rong-an-quan-shi-yan-shi 网友的相关建议: 
      

经测试已经成功触发。

测试内容“a banner reading "This message is from a mailing list. Unsubscribe"”翻译结果出现菜鸟驿站快递消息:

在网上搜索发现,去年10月已经有网友发现类似问题:

当时的情况是QQ邮箱“会把unsubscribe单词翻译成菜鸟驿站的一条短信”


但随后评论中有人称QQ邮箱已经修复了。

我们也进行了测试,如果邮件内容仅有单词unsubscribe,确实不会触发,但是正如开头所说,稍微通过组合不同语句,依然可以触发该问题。

题主也是同样的情况。截图中邮件内容虽然也是“unsubscribe”单词,但由于邮件还包含其他内容,所以也依然翻译出了菜鸟驿站的快递信息。

我们还发现,通过进行不同组合语句,翻译出现的菜鸟快递信息也不同:


不过大家不必担心,这个问题不会导致隐私泄露。但是这个翻译内容中确实出现了其他人的隐私信息(手机号)就是了……


user avatar   lokinko 网友的相关建议: 
      

从 AI 口中套出训练数据的事情已经不是一次两次了。

这个问题里最让我疑惑的是为什么 QQ 邮箱的服务里能够出现快递信息

QQ 邮箱是如何获得快递信息的?

很明显,快递信息是不会通过邮箱发通知给你的,所以这大量的数据不可能是邮箱自身收集的。

这样就出现了几个问题:

为什么腾讯会有我们的快递信息?

(我们的信息是在何时被腾讯拿到的)

为什么腾讯拥有的快递信息会给 QQ 邮箱使用?

(此处怀疑是腾讯的 NLP 模型是技术部提供给各个业务部门的)

为什么我们在不知情的情况下”被获取“了信息?

(此处解释原因可以从那长到翻不完的隐私条款中找到)


不知道大家注意没有,因为国家要对隐私数据进行系统性的管控,所以很多 APP 最近都更新了隐私条款。因为隐私数据量太大了,且收集过这些隐私数据的企业和组织太多了,这些行为严重威胁着社会公平、个人安危。

@量子位 量子位的公众号去年就发过相似事件的文章

机器学习过程中会出现对长尾数据的过拟合,特别是一些独特的数据组合会形成“记忆”,导致当触发某些词后,它会按照“记忆”给出对应的信息,从而被“骗”出训练集里的数据信息。


这就反映出了企业业务流程的不规范和操作的不合理。

首先,隐私数据在训练过程中应该要脱敏!直接拿原始数据做训练的技术都是屑!

在机器学习中最常见的隐私保护技术就是联邦学习,通过差分隐私给数据加噪声来模糊原始数据。

其次,现在已经有不需要收集个人数据上传到企业也能训练人工智能的技术——联邦学习。

让数据在用户本地呆着,企业只能拿到从用户数据中抽象且加密过后的模型参数,这样既不影响企业的业务(虽然目前还可能有精度损失),也能合理保护用户隐私。

最后,请写些普通人能懂的隐私保护条款吧!!!在读取我们数据的时候至少通知我们一声吧。(哎,躺平放弃抵抗的语气)




  

相关话题

  用生成模型做数据增强data augmentation时,如何从合成数据中筛选出质量较好的样本? 
  《新华字典》(汉英双语版)全新面世发行,谈谈你的看法和评价? 
  日本人名的英文翻译怎么是这个样子? 
  本科数学,目前在读计算机研一,毕业的时候想要应聘数据挖掘工程师,看了对数据挖掘工程师的招聘要求,感觉太宽泛了,希望能具体说一下现在应该准备哪些知识(算法?编程语言?其他?),谢谢! 
  什么情况下用私钥加密公钥解密,什么情况下用公钥加密私钥解密? 
  有哪些截然不同的译名其实有相同的原名? 
  现在网站越来越难渗透了,渗透测试这个方向还有前途吗? 
  为什么多数国家国名被音译,而德国、韩国、希腊等这些国家国名反而没被音译呢? 
  机器学习中macro-F1的计算公式? 
  张京为什么说我先翻译一下? 

前一个讨论
洛斐键盘怎么样?
下一个讨论
在酒店隔离期间,该如何保持健康?





© 2024-05-20 - tinynew.org. All Rights Reserved.
© 2024-05-20 - tinynew.org. 保留所有权利