Facebook用户数据泄密事件发酵,这家社交媒体巨头正成为众矢之的,与事件始作俑者剑桥分析公司一起面临法律调查。
自移动互联网和社交网络深入影响我们的生活,大数据、人工智能等技术大行其道以来,数据似乎成为了一座巨大的财富矿山;但现在看来,滥用数据和侵犯隐私却也威胁着每一个互联网用户。本次Facebook用户数据泄露事件引起了人们的思考:数字时代的隐私边界何在?如何确保数据不沦为别有用心者操纵他人的工具?如何尽快建立起保护个人网络数据的方法和原则?
清华大学社会学系教授、社会网络研究中心主任罗家德在本期腾云读书会上对Facebook数据泄露事件进行全面解析。
本文由刘晋锋采访,木果书架和腾云编辑整理发布。
关于FACEBOOK事件背后的大五人格研究以及科辛斯基,罗家德说出了全部 | 腾云读书会
1 背景: 从大数据1.0时代到3.0时代
关于Facebook事件,还有很多技术细节不清楚,我仅就自己了解的部分讲一下。
首先想跟大家分享一下和社会研究、商业营销都有关的社会计算(social computing)的三个阶段,我简称为大数据1.0、2.0和3.0的阶段。这个划分只是针对与社会科学及管理学理论有关的社会计算。其他大数据应用,如健康、规划、医学等等,是不是也可以这样划分,这不是我的专业,我不敢说。
1.0阶段是data-driven,数据驱动; 2.0阶段是theory-driven,理论驱动; 3.0阶段是data-driving-theory,数据驱动理论(的改变)。
理论驱动跟数据驱动的核心不一样,这是理解这一次科辛斯基和剑桥分析公司事件的关键。数据驱动的核心是计算机专家的资料挖掘,他们的工作就是大量挖掘数据,然后做描述性统计或相关分析。主要针对两方面,一是寻找预测变量(predictor),另一个是挖掘行为模式(behavior pattern)。这些研究都希望从数据中得到更精准的预测结果,为实际应用服务,比如如果发现买尿片和买啤酒高度相关,就可以在超市将二者摆放在一起。
但是这种预测是没有推论能力的,不知道何时会失准。比如今天了解尿片与啤酒的相关性后可以预测明天的结果,但是预测一段时间后会不会失准?不知道。一种预测在美国可行但在中国是不是可行?也不知道。这就需要推论。不过实务的使用者可能不是很在乎这个问题,他们完全可以再拿中国数据来预测当下中国市场。 理论驱动其实早在十多年前就已经开始了,代表人物如计算机学界的乔恩·克莱因伯格(Jon Kleinberg)和社会学家迈克尔·梅西(Michael Macy)等人,之前只是学术圈有人会知道。
这一分析方法最早的成熟应用,就是这个被大家广泛关注的大案子——即CA(剑桥分析)帮特朗普当选的事件。从那时起,大家就开始非常关注这个领域,因为人们嗅到了实用的可能。
这个案例跟之前的做法在技术上有哪些不同?这是问题的核心。 最大的不同就是它是通过社会科学理论来驱动(theory-driven)的。1.0阶段不用理论,只需要相关和数据挖掘。 过去我们做很多类似分析,譬如说人脸识别、地景识别等,分析架构一般都很成熟了,刚开始做的时候我们要搞清楚人脸构造的一些问题,但到了后来照片越来越多,经过AI的不断训练,模型就会越来越准。
现在很多类似的语音识别、图像识别做得都很厉害。但是还有很多问题如果不经过一定的社会科学理论指导,是不可能完成的,比如帮特朗普竞选的剑桥分析公司在做的大五人格分析。我无法通过在路上拍一张照片,就能判断出你的开放性、随和性、勤勉性、情绪稳定性、外向性等等五类人格特质。如何知道这些?一是心理学理论才会告诉我们大五人格是一个大数据可以分析的对象。二是一定要通过理论进行指导才能收集人格资料,三是理论会指导我们建构预测模型。所以这是理论驱动。
理论驱动的第一个特色是理论会告诉你预测变量在哪里,你的模型建构要往哪里走;大数据2.0的阶段,都是社科理论驱动而不是数据驱动。
理论驱动的第二个特色是要“扎根真相”(ground truth)。大量的数据驱动是没有找到扎根真相的,譬如说一个买奶粉的男人为什么通常还会买啤酒?我们只是挖掘出了这个结果,但根本不知道扎根真相是怎么回事。顶多找一个社会学家来诠释这个行为背后到底合不合理。社会学家如果说合理,这件事就结束了。
人脸识别是有扎根真相的。早期人脸识别的基本架构已经有了,我们现在能看到的是用大量的照片来做AI训练。照片就是扎根真相。同样的道理,科辛斯基的“大五人格”的心理学测验就是这个事件的扎根真相。
2 应用: 科辛斯基的大五人格研究 牛在哪?
上面我们大致介绍了一下1.0和2.0时代的技术差距。下面来重点说一下Facebook的问题。 在科辛斯基“大五人格”这套比较成熟的理论体系的支撑下,爬虫收集了你的数据,知道你在哪个议题上点赞,哪个议题上点踩,这些数据有了一定量的积累后,就可以开始建模。针对你在某个议题上的态度,我就能分析出你在大五人格中间属于什么样的性格。点赞、点踩都是公开资料,用爬虫爬下来,又经本人同意,所以科辛斯基不违法。
但只有一个人的点赞点踩,没有用。为了得到更多的数据来获得能够更精准分析的模型,他又想出来新的方法——玩游戏,邀请用户做心理学测验,得到对方的个人资料,也就能够分析出他的大五人格作为扎根真相了,这时就能训练模型。我听说的情况是,科辛斯基后来又收集了超过十几万份资料,把模型训练得十分精准。以后从模型就可以预测一个人的人格,进而预测他喜欢的商品、议题等等。
再说回科辛斯基,他之前是剑桥的学生,现在是斯坦福的助理教授。他是一个敬业的学者,做出这个大五人格的理论不是为了赚钱,是为了研究,他人生的目标就是当学者。
他一开始找人做心理测验,会问很多相关问题,收集很多资料,在问卷最后会让你提交一个Facebook账号,当然会付一些费用,允许他到Facebook上爬你的资料。这在学术领域是合法的。他爬到的公开的内容数据,可能会细到你生活的很多领域中去。然后他对这些内容进行分析,判断出属于哪个议题,对你表达的情绪进行建模,然后判断出你的情绪属于支持还是反对,这是一套比较完整和成熟的内容分析方法。
这种2.0的研究方法最厉害的就是它可以推论。一旦模型十分精确了,可以推论到Facebook全部20亿用户身上,知道每个人的大五人格。这些大五人格隐藏在网络上的“网名”、“代号”后面,还找不到什么实用之处。取得“网名”后面的个人资料,才是做精准营销的关键。
3 案例: 用大数据推导亿万选民的 偏好与人格
科辛斯基写完博士论文并发表了很棒的论文之后就去斯坦福大学当助理教授了,他没有想过通过自己的研究成果来赚钱。剑桥分析找他,被他拒绝了。但他系里的一个年轻教授科根(Kogan)接受了剑桥分析的邀请。在学术界,论文一旦发表,知识就公开了,同系之人近水楼台,完全知道如何操作。
剑桥分析公司跟科根合作搜集数据,直接使用科辛斯基的模型去处理,即是我称之为“理论驱动”的方法。那么我如果知道你在讲什么话,点赞还是点踩,我立刻就知道这个用户是什么人格——这就是2.0方法的厉害,可以推论。从20万人训练的模型可以运用在20亿人身上。
比如无人驾驶,也就是把模型训练到不管多快的速度,不管它周围是什么风景,全部能够立刻还原到它的真实情境,指挥车子作应急反应,这就是预测模型的厉害。人脸识别也是一样道理。大五人格模型建立起来以后,只要能够抓到资料数据就可以实现人格识别。
如果剑桥分析公司只是到网上到处收集公开数据,或者说经过对方同意,都不会有现在的事件。我最近看到一个美国的判例,有一个小公司去爬了另一个大公司的数据做分析,被爬的公司起诉它,但是美国判决说只要是网上公开的信息,那就意味着别人可以合法使用,哪怕我没有得到私人的许可,但是只要我敢在网上写,就算是公开的,理论上我就算没有得到你的同意也不会违法。
那么最核心的问题是什么?如果我今天晚上从Facebook上收集了5000万人的公开内容,我不知道这些人是谁,研究这5000万虚拟人物的大五人格,不犯法。
但是,当剑桥分析公司要帮助特朗普竞选,乃至现在要做精准营销的时候,代码后面有个人格对我没有用,我一定要知道这个人的其他信息,比如住在哪里,他是谁,最好还有一些联络方式等等,才能针对他们的喜好调整竞争策略。
我记得我当时也和大多数人一样觉得特朗普是胡闹,直到最后一个礼拜,我发现他的竞选策略和美国其他人完全不一样,我才第一次觉得这家伙很可怕。别人都是搞大型造势,越到后面越大,那是在“捞空气票”(就是不知道对象地捞,捞到多少算多少)。他不一样,他一天飞好几个地方发表演讲,不同地方谈不同议题,就是因为他懂精准营销。
现在已知的信息是科根只要到27万人的个人信息以及填问卷得到大五人格的“扎根真相”,但只要这些人给了好友信息,App上一下就抓了5000万人的隐私,再去扫他们的内容,就可以用模型推估出他们的大五人格,从而推测他的喜好议题,点赞还是点踩。我不用Facebook,所以不了解为何在提供好友时,就提供了他们的隐私。这些隐私的获取未经本人同意,就涉嫌违法了。
4 思考: 大数据分析与隐私保护的 边界何在?
另一个问题是,科根开始跟剑桥分析合作数据搜集时,Facebook最初未作干涉。2014年Facebook修改了隐私政策,就不允许第三方应用再获取好友数据,也要求科根销毁之前拿到的数据。
这事件衍生的问题是,大数据科学的发展与隐私保护间要如何平衡?我以为研究者合法使用网络用户数据的方式有两种,一种是网上公开的数据,一种是私人授权给你使用的数据。
现在的情况是,用户常常不看协议就已经签了协议,用了人家的产品了又开始后悔:“你们怎么可以使用我的信息!”用户认为政府应该立法对此进行禁止,这就麻烦了。
那么,拥有数据的公司可以将数据拥有到什么程度?可以用到什么程度? 有数据的公司可以说,我不知道你的任何隐私,我就是拿这些数据来算,算过之后我就销毁你的资料,但算过之后,对于你的画像就会越来越清楚,可以预测很多事情。这样可以不可以?
所以我们不禁想问,谁可以使用这些数据? 营销不能用,但反恐该用吧?精准扶贫该用吧?那是不是只有政府能用,而且是政府要求这些企业都保存6个月数据,这些信息就只有政府能用,别人不能用。如果只有政府可以用,那么以“数据为王”的公司,股价可能都要受影响。
第二,如果不仅政府可以用,这些拥有数据的公司也可以用,那么他们可以如何使用?这些拥有数据的公司的联盟公司或联合研究的学界伙伴,可不可以一起用?
当然还有一件事,就是第三方机构,那些专门做模型测算的公司,他们采用公开的数据目前没有问题。但未来拥有数据的公司能把数据开放给一个专门做大数据研究的公司吗? 再来一个问题就是数据到底可不可以保留。如果一直可以保留,那我还能追踪你10年、15年前的事,这就很可怕了。
这是不同层次上的考虑,我的看法是这些问题都需要理清。我认为这根线既不能切得太紧,也不能切得太松。 现在最大的问题就是政府在法律上要怎么处理?我在新写的《复杂》一书中谈到关于信息时代复杂社会的治理问题。比如关于事实真相的取得,从前还有记者专业训练、媒体自律、政府监管和法律保障四道关卡,哪怕最后不见得完全是真相,但至少是在向着寻找真相的方向走。现在是谣言比真相跑得快的时代,就是因为四道关卡被突破,没有了治理机制。
信息时代复杂社会里的新治理模式是什么?我们怎么办?这个事件又暴露了新时代新治理需求的另一个问题。
┃互动问答
问 罗老师怎么看扎克伯格的声明?
罗家德: 扎克伯格的声明很短,我还没有非常仔细阅读,只能说,他讲的是实话。只是我不是Facebook使用者,不知道是不是所有的App都可以通过钓鱼产生这些问题,还是因为小扎对学者有更多照顾,所以学者才会有更多特权?这一点我没有从信中看出来。
他声明的唯一问题就是反应太慢,以至于事件快速发酵后,已经造成了很大的影响。
问 Facebook应该如何避免这样的事情再次发生?因为这些数据都是公开数据,且大部分是实名,是允许随意爬取的。
罗家德: 我不了解Facebook,也不了解它的具体技术细节。如果说数据都是公开的,那么用户在使用的时候就要小心,因为理论上讲,凡是公开的数据别人都可以看。这也是为什么现在人肉搜索这么厉害,都是因为你公开了信息。 如果可以允许人肉搜索,大数据却不能爬取的话,这个标准就不知道应该怎么去划分。
问 为什么在奥巴马时代,数据团队这样做,就可以被称为数据时代的竞选?
罗家德: 这次的问题不在于涉及到的人是特朗普还是奥巴马,也不在于大数据可不可以作精准营销,核心问题是有5000万人没有同意自已的个人信息被使用,却被CA拿去用了。
问 罗老师如何看数字时代的隐私边界问题,何为隐私?
罗家德: 我觉得数字时代的隐私问题分两种情况,一种情况是同意对方利用你的资料为你提供精准服务,愿意接受对方的精准营销,这样的数据使用在原则上是合法的;另外一种是事前没有经过你的同意而开展的,这就不符合规矩。 其实国内对于隐私的保护情况很不乐观,现在因为法律上的规范不是很严,所以流氓软件确实多了一些,我们都经常受到骚扰。
我认为今后理想的情况是要求所有拥有数据的公司进行告知义务,在明确获得对方同意的情况下才可以使用数据。
问 以后数据公司,会不会因为太大而导致无法监管呢?还是我们会像欧盟一样,为数据公司制定出多限制,导致本土数据公司发展不起来,最后被其他国家的大公司统治?
罗家德: 如果政策制定太严了一定会扼杀互联网公司的发展,但太松了,就有个人隐私被侵犯的危险,这个度要如何切?这也是我在接受采访时最后谈到的几个问题,这些资料到底谁能用?能用多少?资料能保留多少?这在未来的监管层面如何去界定,是一个需要考虑的大问题。
问 如果像特朗普这样掌握公权力的政府要Facebook提供数据怎么办?企业也不知道他是不是拿这些来帮助自己连任。政府对于数据的利用要由谁来监管?如果政府不小心泄露了数据谁来担责?
罗家德: 大家还记得斯诺登事件吗?难道美国政府没有通过大量的大数据挖掘来反恐吗?他们绝对是世界上技术最先进的大数据挖掘者。 斯诺登事件发生后,虽然有很多人骂他,但也有很多人支持他,称赞他具有不服从精神,因为他认为政府的做法违反了美国宪法,所以他选择不服从。
问 我们之前看电视也会看到竞选广告,被推送相关的信息(这些财团也可以控制),和现在情况的区别在哪里?
罗家德: 现在最可怕的事情是,随着大数据和数据分析技术越来越成熟,它精准的程度可以越来越高。当我们利用这个数据进行精准扶贫时,会觉得这是个好事。但如果用来进行精准营销是否可以呢?怎么界定它的性质? 同样都是精准投放,它的边界在哪里?难道只能拿来做公益?不能用来做盈利吗? 有人可能就是希望能被提供更好的服务,我们现在所说的高端服务业,一对一服务,其实前提都是要让别人知道更多的信息,才会“你没想到的为你想到,你想去做的已为你准备好”。如果你说我想要这样的服务,你就必须容忍对你的分析。如果你说:“我不需要这种服务,也不希望你拿我的数据做分析。”那就只能靠拥有数据的公司做好内控。
比如拥有数据的公司可以保留数据多久?在你没有请求的时候它可不可以用?我相信这比较难以用法律和监管的形式做到,多少要靠拥有数据的公司内部控管和自律。但有一个事情一定不应该发生,就是拥有数据的公司泄露你的信息,如果这样就需要法律进行监管了。
问 国内在询问是否可使用用户信息的时候,一般写的都是简单的可对外的,但有的公司会私自获取用户更多信息,这个问题怎么解决?
罗家德: 其实这问题在签任何合约时都存在,一种情况是合约的内容本身很少,叙述含糊不清,现在网上大多数的应用都是这种情况。但法律规范了,就会出现另一种情况,一份合约可能长达几十页,关键点却会在中间夹杂的一点小字,谁都没耐心看。这是社会中一直以来都存在的问题,不止于大数据与隐私合约上。当年雷曼迷你债就是这样的手段使很多人上当。
问 我们应如何清楚界定隐私在网络上的公开程度呢?
罗家德: 我们在签App合约,或者使用软件工具的时候,理论上讲应该精确掌握哪些信息可以公开,哪些不可以公开,这些都应该有法律保障。
但实际上我们之前签过的所有合约要么是语焉不详,要么是厚厚几十页你根本懒得看。到了最后,这类型合约,真正拿到监管单位去处理,也是一个官司旷日持久,维护自己的权利是个相当难的工程。
问 可以是由国家出台一个标准合同,类似购房合同。公司只能遵守,不能修改吗?
罗家德: 我认为如果有类似标准的话,可以包含两方面的基本内容。
1.你本人在一定场合内公开的数据,被公开的对象可以使用。比如你在微信群中对群友公开的数据,群友可以拿来再用,但群外的人就不能再用。
2.某个机构或部门,经过你同意后,可以使用你的信息。比如你去银行申请贷款,需要你的一些信息,那你可以授权给它使用,这是底线。但信息的使用权还能扩展到多少,这就是涉及到监管层面的非常重要的问题。
问 我们到底需要政府来制定并执行相关规则,还是需要强化用户的隐私保护意识?还是有其他方案?
罗家德: 我想讲个故事,二战时候罗斯福总统怕德裔美国人在内部闹事,更担心如果把他们送到战场上他们是否会好好跟德国人作战?所以他曾经要求统计局把全美国德裔美国人的信息都交给政府,最后被拒绝了。这是一个好事情。
但是,社会舆论有时和法律不一样。因为每个人心中有一把尺,哪怕法律不足以判刑,社会舆论风潮也不会允许。这次Facebook就看到了舆论的力量,两天内公司股价跌了500亿美金,对公司形象产生很大影响。这个时候,我们就需要更加清楚地探讨信息社会的道德底线。这不单单只是法律与监管的问题。
问 想知道罗老师前面提到的2.0理论驱动和3.0数据驱动理论最大的核心区别是什么?
罗家德: 首先说明一点,2.0和3.0的说法都是我个人使用的术语,并不是一个精确的学术概念。 我对于这两者的区分,基本上是基于社会计算,没有考虑到其他类型的大数据是不是这样分。 这次科辛斯基和CA公司的研究,是一种可推论型的大数据。因此它是理论驱动,因为是基于理论才能进行推论,而不是基于相关性做的简单预测。我们过去有非常多的类似于大五人格、社会资本、生活风格、社会地位、消费风格等等的理论,没有被用于大数据挖掘。把这些成熟的社会科学理论与研究方法用来与大数据结合,就是2.0。
但还有很多理论现在只有一个种子,或很多构想都没法加以验证,比如与复杂动态网、动态系统演化、复杂适应系统研究有关的理论,在过去多是定性研究,并没有进入实证阶段。而现在有了大数据,就可以更多地运用这些理论来预测非常态的发展。这就是第三阶段的核心。
这些理论想解释一些系统的非线性发展、涌现现象等,如社会运动的爆发、改革、系统转型、重大商业模式创新的出现等等这些都属于复杂动态系统中的议题。到目前为止我们的理论解释能力还非常差,而大数据的出现刚好使得对这些理论的进一步发展和验证成为了可能。
|