文|观察未来科技
就在这两天,一直高歌前进的ChatGPT突然急转直下,陷入了舆论之中。
上周末,先是意大利暂时封杀ChatGPT,限制OpenAI处理本国用户信息。接着,据韩国媒体报道,三星导入ChatGPT不到20天,便曝出机密资料外泄。此后,又有消息传出ChatGPT目前停止注册,开始大面积封号,4月2日全面封亚洲登录账号。
关于ChatGPT的争议还在继续,而接二连三的事件里——封杀、泄密、封号,都有一个共同的特征,就是涉及数据安全。实际上,ChatGPT走红到今天,关于ChatGPT的数据安全一直是人们关心的一个问题,只是这一次,ChatGPT再也无法逃避关于数据保护的现实问题。
封杀、泄密、封号
意大利对于ChatGPT的封杀来得很突然。
3月31日,意大利个人数据保护局(Garante)于当地时间 3 月 31 日宣布,即日起禁止使用聊天机器人 ChatGPT,并限制 OpenAl 处理意大利用户信息。这是世界上第一个明令禁止“封杀”ChatGPT的西方国家。
做出这一限令的原因在于,意大利官方认为 OpenAI 没有检查 ChatGPT 用户的年龄,这些用户应该在 13 岁或以上,而且没有就收集处理用户信息进行告知,缺乏大量收集和存储个人信息的法律依据。
事实也确实如此,ChatGPT并不冤枉。ChatGPT近期就出现了“用户对话数据和付款服务支付信息丢失”的情况。这一消息也被OpenAI官方确认。
不仅如此,近期,ChatGPT在国际巨头三星的应用上也出现了问题——三星引入ChatGPT不到20天,就爆出了3件半导体机密数据外泄,涉及半导体设备测量资料、产品良率等内容,网传已经被存入ChatGPT的数据库中。
消息一经发布立马引发了各界热议,韩媒方面甚至表示,因为三星员工直接将企业机密信息以提问的方式输入到ChatGPT中,会导致相关内容进入学习数据库,从而可能泄漏给更多人。据三星表示,为了避免这种情况再次发生,他们已经告知员工谨慎使用ChatGPT。如果后面仍发生类似事故,将考虑禁止在公司内网上使用ChatGPT。
实际上,自从问世以来,人们对ChatGPT可能泄露企业数据的担忧一直没有听停过。据 Cyberhaven 统计结果显示,近 160 万名打工人中,有 8.2% 的员工在工作场所使用过它——许多人称,因为使用 ChatGPT,他们的工作效率“提高了 10 倍”。同时,有 6.5% 的员工表示会将公司数据复制到 ChatGPT 中,更有 3.1% 的员工表示曾将公司的机密数据放入 ChatGPT。
与之相对应的,越来越多企业因担心机密数据外泄,禁止员工访问 ChatGPT还有摩根大通、美国银行、花旗集团、高盛、德意志银行等。近期软银也向全体员工通报了禁止向 ChatGPT 输入机密信息等注意事项。看起来,ChatGPT提高工作效率是真的,但它会把对话内容作为训练数据似乎也是真的。
就在ChatGPT遭遇封杀和泄密的同时,一场大规模的封号又忽然到来。4月2日,各个社交平台都流传着这样的消息:ChatGPT官方大面积封号,尤其针对亚洲用户。根据搜集反馈,并非所有账号都受到影响:有些可以顺利登录,有些只能登录手机端,有些手机和PC端都无法登录。但ChatGPT的大规模封号行动似乎已经开始了。据市场统计,已有数百万用户的账号受到了影响。在新用户注册方面,目前注册网页已经无法进入,更为关键的是很多收码平台近期已经关闭。
不止ChatGPT,3 月 30 日,据外媒报道,当下最火的 AI 作画神器 Midjourney也已暂停免费试用。其公司创始人兼 CEO David Holz 在采访中表示,做出此举的主要原因是新用户的大量涌入。David Holz 在社交软件 Discord 上发布消息时,提到了存在 “怪异需求和试用滥用”。
从封杀到泄密,再到封号,ChatGPT正在陷入一场又一场的争议。
成于数据,伤于数据
ChatGPT的成功,离不开大数据的帮助。ChatGPT模型使用从各种来源收集的大型对话数据集进行训练,包括社交媒体、公共论坛以及其他我们暂未得知的渠道。庞大的数据训练,才使得ChatGPT具有我们今天看到的优秀性能。
但这也意味着,模型实际上在不断地接触各种对话,其中可能包含相关的敏感信息。每次升级都可能伴随着新的对话和新的隐私泄露风险。为了保护数据安全,开发者必须采取措施确保用于训练ChatGPT的数据隐私得到妥善保护。但现实却并非如此。
ChatGPT引发的数据安全包括了三方面的隐患。首先就是ChatGPT获取数据合法性的问题。训练像ChatGPT这样的大型语言模型需要海量自然语言数据,其训练数据的来源主要是互联网,但开发商OpenAI并没有对数据来源做详细说明,数据的合法性就成了一个问题。
欧洲数据保护委员会成员Alexander Hanff质疑,ChatGPT是一种商业产品,虽然互联网上存在许多可以被访问的信息,但从具有禁止第三方爬取数据条款的网站收集海量数据可能违反相关规定,不属于合理使用。国际机器学习会议ICML表示,ChatGPT虽然接受公共数据的训练,但这些数据通常是在未经同意的情况下收集的。此外还要考虑到受GDPR等保护的个人信息,爬取这些信息并不合规。
其次,是ChatGPT使用过程造成的数据泄漏问题。目前ChatGPT对于用户群体没有多作筛选,满足基本条件的都可以注册成为用户,而且用户在使用ChatGPT前,亦不需要经过特别的培训,ChatGPT对于用户的使用基本没作限制。也就是说,用户可以非常任意和开放地使用ChatGPT。
因此,用户为了完成某项任务或达到某个目的,在使用ChatGPT过程中,可能会输入一些敏感数据、商业秘密甚至是机密信息,稍不留神,就会造成数据泄漏。正如三星近日所担忧的一样,数据一旦输入,就会被收集和使用,输入的数据亦不能删除和修改。
3月末,ChatGPT被曝出现bug会导致用户对话数据、支付信息丢失泄露。这一度导致了ChatGPT短暂关闭。OpenAI的回应中表示,这一漏洞可能导致了1.2%ChatGPT Plus用户的支付信息被暴露了约9个小时。漏洞还导致了用户的对话主题及记录能被别人看到,如果里面包含隐私信息,则有泄露的风险。
最后,是ChatGPT的数据可能被恶意使用。OpenAI首席技术官米拉·穆拉蒂(Mira Murati)曾表示,可能会有人利用ChatGPT自然语言编写的能力,编写恶意软件,从而逃避防病毒软件的检测;利用ChatGPT的编写功能,生成钓鱼电子邮件;利用ChatGPT的对话功能,冒充真实的人或者组织骗取他人信息等。
如何防范数据安全风险
面对来势汹汹的数据安全风险,从某种意义上讲,要保证数据的绝对安全,就要将数据全部物理隔绝,变成“死”数据,这样显然是最“安全”的,既拿不走,也不能破坏。但这样做却也损失了数据的价值——数据只有在流动、分享、加工处理过程中才能创造价值。
数据安全治理的核心正是保障数据在安全可控的情况下使用并发挥价值。换言之,数据本身无罪,有罪的是数据没有被安全地保护或使用。也就是说,想要实现数据安全,关键要看具体实现的方法和管理措施。
因此,如何确保数据授权、界定数据安全的责任与科技公司的义务,规避隐私泄露、知识产权等风险,这些都将是以GPT技术为代表的人工智能在大规模介入公共领域后,必须首先解决的问题。
显然,以数据为中心,是数据安全工作的核心技术思想。这意味着,将数据的防窃取、防滥用、防误用作为主线,在数据的生命周期内各不同环节所涉及的信息系统、运行环境、业务场景和操作人员等作为围绕数据安全保护的支撑。并且,数据要素的所有权、使用权、监管权,以及信息保护和数据安全等都需要全新治理体系。这需要在法规制度方面“划清红线”。比如,明确ChatGPT的开发者和使用人等主体责任的划分和承担方式;落实数据分类分级,明确ChatGPT获取数据的途径和方法的相关法律规定。
其次,数据安全离不开“运用数字技术进行治理”,即运用数字与智能技术优化治理技术体系,进而提升治理能力。比如,将ChatGPT的语言训练方法及算法合规纳入数据安全合规体系,加强技术监管和定期进行安全审计。
事实上,在数据生命周期的不同阶段,数据面临的安全威胁、可以采用的安全手段也不一样。在数据采集阶段,可能存在采集数据被攻击者直接窃取,或者个人生物特征数据不必要的存储面临泄露危险等;在数据存储阶段,可能存在存储系统被入侵进而导致数据被窃取,或者存储设备丢失导致数据泄露等;在数据处理阶段,可能存在算法不当导致用户个人信息泄露等。
面对不同阶段不同角度的风险,对症下药,是技术治理的必要,改进治理技术、治理手段和治理模式,将有效实现复杂治理问题的超大范围协同、精准滴灌、双向触达和超时空预判。
最后,数据安全的实现不仅要自上而下,更要自下而上。数据安全治理的核心目的,是实现安全与发展的平衡。这一方面,需要让企业自己有提升和证明自身数据安全能力成熟度水平的积极性,让数据安全能力成熟度高的企业拥有更大的发展空间和竞争优势。另一方面,还需要提高使用人数据安全的风险意识,制定ChatGPT的安全使用指南。
面对人工智能的迅速发展,数据的基础性战略资源属性进一步突显。ChatGPT只是数据安全治理的第一步,也是不可回避的重要一步。
评论