钦点智库创始人兼理事长陈柳钦教授:ChatGPT应用面临的风险及其规制


 

 

 

 

文| 陈柳钦  钦点智库创始人兼理事长、北京中宣文化研究院院长、教授
一、横空出世的ChatGPT
         近几年,自然语言处理技术逐渐发展成为了各个行业关键的创新驱动力。其中2022年11月30日美国人工智能研究室OpenAI 公布的ChatGPT(Chat Generative Pre-trained Transformer)则是生成式人工智能技术(Generative AI)的佼佼者,几乎可以赋能各个行业。ChatGPT是一种基于自然语言处理技术的大型语言模型,基于GPT(Generative Pre-trained Transformer)算法,并在此基础上不断改进和升级。GPT是一种无监督的预训练模型,它使用Transformer神经网络架构,可以从大规模的语料库中学习文本的潜在规律,进而生成自然语言的文本。通过在大规模文本语料库上预训练,GPT模型可以在各种自然语言处理任务上进行微调和迁移学习,包括机器翻译、文本摘要、对话生成等。ChatGPT是在GPT模型的基础上针对对话生成任务进行微调得到的模型,它可以模拟人类的对话行为,根据用户输入的文本生成自然语言回复。ChatGPT通过连接大量的语料库来训练模型,强大的学习能力来自于大规模的、海量的文本数据训练,通过对其不断地监督学习、人工纠错、强化学习进行对话模拟,最终形成越来越接近于人类语言的语言模型。在ChatGPT中,文本输入被转换为一种叫做“token”的数学表示,然后被输入到GPT模型中进行计算和处理,最终生成回复文本。ChatGPT还可以通过不断的迭代优化,提高生成文本的质量和流畅度,以更好地服务于人类的对话需求。比尔·盖茨直言:“ ChatGPT 的影响不亚于互联网和个人电脑的诞生!” 一时以来,与ChatGPT相关的各种信息遍布网络。随着人工智能技术的不断提高,ChatGPT作为一种先进的语言模型受益于更大的模型尺寸、更先进的预训练方法、更快的计算资源和更多的语言处理任务。ChatGPT及其使用的技术具有巨大的潜力,可以成为商业中用来执行(或至少作为执行的主要辅助手段)过去只有人类能够完成的任务(并被认为是人类创造力的领域)的一种工具。随着技术的迭代,ChatGPT也经历了从GPT-1到GPT-4的进化,它不仅在性能上碾压同类产品,而且可以实现与用户社会生活的无缝衔接,演示真正意义上的“机智过人”。OpenAI在北京时间2023年3月15日发布的多模态预训练大模型 GPT-4,已经具备强大的图像识别、文字生成图片以及创意文本生成等多项功能。GPT-4的发布标志着人工智能技术的巨大进步和发展,带来了未来无限的可能性。随着算法技术和算力技术的不断进步,ChatGPT会进一步走向更先进功能更强的版本,在越来越多的领域进行应用。注视着未来,人们期待着更多大型模型的诞生,以将现有技术不断推向更高的境界。ChatGPT为人工智能的发展开启了新纪元,人工智能技术的发展将实现从适用于单一特定任务转向适应,场景多任务的转变,AI产业正式步入“大模型+具体应用”的新时代。ChatGPT已经开始改变人类的工作和思考方式,充分了解并且认识它,同时看到未来的机会,已经成为每个人迫不及待需要建立的心智。ChatGPT的横空问世,因其更高的智能程度、更宽泛的领域知识、更灵活的响应能力、更自然的对话语境使整个互联网都受到极大的冲击。如果说互联网引发了空间革命、智能手机引发了时间革命的话,那么ChatGPT类技术正在引发人类社会的知识革命。
                              二、ChatGPT应用面临诸多风险
       目前ChatGPT已经在多个领域中成功实现的商业化应用,这些应用都有着不同的商业价值和赚钱模式,诸多厂商已经开始抢先布局。但其作为一种人工智能技术,虽然ChatGpt在自然语言处理领域取得了显著的进展和应用,表现效果令人惊艳,但还远不及电影桥段里的人工智能。现阶段的ChatGpt还存在着许多不可忽视的缺点,并由此造成使用人存在一定的风险。
       1、知识产权合规问题。ChatGPT中的“G”即Generative(生成),是指一类基于给定输入生成新输入的AI模型。ChatGPT可以根据用户的问题或请求生成文本或音频,这涉及数据保护、版权等知识产权问题。人工智能生成内容的知识产权问题由来已久,但ChatGPT强大的语料库以及算法的加持,使得该问题变得更加复杂。因为ChatGPT是在大量不同的数据集上训练出来的大型语言模型,使用受版权保护的材料来训练人工智能模型,可能导致该模型在向用户提供回复时过度借鉴他人的作品,从而引起侵权纠纷。在智能搜索和知识推送领域,系统所必需的语料积累储备以及结果推送等方面,是否需要相应知识产权授权是必须要考虑的问题。更为甚者,通过人工智能技术生成的“作品”(诗歌、小说、动画、绘画等),其著作权属该如何认定,以及滥用和侵犯后的权益保护等,都将给现有法律框架带来挑战。还有就是,由于ChatGPT输出内容对于不同用户可能不具有唯一性,不同使用者相似的问题输入会收到类似的回应,若著作权使用者以文本检查、翻译等目的将其作品以文字的形式输入ChatGPT,其他用户可能通过ChatGPT将其作品进行非法传播,甚至侵犯他人的著作权。
       2、数据安全风险。ChatGPT中的“P”即Pre-trained(预训练),即ChatGPT是一个已经训练好、能够直接使用的模型,其接受的训练是基于互联网的公开文本和数据,总单词数超过3000亿个,但这些数据均为过去已知的数据。尽管Chat GPT创建者声称,其爬取的数据来自开源数据库,不会违反数据资源所在网站或平台的规则。然而事实上,已经有数据公司向ChatGPT提出侵权索赔,认为其“未经授权”通过网络爬取的手段非法获取平台上的数据。在数智化时代,数据是数字化、网络化、智能化的基础,正作为新型生产要素带动着“数据生产力”的快速发展。ChatGPT基于海量数据训练构建起巨大模型,其数据具有复合性和非排他性。显然,这一特性必然会导致数据安全风险。如果用户输入的数据被恶意利用,例如发送垃圾邮件或者恶意短信,那么Chat-GPT可能会被攻击者利用来发送虚假信息或者进行网络钓鱼攻击,对数据进行污染,加入了伪装数据或者恶意样本,即所谓的“数据投毒”,造成算法模型结果的错误,进而导致巨大的数据安全隐患。ChatGPT与其他应用程序的融合,会加剧非法获取数据的风险。ChatGPT本身通过爬虫建构的语料库中就包含路径不明的数据,而后续与其他应用程序的融合将会导致用户在数据存储过程中遭受窃取的风险。当ChatGPT使用的语言数据集包含涉及个人隐私、国家安全、商业秘密等敏感信息时,一旦该数据集没有得到适当的安全保护,那么攻击者就可以通过黑客攻击等手段获取这些敏感信息,为违法犯罪提供土壤。
  3、信息误导问题。ChatGPT中的“T”即Transformer(转换)。ChatGPT一种机器学习神经网络模型,它通过跟踪序列数据中的关系(如一句话中的单词)来学习上下文,这也会带来不实信息传递、数据失真的风险。由于ChatGPT是建立在AI背后已有的自然语言文本信息(语料库)进行概率统计,返回的答案也是“统计结果”,这就导致ChatGPT在许多问题上会“一本正经的胡说八道”,这种看似“正确答案”,实则是离谱的虚假信息。如果ChatGPT应用到商品或服务的客户评价或客户投诉等领域,其回复的虚假信息会具有极大的误导性,甚至引发严重的法律后果。像所有的技术一样,ChatGPT带来了双重的挑战,它有能力被用来做好事,同时也有可能被利用来作为推动虚假叙述的力量倍增器。决定其道德的不是技术的固有性质,而是用户使用它的方式。不法分子可能利用ChatGPT生成的文本制作虚假广告,宣传欺诈性产品或服务。通过利用ChatGPT生成的广告可能具备逼真的外观,误导消费者并骗取他们的财物,同时破坏市场公平竞争,甚至给品牌声誉带来负面影响。在ChatGPT管理者责任方面,如果ChatGPT的提供者不履行法律、行政法规规定的信息网络安全管理义务,造成违法信息大量传播、用户信息泄露等严重后果,经监管部门责令采取改正措施而拒不改正的,则可能构成拒不履行信息网络安全管理义务的行为。这不仅不利于绿色网络环境建设,还可能对个人及社会产生严重的负面影响,危害国家安全和社会稳定。
       4、算法偏见风险。算法是指计算机领域为解决某一问题或达到某个目的而采取的方法和步骤。ChatGPT的内部运行逻辑决定了算法偏见不可避免。Open AI公司曾指出:“ChatGPT会质疑不正确的前提和拒绝不适当的请求”,以此来避免算法偏见等问题。但实际上,ChatGPT的互动不但无法使用户摆脱算法偏见问题,更可能会加剧种族歧视、性别歧视等不确定性风险。CChatGPT的训练通常依赖大量的数据,这些数据可能来自现实世界的样本。如果这些数据存在偏见或不平衡,模型将学习到这些偏见,并可能在生成新数据时重复或放大这些偏见,导致它在回答某些问题时偏袒某些文化背景、种族、性别、国籍等,这可能会引起不平等和歧视的问题。主要原因是训练数据的不平衡或偏向性,以及模型的特征择和算法设计等。与此同时,在不断循环往复的人机互动中,ChatGPT通过自身的学习能力、理解能力不间断地复制开发者输入的“偏见”,从而进一步制造出更多的新“偏见”。由算法偏见带来的风险通常会以隐蔽的方式破坏社会治理结构和制度。例如,Chat GPT中隐藏的虚假新闻传播、信息数据泄露等风险,会导致老人、妇女、儿童等不具备数字辨别能力的弱势群体无法识别ChatGPT所发布的虚假性或者欺骗性的信息,从而加剧了数字弱势群体的参与风险,引发社会不公平。
三、ChatGPT应用风险的合规应对
ChatGPT释放生产力、变革生产关系、创新商业模式、驱动产业转型、催生应用场景,为人工智能技术的发展描绘了新图景。与此同时,我们也正迈入危机四伏的智能社会,人工智能的“算法黑箱”加剧了社会风险的复杂性和不确定性,扰乱了人与机器的共生关系,对风险的性质、社会条件及其由此衍生出的制度规范带来了一系列转型性的后果,其“控制风险所要求的速率和速度使得人类 越来越没有能力去掌控技术”。2023年4月11日,国家网信办就《生成式人工智能服务管理办法(征求意见稿)》(以下简称《办法》)公开征求意见,提到提供生成式人工智能产品或服务应当遵守法律法规的要求,尊重社会公德、公序良俗,生成内容应当体现社会主义核心价值观、防止歧视性内容、不得利用算法等优势实施不公平竞争,保证内容的真实准确,禁止非法获取、披露、利用个人信息和隐私、商业秘密和国家秘密。
      1、变革知识产权制度。人工智能生成物能否载有知识产权,如何维权存在争议:在著作权领域,目前相对普遍的观点是人工智能生成物需要经过人的智力创作才可能成为作品,从而产生著作权。国际保护知识产权协会(AIPPI)2019 年发布的关于《人工智能生成物的版权问题》相关决议中明确,“AI 生成物只有在其生成过程有人类干预的情况下,且在该生成物符合受保护作品应满足的其他条件的情况下,才能获得版权保护。对于生成过程无人类干预的 AI 生成物,其无法获得版权保护。” 因此,要对人工智能生成物主张著作权,首先要证明相关生成物体现了人的智力创作,人工智能产品只是人用来创作的工具。为了推动人工智能科技的发展,我们可以考虑弱化著作权控制,合理解绑技术措施的保护,加大技术措施的例外和细化AI合理使用的情形。对于难以私下协商取得授权的数据库和资源库,可以集中设立著作权便捷性许可使用平台,推动著作权交易高效进行。至于ChatGPT是否为创作主体,因不同法域规定的差别,大多数国家可能并不把AI人工智能视为法律主体,其创作物单纯从形式上判断可能满足作品独创性的构成要件,而一旦表明人工智能为创作人的事实,其作品性马上就会被否认。ChatGPT尽管有所突破,但它的回答是基于经验主义的判断,是先验知识基础上的精加工“知识拼盘”,而非自主意识支配下的知识创新和自我思考下的灵感乍现,何况其不具备为创作负责的能力。
       2、加强数据安全监管。ChatGPT需要大量的数据,而这些数据的获取与使用是否合理、合法,是否侵害用户的隐私,是否涉及国家安全的敏感数据等,均有待商榷。面对来势汹汹的数据安全风险,从某种意义上讲,要保证数据的绝对安全,就要将数据全部物理隔绝,变成“死”数据,这样显然是最“安全”的,既拿不走,也不能破坏。但这样做却也损失了数据的价值——数据只有在流动、分享、加工处理过程中才能创造价值。ChatGPT等人工智能模型归根到底是一个工具,可以用,但需要监管。当前已有《数据安全法》《个人信息保护法》,近期国家也建立了国家数据局,表明国家在机构设置与法律法规等方面已有布局,正在紧跟新技术的发展。数据安全治理的核心正是保障数据在安全可控的情况下使用并发挥价值。换言之,数据本身无罪,有罪的是数据没有被安全地保护或使用。也就是说,想要实现数据安全,关键要看具体实现的方法和管理措施。ChatGPT的数据安全问题,一方面应在人工智能技术发展与安全之间找到平衡之处,监管过紧可能限制甚至扼杀新技术的发展,监管过松则可能使得新技术被滥用;另一方面也涉及个人、企业、政府的三方博弈,而在此过程中,个人端与企业端都有其自发性,政府及政策法规则是非常重要的调节力量。数据安全的实现不仅要自上而下,更要自下而上。数据安全治理的核心目的,是实现安全与发展的平衡。怎样找到人工智能发展与数据安全的平衡区域,找好个人、企业、政府的角色与定位,亦非常考验监管智慧。
      3、增强虚假信息规制。目前,ChatGPT并不会核实生成内容信息的真实性与准确性,即虚假信息检测是通过与“已收录的虚假信息库”进行比对和判断,未被收录的新信息则需要以人工检测进行判断。随着各类社会化媒体平台的迅猛发展,虚假信息的传播规模愈来愈大,并产生了广泛的社会政治经济影响。特别是在各种类型的社会运动中,毫无根据或严重失真的政治消息,以造谣和诽谤为主要手段,以攻击政治人物、国家政策和政治主张等为根本目标,造成社会认知混乱和群体对立,甚至直接引发社会动荡。在这种背景下,针对ChatGPT可能引发的虚假信息治理挑战,亟需综合施策,以寻求有效治理。2023年1月1日《互联网信息服务深度合成管理规定》正式实施。按照《互联网信息服务深度合成管理规定》要求,深度合成服务提供者应当落实信息安全主体责任,建立健全用户注册、算法机制机理审核、科技伦理审查、信息发布审核、数据安全、个人信息保护、反电信网络诈骗、应急处置等管理制度。深度合成服务提供者应当加强深度合成内容管理,建立健全用于识别违法和不良信息的特征库,采取技术或者人工方式对深度合成服务使用者的输入数据和合成结果进行审核。如果发现用户利用深度合成服务制作、复制、发布、传播虚假信息的,应当及时采取辟谣措施,保存有关记录,并向网信部门和有关主管部门报告。与此同时,对发布违法和不良信息的相关深度合成服务使用者,要依法依约采取警示、限制功能、暂停服务、关闭账号等处置措施。尽管 ChatGPT 具有类人性的特点,但是目前尚不具备完全自控和辨别的能力,所以当 ChatGPT 生成虚假信息以及不良信息时,其本身并不能构成我国《刑法》规定的“编造、故意传播虚假信息罪”,也不能成为教唆犯、帮助犯的主体,但若用户把 ChatGPT 当成犯罪工具去生成并传播虚假信息,或者通过威逼利诱的方式迫使 ChatGPT 提供犯罪思路,进而实施网络诈骗等犯罪时,都应由该用户承担相应的法律后果。
       4、强化算法合规治理。算法合规治理关乎着国家政治安全、经济安全、文化安全和公民权益的保障。如何有效防止和化解算法应用的危害是目前算法合规治理的主要目标,也是算法开发者和设计者面临的合规难题。目前ChatGPT在算法上依然存在一定的技术缺陷,例如,ChatGPT算法依赖于训练数据中的统计规律,无法爬取网络上的实时信息,同时也无法对数据来源进行识别和核实,这样就容易出现算法歧视和算法滥用。鉴于ChatGPT目前仍属于“黑盒”模型,其算法能否披露、能否足量披露以及是否符合规定的要求都是未知数。因此,对于ChatGPT的监管必须将算法监管和数据监管结合起来,探索场景化和精细化的算法治理机制。2022年我国出台的《互联网信息服务算法推荐管理规定》,明确要求算法应当坚持主流价值导向,积极传播正能量,不得利用算法推荐服务从事危害国家安全和社会公共利益、扰乱经济秩序和社会秩序、侵犯他人合法权益。《互联网信息服务算法推荐管理规定》第七条规定:“算法推荐服务提供者应当落实算法安全主体责任,建立健全算法机制机理审核、科技伦理审查、用户注册、信息发布审核、数据安全和个人信息保护、反电信网络诈骗、安全评估监测、安全事件应急处置等管理制度和技术措施,制定并公开算法推荐服务相关规则,配备与算法推荐服务规模相适应的专业人员和技术支撑。”该规定对于算法推荐服务提供者的主体责任进行了精细化的明确规定。在我国现有的算法治理体系中,立法者和监管者对ChatGPT等算法技术还具有明显的“工具性”假设。随着ChatGPT人工智能程度的不断提高,立法者可考虑赋予算法以法律主体地位,并制定了《互联网信息服务深度合成管理规定》等一系列相应制度以纳入现有法律体系规制框架。在现行可能的规范手段中,对算法复杂性列出定性尺度,有助于评估算法自主程度并因应性地予以规范。算法主体性不同于法人等法律拟制制度,而是人造物基于智能性而非为法律规制便宜性获得的法律主体地位。企业应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等以对算法的安全性、透明性进行动态的管理,避免出现算法歧视等情况。正如电影《流浪地球2》中的那句台词所说,“没有人的文明毫无意义”。技术发展与合规监管双轨并行,共同推动算法科技向善,相信这也是大多数人的愿景。