AI 大模型浪潮带来的风险与机遇

欧洲科学院院士,上海交通大学致远讲席教授、人工智能研究院首席科学家,上海市人工智能战略咨询专家委员会专家

徐雷

ChatGPT已经发布一年多了,最近两个多月,围绕chatGPT的科技热点仍层出不穷,我举几个例子: 2023 年9月, 麻省理工学院(MIT) 科学家莱克斯.弗里德曼(LeX Fridman) 与Meta首席执行官马克.艾略特.扎克伯格(Mark Elliot zuckerberg) 在元宇宙里进行了长达一个小时的隔空对话,两人的形象可以做到和真人几乎一致,从全身细节到表情、动作,自然得让人惊叹; MIT的两位学者发文力证, 大语言模型(LLM)能够理解世界,它不仅学习了表面的统计数据,还学习了包括空间和时间等基本维度的世界模型; 2023年 11月,0penAI首席科学家伊尔亚.苏茨克维(Ilya sutskever) 在采访中表示, 他认为 ChatGPT背后的神经网络已经产生了意识,而且未来人类会与人工智能融合出现新的形态, 他现在工作的重点,已经不是去创建必然会出现的通用人工智能,而是解决如何让AI善待人类的问题;还是在2023年11月, 埃隆.里夫.马斯克(Elon Reeve Musk) 提前发布XAI(马斯克成立的人工智能公司,旨在用AI去帮助人们去解决复杂的科学和数学问题并且“理解”宇宙)的第一个产品Grok—11个团队成员耗时两个月训出的、拥有330亿参数的大模型; 2023年11月7日凌晨2点,历史上第一次的0penAI开发者大会正式开幕,被戏称为“AI春晚”,会上推出了大堆重磅更新,包括升级知识库、扩大上下文窗口(支持在一个提示中包含更多文本) 、降低价格、支持图像输入、发布性能更高的 GPT-3.5 Turbo版本、向企业开放DALL-E 3图像生成API(应用程序编程接口)新增语音合成和代码解释等API,使得chatGPT火爆到直接全线崩溃。

在人工智能领域,有的企业是烈火烹油式的火爆景象,也有的企业却是愁云惨淡。就在0penAI开发者大会上,0penAI接连放了几个大招—多模态、降价等,几乎把2023年上半年的人工智能领域最热门的创业项目全都做了一遍。这一套连招碾压也彻底把同行业的创业者们打蒙了。太阳微系统 (sun Microsys tems) 公司的创始人维诺德.科斯拉(vinod khosla)是亿万富翁的风险投资家,也是0penAI的首批投资者之一,他认为AI初创企业被高估了,并对媒体表示“当今对人工智能的大多数投资,包括风险投资,都将赔钱”。

如何认识 ChatGPT ?

首先,我们要对ChatGPT里面的GPT(生成式预训练Transformer模型,是一种基于互联网、可用数据来训练、文本生成的深度学习模型)有一个简要的认识。“G” (Generative) 意为生成, 表示在GPT中, 通过大规模语料库的训练,模型可以生成类似人类语言的文本。它可以根据上下文生成连续的、有关联的文本,比如一段话或者一篇文章。“P”(Pre-trained) 意思是预训练,指的是GPT模型在训练之前会先经过大量的文本数据预训练,从而使其能够理解自然语言文本的基本结构和意义。“T”(Transformer) 是转换器。GPT是一种基Transformer架构的自然语言处理模型。Transformer模型是一种深度学习网络结构, 它通过自注意力机制和多层叠加的注意力层,可以很好地处理自然语言文本。GPT 模型在此基础上进行了一些改进和优化,使得其能够更好地理解和生成自然语言文本。概言之, “T”是早期的深度神经网络; “G”相当于根据神经映射的结果, 返回去重建内容; “P”其实是迁移学习,将以前学过的东西进行转换。这三个基本要素构成了 chatGPT中的“GPT”。

生成式人工智能模型不是最近才出现的, 早年已有它的踪迹。传统的生成式人工智能模型最早要追溯到20世纪80年代的 AutoEncoder自编码器 (一类现今在半监督学习和非监督学习中使用的人工神经网络) , 现在的各种深度神经网络自编码器就是它的变种和进一步发展, 我在1991年提出的多层神经网络自组织学习LMsER,强制在每一层实现双向对偶之对称性,也是AutoEncoder 的一个发展。2006年杰夫.辛顿(Geoffrey Hinton) 在science上发表的那篇深度学习论文 — 《用神经网络降低数据的维数》 (Reducing the Dimensionality of Data with Neural Networks) 引起了这番持续了近20年的人工智能浪潮, 所用的RBM(受限玻尔兹曼机,是一种生成性随机人工神经网络), 在结构上和学习公式上与LMSER(Least mean square error reconstruction, 最小均方误差重构)同属一类。近几年称得上最火的生成式人工智能模型,先是GAN(生成式对抗网络,也是一种深度学习) ,后又有扩散模型学习, LMSER其实是早期的一种扩散模型学习。

ChatGPT实际上是整合了形象思维和抽象思维。一个问题的回答, 通常有几个片段,每个片段生成一个答案的一部分, 通常可以有多种可能, 各个片段的多种可能组成答案, 就有海量的可能性,要选择并形成一个最佳的组合, 是一个抽象的过程。有些类似下围棋, 一局通过若干步完成, 每一步有多种落子的可能。从这点意义上讲,AlphaGo与ChatGPT 其实是一样的原理。不同的是, 围棋的输赢规则是确定的, 最佳组合的判断在于能赢。 ChatGPT用所谓RLHF学习(Reinforcement Learning from Human Feedback, 人类反馈强化学习) 人对文本片段好坏的判断标准,即提供给用户若干候选片段对好坏打分, 用增强学习从用户反馈中学习对片段好坏的排序。其实增强学习不是必需的, 关键在于能从人的打分信息学到好坏排序能力。

在形象思维指导下,生成式模型可以在原先所给的图像或文本片段基础上, 生成似曾相识却又是全新的图像或文本片段; 而在抽象思维的参与下, 把分析出来的东西重新组合, 输出一个合理的答案。可以说, 继AlphaGo之后, ChatGPT第二次完成了形象思维和抽象思维的整合。目前的ChatGPT对于语言结构、语法等抽象结构都能学习得不错, 能够在对话中自由地回答, 但其对逻辑、因果关系的理解学习还有待进一步深化。

实际上,人工智能发展史颠倒了方向, 蹉跎了60年,近20年才开始针对形象思维 “拨乱反正”。在这方面,钱学森先生高瞻远瞩, 20世纪80年代,他认识到西方认知科学的路线和方法有严重缺陷,不能有效针对人脑的形象思维和高级创造性思维,提倡思维科学的研究,提醒研究人工智能必须重视形象思维。人类的文化也是先从形象思维开始, 然后走到语言、进入抽象。深度学习、 AlphaGo、ChatGPT的成功, 正好印证了钱学森先生当年的远见。

大模型风险的应对策略

应对大模型风险的策略之一是通过“大” 的优势降低“耗”的浪费。

模型能力在未来几年内仍存在数量级进步的空间:谷歌大模型Gemini已开始在TPUv5 Pod上进行训练, 算力高达1e26FL0PS(每秒进行百亿亿次浮点运算的能力) , 是训练GPT-4的5倍; 人工智能新势力公司Inflection在未来18个月内将采用比 GPT-4大100倍的计算能力; 一家由0penAI 资深人士共同创立的闭源公司Anthropic预计, 在未来5年里用于训练最大模型的计算量将增加约1000倍。

在这种背景下, 出现了“三大” —大模型模仿人脑所含神经元数目巨大,大样本与预训练,大算力大大加快了“铁杵磨成绣花针” 的速度。但是,与人脑相比有个重大缺陷, 就是资源耗费也非常大。2017年, 战胜李世石的AlphaGo, 即便按最低使用率20%计算,能耗也高30000W。这是什么概念? 一个人脑的耗能,大概也就30W,也就是说AlphaGo的最低耗能都是人类的1000倍。

2023年10月22日, 在第二十五届中国科协年会主论坛上,中国科协公布了2023年度10个前沿科学问题,排在首位的便是:如何实现低能耗人工智能?因此,我们不应一哄而上搞大模型训练,应该是在顶层引导下,规模企业的谨慎行为。

那么如何应对大模型训练可能带来的资源浪费?我认为有三个方向。首先,大模型应用机会在一类垂直行业上,其现有做法既有使用大数据和知识驱动的改进空间,又已具备对决策好坏的客观评分或可以准确数学计算;其次,这一类有潜在机会的行业,其样本不仅大且质量高,以致大模型智能产品可高于行业现有雇员的平均水平,可能会提高工作效率—注意, 是提高, 而并非替代; 再者, 我们可以将大模型用于提供草稿草案,对日常工作可提高效率,对高智能任务也许有启发作用。

大模型今后的发展趋势之一,是有效地注入逻辑推理、因果推理以及已有的科学知识, 进一步获益于形象思维与抽象思维之优势互补。ChatGPT所谓的形象思维, 类似“熟读唐诗三百首”后的吟诗作赋,它可以根据大概率关联在若干猜测中挑一个最佳组合, 有人云亦云的圆通, 但做不到控制错误程度。更好的思路是结合注重因果与逻辑的抽象思维,修正上面的出错。

应对大模型风险的另一个策略是将人作为其与现实世界的中介。0penAI问世之后, 人人可开发,不懂编码、没有相关基础知识也能构建(聊天)并与其他系统集成。我们能够合理推测,未来将出现自主智能体,被赋予一个目标后可独立完成或助力人类各种脑力工作。现在,人还是作为大模型和真实世界的中介,未来则是通过人到自主智能体再到真实世界迈向全自动化。

应对大模型风险的第三个策略是扬长避短,抓住“生”的机遇, 规避“假”的风险。前面提到 0penAI的问世,对大模型创业公司是降维式打击,等于是抢占了这些公司的市场份额。这种行业冲击,类似于过去从大型计算机过渡到PC终端。大家都知道, 原来网络浏览器最大的供应商是网景公司的 Netscape, 现在变成了Google,也是这种巨大变革的体现。

生成式人工智能(AIGC)为社会各个行业带来各种各样的可能,举一些例子。如在机器翻译领域,谷歌翻译名为“神经机器翻译”的技术,实现高质量的翻译结果;又如自然语言处理可应用于文本生成、文本摘要、问答系统等,既可生成真实的新闻稿件,也可以生成类似于华尔街日报的“Deepfakes for Text”那样的, 与真实新闻相似的虚假新闻。又比如,在电商平台应用上,生成自然语言响应来回答客户的问题,提高客户满意度和购买转化率。此外,在广告营销领域, 生成文本、图片和视频等内容可以帮助企业进行品牌营销和推广活动。Facebook 的“Facebook Ads”就是一个很好的案例,其可根据用户的兴趣和行为推荐个性化广告。

这些各种可能也包括多方面的挑战与风险: 生成的内容可能会侵犯原作者的版权; 可能会生成虚假信息或误导性信息;因为需要访问大量的数据,生成的内容可能会泄露用户的隐私信息等。举一个形象的例子,随着生成式人工智能的广泛应用, “眼见为实” 将不再可靠,因为人工智能会根据勾勒出的人脸轮廓,由系统自动生成一张张正在说话的脸。其中,脸型、面部五官、发型等要素都可以根据要求生成、变化。从更深的层次上讲,自然的长期演化过程中大浪淘沙出一些基本规则,高级的、重要的、精致的事物生成,都需要时间上的足够长度,例如,山川河流、鬼斧神工、十月怀胎、绣花绘画、技能获得等,相应地也就形成社会的规则与法律,但人类又不断地挑战自然规则的时间长度,必然带来对社会发展规律的挑战,甚至是颠覆。例如,对“眼见为实”的挑战或颠覆,对现有法律的有效性构成了威胁。

2023年11月, 英国举办了首届全球性的人工智能安全峰会, 与会嘉宾都在讨论人工智能可能带来的风险。那么, 我们应该从哪些方面去应对? 我们需要建立相应的法律法规来规范生成式人工智能的使用和应用场景,要加强对生成式人工智能生成内容的审核。此外, 我们也要对其进行监管, 采用去标识化技术对用户隐私进行保护等。从执行层面看, 我们要对 AI大模型进行分析和管控:未来AI会进化出两类, 一类是专用AI(Narrow AI), 尤其是具有危险处理能力的专用AI,例如用于网络攻击、生物工程的AI模型; 一类是前沿AI (General AI), 例如前沿大模型以及未来可能出现的AGI(通用人工智能) 等。

特别值得提醒的是,大模型、大数据,大算力有利于资金雄厚的巨头,类似0penAI 的出现可能会摧毁大批创业公司,换言之,人工智能、大数据和数字经济的发展,也可能造成扼杀多样性的垄断局面,我们必须予以警惕,并提早防范。

(本文由本刊编辑王易展、李靖恒根据作者2023年11 月25日在第五届世界科技与发展论坛平行论坛之世界数字经济论坛的主题报告整理，原标题为《应对ChatGPT掀起的AI大模型浪潮给数字经济发展带来的机遇与风险》，经作者修订，有删节)

中国算力网赋能数字经济发展

中国工程院院士,鹏城实验室主任

AI 大模型浪潮 带来的风险与机遇

中国算力网赋能数字经济发展

AI 大模型浪潮带来的风险与机遇