AI 大模型浪潮 带来的风险与机遇

欧洲科学院院士,上海交通大学致远讲席教授、人工智能研究院首席科学家,上 海市人工智能战略咨询专家委员会专家

徐雷

ChatGPT已 经 发 布 一 年 多 了,最近两个多月,围绕chatGPT的科技热点仍层出不穷,我举几个例子:  2023 年9月,  麻 省 理 工 学 院(MIT)  科 学 家 莱 克 斯.弗 里 德 曼(LeX Fridman)  与Meta首 席 执行官马克.艾略特.扎克伯格(Mark Elliot zuckerberg)  在 元 宇 宙 里 进 行 了 长 达 一 个 小时的隔空对话,两人的形象可以做到和真人几乎一致,从全身细节到表情、动作,自然得让人惊叹;  MIT的两位学者发文力证,   大语言模型(LLM)能够理解世界,它不 仅学习了表面的统计数据,还学习了包括空间和时间等基本维度的世界模型;  2023年 11月,0penAI首席科学家伊尔亚.苏茨克维(Ilya sutskever) 在采访中表 示,   他认为  ChatGPT背后的神经网络已经产生了意识,而且未来人类会与人工智能融合出现新的形态,  他现在工作的重点,已经不是去创建必然会出现的通用人工智能,而是解决如何让AI善 待人类的问题;还是在2023年11月,    埃隆.里夫.马斯克(Elon Reeve Musk) 提前发布XAI(马斯克成立的人工智能公司,旨在用AI去帮助人们去解决复杂的科学和数学问题并且“理解”宇宙)的第一个产品Grok—11个团队成员耗时两个月训出的、拥有330亿参数的大模型; 2023年11月7日凌晨2点,历史上第一次的0penAI开发者大会  正式开幕,被戏称为“AI春晚”,会上推出了大堆重磅更新,包括升级知识库、扩大上下文窗口(支持在一个提示中包含更多文本) 、 降低价格、支持图像输入、发布性能更高的  GPT-3.5 Turbo版本、向企业开放DALL-E 3图像生成API(应用程序编程接口)新增 语音合成和代码解释等API,使得chatGPT火爆到直接全线崩溃。

在人工智能领域,有的企业是烈火烹油式的火爆景象,也有的企业却是愁云惨淡。就在0penAI开发者大会上,0penAI接连 放了几个大招—多模态、降价等,几乎把2023年上半年的人工智能领域最热门的创业项目全都做了一遍。这一套连招碾压也彻底把同行业的创业者们打蒙了。太阳微系统 (sun Microsys tems)  公司的创始人维诺 德.科斯拉(vinod khosla)是亿万富翁的风险投资家,也是0penAI的首批投资者之一,他认为AI初创企业被高估了,并对媒体表示“当今对人工智能的大多数投资,包 括风险投资,都将赔钱”。


如何认识 ChatGPT ?

首先,我们要对ChatGPT里面的GPT(生成式预训练Transformer模型,是一种基于互联网、可用数据来训练、文本生成的   深度学习模型)有一个简要的认识。“G” (Generative)  意为生成,  表示在GPT中,     通过大规模语料库的训练,模型可以生成类   似人类语言的文本。它可以根据上下文生成   连续的、有关联的文本,比如一段话或者一   篇 文 章。“P”(Pre-trained)   意 思 是 预   训练,指的是GPT模型在训练之前会先经   过大量的文本数据预训练,从而使其能够理   解自然语言文本的基本结构和意义。“T”(Transformer)  是转换器。GPT是一种基Transformer架构的自然语言处理模型。Transformer模 型 是 一 种 深 度 学 习 网 络 结 构,  它通过自注意力机制和多层叠加的注意 力层,可以很好地处理自然语言文本。GPT 模型在此基础上进行了一些改进和优化,使 得其能够更好地理解和生成自然语言文本。 概言之,  “T”是早期的深度神经网络;   “G”相当于根据神经映射的结果,  返回去 重建内容; “P”其实是迁移学习,将以前学 过的东西进行转换。这三个基本要素构成了 chatGPT中的“GPT”。

生成式人工智能模型不是最近才出现 的,   早 年 已 有 它 的 踪 迹。 传 统 的 生 成 式 人 工智能模型最早要追溯到20世纪80年代的 AutoEncoder自编码器  (一类现今在半监督 学习和非监督学习中使用的人工神经网络) ,   现在的各种深度神经网络自编码器就是它的 变种和进一步发展, 我在1991年提出的多层 神经网络自组织学习LMsER,强制在每一层 实现双向对偶之对称性,也是AutoEncoder 的 一 个发展。2006年杰夫.辛顿(Geoffrey Hinton)  在science上发 表的 那篇 深度 学 习论文 — 《用神经网络降低数据的维数》 (Reducing the Dimensionality of Data with Neural Networks)  引起了这番持续了近20年的人工智能浪潮,  所用的RBM(受限 玻尔兹曼机,是一种生成性随机人工神经网 络), 在结构上和学习公式上与LMSER(Least mean square error reconstruction,    最小均方误差重构)同属一类。近几年称得上 最火的生成式人工智能模型,先是GAN(生 成式对抗网络,也是一种深度学习)  ,后又 有扩散模型学习,  LMSER其实是早期的一种 扩散模型学习。

ChatGPT实际上是整合了形象思维和抽 象思维。一个问题的回答,  通常有几个片段,每个片段生成一个答案的一部分,  通常可以有 多种可能,  各个片段的多种可能组成答案,  就 有海量的可能性,要选择并形成一个最佳的 组合,  是一个抽象的过程。有些类似下围棋,   一局通过若干步完成,  每一步有多种落子的可 能。从这点意义上讲,AlphaGo与ChatGPT 其实是一样的原理。不同的是,  围棋的输赢 规则是确定的,  最佳组合的判断在于能赢。 ChatGPT用所谓RLHF学习(Reinforcement Learning from Human Feedback,  人类反 馈强化学习)  人对文本片段好坏的判断标准,即提供给用户若干候选片段对好坏打分,  用增 强学习从用户反馈中学习对片段好坏的排序。 其实增强学习不是必需的,  关键在于能从人的 打分信息学到好坏排序能力。

在形象思维指导下,生成式模型可以在原 先所给的图像或文本片段基础上,  生成似曾相 识却又是全新的图像或文本片段;  而在抽象思 维的参与下,  把分析出来的东西重新组合,  输 出一个合理的答案。可以说, 继AlphaGo之后,  ChatGPT第二次完成了形象思维和抽象思维 的整合。目前的ChatGPT对于语言结构、语 法等抽象结构都能学习得不错,  能够在对话中 自由地回答,  但其对逻辑、因果关系的理解学 习还有待进一步深化。

实际上,人工智能发展史颠倒了方向,   蹉跎了60年,近20年才开始针对形象思维 “拨乱反正”。在这方面,钱学森先生高瞻 远瞩,  20世纪80年代,他认识到西方认知科 学的路线和方法有严重缺陷,不能有效针对 人脑的形象思维和高级创造性思维,提倡思 维科学的研究,提醒研究人工智能必须重视 形象思维。人类的文化也是先从形象思维开 始,  然后走到语言、进入抽象。深度学习、  AlphaGo、ChatGPT的成功,  正好印证了钱 学森先生当年的远见。


大模型风险的应对策略

应对大模型风险的策略之一是通过“大” 的优势降低“耗”的浪费。

模型能力在未来几年内仍存在数量级 进步 的空间:谷 歌大模型Gemini已开始 在TPUv5 Pod上 进 行 训 练,   算力高 达1e26FL0PS(每 秒 进 行 百 亿 亿 次 浮 点 运 算 的 能 力)  ,   是训练GPT-4的5倍;  人工智能新势力公司Inflection在未来18个月内将采用比 GPT-4大100倍的计算能力;  一家由0penAI 资深人士共同创立的闭源公司Anthropic预 计,  在未来5年里用于训练最大模型的计算量 将增加约1000倍。

在这种背景下, 出现了“三大” —大模型模仿人脑所含神经元数目巨大,大样本与预训练,大算力大大加快了“铁杵磨成绣花针” 的速度。但是,与人脑相比有个重大缺陷,  就是资源耗费也非常大。2017年,  战胜李世石的AlphaGo,  即便按最低使用率20%计算,能耗也高30000W。这是什么概念? 一个人脑的耗能,大概也就30W,也就是说AlphaGo的最低耗能都是人类的1000倍。

2023年10月22日, 在第二十五届中国科协年会主论坛上,中国科协公布了2023年度10个前沿科学问题,排在首位的便是:如何实现低能耗人工智能?因此,我们不应一哄而上搞大模型训练,应该是在顶层引导下,规模企业的谨慎行为。

那么如何应对大模型训练可能带来的资源浪费?我认为有三个方向。首先,大模型应用机会在一类垂直行业上,其现有做法既 有使用大数据和知识驱动的改进空间,又已 具备对决策好坏的客观评分或可以准确数学 计算;其次,这一类有潜在机会的行业,其 样本不仅大且质量高,以致大模型智能产品 可高于行业现有雇员的平均水平,可能会提 高工作效率—注意,  是提高,  而并非替代;  再者, 我们可以将大模型用于提供草稿草案,对日常工作可提高效率,对高智能任务也许 有启发作用。

大模型今后的发展趋势之一,是有效地 注入逻辑推理、因果推理以及已有的科学知 识,  进一步获益于形象思维与抽象思维之优 势互补。ChatGPT所谓的形象思维, 类似“熟 读唐诗三百首”后的吟诗作赋,它可以根据 大概率关联在若干猜测中挑一个最佳组合,   有人云亦云的圆通, 但做不到控制错误程度。  更好的思路是结合注重因果与逻辑的抽象思 维,修正上面的出错。

应对大模型风险的另一个策略是将人作为其与现实世界的中介。0penAI问世之后, 人人可开发,不懂编码、没有相关基础知识也能构建(聊天)并与其他系统集成。我们 能够合理推测,未来将出现自主智能体,被赋予一个目标后可独立完成或助力人类各种脑力工作。现在,人还是作为大模型和真实世界的中介,未来则是通过人到自主智能体 再到真实世界迈向全自动化。

应对大模型风险的第三个策略是扬长避短,抓住“生”的机遇,  规避“假”的风险。 前面提到 0penAI的问世,对大模型创业公司是降维式打击,等于是抢占了这些公司的市场份额。这种行业冲击,类似于过去从大型计算机过渡到PC终端。大家都知道,   原来网络浏览器最大的供应商是网景公司的 Netscape,  现在变成了Google,也是这种 巨大变革的体现。

生成式人工智能(AIGC)为社会各个行 业带来各种各样的可能,举一些例子。如在 机器翻译领域,谷歌翻译名为“神经机器翻译”的技术,实现高质量的翻译结果;又如自然语言处理可应用于文本生成、文本摘要、问答系统等,既可生成真实的新闻稿件,也 可以生成类似于华尔街日报的“Deepfakes for Text”那样的,  与真实新闻相似的虚假 新闻。又比如,在电商平台应用上,生成 自然语言响应来回答客户的问题,提高客户满意度和购买转化率。此外,在广告营销领 域,  生成文本、图片和视频等内容可以帮助 企业进行品牌营销和推广活动。Facebook 的“Facebook Ads”就是一个很好的案例,其可根据用户的兴趣和行为推荐个性化广告。

这些各种可能也包括多方面的挑战与风险:  生成的内容可能会侵犯原作者的版权;    可能会生成虚假信息或误导性信息;因为需   要访问大量的数据,生成的内容可能会泄露   用户的隐私信息等。举一个形象的例子,随   着生成式人工智能的广泛应用,   “眼见为实” 将不再可靠,因为人工智能会根据勾勒出的人脸轮廓,由系统自动生成一张张正在说话的脸。其中,脸型、面部五官、发型等要素都可以根据要求生成、变化。从更深的层次   上讲,自然的长期演化过程中大浪淘沙出一些基本规则,高级的、重要的、精致的事物 生成,都需要时间上的足够长度,例如,山川河流、鬼斧神工、十月怀胎、绣花绘画、 技能获得等,相应地也就形成社会的规则与 法律,但人类又不断地挑战自然规则的时间 长度,必然带来对社会发展规律的挑战,甚 至是颠覆。例如,对“眼见为实”的挑战或 颠覆,对现有法律的有效性构成了威胁。

2023年11月,  英国举办了首届全球性的人工智能安全峰会,  与会嘉宾都在讨论人工智 能可能带来的风险。那么, 我们应该从哪些方面去应对? 我们需要建立相应的法律法规来规范生成式人工智能的使用和应用场景,要加强 对生成式人工智能生成内容的审核。此外,  我 们也要对其进行监管,  采用去标识化技术对用 户隐私进行保护等。从执行层面看, 我们要对 AI大模型进行分析和管控:未来AI会进化出 两类,  一类是专用AI(Narrow AI), 尤其 是具有危险处理能力的专用AI,例如用于网 络攻击、生物工程的AI模型;  一类是前沿AI (General AI),  例如前沿大模型以及未来 可能出现的AGI(通用人工智能) 等。

特别值得提醒的是,大模型、大数据,大算力有利于资金雄厚的巨头,类似0penAI 的出现可能会摧毁大批创业公司,换言之,人工智能、大数据和数字经济的发展,也可能造成扼杀多样性的垄断局面,我们必须予以警惕,并提早防范。

(本文由本刊编辑王易展、李靖恒根据作者2023年11 月25日在第五届世界科技与发展论坛平行论坛之世界数 字经济论坛的主题报告整理,原标题为《应对ChatGPT掀 起的AI大模型浪潮给数字经济发展带来的机遇与风险》,经作者修订,有删节)