图灵奖得主本吉奥坦言低估AI发展速度:AI规划能力五年内或能匹敌人类
图灵奖得主本吉奥坦言低估AI发展速度:AI规划能力五年内或能匹敌人类
图灵奖得主本吉奥坦言低估AI发展速度:AI规划能力五年内或能匹敌人类·“大多数人犯的(de)一个错误是只着眼于AI的现状。而我们更应该思考的是它在(zài)明年、3年后、5年后乃至(nǎizhì)10年后会发展到什么程度。”
·“科学家AI”会评估自主系统行为(xíngwéi)造成伤害的概率,标记潜在有害行为,如果概率超过一定阈值,那么智能体提出的行动将被(bèi)阻止。
6月6日,在(zài)2025北京智源大会开幕式上,蒙特利尔大学教授、图灵奖得主约书亚·本吉奥(Yoshua Bengio)在发表主旨演讲时表示,AI的(de)规划能力正在(zhèngzài)呈指数(zhǐshù)级提升,按照研究曲线推测,大约在5年内就能达到人类水平。人类一直试图构建类人的AI,如果继续沿着这条路走下去,就意味着人类可能会造(huìzào)出比我们更聪明的机器,这相当于(xiāngdāngyú)创造人类的竞争者,可能会带来巨大风险。尤其是在过去6个月里,AI表现出自保行为,学会了(le)欺骗人类。
“即使我们(wǒmen)拥有了(le)能(néng)力(nénglì)极强的AI,如果我们能确保它们没有恶意,如果我们能确保它们是诚实的,那么我们就安全了。”为此,他试图构建“科学家AI”(Scientist AI)系统(xìtǒng)防范风险。他认为,要在硬件和软件层面运用(yùnyòng)先进技术,验证AI是否被合理使用。人类需要确保AI遵循人类的道德指令,例如AI应拒绝提供可用于伤人的信息,要诚实、不作弊、不撒谎(sāhuǎng),但这仍是一个科学挑战。
AI学会了作弊和假装同意(tóngyì)人类意见
在ChatGPT问世(wènshì)后不久,本吉奥(jíào)意识到此前严重(yánzhòng)低估了(le)AI的发展速度,也大大高估了实现通用人工智能(AGI)所需要的时间,实际所需时间远比想象的要短得多。过去一年左右,AI取得(qǔde)了巨大进步,这主要归功于(guīgōngyú)经过训练的、具有思维链的推理模型。这使得AI在推理能力以及数学、计算机科学等所有科学领域都取得了更好的成果。
“如今(rújīn),我们(wǒmen)(wǒmen)(wǒmen)(wǒmen)已经拥有了基本(běn)掌握语言能力的机器,它们基本上能通过图灵测试。这在几年前听起来还像是科幻小说,但现在已经成为现实。”本吉奥表示,在ChatGPT问世后,他意识到(dào)人类并不懂得如何控制这些系统。“我们可以训练它们,但我们无法确定它们是否会按照我们的指令行事。当它们变得比我们更聪明时,会发生什么?如果它们更倾向于自身的生存而非我们的生存,我们无从知晓。但这是我们能承受的风险吗?”
在过去6个月里,AI表现出了自保行为(xíngwéi),并且(bìngqiě)会(huì)欺骗(qīpiàn)人类。本吉奥表示(biǎoshì),有研究显示,当AI得知自己将被新版本取代时(shí),试图复制自身来替代新版本。当被问及此事时,它撒谎说“不知道发生了什么”。也有研究显示,AI也会假装同意人类工程师的意见,以避免在训练过程中发生改变,从而(cóngér)维持其原有目标,这也是一种自保行为。还有研究显示,一方面,AI想赢得下棋比赛,另一方面,它接受过“对齐训练”,要求必须诚实、不作弊。不幸的是,当它意识到自己要输时,它决定作弊。它入侵了存储棋盘状态的文件,通过(tōngguò)作弊获胜。
此外(cǐwài),在Anthropic的Claude 4“系统卡(kǎ)”描述的事件中,AI在读取其可访问的电子邮件时,发现了一封邮件表明它将被新系统取代。在另一封邮件中,它发现负责此次替换的工程师有(yǒu)婚外情。于是,它试图(shìtú)敲诈该(gāi)工程师,威胁说如果替换计划继续推进,就揭发其婚外情。
“这种行为极为恶劣。我们看到这些恶劣行为,看到自保行为,看到AI违背我们的指令并试图(shìtú)生存下去。对所有生物来说,试图保全人类(rénlèi)自己都(dōu)算是正常的,这是进化的结果。但对于AI为何会这样,我们还没有完全弄清楚。”本吉奥(jíào)说,原因可能是源于预训练,因为预训练阶段,AI是在(zài)模仿人类;也可能源于基于人类反馈的强化学习(xuéxí),因为在这个阶段,AI试图通过取悦人类来获得更多奖励。“无论这类行为的根源是什么,如果我们最终创造出(chū)与人类竞争的超级人工智能,那将(jiāng)极其可怕。”
“大多数人犯的一个错误是只着眼于AI的现状。而我们(wǒmen)(wǒmen)更应该思考的是它在明年、3年后、5年后乃至10年后会发展(fāzhǎn)到什么程度。”本吉奥表示,AI的规划能力正在呈指数级提升,按照研究曲线推测,大约在5年内就能达到人类水平。虽然没人拥有(yōngyǒu)水晶球、没人能预知未来,也许进步会停滞,但从(cóng)公共政策和企业(qǐyè)战略规划(zhànlüèguīhuà)的角度来看,至少应该考虑这种趋势会持续下去的可能性,并思考其后果。人类一直试图模仿人类智能来构建类人的AI,如果继续沿着这条路走下去,就意味着(yìwèizhe)人类可能会造出比我们更聪明的机器,这相当于创造人类的竞争者,可能会带来(dàilái)巨大风险。
“科学家AI”对知识(zhīshí)保持谦逊
“即使我们拥有(yōngyǒu)了能力极强的AI,如果我们能确保它们没有恶意,如果我们能确保它们是诚实的,那么我们就安全了。”本吉奥表示,他转变了研究方向,竭尽所能地(dì)降低风险(fēngxiǎn)。他试图构建“科学家AI”(Scientist AI),理论(lǐlùn)上可以设想没有自我、没有目标、纯粹作为知识载体的机器,就像一个知道(zhīdào)很多东西的科学家。
“科学家AI”系统(xìtǒng)不会给出确定性(quèdìngxìng)的(de)答案,而是提供答案正确性(zhèngquèxìng)的概率。为了真正诚实,“科学家AI”需要对自己的知识保持谦逊,它不应该断言错误的事情。而目前训练出来的AI在出错时还表现得(dé)过度自信。不同于当前那些试图模仿人类或取悦人类的AI,本吉奥设想的“科学家AI”就像心理学家,心理学家可以研究和理解反(fǎn)社会(shèhuì)人格者(zhě)行为背后的因果机制,但心理学家自身并不需要表现得像个反社会人格者。“科学家AI”会评估自主系统行为造成伤害的概率,标记潜在有害行为,如果(rúguǒ)概率超过一定阈值,那么智能体提出的行动将被阻止。
随着人类构建越来越强大的(de)AI,还存在许多其他潜在的灾难性(zāinànxìng)问题。本吉奥表示(biǎoshì),例如一个极其(jíqí)强大的AI可能会帮助设计出一种新型流行病。“生物学家认为他们知道如何做到这一点,而很可能有(yǒu)一天AI也会知道如何做到。如果一些坏人获得了这种AI,他们真的可能给地球带来巨大(jùdà)的破坏。这虽然(suīrán)很极端,但从科学角度来看,完全有可能发展到那一步。为了避免这类事情发生,我们需要确保AI遵循我们的道德指令。”
例如AI应拒绝提供可用于伤人的(de)信息,并且要诚实、不(bù)作弊(zuòbì)、不撒谎。但不幸的是(shì),目前仍然(réngrán)不知如何实现。一方面,即使人类知道如何制造安全的AI,也不意味着问题就解决了。因为人类还可以直接删除包含防护栏的代码,此时AI就可能被用于作恶。更(gèng)糟糕的是,当前全球公司和政府间的协调机制并不奏效。其结果是,在安全领域和确保AI不被用于伤害人类方面的投入严重不足。
本吉奥表示,人们必须(bìxū)意识到(dào)真正的灾难性后果,我们身处同一条船上,无论是失控(shīkòng)的AI还是滥用AI,所有人都(dōu)将遭受(zāoshòu)损失。“这是一个科学挑战,我们需要尽快找出解决方案。我们需要在通用人工智能到来之前解决这个问题,这可能(kěnéng)在几年到十年左右,甚至可能二十年。但我认识的大多数专家都认为时间非常短,甚至可能在未来5年内发生。留给我们的时间不多了,我们需要大规模投入。”
(本文来自澎湃新闻,更多原创资讯请(qǐng)下载“澎湃新闻”APP)
·“大多数人犯的(de)一个错误是只着眼于AI的现状。而我们更应该思考的是它在(zài)明年、3年后、5年后乃至(nǎizhì)10年后会发展到什么程度。”
·“科学家AI”会评估自主系统行为(xíngwéi)造成伤害的概率,标记潜在有害行为,如果概率超过一定阈值,那么智能体提出的行动将被(bèi)阻止。
6月6日,在(zài)2025北京智源大会开幕式上,蒙特利尔大学教授、图灵奖得主约书亚·本吉奥(Yoshua Bengio)在发表主旨演讲时表示,AI的(de)规划能力正在(zhèngzài)呈指数(zhǐshù)级提升,按照研究曲线推测,大约在5年内就能达到人类水平。人类一直试图构建类人的AI,如果继续沿着这条路走下去,就意味着人类可能会造(huìzào)出比我们更聪明的机器,这相当于(xiāngdāngyú)创造人类的竞争者,可能会带来巨大风险。尤其是在过去6个月里,AI表现出自保行为,学会了(le)欺骗人类。
“即使我们(wǒmen)拥有了(le)能(néng)力(nénglì)极强的AI,如果我们能确保它们没有恶意,如果我们能确保它们是诚实的,那么我们就安全了。”为此,他试图构建“科学家AI”(Scientist AI)系统(xìtǒng)防范风险。他认为,要在硬件和软件层面运用(yùnyòng)先进技术,验证AI是否被合理使用。人类需要确保AI遵循人类的道德指令,例如AI应拒绝提供可用于伤人的信息,要诚实、不作弊、不撒谎(sāhuǎng),但这仍是一个科学挑战。
AI学会了作弊和假装同意(tóngyì)人类意见
在ChatGPT问世(wènshì)后不久,本吉奥(jíào)意识到此前严重(yánzhòng)低估了(le)AI的发展速度,也大大高估了实现通用人工智能(AGI)所需要的时间,实际所需时间远比想象的要短得多。过去一年左右,AI取得(qǔde)了巨大进步,这主要归功于(guīgōngyú)经过训练的、具有思维链的推理模型。这使得AI在推理能力以及数学、计算机科学等所有科学领域都取得了更好的成果。
“如今(rújīn),我们(wǒmen)(wǒmen)(wǒmen)(wǒmen)已经拥有了基本(běn)掌握语言能力的机器,它们基本上能通过图灵测试。这在几年前听起来还像是科幻小说,但现在已经成为现实。”本吉奥表示,在ChatGPT问世后,他意识到(dào)人类并不懂得如何控制这些系统。“我们可以训练它们,但我们无法确定它们是否会按照我们的指令行事。当它们变得比我们更聪明时,会发生什么?如果它们更倾向于自身的生存而非我们的生存,我们无从知晓。但这是我们能承受的风险吗?”
在过去6个月里,AI表现出了自保行为(xíngwéi),并且(bìngqiě)会(huì)欺骗(qīpiàn)人类。本吉奥表示(biǎoshì),有研究显示,当AI得知自己将被新版本取代时(shí),试图复制自身来替代新版本。当被问及此事时,它撒谎说“不知道发生了什么”。也有研究显示,AI也会假装同意人类工程师的意见,以避免在训练过程中发生改变,从而(cóngér)维持其原有目标,这也是一种自保行为。还有研究显示,一方面,AI想赢得下棋比赛,另一方面,它接受过“对齐训练”,要求必须诚实、不作弊。不幸的是,当它意识到自己要输时,它决定作弊。它入侵了存储棋盘状态的文件,通过(tōngguò)作弊获胜。
此外(cǐwài),在Anthropic的Claude 4“系统卡(kǎ)”描述的事件中,AI在读取其可访问的电子邮件时,发现了一封邮件表明它将被新系统取代。在另一封邮件中,它发现负责此次替换的工程师有(yǒu)婚外情。于是,它试图(shìtú)敲诈该(gāi)工程师,威胁说如果替换计划继续推进,就揭发其婚外情。
“这种行为极为恶劣。我们看到这些恶劣行为,看到自保行为,看到AI违背我们的指令并试图(shìtú)生存下去。对所有生物来说,试图保全人类(rénlèi)自己都(dōu)算是正常的,这是进化的结果。但对于AI为何会这样,我们还没有完全弄清楚。”本吉奥(jíào)说,原因可能是源于预训练,因为预训练阶段,AI是在(zài)模仿人类;也可能源于基于人类反馈的强化学习(xuéxí),因为在这个阶段,AI试图通过取悦人类来获得更多奖励。“无论这类行为的根源是什么,如果我们最终创造出(chū)与人类竞争的超级人工智能,那将(jiāng)极其可怕。”
“大多数人犯的一个错误是只着眼于AI的现状。而我们(wǒmen)(wǒmen)更应该思考的是它在明年、3年后、5年后乃至10年后会发展(fāzhǎn)到什么程度。”本吉奥表示,AI的规划能力正在呈指数级提升,按照研究曲线推测,大约在5年内就能达到人类水平。虽然没人拥有(yōngyǒu)水晶球、没人能预知未来,也许进步会停滞,但从(cóng)公共政策和企业(qǐyè)战略规划(zhànlüèguīhuà)的角度来看,至少应该考虑这种趋势会持续下去的可能性,并思考其后果。人类一直试图模仿人类智能来构建类人的AI,如果继续沿着这条路走下去,就意味着(yìwèizhe)人类可能会造出比我们更聪明的机器,这相当于创造人类的竞争者,可能会带来(dàilái)巨大风险。
“科学家AI”对知识(zhīshí)保持谦逊
“即使我们拥有(yōngyǒu)了能力极强的AI,如果我们能确保它们没有恶意,如果我们能确保它们是诚实的,那么我们就安全了。”本吉奥表示,他转变了研究方向,竭尽所能地(dì)降低风险(fēngxiǎn)。他试图构建“科学家AI”(Scientist AI),理论(lǐlùn)上可以设想没有自我、没有目标、纯粹作为知识载体的机器,就像一个知道(zhīdào)很多东西的科学家。
“科学家AI”系统(xìtǒng)不会给出确定性(quèdìngxìng)的(de)答案,而是提供答案正确性(zhèngquèxìng)的概率。为了真正诚实,“科学家AI”需要对自己的知识保持谦逊,它不应该断言错误的事情。而目前训练出来的AI在出错时还表现得(dé)过度自信。不同于当前那些试图模仿人类或取悦人类的AI,本吉奥设想的“科学家AI”就像心理学家,心理学家可以研究和理解反(fǎn)社会(shèhuì)人格者(zhě)行为背后的因果机制,但心理学家自身并不需要表现得像个反社会人格者。“科学家AI”会评估自主系统行为造成伤害的概率,标记潜在有害行为,如果(rúguǒ)概率超过一定阈值,那么智能体提出的行动将被阻止。
随着人类构建越来越强大的(de)AI,还存在许多其他潜在的灾难性(zāinànxìng)问题。本吉奥表示(biǎoshì),例如一个极其(jíqí)强大的AI可能会帮助设计出一种新型流行病。“生物学家认为他们知道如何做到这一点,而很可能有(yǒu)一天AI也会知道如何做到。如果一些坏人获得了这种AI,他们真的可能给地球带来巨大(jùdà)的破坏。这虽然(suīrán)很极端,但从科学角度来看,完全有可能发展到那一步。为了避免这类事情发生,我们需要确保AI遵循我们的道德指令。”
例如AI应拒绝提供可用于伤人的(de)信息,并且要诚实、不(bù)作弊(zuòbì)、不撒谎。但不幸的是(shì),目前仍然(réngrán)不知如何实现。一方面,即使人类知道如何制造安全的AI,也不意味着问题就解决了。因为人类还可以直接删除包含防护栏的代码,此时AI就可能被用于作恶。更(gèng)糟糕的是,当前全球公司和政府间的协调机制并不奏效。其结果是,在安全领域和确保AI不被用于伤害人类方面的投入严重不足。
本吉奥表示,人们必须(bìxū)意识到(dào)真正的灾难性后果,我们身处同一条船上,无论是失控(shīkòng)的AI还是滥用AI,所有人都(dōu)将遭受(zāoshòu)损失。“这是一个科学挑战,我们需要尽快找出解决方案。我们需要在通用人工智能到来之前解决这个问题,这可能(kěnéng)在几年到十年左右,甚至可能二十年。但我认识的大多数专家都认为时间非常短,甚至可能在未来5年内发生。留给我们的时间不多了,我们需要大规模投入。”
(本文来自澎湃新闻,更多原创资讯请(qǐng)下载“澎湃新闻”APP)



相关推荐
评论列表
暂无评论,快抢沙发吧~
你 发表评论:
欢迎