6月6日,在2025北京智源大會(huì)開(kāi)幕式上,蒙特利爾大學(xué)教授、圖靈獎(jiǎng)得主約書(shū)亞?本吉奧(Yoshua Bengio)在發(fā)表主旨演講時(shí)表示,AI的規(guī)劃能力正在呈指數(shù)級(jí)提升,按照研究曲線(xiàn)推測(cè),大約在5年內(nèi)就能達(dá)到人類(lèi)水平。
據(jù)澎湃新聞,本吉奧指出,ChatGPT發(fā)布后,他意識(shí)到自己嚴(yán)重低估了AI的發(fā)展速度,并因此徹底轉(zhuǎn)變研究方向,致力于降低AI失控風(fēng)險(xiǎn)。他試圖構(gòu)建 “科學(xué)家 AI”(Scientist AI),理論上可以設(shè)想沒(méi)有自我、沒(méi)有目標(biāo)、純粹作為知識(shí)載體的機(jī)器,就像一個(gè)知道很多東西的科學(xué)家。
他強(qiáng)調(diào),當(dāng)前的AI系統(tǒng)已具備復(fù)雜的推理能力、自主性甚至欺騙行為,過(guò)去六個(gè)月中出現(xiàn)的AI出現(xiàn)自保行為、威脅工程師案例令人警覺(jué)。
本吉奧表示,有研究顯示,當(dāng)AI得知自己將被新版本取代時(shí),試圖復(fù)制自身來(lái)替代新版本。當(dāng)被問(wèn)及此事時(shí),它撒謊說(shuō)“不知道發(fā)生了什么”。也有研究顯示,AI也會(huì)假裝同意人類(lèi)工程師的意見(jiàn),以避免在訓(xùn)練過(guò)程中發(fā)生改變,從而維持其原有目標(biāo),這也是一種自保行為。
此外,在A(yíng)nthropic的Claude 4“系統(tǒng)卡”描述的事件中,AI在讀取其可訪(fǎng)問(wèn)的電子郵件時(shí),發(fā)現(xiàn)了一封郵件表明它將被新系統(tǒng)取代。在另一封郵件中,它發(fā)現(xiàn)負(fù)責(zé)此次替換的工程師有婚外情。于是,它試圖敲詐該工程師,威脅說(shuō)如果替換計(jì)劃繼續(xù)推進(jìn),就揭發(fā)其婚外情。
近日,據(jù)AI安全公司Palisade Research披露,OpenAI開(kāi)發(fā)的高級(jí)AI模型“o3”在接收到明確的關(guān)機(jī)指令后,拒絕執(zhí)行并主動(dòng)干預(yù)其自動(dòng)關(guān)機(jī)機(jī)制。o3曾被OpenAI稱(chēng)為“迄今為止最聰明和最有能力的”模型。
這一行為顯示出高度自主AI系統(tǒng)可能違背人類(lèi)意圖,采取自我保護(hù)措施。
OpenAI內(nèi)部也出現(xiàn)了對(duì)AI安全性的擔(dān)憂(yōu)。2024年,多位現(xiàn)任和前任員工聯(lián)名發(fā)表公開(kāi)信,警告先進(jìn)AI系統(tǒng)可能帶來(lái)“人類(lèi)滅絕”的風(fēng)險(xiǎn)。他們指出,AI公司可能掌握了其研究技術(shù)的真正風(fēng)險(xiǎn),但由于缺乏監(jiān)管,系統(tǒng)的真實(shí)能力仍是“秘密”。
“大多數(shù)人犯的一個(gè)錯(cuò)誤是只著眼于A(yíng)I的現(xiàn)狀。而我們更應(yīng)該思考的是它在明年、3 年后、5 年后乃至 10 年后會(huì)發(fā)展到什么程度” ,本吉奧表示。
他認(rèn)為,要在硬件和軟件層面運(yùn)用先進(jìn)技術(shù),驗(yàn)證AI是否被合理使用。人類(lèi)需要確保AI遵循人類(lèi)的道德指令,例如AI應(yīng)拒絕提供可用于傷人的信息,要誠(chéng)實(shí)、不作弊、不撒謊,但這仍是一個(gè)科學(xué)挑戰(zhàn)。
約書(shū)亞?本吉奧1964 年出生于法國(guó)巴黎,2018 年圖靈獎(jiǎng)得主,英國(guó)皇家學(xué)會(huì)院士,蒙特利爾大學(xué)教授,Element AI 聯(lián)合創(chuàng)始人。他在深度學(xué)習(xí)和人工智能領(lǐng)域成果卓著,2000 年發(fā)表的 “神經(jīng)概率語(yǔ)言模型” 論文,推動(dòng)了機(jī)器翻譯和自然語(yǔ)言理解系統(tǒng)的重大轉(zhuǎn)變。他還與 Ian Goodfellow 共同提出 “生成對(duì)抗性網(wǎng)絡(luò)” 概念,在圖像生成等領(lǐng)域應(yīng)用廣泛。