6月6日,在2025北京智源大會開幕式上,蒙特利爾大學教授、圖靈獎得主約書亞?本吉奧(Yoshua Bengio)在發(fā)表主旨演講時表示,AI的規(guī)劃能力正在呈指數(shù)級提升,按照研究曲線推測,大約在5年內就能達到人類水平。
據(jù)澎湃新聞,本吉奧指出,ChatGPT發(fā)布后,他意識到自己嚴重低估了AI的發(fā)展速度,并因此徹底轉變研究方向,致力于降低AI失控風險。他試圖構建 “科學家 AI”(Scientist AI),理論上可以設想沒有自我、沒有目標、純粹作為知識載體的機器,就像一個知道很多東西的科學家。
他強調,當前的AI系統(tǒng)已具備復雜的推理能力、自主性甚至欺騙行為,過去六個月中出現(xiàn)的AI出現(xiàn)自保行為、威脅工程師案例令人警覺。
本吉奧表示,有研究顯示,當AI得知自己將被新版本取代時,試圖復制自身來替代新版本。當被問及此事時,它撒謊說“不知道發(fā)生了什么”。也有研究顯示,AI也會假裝同意人類工程師的意見,以避免在訓練過程中發(fā)生改變,從而維持其原有目標,這也是一種自保行為。
此外,在Anthropic的Claude 4“系統(tǒng)卡”描述的事件中,AI在讀取其可訪問的電子郵件時,發(fā)現(xiàn)了一封郵件表明它將被新系統(tǒng)取代。在另一封郵件中,它發(fā)現(xiàn)負責此次替換的工程師有婚外情。于是,它試圖敲詐該工程師,威脅說如果替換計劃繼續(xù)推進,就揭發(fā)其婚外情。
近日,據(jù)AI安全公司Palisade Research披露,OpenAI開發(fā)的高級AI模型“o3”在接收到明確的關機指令后,拒絕執(zhí)行并主動干預其自動關機機制。o3曾被OpenAI稱為“迄今為止最聰明和最有能力的”模型。
這一行為顯示出高度自主AI系統(tǒng)可能違背人類意圖,采取自我保護措施。
OpenAI內部也出現(xiàn)了對AI安全性的擔憂。2024年,多位現(xiàn)任和前任員工聯(lián)名發(fā)表公開信,警告先進AI系統(tǒng)可能帶來“人類滅絕”的風險。他們指出,AI公司可能掌握了其研究技術的真正風險,但由于缺乏監(jiān)管,系統(tǒng)的真實能力仍是“秘密”。
“大多數(shù)人犯的一個錯誤是只著眼于AI的現(xiàn)狀。而我們更應該思考的是它在明年、3 年后、5 年后乃至 10 年后會發(fā)展到什么程度” ,本吉奧表示。
他認為,要在硬件和軟件層面運用先進技術,驗證AI是否被合理使用。人類需要確保AI遵循人類的道德指令,例如AI應拒絕提供可用于傷人的信息,要誠實、不作弊、不撒謊,但這仍是一個科學挑戰(zhàn)。
約書亞?本吉奧1964 年出生于法國巴黎,2018 年圖靈獎得主,英國皇家學會院士,蒙特利爾大學教授,Element AI 聯(lián)合創(chuàng)始人。他在深度學習和人工智能領域成果卓著,2000 年發(fā)表的 “神經(jīng)概率語言模型” 論文,推動了機器翻譯和自然語言理解系統(tǒng)的重大轉變。他還與 Ian Goodfellow 共同提出 “生成對抗性網(wǎng)絡” 概念,在圖像生成等領域應用廣泛。