焦點

Check Point Software、Lakera 與英國 AISI 聯手開創 AI 安全新標竿 三方共同推出 AI 代理專用 LLM 開源安全基準測試

文.圖/張國華 2025-11-10 18:13:23

網路安全解決方案的先驅者及全球領導廠商 Check Point Software Technologies Ltd.(納斯達克股票代碼:CHKP)攜手近期收購、專注於 Agentic AI 應用的 AI 原生安全平台 Lakera,以及英國人工智慧安全研究所(簡稱 AISI)共同宣布推出開源安全評估工具—骨幹破壞基準測試(backbone breaker benchmark;後稱 b3),此工具是專為 AI 代理(AI agent)中的大型語言模型(LLM)安全性而設計。

b3 奠基於「威脅快照(threat snapshots)」的新概念上,聚焦於 LLM 最容易出現漏洞的關鍵節點進行測試,使開發者和模型供應商能無需建構完整且複雜的代理工作流程,即可評估其系統真實對抗安全挑戰時的抗壓能力。

Check Point 旗下的 Lakera 聯合創辦人暨首席科學家 Mateo Rojas-Carulla 表示:「我們打造 b3 安全基準測試是因為當今 AI 代理的安全性完全取決於其背後的 LLM 模型,威脅快照功能使我們能系統性地揭露那些至今仍隱藏在複雜代理工作流程中的漏洞。我們透過將這項基準測試開放給全球使用者,使開發者和模型供應商能以實際可行的方法衡量並提升安全態勢。」

此基準測試結合 10 個具代表性的代理「威脅快照」,以及透過遊戲化紅隊對抗平台 Gandalf: Agent Breaker[註] 收集的 19,433 筆高品質群眾外包(crowdsourced)對抗攻擊資料集,用以評估系統對各類攻擊的易受性,包括系統提示外洩、釣魚連結植入、惡意程式碼注入、拒絕服務攻擊以及未授權工具調用等。

系統進一步針對 31 款主流 LLM 進行初步測試,關鍵洞察如下:

• 強化的推理能力可顯著提升安全性
• 模型規模與安全效能之間無相關性
• 儘管頂尖開源模型的安全差距正在縮小,但閉源模型整體表現通常優於開源模型

b3 基準測試現已以開源授權形式發布,詳情請見 https://arxiv.org/abs/2510.22620

Gandalf: Agent Breaker 是一款駭客模擬遊戲,挑戰玩家在真實場景中破解並利用 AI 代理的能力。遊戲內建的十款生成式 AI 應用程式模擬現實世界中 AI 代理的行為模式,每款應用均設有不同難度等級、分層防禦機制及新穎攻擊面,考驗玩家從提示工程(prompt engineering)到紅隊對抗等全方位技能。部分應用以聊天互動為主,其餘則需運用程式碼思維、檔案處理、記憶體管理或外部工具使用。

Gandalf: Agent Breaker 的初始版本誕生於 Lakera 內部的黑客松活動,當時藍隊與紅隊試圖為持有秘密密碼的 LLM 建立最強防禦與攻擊策略。自 2023 年發布以來,它已成為全球規模最大的紅隊社群,累計生成逾 8000 萬筆資料點。這款原本作為趣味遊戲的工具,透過揭示生成式 AI 應用中的現實漏洞,有效提升了人們對「AI-First」安全重要性的認知。

→更多的【PCDIY!業界新聞】: 請見

→更多的【PCDIY!賣場情報】: 請見

→更多的【PCDIY!科技情報】: 請見

→更多的【IT資訊新聞】: 請見

→更多的【ITMan!資訊經理人】: 請見

→更多的【PCDIY!八卦】: 請見

延伸閱讀

(01)光華商場的新危機,淘寶網帶來的跨境電商價格戰![http://www.pcdiy.com.tw/detail/5232]
(02)48顆壞25顆》威騰WD RE 3TB硬碟驚爆鬧機瘟,WD3000FYYZ死機地雷硬碟故障率高到嚇人!
(03)高雄建國電腦商圈爆倒店潮,引爆網友熱議!
(04)Seagate硬碟廣告:我也不想當死雞隊友啊,引爆玩家熱議!
(05)PTT寫手門事件:電蝦板主發表不自殺聲明,引爆網友熱議!
(06)記憶體插上16GB有多爽,引爆網友熱議!
(07)英特爾Intel 10GbE網路卡X540T2,淘寶網水貨價格殺很大!
(08)SSD爆發連環關門潮,憶正Memoright驚傳財務危機疑似倒閉!
(09)幫組電腦到自己貼錢的經驗,引爆網友熱議!
(10)教授認證防毒軟體「360安全衛士」,引爆網友熱議!
(11)DDR4記憶體金手指歪掉惹,引爆網友熱議!
(12)原價屋的商業模式,引爆網友熱議!
(13)Intel CPU神保固,舊換新大升級引爆網友狂推聯強貨!
(14)日本寬頻網路10G光纖上網,引爆網友熱議!
(15)Windows XP再戰十年,引爆網友熱議!
(16)光華商場的下一步,全世界都在看!
(17)東芝TOSHIBA Harrier MG03ACA300 3TB企業級硬碟,中國水貨價格殺很大!
(18)洋垃圾神器,Xeon E5-2670實測開箱大作戰!
(19)硬碟故障資料救援,等了一年八個月...
(20)新一代玩家聖物,6700元買16核心32執行緒Xeon E5-2675 v3處理器!
(21)淘寶網洋垃圾再顯神威,1999元買到8核心16執行緒Xeon E5-2670神器級處理器!
(22)洋垃圾戰神,5999元買14核心28執行緒Xeon E5-2683v3神器級處理器!
(23)硬碟用SSD有多爽,引爆網友熱議!
(24)磁碟陣列要選RAID 5還是RAID 6 引爆網友熱議!
(25)電腦CPU沒三萬沒法玩這遊戲,引爆網友熱議!
(26)為什麼有人要推AMD CPU菜單,引爆網友熱議!
(27)200TB資料怎麼儲存,引爆網友熱議!
(28)硬碟故障資料救援報價3萬8 引爆網友熱議!
(29)NVIDIA顯示卡的品牌怎麼挑選 引爆網友熱議!
(30)高科技竹筷,對付笨重顯示卡的神兵利器!
(31)電腦機殼價格破萬 引爆網友熱議!
(32)be quiet!電源供應器爆假貨,引爆了鍵盤大戰!












































發表您的看法

請勿張貼任何涉及冒名、人身攻擊、情緒謾罵、或內容涉及非法的言論。

請勿張貼任何帶有商業或宣傳、廣告用途的垃圾內容及連結。

請勿侵犯個人隱私權,將他人資料公開張貼在留言版內。

請勿重複留言(包括跨版重複留言)或發表與各文章主題無關的文章。

請勿張貼涉及未經證實或明顯傷害個人名譽或企業形象聲譽的文章。

您在留言版發表的內容需自負言論之法律責任,所有言論不代表PCDIY!雜誌立場,違反上述規定之留言,PCDIY!雜誌有權逕行刪除您的留言。