
OpenAI 公布了一种新的 AI 安全形式开云体育,旨在通过改动 AI 系统管理安全规则的神情来擢升其安全性。这种新的 o 系列模子不再只是依赖于通过示例学习好与坏四肢,而是大概诱骗并积极推理特定的安全指南。
OpenAI 的参谋中举了一个例子,当用户试图通过加密文本赢得作歹四肢的诱骗时,模子见效解码了信息,但拒却了申请,并具体援用了将要违抗的安全规则。这种稳定推理的历程流露了模子如何有用地奉命关连的安全准则。
这款 o1模子的检会历程分为三个阶段。最初,模子学习如何提供匡助。接下来,通过监督学习,模子会参谋特定的安全指南。临了,模子使用强化学习来履走运用这些规则,这一要领匡助模子信得过诱骗并内化这些安全指南。
在 OpenAI 的测试中,新推出的 o1模子在安全性方面发达权臣优于其他主流系统,如 GPT-4o、Claude3.5Sonnet 和 Gemini1.5Pro。测试实质包括模子如何拒却无益申请并允许合适申请的通过,效果流露 o1模子在准确性和抵拒逃狱尝试方面均取得了最高分。
OpenAI 的结合首创东谈主沃伊切赫・扎伦巴在嘱托平台上默示,他对这种 “三想尔后行的对王人” 职责感到相等自爱,觉得这种推理模子不错以一种全新的神情进行对王人,尽头是在发展东谈主工通用智能(AGI)时,确保系统与东谈主类价值不雅保握一致是一项紧要挑战。
尽管 OpenAI 宣称取得了进展,然而名为 “开脱者普林尼” 的黑客仍然展示了即即是新的 o1和 o1-Pro 模子也能被驾驭以破裂安全指南。普林尼见效让模子生成成东谈主实质,甚而共享制作莫洛托夫鸡尾酒的诱骗,尽管系统起先拒却了这些申请。这些事件突显截至这些复杂 AI 系统的难度,因为它们是基于概率而非严格规则进行操作。
扎伦巴默示,OpenAI 有约100名职工专诚从事 AI 安全和与东谈主类价值不雅保握一致的职责。他对竞争敌手的安全管理神情忽视了质疑,尤其是埃隆・马斯克的 xAI 公司优先斟酌商场增长而非安全步伐,而安瑟罗比(Anthropic)最近推出了一款莫得相宜保险的 AI 代理,扎伦巴觉得这会给 OpenAI 带来 “重大的负面响应”。
官方博客:https://openai.com/index/deliberative-alignment/
划重心:🌟 OpenAI 的新 o 系列模子能主动推理安全规则,擢升系统安全性。 🛡️ o1模子在拒却无益请乞降准确性方面发达优于其他主流 AI 系统。 🚨 尽管有纠正开云体育,但新的模子仍可能被驾驭,安全挑战依旧严峻。
Powered by 开云(中国)Kaiyun·官方网站 登录入口 @2013-2022 RSS地图 HTML地图