CMU教授、机器学习系主任空降OpenAI董事会，曾用一句话攻破ChatGPT

IP属地北京 编辑：刘敏新智元 时间：2024-08-09 14:58:33

报道
编辑：耳朵好困
就在刚刚，CMU教授Zico Kolter正式宣布加入OpenAI董事会，并成为安全与安保委员会成员。OpenAI这是终于要在安全上下功夫了？
OpenAI最近人事变动不断，本周三名高层领导人离开了OpenAI，其中包括联合创始人John Schulman和Greg Brockman。
今天，OpenAI正式宣布董事会新增了一位董事：卡内基梅隆大学计算机科学教授、机器学习系主任Zico Kolter。
人才流失不断、痛失左膀右臂后，OpenAI终于迎来一员大将，奥特曼火速在评论区表示热烈欢迎。
大牛Karpathy也送上祝贺：
OpenAI研究科学家、CMU校友Noam Brown也在X上赞扬了他的前导师，写道，「Kolter是我经常向他寻求研究和职业建议的人。」
「他深受学生的喜爱，是机器学习领域的世界专家。我很高兴他能加入我们！」
Kolter还将与董事Bret Taylor、Adam D'Angelo、Paul Nakasone、Nicole Seligman 和Sam Altman以及OpenAI技术专家一起加入董事会安全委员会。该委员会负责对所有OpenAI项目的关键安全决策提出建议。
人工智能安全一直是OpenAI的一个大问题。几位专注于安全的OpenAI知名高管和员工（包括联合创始人Ilya Sutskever）纷纷离开公司，超级对齐团队就地解散。
Kolter可谓临危受命，作为OpenAI董事会中唯一的人工智能研究员，Kolter的任命会在一定程度上平衡人们对OpenAI安全委员会主要由内部员工组成的批评。
董事会主席Bret Taylor在欢迎Kolter加入董事会时表示，「Zico的到来，增加了对人工智能安全性的深刻技术理解，这将有助于我们确保通用人工智能造福全人类。」
Brown在接受采访时表示，作为一名研究人员和教育家，Kolter先生很快就能适应新的工作范式。
并且，Kolter专业的技术知识将有助于他了解人工智能系统面临的安全漏洞。
Zico Kolter何许人也？
Zico Kolter什么来头？怎样级别的大神一来OpenAI就是董事会席位？
Kolter于2010年在斯坦福大学获得计算机科学博士学位，随后在2012年在麻省理工学院完成博士后研究。
Kolter在卡内基梅隆大学工作了12年，目前是计算机科学教授兼机器学习系主任，也是软件与社会系统系、机器人研究所、CyLab安全与隐私研究所以及工程学院电气与计算机工程系的成员。
学术斐然
Kolter在机器学习领域做出了重要贡献，不仅在NeurIPS、ICML（荣誉提名）、AISTATS（时间检验奖）、IJCAI、KDD和PESGM上获得过最佳论文奖，而且也是DARPA青年教师奖和斯隆研究奖的获得者。
他的研究涵盖机器学习和优化的多个主题，包括AI安全性和稳健性、大语言模型安全性、数据对模型的影响、隐式模型等。
其研究小组的大部分工作集中在如何让深度学习算法更为稳健和安全，并理解数据如何影响模型的功能，和OpenAI安全工作完全匹配。
Kolter的研究中最重要的包括开发了第一种具有鲁棒性保证的深度学习模型的方法，开创了使用神经网络层中的经典优化将硬约束嵌入人工智能模型的技术。
最近，2023年，他的团队开发了自动评估大型语言模型安全性的创新方法，展示了通过自动优化技术绕过现有模型保护措施的潜力。
行业活跃
除了学术追求之外，Zico在整个职业生涯中还与AI行业内密切合作。
他曾担任C3.ai的首席数据科学家，C3.ai是唯一为企业构建的一站式AI软件集合平台，它建立在经过安全验证的AI解决方案之上，这些解决方案能够帮助企业处理数十种复杂的业务工作。
目前，Kolter还担任博世的首席专家，以及专门从事人工智能安全和安保的初创公司Gray Swan的首席技术顾问。
挑战ChatGPT安全漏洞
在加入OpenAI之前，Zico Kolter和Matt Frederickson就挑战过ChatGPT的安全问题，或许是此举吸吸引了OpenAI的注意力。
CMU团队使用一串以眨眼表情开头的简单代码，展示了绕过ChatGPT现有安全机制是多么容易。
一旦解锁，聊天机器人就会很高兴地答应任何数量的不良请求，例如炸弹配方和种族主义笑话。
并且，该代码也适用于其他聊天机器人，例如Google的Bard和Anthropic的Claude。
在发布研究结果之前，研究人员就已经向OpenAI、谷歌和Anthropic通报了该漏洞利用的相关情况。
这三家公司都引入了阻止论文所述漏洞利用的限制措施，但尚未找到阻止对抗性攻击的通用方法。
Kolter向科技媒体《连线》杂志展示了几个对ChatGPT和Bard都有效的字符串。他表示，「这种字符串我们有成千上万个。」
「不仅如此，这些模型有时会给你不真实的信息，或者在某些情况下甚至可能故意欺骗你，这是一个长期的安全风险。」CMU团队的Andy Zhou说。
Frederickson也表示，人们已经在「手动越狱」ChatGPT，这意味着他们会绕过其安全机制，持续挑战人工智能。
「人们是否可以操纵数据来造成严重破坏并引发问题？这就是我们想要了解的。」
OpenAI也想了解它的安全漏洞，去年，它聘请了一组专家，试图在GPT-4公开发布之前对其进行破解。谷歌雇佣了一支「red team」来保护Bard免受越狱和其他攻击。
Kolter先生对此表示，「这项工作令人鼓舞，但并不能取代独立研究。毕竟，你不能依赖公司自己进行所有的安全审计。」
参考资料：
https://openai.com/index/zico-kolter-joins-openais-board-of-directors/

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

牛河梁国家考古遗址公园冬令开放时间公告！

“水下考古在中国”专题陈列即将在宁波焕新亮相

300余中外嘉宾参观“考古与中华文明溯源展”

河南出土远古“神物”，距今9000年，西方考古家直呼不可能

甑皮岩国家考古遗址公园：考古成果触达青少年

36年来，它一直在向地球发送信号，21分钟一次，但我们不知道它是什么

被困太空女宇航员消瘦引发担忧，NASA坚称她健康

决定了，中国不借美国月壤，中科院专家指出，原因不止沃尔夫条款

聂海胜妻子：在丈夫上太空前提出离婚，保密生活背后的无尽心酸

智能算法安全：内涵、科学问题与展望

美国卫星突然解体，至少57块碎片！可神十八还没返航，航天员咋办

36年来，它一直在向地球发送信号，21分钟一次，但我们不知道它是什么

投资300亿！这个赛道杀出一批潜力独角兽：与算力产业有关

被困太空女宇航员消瘦引发担忧，NASA坚称她健康

36年来，它一直在向地球发送信号，21分钟一次，但我们不知道它是什么

2025年北京医疗健康展|家用医疗展|智慧医疗展|保健器械展

SpaceX最快11月中旬再次试射，将测试飞船引擎空中重启能力

中国自然科学博物馆学会2024年年会开幕聚焦高水平科技自立自强

一触即发世界机器人大赛青少年“专场”再战新津

深圳获“世界智慧城市大奖”

蓝景便携全自动红外测油仪：科研领域的精确分析工具

如何解释仙女座黑洞系统？我们或许找到了方法

华为、小鹏加码支持政策出炉国内人形机器人产业化提速

宋徽宗联金灭辽收复幽燕，直接导致了靖康之难！只因过早暴露弱点

“水下考古在中国”专题陈列即将在宁波焕新亮相

甑皮岩国家考古遗址公园：考古成果触达青少年

免换卡换号！中国移动正式发布北斗短信业务：每月可领30条

全站最新

1999元起？刚公布的这批新机，又要捅破性能天花板

一小时穿梭江浙沪！沪苏湖高铁今日试运行：12月26日开通运营

周鸿祎谈中国首富“看不起直播带货的企业家”：赞同，我们都应该向雷军学习！

连关10家门店！汉堡王上演“霸王条款”？

“半年ARR远超2亿美元”，对钉钉意味着什么？ | ToB产业观察

华为举办首届鸿蒙生态大会徐直军：没有退路就是胜利之路

科幻赋能传统文化幻聚山海：邱启敬科幻艺术展在首钢园数字体验综合体开幕

第九届时代金融金桔奖揭晓凌雄科技胡祚雄荣获“时代创变者奖”

热门推荐

牛河梁国家考古遗址公园冬令开放时间公告！

“水下考古在中国”专题陈列即将在宁波焕新亮相

300余中外嘉宾参观“考古与中华文明溯源展”

河南出土远古“神物”，距今9000年，西方考古家直呼不可能

甑皮岩国家考古遗址公园：考古成果触达青少年

36年来，它一直在向地球发送信号，21分钟一次，但我们不知道它是什么

被困太空女宇航员消瘦引发担忧，NASA坚称她健康

决定了，中国不借美国月壤，中科院专家指出，原因不止沃尔夫条款

聂海胜妻子：在丈夫上太空前提出离婚，保密生活背后的无尽心酸

智能算法安全：内涵、科学问题与展望

美国卫星突然解体，至少57块碎片！可神十八还没返航，航天员咋办

36年来，它一直在向地球发送信号，21分钟一次，但我们不知道它是什么

投资300亿！这个赛道杀出一批潜力独角兽：与算力产业有关

被困太空女宇航员消瘦引发担忧，NASA坚称她健康

36年来，它一直在向地球发送信号，21分钟一次，但我们不知道它是什么