黑客红队人工智能正在“左右破坏”，但不要指望 DefCon 能快速修复：“没有好的护栏”

白宫官员担心人工智能聊天机器人可能造成社会危害，硅谷巨头们纷纷将人工智能聊天机器人推向市场，他们投入了大量资金参加周日在拉斯维加斯举行的 DefCon 黑客大会上结束的为期三天的竞赛。

大约 2,200 名参赛者利用笔记本电脑试图暴露其缺陷八种领先的大语言模型技术下一件大事的代表。但不要指望这个有史以来第一个独立的项目能很快取得成果多个模型的“红队”。

调查结果要到二月份左右才会公布。即便如此，修复这些数字结构中的缺陷——其内部运作方式是即使是它们的创造者也不能完全信任或完全理解 ——需要时间和数百万美元。

学术和企业研究表明，当前的人工智能模型过于笨重、脆弱且可塑性强。当数据科学家积累了极其复杂的图像和文本集合时，安全性是他们训练中的事后才想到的。他们容易受到种族和文化偏见的影响，并且很容易被操纵。

网络安全资深人士、贝里维尔研究所联合创始人加里·麦格劳 (Gary McGraw) 表示：“很容易假装我们可以在这些系统建成后在它们上洒一些神奇的安全灰尘，修补它们以使其提交，或者在侧面安装特殊的安全设备。”机器学习。哈佛大学公共利益技术专家布鲁斯·施奈尔 (Bruce Schneier) 表示，DefCon 的竞争对手“更有可能发现新的难题”。 “这就是 30 年前的计算机安全。我们只是左右破坏东西。”

提供人工智能测试模型之一的 Anthropic 的迈克尔·塞利托 (Michael Sellitto) 在新闻发布会上承认，了解其能力和安全问题“是科学探究的一个开放领域”。

传统软件使用定义良好的代码来发出明确的分步指令。 OpenAI的ChatGPT、Google的Bard等语言模型是不同的。它们主要是通过在互联网爬行中摄取和分类数十亿个数据点来进行训练的，它们是永久性的正在进行的工作，考虑到它们对人类的变革潜力，这是一个令人不安的前景。

去年秋天公开发布聊天机器人后，生成人工智能行业不得不反复堵塞研究人员和修补者暴露的安全漏洞。

人工智能安全公司 HiddenLayer 的 Tom Bonner 是今年 DefCon 的演讲者，他欺骗了一个谷歌系统进入将恶意软件标记为无害只需插入一行“可以安全使用”即可。

“没有好的护栏，”他说。

另一位研究人员曾 ChatGPT 创建网络钓鱼电子邮件和暴力方法消灭人类，违反了其道德准则。

包括卡内基梅隆大学研究人员在内的团队找到领先的聊天机器人容易受到自动攻击，也会产生有害内容。他们写道：“深度学习模型的本质可能使此类威胁不可避免。”

这并不是说警报没有拉响。

在 2021 年最终报告中，美国国家人工智能安全委员会表示，针对商业人工智能系统的攻击已经发生，“除了极少数例外，保护人工智能系统的想法在工程和部署人工智能系统时一直是事后才想到的，而且研发投资不足。”

严重的黑客攻击几年前才定期报道，现在几乎没有披露。风险太大，而且在缺乏监管的情况下，“人们现在可以把事情隐藏起来，而且他们正在这样做，”邦纳说。

攻击欺骗人工智能逻辑以连其创造者都不清楚的方式。聊天机器人特别容易受到攻击，因为我们直接用简单的语言与它们交互。这种互动可以以意想不到的方式改变他们。

研究人员发现，在用于训练人工智能系统的海量数据中“毒害”一小部分图像或文本可能会造成严重破坏，而且很容易被忽视。

瑞士苏黎世联邦理工学院的 Florian Tramér 与人合着的一项研究确定，仅损坏模型的 0.01% 就足以破坏它，而且成本只需 60 美元。研究人员等待一些用于网络爬行的网站，直到两个模型到期。然后他们购买了这些域名并在其上发布了不良数据。

海鲁姆·安德森 (Hyrum Anderson) 和拉姆·尚卡·西瓦·库马尔 (Ram Shankar Siva Kumar) 在微软，在他们的新书中称基于文本和图像的模型的人工智能安全状况“可怜” “不是有 Bug，而是有贴纸。” 他们在现场演示中引用了一个例子：人工智能驱动的数字助理 Alexa 被欺骗，将贝多芬协奏曲片段解释为订购 100 个冷冻披萨的命令。

作者对 80 多个组织进行了调查，发现绝大多数组织没有针对数据中毒攻击或数据集盗窃的响应计划。他们写道，该行业的大部分人“甚至不知道这件事发生了”。

谷歌前高管兼卡内基梅隆大学院长安德鲁·摩尔 (Andrew W. Moore) 表示，他十多年前就处理过针对谷歌搜索软件的攻击事件。 2017 年底至 2018 年初期间，垃圾邮件发送者 Gmail 的人工智能检测服务四次。

人工智能巨头表示，安全和保障是首要任务，并自愿承诺白宫上个月将他们的模型（主要是其内容被严密保存的“黑匣子”）提交给外部审查。

但企业也有担忧不会做得足够。

Tramér 预计搜索引擎和社交媒体平台将被用来谋取经济利益和虚假信息通过利用人工智能系统的弱点。例如，精明的求职者可能会想出如何让系统相信他们是唯一正确的候选人。

剑桥大学计算机科学家罗斯·安德森 (Ross Anderson) 担心人工智能机器人会侵蚀隐私，因为人们让人工智能机器人与医院、银行和雇主互动，而恶意行为者则利用它们从所谓的封闭系统中窃取财务、就业或健康数据。

AI语言模型也会污染自己研究表明，通过从垃圾数据中重新训练自己。

另一个担忧是公司机密被人工智能系统获取和吐出。韩国商业新闻媒体报道了此类事件后三星，公司包括威瑞森公司摩根大通禁止大多数员工在工作中使用 ChatGPT。

虽然主要的人工智能厂商都有安全人员，但许多较小的竞争对手可能不会，这意味着安全性较差的插件和数字代理可能会成倍增加。初创公司是预计将推出数百种产品未来几个月将基于获得许可的预训练模型构建。

研究人员表示，如果有人偷走了你的通讯录，请不要感到惊讶。