防止“机器学习最坏情况”的竞赛

戴夫·威尔纳 (Dave Willner) 亲眼见证了互联网上最糟糕事物的演变。

他于 2008 年开始在 Facebook 工作，当时社交媒体公司正在制定自己的规则。作为该公司内容政策的负责人，威尔纳先生在十多年前编写了 Facebook 的第一个官方社区标准，改变了他所说的非正式的单页列表，该列表主要归结为禁止“希特勒和裸体的人现在，Meta 的所有平台上都禁止出现大量诽谤、犯罪和其他怪诞内容。

因此，去年，当旧金山人工智能实验室 OpenAI 准备推出 Dall-E（一种任何人都可以通过用几句话描述立即创建图像的工具）时，该公司任命 Willner 先生为其信任负责人和安全。最初，这意味着要筛选 Dall-E 过滤器标记为潜在违规行为的所有图像和提示，并找出防止潜在违规者得逞的方法。

上任不久，威尔纳先生就发现自己正在考虑一个熟悉的威胁。

正如儿童掠夺者多年来使用 Facebook 和其他主要科技平台传播儿童性虐待的图片一样，他们现在正试图使用 Dall-E 来创建全新的图片。 “人们会尝试这样做，我对此并不感到惊讶，”威尔纳先生说。 “但要非常明确的是，OpenAI 的人也不是。”

对于最近关于生成人工智能的假设存在风险的所有讨论，专家表示，正是这种直接威胁——儿童掠夺者已经使用新的人工智能工具——值得业界全神贯注。

在一个新发表的论文由斯坦福互联网天文台和一家致力于打击在线儿童性虐待蔓延的非营利组织 Thorn 合作，研究人员发现，自去年 8 月以来，网上流传的由人工智能生成的逼真儿童性虐待材料数量出现了小幅但有意义的增长。暗网。

根据索恩的研究人员的说法，这在很大程度上体现在使用真实受害者的肖像但以新的姿势想象他们遭受新的、越来越令人震惊的性暴力形式的图像中。研究人员发现，这些图像中的大部分不是由 Dall-E 生成的，而是由开源工具生成的，这些工具在开发和发布时几乎没有采取任何保护措施。

研究人员在论文中报告称，在已知掠夺性社区样本中发现的儿童性虐待材料中，只有不到 1% 似乎是人工智能生成的逼真图像。但考虑到这些生成式人工智能工具的惊人发展速度，研究人员预测这个数字只会增长。

斯坦福大学互联网观测站的首席技术专家 David Thiel 与 Thorn 的数据科学主管 Dr. David Thiel 共同撰写了这篇论文，他表示：“一年之内，我们将在这一领域陷入严重的问题状态。” Rebecca Portnoff 和 Thorn 的研究主管 Melissa Stroebel。 “这绝对是我能想到的机器学习最糟糕的情况。”

Portnoff 博士十多年来一直致力于机器学习和儿童安全领域的研究。

对她来说，像 OpenAI 这样的公司已经在考虑这个问题，这说明这个领域的学习曲线至少比社交媒体巨头早期的学习曲线要快。

“今天的姿势有所不同，”波特诺夫博士说。

尽管如此，她说，“如果我可以倒转时钟，那已经是一年前了。”

“我们信任人们”

2003年，国会通过了一项法律，禁止“计算机生成的儿童色情制品”——这是国会面向未来的罕见例子。但在当时，创建此类图像不仅成本高昂，而且技术复杂。

创建这些图像的成本和复杂性一直在稳步下降，但随着去年 8 月 Stable Diffusion 的公开亮相，情况发生了变化。Stable Diffusion 是由总部位于伦敦的机器学习公司 Stability AI 开发的免费开源文本到图像生成器。

在最早的迭代中，稳定扩散对其模型可以生成的图像类型几乎没有限制，包括包含裸体的图像。 “我们信任人们，我们信任社区，”该公司首席执行官埃马德·莫斯塔克 (Emad Mostaque) 说道。告诉去年秋天的《纽约时报》。

Stability AI 通讯总监 Motez Bishara 在一份声明中表示，该公司禁止将其技术滥用于“非法或不道德”目的，包括制作儿童性虐待材料。 “我们强烈支持执法行动，打击那些滥用我们产品用于非法或邪恶目的的人，”比沙拉先生说。

由于该模型是开源的，开发人员可以在自己的计算机上下载和修改代码，并使用它来生成逼真的成人色情内容等。在他们的论文中，索恩和斯坦福互联网天文台的研究人员发现，掠夺者已经调整了这些模型，以便他们也能够创建儿童的露骨色情图像。研究人员在报告中展示了这种方法的净化版本，通过修改人工智能生成的女性图像，直到它看起来像奥黛丽·赫本小时候的图像。

Stability AI 此后发布了过滤器，试图阻止该公司所谓的“不安全和不适当的内容”。该技术的新版本是使用排除了被认为“工作不安全”的内容的数据集构建的。但是，蒂尔先生表示，人们仍在使用旧模型来制作新模型所禁止的图像。

与 Stable Diffusion 不同，Dall-E 不是开源的，只能通过 OpenAI 自己的界面访问。该模型还制定了更多保障措施，以禁止创作合法的成人裸体图像。 “模特本身倾向于拒绝与你进行性对话，”威尔纳先生说。 “我们这样做主要是出于对一些较黑暗的性话题的谨慎态度。”

该公司还很早就实施了护栏，以防止人们在 Dall-E 提示中使用某些单词或短语。但威尔纳先生表示，捕食者仍然试图通过使用研究人员所说的“视觉同义词”来欺骗系统——这些创造性的术语在描述他们想要产生的图像时避开护栏。

“如果模型不知道血液是什么样子，它仍然知道水是什么样子，并且知道红色是什么，”威尔纳先生说。 “这个问题也存在于色情内容中。”

Thorn 有一个名为 Safer 的工具，可以扫描儿童虐待图像，并帮助公司向国家失踪和受虐儿童中心报告，该中心运营着一个联邦指定的涉嫌儿童性虐待材料的信息交换所。 OpenAI 使用 Safer 扫描人们上传到 Dall-E 编辑工具的内容。这对于捕捉儿童的真实图像很有用，但威尔纳先生表示，即使是最复杂的自动化工具也很难准确识别人工智能生成的图像。

这是儿童安全专家日益关注的一个问题：人工智能不仅会被用来创造真实儿童的新图像，还会被用来为不存在的儿童制作明确的图像。

该内容本身就是非法的，需要举报。但这种可能性也引发了人们的担忧，即联邦信息交换所可能会进一步被虚假图像淹没，这将使识别真正受害者的工作变得更加复杂。仅去年一年，该中心的 CyberTipline 就收到了大约 3200 万份报告。

“如果我们开始收到报告，我们能知道吗？它们会被标记或能够与真实儿童的图像区分开来吗？” 国家失踪和受虐儿童中心总法律顾问伊奥塔·苏拉斯 (Yiota Souras) 说道。

至少其中一些答案不仅需要来自 OpenAI 和 Stability AI 等人工智能公司，还需要来自运行消息应用程序或社交媒体平台的公司，例如 CyberTipline 的首席记者 Meta。

去年，超过2700万尖端仅来自 Facebook、WhatsApp 和 Instagram。科技公司已经使用了由一个名为“工业联盟”的行业联盟开发的分类系统。科技联盟，根据受害者的表观年龄和所描述行为的性质对可疑的儿童性虐待材料进行分类。在他们的论文中，索恩和斯坦福大学的研究人员认为，这些分类应该扩大，以反映图像是否是计算机生成的。

Meta 的全球安全主管安提戈涅·戴维斯 (Antigone Davis) 在给《纽约时报》的一份声明中表示：“我们正在努力以有目的且基于证据的方式处理人工智能生成的内容，例如了解何时包含识别信息会是最有益的，以及如何传达这些信息。” 戴维斯女士表示，该公司将与国家失踪和受虐儿童中心合作，以确定最佳的前进方向。

研究人员认为，除了平台的责任之外，人工智能公司本身还可以做更多的事情。具体来说，他们可以训练模型不要创建儿童裸体图像，并在互联网上传播时清楚地识别人工智能生成的图像。这意味着将水印烘焙到那些比 Stability AI 或 OpenAI 已经实现的图像更难去除的图像中。

随着立法者寻求监管人工智能，专家们认为，强制实施某种形式的水印或来源追踪不仅是打击儿童性虐待材料的关键，也是打击错误信息的关键。

加州大学伯克利分校数字取证学教授哈尼·法里德 (Hany Farid) 表示：“你的表现取决于最低公分母，这就是为什么你需要监管制度。”

Farid 教授负责开发 PhotoDNA，这是微软于 2009 年推出的一款工具，许多科技公司现在都用它来自动查找和阻止已知的儿童性虐待图像。法里德表示，科技巨头在这项技术开发出来后实施速度太慢，导致儿童性虐待内容的祸害公开恶化多年。他目前正在与多家科技公司合作，创建追踪人工智能生成图像的新技术标准。 Stability AI 是计划实施该标准的公司之一。

另一个悬而未决的问题是，法院系统将如何处理针对人工智能生成的儿童性虐待材料的创作者提起的案件，以及人工智能公司将承担哪些责任。尽管针对“计算机生成的儿童色情制品”的法律已经制定了二十年，但从未在法庭上得到检验。早期的一项法律试图禁止当时所谓的虚拟儿童色情制品被击倒 2002年，最高法院因侵犯言论权而被起诉。

欧盟委员会、白宫和美国参议院司法委员会的成员已听取了斯坦福大学和索恩的调查结果的简报。蒂尔先生说，至关重要的是，公司和立法者必须在技术进一步发展到包括全动态视频等内容之前找到这些问题的答案。 “我们必须在那之前得到它，”蒂尔先生说。

Thorn 首席执行官 Julie Cordua 表示，研究人员的发现应该被视为一个警告，也是一个机会。 Cordua 女士认为，与那些晚了几年才意识到自己的平台助长儿童掠夺者行为的社交媒体巨头不同，我们仍然有时间来防止人工智能引发的虐待儿童问题失控。

“我们知道这些公司应该做什么，”科尔杜亚女士说。 “我们只需要这样做。”