作者:John P. Desmond,人工智能趋势编辑
联邦政府内的人工智能开发人员如何追求人工智能问责实践的两个经验在会上概述了 人工智能世界政府 本周在弗吉尼亚州亚历山大举行了虚拟和现场活动。

Taka Ariga,美国首席数据科学家兼总监 政府问责办公室, 描述了他在其机构内使用的人工智能问责框架,并计划向其他人提供。
布莱斯·古德曼 (Bryce Goodman),人工智能和机器学习首席策略师 国防创新单位 (DIU) 是国防部的一个部门,成立的目的是帮助美国军方更快地利用新兴商业技术,该部门描述了该部门将人工智能开发原理应用于工程师可以应用的术语的工作。
Ariga 是第一位被任命为美国政府问责办公室的首席数据科学家、GAO 创新实验室主任,他讨论了 人工智能问责框架 他通过召集政府、行业、非营利组织的专家以及联邦监察长官员和人工智能专家组成的论坛来帮助发展。
“我们正在采用审计师的视角来看待人工智能问责框架,”阿里加说。 “GAO 从事的是验证业务。”
制定正式框架的工作于 2020 年 9 月开始,涉及 60% 的女性(其中 40% 是代表性不足的少数族裔)进行了为期两天的讨论。这项工作是由于希望将人工智能问责框架扎根于工程师日常工作的现实中而推动的。由此产生的框架于 6 月首次发布,Ariga 称之为“1.0 版”。
寻求将“高空姿态”落地
“我们发现人工智能问责框架的姿态非常高,”阿里加说。 “这些都是值得称赞的理想和愿望,但它们对日常人工智能从业者意味着什么?虽然我们看到人工智能在政府中蓬勃发展,但仍然存在差距。”
“我们采用了生命周期方法”,该方法逐步经历设计、开发、部署和持续监控阶段。开发工作基于四个“支柱”:治理、数据、监控和性能。
治理审查组织为监督人工智能工作而采取的措施。 “首席人工智能官可能已经到位,但这意味着什么?这个人可以做出改变吗?是跨学科的吗?”在这个支柱的系统层面上,团队将审查各个人工智能模型,看看它们是否是“有意深思熟虑的”。
对于数据支柱,他的团队将检查训练数据的评估方式、其代表性如何以及其是否按预期运行。
对于性能支柱,团队将考虑人工智能系统在部署时产生的“社会影响”,包括是否存在违反《民权法》的风险。 “审计师在评估公平性方面有着长期的记录。我们将人工智能的评估建立在一个经过验证的系统之上,”阿里加说。
他强调持续监控的重要性,他说:“人工智能不是一种部署后就忘记的技术。”他说。 “我们正准备持续监控模型漂移和算法的脆弱性,并且我们正在适当扩展人工智能。”阿里加说,评估将决定人工智能系统是否继续满足需求“或者日落是否更合适”。
他参与了与 NIST 就整体政府人工智能问责框架进行的讨论。 “我们不想要一个混乱的生态系统,”阿里加说。 “我们希望采取整个政府的方法。我们认为,这是将高层想法推向对人工智能从业者有意义的高度的有用的第一步。”
DIU 评估拟议项目是否符合人工智能道德准则

在 DIU,古德曼参与了一项类似的工作,为政府内人工智能项目的开发者制定指导方针。
古德曼项目参与了人工智能在人道主义援助和灾难响应、预测性维护、反虚假信息和预测健康方面的实施。他领导负责任的人工智能工作组。他是奇点大学的教员,拥有广泛的政府内外咨询客户,并拥有牛津大学人工智能和哲学博士学位。
国防部于 2020 年 2 月通过了五个领域 人工智能的道德原则 经过 15 个月的咨询商业行业、政府学术界和美国公众的人工智能专家。这些领域是:负责任、公平、可追踪、可靠和可治理。
“这些都是精心构思的,但对于工程师来说,如何将它们转化为特定的项目要求并不明显,”古德在人工智能世界政府活动上关于负责任的人工智能指南的演讲中说道。 “这就是我们正在努力填补的空白。”
在 DIU 考虑一个项目之前,他们会仔细检查道德原则,看看它是否通过了审核。并非所有项目都如此。 “需要有一个选项来表明该技术不存在,或者问题与人工智能不兼容,”他说。
所有项目利益相关者,包括来自商业供应商和政府内部的利益相关者,都需要能够测试和验证并超越最低法律要求来满足这些原则。 “法律的发展速度不如人工智能,这就是为什么这些原则很重要,”他说。
此外,政府内部正在开展合作,以确保价值观得到保护和维护。古德曼说:“我们制定这些准则的目的不是试图达到完美,而是为了避免灾难性后果。” “让团队就最好的结果达成一致可能很困难,但让团队就最坏情况的结果达成一致会更容易。”
古德曼表示,DIU 指南以及案例研究和补充材料将“很快”在 DIU 网站上发布,以帮助其他人利用这些经验。
以下是 DIU 在开发开始前提出的问题
指南的第一步是定义任务。 “这是最重要的问题,”他说。 “只有当有优势时,才应该使用人工智能。”
接下来是一个基准,需要预先设置以了解项目是否已交付。
接下来,他评估候选数据的所有权。 “数据对于人工智能系统至关重要,也是可能存在很多问题的地方。”古德曼说道。 “我们需要签订一份关于谁拥有数据的合同。如果含糊不清,这可能会导致问题。”
接下来,古德曼的团队想要一个数据样本来评估。然后,他们需要知道如何以及为何收集信息。 “如果为一个目的给予同意,我们就不能在不重新获得同意的情况下将其用于其他目的,”他说。
接下来,团队询问是否确定了负责的利益相关者,例如如果组件出现故障可能会受到影响的飞行员。
接下来,必须确定负责的任务负责人。 “我们需要一个人来做这件事,”古德曼说。 “我们经常在算法的性能和可解释性之间进行权衡。我们可能必须在两者之间做出决定。此类决策具有道德成分和操作成分。因此,我们需要有人对这些决策负责,这与国防部的指挥链是一致的。”
最后,DIU 团队需要一个在出现问题时回滚的流程。 “我们需要对放弃以前的系统保持谨慎,”他说。
一旦以令人满意的方式回答了所有这些问题,团队就会进入开发阶段。
在吸取的经验教训中,古德曼说:“指标是关键。仅仅衡量准确性可能还不够。我们需要能够衡量成功。”
此外,还要使技术适应任务。 “高风险应用需要低风险技术。当潜在危害很大时,我们需要对技术抱有高度信心,”他说。
另一个教训是与商业供应商设定期望。 “我们需要供应商保持透明,”他说。 “当有人说他们拥有无法告诉我们的专有算法时,我们会非常警惕。我们将这种关系视为一种合作。这是我们确保人工智能负责任地开发的唯一方法。”
最后,“人工智能不是魔法。它不会解决所有问题。它应该只在必要时使用,并且只有当我们能够证明它会提供优势时才使用它。”

