最近的成功 人工智能 基于 大语言模型 促使市场更加雄心勃勃地思考人工智能如何改变许多企业流程。 然而,消费者和监管机构也越来越关注他们的数据和人工智能模型本身的安全性。 安全、广泛的人工智能采用将要求我们在整个数据生命周期中采用人工智能治理,以便为消费者、企业和监管机构提供信心。 但这看起来像什么呢?
在大多数情况下,人工智能模型相当简单,它们接收数据,然后从这些数据中学习模式以生成输出。 ChatGPT 和 Google Bard 等复杂的大型语言模型 (LLM) 也不例外。 因此,当我们寻求管理和治理人工智能模型的部署时,我们必须首先关注治理人工智能模型所训练的数据。 这 数据治理 要求我们了解我们使用的所有数据的来源、敏感性和生命周期。 它是任何人工智能治理实践的基础,对于减轻许多企业风险至关重要。
在敏感数据上训练 LLM 模型的风险
大型语言模型可以在专有数据上进行训练,以满足特定的企业用例。 例如,公司可以采用 ChatGPT 并创建一个根据公司 CRM 销售数据进行训练的私有模型。 该模型可以部署为 Slack 聊天机器人,帮助销售团队找到诸如以下问题的答案: “去年 X 产品赢得了多少机会?“ 或者 “向我介绍产品 Z 与 Y 公司合作的机会的最新情况”。
您可以轻松想象这些法学硕士可以针对任意数量的客户服务、人力资源或营销用例进行调整。 我们甚至可能会看到这些增强的法律和医疗建议,将法学硕士变成医疗保健提供者使用的一线诊断工具。 问题是这些用例需要对敏感专有数据进行法学硕士培训。 这本质上是有风险的。 其中一些风险包括:
1. 隐私和重新识别风险
人工智能模型从训练数据中学习,但如果该数据是私人或敏感的怎么办? 大量数据可以直接或间接用于识别特定个人。 因此,如果我们正在使用有关企业客户的专有数据来培训法学硕士,我们可能会遇到使用该模型来泄露敏感信息的情况。
2. 模型内学习数据
许多简单的人工智能模型都有一个训练阶段,然后是一个部署阶段,在此期间训练会暂停。 LLM 有点不同。 他们会根据你与他们谈话的背景,从中学习,然后做出相应的回应。
这使得管理模型输入数据的工作变得更加复杂,因为我们不仅需要担心初始训练数据。 每次模型被查询的时候我们也会担心。 如果我们在对话期间向模型提供敏感信息怎么办? 我们可以识别敏感性并防止模型在其他情况下使用它吗?
3. 安全和访问风险
在某种程度上,训练数据的敏感性决定了模型的敏感性。 尽管我们已经建立了完善的数据访问控制机制(监控谁在访问哪些数据,然后根据情况动态屏蔽数据),但人工智能部署安全性仍在不断发展。 尽管这个领域出现了一些解决方案,但我们仍然无法根据使用模型的人的角色完全控制模型输出的敏感性(例如,模型识别出特定输出可能是敏感的,然后可靠地改变输出基于谁正在查询法学硕士)。 因此,这些模型很容易泄露模型训练中涉及的任何类型的敏感信息。
4、知识产权风险
当我们用 Drake 的每首歌曲训练一个模型,然后模型开始生成 Drake 的抄袭作品时,会发生什么? 该模型是否侵犯了Drake? 你能证明该模型是否以某种方式复制了你的作品吗?
这个问题 监管机构仍在研究中,但它很容易成为任何形式的主要问题 生成式人工智能 从艺术知识产权中学习。 我们预计这将在未来引发重大诉讼,并且必须通过充分监控训练中使用的任何数据的 IP 来缓解这种情况。
5. 同意和 DSAR 风险
现代数据隐私监管背后的关键理念之一是同意。 客户必须同意使用其数据,并且必须能够请求删除其数据。 这给人工智能的使用带来了一个独特的问题。
如果您在敏感客户数据上训练人工智能模型,该模型就会成为该敏感数据的可能暴露源。 如果客户要撤销公司对其数据的使用(GDPR 的要求),并且该公司已经根据数据训练了模型,则该模型本质上需要退役并重新训练,而无法访问已撤销的数据。
要使法学硕士用作企业软件,需要管理培训数据,以便公司可以信任数据的安全性,并对法学硕士使用数据的情况进行审计跟踪。
法学硕士的数据治理
我见过的LLM架构的最佳细分来自 这篇文章作者:a16z (下图)。 它确实做得很好,但是作为一个将所有时间都花在数据治理和隐私上的人,“上下文数据→数据管道”的左上角部分缺少一些东西: 数据治理。
如果你添加 IBM 数据治理 解决方案,左上角看起来更像这样:
这 数据治理解决方案 由 IBM Knowledge Catalog 提供支持,提供多种功能来帮助促进高级数据发现、自动化数据质量和数据保护。 你可以:
- 自动发现数据并添加业务上下文以实现一致的理解
- 通过对数据进行编目来创建可审核的数据清单,以实现自助数据发现
- 识别并主动保护敏感数据,以满足数据隐私和监管要求
上面的最后一步是经常被忽视的一步:隐私增强技术的实施。 在将敏感内容输入人工智能之前,我们如何去除敏感内容? 您可以将其分为三个步骤:
- 识别需要取出的数据的敏感组成部分(提示:这是在数据发现期间建立的,并且与数据的“上下文”相关)
- 以仍然允许使用数据的方式取出敏感数据(例如,保持引用完整性、大致等效的统计分布等)
- 记录 1) 和 2) 中发生的情况,以便该信息在模型使用数据时跟随数据。 这种跟踪对于可审计性很有用。
使用 IBM watsonx 和 data Fabric 为生成式 AI 构建受管理的基础
和 IBM沃森克斯IBM 取得了快速进展,将生成式 AI 的力量交到了“AI 构建者”手中。 IBM watsonx.ai 是一个企业级工作室,汇集了传统的 机器学习 (ML) 和新 生成式人工智能 能力由 基础模型。 Watsonx 还包括 watsonx.data — 一个基于特定用途的数据存储 开放式湖屋建筑。 它由查询、治理和开放数据格式支持,以跨混合云访问和共享数据。
A 强大的数据基础 对于人工智能实施的成功至关重要。 借助 IBM Data Fabric,客户可以使用数据集成和数据治理功能为 AI 构建正确的数据基础架构,以获取、准备和组织数据,然后 AI 构建者可以使用 watsonx.ai 和 watsonx.data 轻松访问数据。
IBM 提供了一个可组合的 数据结构解决方案 作为可部署在第三方云上的开放且可扩展的数据和人工智能平台的一部分。 该解决方案包括数据治理、数据集成、数据可观测性、数据沿袭、数据质量、实体解析和数据隐私管理功能。
企业人工智能数据治理入门
人工智能模型,特别是法学硕士,将成为未来十年最具变革性的技术之一。 随着新的人工智能法规针对人工智能的使用制定了指导方针,不仅管理和治理人工智能模型至关重要,而且同样重要的是,管理放入人工智能的数据也至关重要。
预约咨询,讨论 IBM Data Fabric 如何加速您的 AI 之旅