多年来,IBM 一直在使用尖端人工智能来改善 Masters 应用程序中的数字体验。 我们教了一个 AI 模型来分析大师赛视频,并在每一轮比赛结束几分钟后为每位球员制作精彩片段。 我们建立了模型,为每个球洞的每个球员生成得分预测。 但我相信,我们今年构建的“AI Commentary”解决方案是我们与大师赛 25 年合作历史上所做的最重要的工作。
AI Commentary 是一项新功能,可以自动将语音评论添加到每个球员在每个洞的每次击球的视频中。 在比赛过程中,它将在 20,000 多个视频中讲述高尔夫动作,这些视频可通过 Masters 应用程序上的“我的小组”功能访问。 它旨在增强用户体验。 但我认为这个解决方案如此重要的原因不是因为它做了什么,而是因为它是如何做的。
AI Commentary 功能是一种生成式 AI,它由一个大型语言模型构建而成,该模型是在大量语言数据集上进行训练的。 去年 11 月,当聊天机器人应用程序在新闻周期中占据主导地位时,全世界的目光首次被大语言模型的力量所吸引。 从那时起,关于这些看似理解单词、句子和概念之间复杂关系的强大模型的实际应用出现了无数问题。 我认为 Masters 应用程序中的 AI Commentary 功能提供了一些答案。
早在数以百万计的人开始在线生成大学论文和幽默俳句之前,IBM 就忙于研究如何使大型语言模型达到企业级水平。 他们首先需要的是领域专业知识。 由于大型语言模型是在大量未标记数据上进行训练的,因此它们可以快速适应各种任务。 但首先,他们需要获得“领域专业知识”。 换句话说,一个通用的大型语言模型可能能够对 John Steinbeck 的 伊甸园之东,但如果没有领域专业知识,它无法告诉您特定银行的客户服务代表应该如何管理透支账户的客户。 或者石油钻井平台的工程师应该如何处理其中一个仪表上的高压读数。
第二个需求密切相关,真正适用于企业环境中使用的任何人工智能模型。 为了将大型语言模型部署到内部操作或面向客户的应用程序中,它必须提供可靠、可重复的结果。 它不能是错误的、冒犯性的或无法解释的。 根据我的经验,确保这一点的最佳方法是利用来自整个企业的精选、准确和相关的源数据。 “垃圾进,垃圾出”从未像现在这样真实。
以AI Commentary为例,我们开始的大语言模型已经可以识别、总结和生成文本。 但它不懂高尔夫。 它绝对不理解大师们。 例如,在奥古斯塔国家高尔夫俱乐部,沙坑被称为沙坑。 原石被称为二次切割。 粉丝被称为赞助人。 因此,我们的团队开始将高尔夫领域的专业知识和大师领域的专业知识添加到基础模型中。 两名具有高尔夫知识的 IBM 顾问仅用了三个小时就为培训提供了特定领域的数据。 该模型从那里开始学习和完善。 (在不久的过去,构建这样的 AI 解决方案可能需要花费同样的顾问数月甚至数年的时间。)
为了在比赛期间制作口头评论,该模型利用大师赛“批准”的数据源,包括来自官方提供者的数据——包括击球数据、得分、统计数据,当然还有视频——来自各种批准(可信)的来源. AI 将每个镜头的元数据转换为描述性文本元素。 该文本通过两个神经网络,其中执行数亿次计算以产生数千个可能的句子。 然后模型选择最好的句子,将该句子传递到 Watson Text-to-Speech 服务,将音频与剪辑中的动作对齐,甚至在不同的剪辑中改变语言和句子结构。
自去年年底该术语首次进入公共词典以来,许多人都想知道大型语言模型的实际应用。 我相信 Masters 应用程序中的 AI Commentary 是我们可以期待的用例类型的一个例子:基于可信数据构建的专用 AI 模型,旨在提供有关特定主题的有用、准确的信息。 而且我相信会有数千个(如果不是数百万个的话),因为 AI 开发人员只需要添加他们所在行业、公司或部门的领域专业知识即可快速构建它们。 有时,技术的原始能力令我们震惊。 但是,直到您看到这些功能解决了一个特定问题,您才开始了解它们将对您的业务产生的影响。 因此,当你本周在 Masters 应用程序中享受 AI 评论功能时,想想这项技术不仅可以改变比赛,还可以改变世界的潜力。