越大并不总是越好：混合人工智能模式如何支持更小的语言模型

随着大型语言模型 (LLM) 进入通用语言，人们已经发现了如何使用访问它们的应用程序。现代人工智能工具可以生成、创建、总结、翻译、分类甚至对话。生成人工智能领域的工具使我们能够在从现有工件中学习后生成对提示的响应。

没有太多创新的一个领域是在最边缘和受限的设备上。我们看到一些版本的人工智能应用程序在移动设备上本地运行，具有嵌入式语言翻译功能，但我们还没有达到法学硕士在云提供商之外产生价值的程度。

然而，还有一些较小的模型有潜力在移动设备上创新新一代人工智能功能。让我们从混合人工智能模型的角度来研究这些解决方案。

LLM 的基础知识

法学硕士是一类特殊的人工智能模型，为这一新范式提供动力。自然语言处理 (NLP) 支持此功能。为了培训法学硕士，开发人员使用来自各种来源（包括互联网）的大量数据。处理的数十亿个参数使得它们如此之大。

虽然法学硕士了解广泛的主题，但他们仅限于接受培训的数据。这意味着它们并不总是“最新的”或准确的。由于其规模，法学硕士通常托管在云端，这需要具有大量 GPU 的强大硬件部署。

这意味着想要从私人或专有业务数据中挖掘信息的企业无法立即使用法学硕士。要回答具体问题、生成摘要或创建摘要，他们必须将其数据纳入公共法学硕士或创建自己的模型。将自己的数据附加到LLM的方法被称为检索增强生成，或 RAG 模式。它是一种将外部数据添加到 LLM 的 gen AI 设计模式。

是不是越小越好？

电信公司、医疗保健公司或石油和天然气公司等在专业领域运营的企业拥有激光焦点。虽然他们可以而且确实从典型的一代人工智能场景和用例中受益，但较小的模型会更好地为他们服务。

以电信公司为例，一些常见的用例是联络中心的人工智能助理、服务交付中的个性化产品以及用于增强客户体验的人工智能聊天机器人。帮助电信公司提高网络性能、提高 5G 网络频谱效率或帮助他们确定网络中特定瓶颈的用例最好由企业自己的数据提供服务（而不是公共法学硕士）。

这让我们得出这样的观念：越小越好。现在有小语言模型（SLM），其规模比 LLM 更“小”。 SLM 接受数十亿个参数的训练，而 LLM 接受数百亿个参数的训练。更重要的是，SLM 接受了特定领域数据的训练。他们可能没有广泛的背景信息，但他们在自己选择的领域表现得非常好。

由于尺寸较小，这些模型可以托管在企业的数据中心而不是云中。 SLM 甚至可以在单个 GPU 芯片上大规模运行，从而节省数千美元的年度计算成本。然而，随着芯片设计的进步，什么只能在云中运行或只能在企业数据中心运行之间的界限变得不那么清晰。

无论是出于成本、数据隐私还是数据主权的考虑，企业可能希望在其数据中心运行这些 SLM。大多数企业不喜欢将数据发送到云端。另一个关键原因是性能。 边缘人工智能 尽可能接近数据执行计算和推理，使其比通过云提供商更快、更安全。

值得注意的是，SLM 需要较少的计算能力，非常适合在资源受限的环境甚至移动设备上部署。

本地示例可能是 IBM Cloud® 卫星位置，该位置与托管 LLM 的 IBM Cloud 具有安全高速连接。电信公司可以在其基站托管这些 SLM，并向其客户提供此选项。这完全取决于优化 GPU 的使用，因为数据必须传输的距离会缩短，从而提高带宽。

你能有多小？

回到最初的问题：能够在移动设备上运行这些模型。移动设备可能是高端手机、汽车甚至机器人。设备制造商发现运行 LLM 需要大量带宽。微型法学硕士是规模较小的模型，可以在手机和医疗设备上本地运行。

开发人员使用低秩适应等技术来创建这些模型。它们使用户能够根据独特的要求微调模型，同时保持可训练参数的数量相对较少。事实上，GitHub 上甚至还有一个 TinyLlama 项目。

芯片制造商正在开发可以通过图像扩散和知识蒸馏运行精简版 LLM 的芯片。片上系统 (SOC) 和神经处理单元 (NPU）协助边缘设备运行 gen AI 任务。

虽然其中一些概念尚未投入生产，但解决方案架构师应该考虑当今的可能性。 SLM 与 LLM 合作可能是一个可行的解决方案。企业可以决定在其行业中使用现有的较小的专用人工智能模型，或者创建自己的模型以提供个性化的客户体验。

混合人工智能是答案吗？

虽然在本地运行 SLM 似乎很实用，而且移动边缘设备上的微型 LLM 很诱人，但如果模型需要更大的数据集来响应某些提示怎么办？

混合云计算提供了两全其美的优势。这同样适用于人工智能模型吗？下图展示了这个概念。

当较小的模型无法满足要求时，混合 AI 模型可以提供在公共云中访问 LLM 的选项。启用此类技术是有意义的。这将允许企业通过使用特定于领域的 SLM 来保证其数据在其场所内的安全，并且他们可以在需要时访问公共云中的 LLM。随着配备 SOC 的移动设备的功能变得越来越强大，这似乎是分配生成式 AI 工作负载的更有效方式。

IBM® 最近宣布在其产品上推出开源 Mistral AI 模型沃森™平台。这种紧凑的法学硕士需要更少的资源来运行，但与传统的法学硕士相比，它同样有效并且具有更好的性能。 IBM 还发布了 Granite 7B 模型，作为其精心策划、值得信赖的基础模型系列的一部分。

我们的观点是，企业应该专注于利用内部企业数据构建小型的、特定领域的模型，以区分其核心能力并利用数据中的见解（而不是冒险构建自己的通用法学硕士，他们可以轻松地从多个提供商处访问这些模型））。