作者:AI 趋势工作人员
语音识别背后的人工智能进步正在推动市场增长,吸引风险投资和初创企业融资,给老牌企业带来挑战。
语音识别设备的接受度和使用不断增长正在推动市场发展,根据 Meticulous Research 的最新报告,预计到 2025 年,全球语音识别设备市场规模将达到 268 亿美元。 分析洞察。不断发展的技术带来的好处包括更快的速度和准确性。

旧金山的 AssemblyAI 是处于这一新增长阵痛中的一家公司,它提供了一种语音识别 API,能够转录视频、播客、电话和远程会议。该公司由首席执行官 Dylan Fox 于 2017 年创立,并得到了创业加速器 Y Combinator 以及 NVIDIA 的支持。
作为一名高科技企业家,福克斯有着不同寻常的背景。他毕业于乔治华盛顿大学,获得工商管理、商业经济学和公共政策学位。他在旧金山的思科新兴产品实验室找到了一份机器学习软件工程师的工作,从事深度神经网络和机器学习方面的工作。他产生了 AssemblyAi 的想法,并从 Y Combinator 吸引了资金,这使他能够聘请数据科学家和数据工程师来推动这项技术的发展。
在采访中被问到 人工智能趋势 在谈到他如何从工商管理和经济学本科生转变为高科技企业家时,福克斯说:“我自学了如何编程,这使我走上了机器学习的道路。我一直在寻找更难的软件挑战,这导致了自然语言处理,这将我带到了思科。”当时他们正在为 Apple 企业版开发 Siri,
为了加快工作进度,思科正在寻求收购语音识别软件;福克斯坐在猫鸟的座位上进行搜索。例如,“我们研究了 Nuance”,该公司被认为是市场领导者,并且拥有比竞争对手更多的语音识别软件。 (微软以 196 亿美元收购 Nuance 预计将在年底完成。)这位年轻的、崭露头角的企业家并没有留下深刻的印象。 “从准确性和开发人员的角度来看,所有选项都非常糟糕,这真是太疯狂了,”他说。
Twilio 给他留下了深刻的印象,Twilio 是一家总部位于旧金山的公司,成立于 2008 年,该公司当年发布了 Twilio Voice API,用于拨打和接听托管在云中的电话。此后,该公司已筹集了 1.03 亿美元的风险投资。 “他们正在为开发人员制定良好的 API 的新标准,”Fox 说。
Fox 的想法是利用人工智能和机器学习来实现“超准确的结果,并使开发人员能够轻松地将 API 整合到他们的产品中。CallRail 是一个客户,提供呼叫跟踪和营销分析软件,该公司计划整合 AssembyAI 的 API,以深入了解人们打电话的原因。其他客户包括 NBC 和《华尔街日报》,使用该产品转录内容和采访,并提供隐藏式字幕。
“我们一直致力于打造尽可能接近人类语音识别的质量。这需要做大量的工作,”福克斯说。他预计到 2022 年将达到这个稳定水平。
他的目标是将语音识别技术融入到产品中并使其易于购买的公司。客户按使用量付费;对于转录的每一秒音频,AssemblyAI 只收取一小部分费用。客户按月付费。如果客户每月使用10小时,则费用约为9美元。如果客户每月使用一百万小时,则成本约为 90 万美元。
语音识别是一个热门市场。福克斯说:“许多新的初创公司正在成立,”这提供了机会。 “许多有趣的新业务都建立在语音数据的基础上。”
AssemblyAI 的产品可以检测仇恨言论和脏话等敏感话题,因此客户可以节省人工内容审核的费用。
当被要求描述他的技术有何独特之处时,福克斯表示,“我们是一支经验丰富的深度学习研究人员团队”,拥有来自宝马、苹果和 Facebook 等公司的经验。 “我们构建了非常大、非常准确的深度学习模型,其识别结果比传统的机器学习方法准确得多。我们使用先进的神经网络技术构建了非常大的模型。”他将该方法与 OpenAI 用于开发其 GPT-3 大语言模型的方法进行了比较。
此外,他们还在转录的基础上构建了人工智能功能,以提供音频和视频内容的摘要,可以对其进行搜索和索引。 “它不仅仅是转录,”福克斯说。
该公司目前拥有 25 名员工,预计四个月左右人数将增加一倍。生意一直很好。 “在线音频和视频数据呈爆炸式增长,客户希望能够利用它,因此我们看到了很大的需求,”福克斯说。
了解更多信息,请访问 装配人工智能。

