在从网络上抓取训练其生成人工智能模型所需的数据时,字节跳动似乎急于弥补损失的时间。
根据专门为拥有在线数据的公司进行机器人管理的 Kasada 公司的研究,视频应用 TikTok 的中国母公司在 4 月份的某个时候发布了自己的网络爬虫或抓取机器人,称为 Bytespider。该机器人的存在也得到了监控爬虫机器人的“黑暗访客”的证实。
研究显示,字节跳动的机器人已迅速成为互联网上最具攻击性的爬虫之一(如果不是唯一)。它抓取数据的速度是其他大公司的许多倍,例如(谷歌,元, 亚马逊、OpenAI 和 Anthropic,它们使用 他们自己的爬虫机器人 帮助创建和改进他们的大语言或多模式模型,称为 LLM 或 LMM。
Kasada 首席执行官 Sam Crowther 表示,自从 Bytespider 出现以来,它抓取数据的速度大约是 GPTbot 的 25 倍,GPTbot 为 OpenAI 的 ChatGPT 平台和底层模型抓取数据。 Bytespider 的抓取速度是来自 Anthropic 的 ClaudeBot 的 3,000 倍,后者运营着 Claude 平台。
Kasada 表示,几个月过去了,Bytespider 变得更加激进。数据显示,过去六周内,Bytespider 的抓取活动均出现大幅增长。
TikTok 和字节跳动的代表没有回复寻求置评的电子邮件。
尽管 TikTok 可能在未来几个月在美国被禁止,但字节跳动仍采取了激进的抓取行动。乔·拜登总统签署了一项立法,要求字节跳动出于国家安全考虑出售 TikTok,或者将其关闭。
Bytespider 机器人,很像 OpenAI 和 Anthropic 的机器人, 不尊重robots.txt,研究表明。 Robots.txt 是发布商可以放入网站中的一行代码,虽然不以任何方式具有法律约束力,但应该向抓取机器人发出信号,表明它们无法获取该网站的数据。
网络抓取可以追溯到几十年前,主要是通过搜索引擎收集网页链接。但生成式人工智能工具的兴起增加了一个新的维度,并使这种实践成为一种 诉讼的主要来源 和 争议。作品被抄袭的个人和组织辩称,他们的版权在此过程中受到了侵犯。生成式人工智能工具的所有模型都是根据大量在线数据进行训练的,实际上是网络上可用的所有数据,特别是书面信息。科技公司使用抓取机器人基本上免费复制所有内容并将其放入他们的数据集中。
“这就像他们正在拼命追赶,”克劳瑟谈到 Bytespider 的积极抓取行为时说道。就在去年,字节跳动 据报道远远落后 在生成式人工智能竞赛中,它使用 OpenAI 帮助构建字节跳动自己的法学硕士,这违反了 OpenAI 的服务条款。今年早些时候,字节跳动发布了基于聊天的LLM 叫杜阿博,但该模型的工作将在 Bytespider 收集的最新训练数据积累之前完成。
据一位知情人士透露,字节跳动正在攻读新的法学硕士,这一点“很明显”。至于字节跳动计划通过新的法学硕士做什么,一位熟悉该公司雄心的人士表示,其中一个目标与 TikTok 的搜索功能有关。
上周,TikTok 发布了对其当前搜索功能的更新,重点关注 广告关键字,基本上可以让广告商实时搜索 TikTok 上的热门词汇。它允许营销人员制作带有相关关键字的广告,表面上可以帮助广告出现在更多用户的屏幕上。
据了解该公司雄心的人士透露,新的人工智能模型包含有关最新互联网趋势和主题的数据,可以进一步扩展和改善 TikTok 的搜索环境。
该人士表示:“考虑到受众和使用量,TikTok 的搜索环境是一个完全可竞标的关键词和主题空间,这对于现在在谷歌上花费大量资金的人来说将非常有趣。” 。
您是 TikTok 或字节跳动的员工,还是有洞察力或有秘诀可以分享的人?联系卡利 海斯 安全地通过 信号 请致电 +1-949-280-0267 或发送电子邮件至 kali.hays@fortune.com。