由分散的AI解决方案提供商开发的人工智能培训图像数据集在Google的平台Kaggle上取得了巨大的成功。
Oort的多种工具Kaggle数据集 清单 于4月初发布;从那时起,它已爬上多个类别的第一页。 Kaggle是一个用于数据科学和机器学习竞赛,学习与协作的Google拥有的在线平台。
Crypto AI Project Openledger的核心贡献者Ramkumar Subramaniam告诉Cointelegraph,“头版Kaggle排名是一个强烈的社交信号,表明数据集正在吸引数据科学家,机器学习工程师和实践者的正确社区。”
OORT的创始人兼首席执行官Max Li告诉Cointelegraph,该公司“观察到了通过分散模型收集的培训数据验证其早期需求和相关性的有希望的参与指标”。他补充说:
“社区的有机利益,包括积极的用法和贡献 – 证明了分散的,社区驱动的数据管道如何在不依靠集中式中介机构的情况下实现快速分发和参与。”
李还表示,在接下来的几个月中,OORT计划发布其他多个数据集。其中包括一个车内语音命令数据集,一个用于智能主页语音命令,另一个用于DeepFake视频,旨在改善AI驱动的媒体验证。
第一页多个类别
CoIntelegraph已独立验证了有关的数据集,该数据集已在本月初在Kaggle的General AI,零售和购物,制造业和工程类别中进入第一页。在发布时,它在5月6日和5月14日的另一项可能无关的数据集更新之后丢失了这些职位。
在认识到这一成就的同时,Subramaniam告诉Cointelegraph,“这不是现实领养或企业级质量的明确指标。”他说,将Oort的数据集设置为“不仅是排名,而且是数据集背后的出处和激励层。”他解释说:
“与可能依靠不透明管道的集中式供应商不同,透明的,象征性的启发系统提供可追溯性,社区策划,并有可能持续改进的潜力,假设有正确的治理。”
AI Venture Capital Firm Generative Ventures的合伙人Lex Sokolin说,尽管他认为这些结果并不难复制,但“这确实表明加密项目可以使用分散的激励措施来组织经济有价值的活动。”
高质量的AI培训数据:稀缺商品
数据 出版 AI研究公司Epoch AI估计,人类生成的文本AI培训数据将在2028年耗尽。压力足够高,以至于投资者现在是 调解 交易向AI公司授予版权材料的权利。
有关越来越稀缺的AI培训数据以及它如何限制空间的增长的报告已经 循环 多年。虽然综合(AI生成的)数据越来越多地使用至少一定程度的成功使用,但人类数据仍在很大程度上被视为更好的替代性,更高质量的数据,从而导致更好的AI模型。
专门针对AI培训的图像,随着目的破坏培训工作,事情变得越来越复杂。旨在保护他们的图像免于未经许可的人工智能培训, 睡衣 允许用户“毒化”其图像并严重降低模型性能。

Subramaniam说:“我们进入了一个高质量图像数据将变得越来越稀缺的时代。”他还认识到,由于图像中毒的日益普及,这种稀缺性变得更加可怕:
“随着图像掩盖和对抗水印等技术的兴起,开源数据集面临双重挑战:数量和信任。”
在这种情况下,Subramaniam说,可验证和社区的激励数据集“比以往任何时候都更有价值”。据他说,这些项目“不仅可以成为数据经济中AI一致性和出处的支柱。”