这是《非共产主义宣言》的作者、以比特币为中心的语言模型 Spirit of Satoshi 的创始人 Aleksandar Svetski 的观点社论。
语言模型风靡一时,许多人只是采用基础模型(最常见的是 ChatGPT 或类似的模型),然后将它们连接到向量数据库,这样当人们向他们的“模型”提出问题时,它就会根据上下文给出答案来自这个向量数据库。
什么是 矢量数据库? 我将在以后的文章中更详细地解释这一点,但理解它的一个简单方法是将其作为存储为数据块的信息集合,语言模型可以查询并使用它来产生更好的响应。 想象一下“比特币标准”,分成段落,并存储在这个矢量数据库中。 你向这个新“模型”提出一个关于货币历史的问题。 底层模型实际上会查询数据库,选择最相关的上下文(来自“比特币标准”的某些段落),然后将其输入到底层模型的提示中(在许多情况下,ChatGPT)。 然后模型应该用更多的响应 相关的 回答。 这很酷,在某些情况下工作正常,但并不能解决底层模型在训练过程中遭受的主流噪音和偏见的根本问题。
这就是我们在“中本聪精神”中试图做的事情。 大约六个月前我们已经建立了一个类似于上面描述的模型,你可以去尝试一下 这里。 你会发现它的一些答案还不错,但它无法进行对话,而且当涉及到垃圾币和真正的比特币爱好者会知道的事情时,它的表现非常糟糕。
这就是为什么我们改变了方法并从头开始构建完整的语言模型。 在这篇文章中,我将对此进行一些讨论,让您了解它的含义。
更“基础”的比特币语言模型
构建更加“基础”的语言模型的使命仍在继续。 事实证明,它比我想象的还要复杂,而不是来自一个 “技术复杂” 的角度,但更多的是从 “该死的,这太乏味了” 立场。
一切都与数据有关。 不是数据的数量,而是数据的质量和格式。 您可能听过书呆子谈论过这一点,直到您真正开始将这些东西输入模型并得到结果……这不一定是您想要的结果之前,您并不会真正欣赏它。
数据管道是所有工作的所在。 你必须 收集 和 策展 数据,那么你必须 提炼 它。 然后你必须以编程方式 干净的 它(不可能手动进行首次运行清理)。
然后你获取这些经过编程清理的原始数据,并且你必须 转换 它分成多个数据 格式 (想想问答对,或者语义连贯的块和段落)。 如果您正在处理大量数据(语言模型就是这种情况),那么您还需要以编程方式执行此操作。 有趣的是,其他语言模型实际上也适合这项任务! 您可以使用语言模型来构建新的语言模型。
然后,因为那里可能会留下大量垃圾,以及您用于以编程方式转换数据的任何语言模型生成的不相关垃圾,因此您需要做更强烈的处理 干净的。
这 是你需要获得人类帮助的地方,因为在现阶段,人类似乎仍然是地球上唯一拥有区分和确定所需机构的生物 质量。 算法可以做到这一点,但在语言方面还不太好——尤其是在更细致、更具比较性的背景下——这正是比特币所处的位置。
无论如何,大规模地做到这一点是非常困难的,除非你有一大群人来帮助你。 这支军队可以是某人花钱雇来的雇佣兵,比如 OpenAI 比上帝更有钱,或者他们可以是传教士,这就是比特币社区的普遍情况(我们非常幸运并感激中本聪精神)。 个人浏览数据项并一一选择是否保留、丢弃或修改数据。
一旦数据经过这个过程,你最终会在另一端得到一些干净的东西。 当然,这里还涉及更多复杂的事情。 例如,您需要确保清除那些试图破坏清理过程的不良行为者,或者丢弃他们的输入。 您可以通过一系列方式来做到这一点,每个人的做法都略有不同。 你可以对进来的人进行筛选,你可以建立某种内部清理共识模型,以便保留或丢弃数据项需要满足阈值,等等。在中本聪精神,我们正在做一个混合两者兼而有之,我想我们将在未来几个月看到它的效果如何。
现在……一旦你得到了这些漂亮的干净数据,就结束了“管道,”然后你需要 格式 再次准备“训练“ 一个模型。
最后阶段是图形处理单元 (GPU) 发挥作用的阶段,也是大多数人在听到构建语言模型时所想到的。 我所介绍的所有其他内容通常都会被忽略。
这个冲刺阶段涉及训练一系列模型,并处理参数、数据混合、数据量、模型类型等。这很快就会变得昂贵,所以你最好有一些该死的好数据,并且你’最好从较小的模型开始,然后逐步发展。
这都是实验性的,你从另一端得到的是…… 结果……
我们人类能想象出的东西真是不可思议。 反正…
在 Spirit of Satoshi,我们的成果仍在酝酿之中,我们正在通过以下几种方式进行努力:
- 我们要求志愿者帮助我们收集和整理与模型最相关的数据。 我们正在这样做 中本存储库。 这是关于比特币的所有书籍、论文、文章、博客、YouTube 视频和播客的存储库,以及弗里德里希·尼采、奥斯瓦尔德·斯宾格勒、乔丹·彼得森、汉斯·赫尔曼·霍普、默里·罗斯巴德、卡尔·荣格等外围设备的作品。圣经等
您可以在那里搜索任何内容并访问 URL、文本文件或 PDF。 如果志愿者找不到某些内容,或者觉得需要包含某些内容,他们可以“添加”一条记录。 如果他们添加垃圾,则不会被接受。 理想情况下,志愿者将以 .txt 文件形式提交数据以及链接。
- 社区成员还可以 实际上帮助我们清理数据,并赚取 sats。 还记得我提到的传教士阶段吗? 嗯,就是这样。 作为其中的一部分,我们将推出一个完整的工具箱,参与者将能够玩“FUD buster”和“排名回复”以及各种其他游戏。 目前,它就像数据接口上的 Tinder 式保留/丢弃/评论体验,以清理管道中的内容。
对于那些花了数年时间学习和理解比特币的人来说,这是一种将“工作”转化为 Sat 的方法。 不,他们不会致富,但他们可以为他们认为有价值的项目做出贡献,并一路赚钱。
概率程序,而不是人工智能
在之前的几篇文章中,我认为“人工智能”是一个有缺陷的术语,因为虽然它 是 人工的,是 不是 智能——此外,围绕通用人工智能(AGI)的恐惧色情完全没有根据,因为它实际上不存在自发感知并杀死我们所有人的风险。 几个月过去了,我更加确信这一点。
我回想起约翰·卡特的优秀文章 “我已经厌倦了生成式人工智能” 他是如此的准确。
就这一点来说,人工智能的东西确实没有什么神奇的或智能的。 我们玩得越多,花在实际构建自己的时间上的时间就越多,我们就越意识到这里没有感知能力。 没有发生任何实际的思考或推理。 没有代理机构。 这些只是“概率程序”。
它们的标签方式以及使用的术语,无论是“人工智能”还是“机器” 学习”或“代理人”,实际上是大多数恐惧、不确定性和怀疑所在。
这些标签只是试图描述一组过程,这些过程实际上与人类所做的任何事情都不同。 语言的问题在于我们立即开始将其拟人化以理解它。 在这样做的过程中,正是观众或听众为弗兰肯斯坦的怪物注入了生命。
我有 不 生活不是你用自己的想象赋予的。 这与任何其他想象中的末世威胁非常相似。
(插入有关气候变化、外星人或 Twitter/X 上发生的其他事情的示例。)
当然,这对于想要使用任何此类工具/程序/机器达到自己目的的全球同性官僚来说非常有用。 他们从会走路之前就开始编造故事和叙述,而这只是最新的一个。 而且因为大多数人都是旅鼠,他们会相信那些听起来比他们智商高几分的人所说的话,他们会利用这一点来为自己谋利。
我记得谈论过即将出台的监管。 我注意到上周或前一周,现在有了生成人工智能的“官方指南”或类似的东西——这是由我们的官僚统治者提供的。 这意味着什么,没有人真正知道。 它与所有其他规定一样,都用同样无意义的语言来掩盖。 最终结果再次是,“我们制定规则,我们可以按照我们想要的方式使用工具,你必须按照我们告诉你的方式使用它,否则。”
最可笑的是,一群人为此欢呼雀跃,认为他们在某种程度上更安全,远离了想象中的怪物,但事实并非如此。 事实上,他们可能会认为这些机构“将我们从通用人工智能中拯救出来”,因为它从未实现。
这让我想起了这一点:
当我在推特上发布上面的图片时,有很多白痴真诚地相信这些灾难的避免是官僚干预增加的结果,这告诉我我需要了解该平台上集体智慧的水平。
尽管如此,我们还是来了。 再次。 同样的故事,新的角色。
唉——除了专注于我们自己的事情之外,我们对此无能为力。 我们将继续做我们打算做的事情。
总的来说,我对“GenAI”不再那么兴奋,而且我感觉到,随着人们的注意力再次转移到外星人和政治上,很多炒作正在消退。 我也不那么相信这里有一些实质性的变革——至少达到了我六个月前所认为的程度。 也许我会被证明是错的。 我确实认为这些工具具有潜在的、未开发的潜力,但也仅此而已:潜在的。
我认为我们必须更现实地对待它们是什么 (与其说人工智能,不如称其为“概率程序”) 这实际上可能意味着我们花更少的时间和精力在白日梦上,而更多地专注于构建有用的应用程序。 从这个意义上说,我确实对某些事情确实实现保持好奇和谨慎乐观,并相信在比特币、概率程序和 Nostr 等协议的联系中,一些非常有用的东西将会出现。
我希望我们能够参与其中,如果您有兴趣,我也希望您也参与其中。 为此,我将让大家自行安排时间,并希望这 10 分钟的内容对了解构建语言模型所需的内容是有用的。
这是 Aleksander Svetski 的客座文章。 所表达的观点完全是他们自己的,并不一定反映 BTC Inc 或比特币杂志的观点。