〓【球友会】分享IT计算机各类电子书,包括各类编程语言,人工智能,机器学习、深度学习以及各类大数据、算法等内容的电子书
2 万字复盘:OpenAI 的技术底层逻辑
2 万字复盘:OpenAI 的技术底层逻辑

2 万字复盘:OpenAI 的技术底层逻辑

自 ChatGPT 发布以来,AI 领域的技术、产品和创业生态几乎在以周为单位迭代。OpenAI 作为这次 AI 热潮的导火索和行业事实的领先者(且可能长期保持),对行业生态有广泛和深远的影响。

本文从 OpenAI 的 AGI 愿景出发,首先分析了在该愿景的驱动下 OpenAI 是如何一步步依据 Scale、Generative Model 两个重要技术判断形成了我们所能观察到的 LLM 发展路线,并对此技术路线的底层逻辑进行了分析;在对愿景和技术选型分析的基础上,报告将 OpenAI 的历史行为与此技术路线进行了拟合,尝试解释了许多让人困惑的历史行为,并更进一步对其未来的行为进行了推演;最后报告对基于大模型的生态和产业链的发展给出了自己的分析并提出了一些供大家思考的问题。

这是我们对 OpenAI 进行全面、系统、深度逆向工程后的产物,提供了一种从底层愿景出发来分析 OpenAI 历史行为和未来行动预测的独特视角,希望能够对国内正在从事大模型研究、开发、投资的工作者们带来帮助。

在开始分析前,我们将 OpenAI 不同时期对自己 AGI 目标的描述进行回顾:

第一个变化是增加了对 AGI 的描述,指明了 AGI 的智慧程度会高于人类智能。

AGI 的概念目前并没有已形成共识的精准定义。前者变化是 OpenAI 基于过去几年的探索给出的判断,其追求 AGI 的本质没有改变。后者则是 OpenAI 在更深入的技术探索后,进行了股权结构和商业化策略的调整,背后逻辑后续会详细展开。

总体而言,鉴于 OpenAI 的历史言论和行动保持高度一致性,我们有理由相信:OpenAI 一直并将继续以追求普惠的 AGI 为第一目标——这个假设是本文后续进行生态推演的基本前提。

在 AGI 愿景下,我们看到 OpenAI 在过去 5 年坚定地选择了用 GPT(Generative Pre-trainning Transformer)架构持续加注 LLM(Large Language Model)的技术路径。这个期间 OpenAI 孤独且惊人的巨大投入,让外部觉得这是信仰的程度。但如果理解了 OpenAI 的技术选择本质回头看,我们会发现这其实是 OpenAI 在对技术的深刻洞见下的理性判断。

Ilya 此期间的所有演讲都强调了 Scale 的重要性。其实回溯 2012 年让 Ilya 等人一战成名的 AlexNet,其算法核心本质也是利用 GPU 的并行计算能力将神经网络 Scale 。将基础算法规模化的理念贯穿了 Ilya 近十年的研究。合理推测,正因为对 Scale 的追求,Ilya 和 OpenAI 才会如此强调 RL 和 Generative Model 的重要性。

举例来说,同样是在 2015 年前后打 Dota2,AlphaGo 选择了结合搜索技术的变形式 RL 来提高算法表现,而 OpenAI Five 选择了纯粹的 RL 上 Scale 的方法(期间发布的RL Agent 在后来也起到了巨大的作用)。

后来 2019 年 Rich Sutton 发布的知名文章《The Bitter Lesson》也指出:纵观过去70年的AI发展历史,想办法利用更大规模的算力总是最高效的手段。

也正是在算法 Scale的理念下,OpenAI 极度注重算法的工程化和工程的算法思维,搭建了工程算法紧密配合的团队架构和计算基础设施。

在 OpenAI 2016 年 6 月的发文《Generative Model》中分析指出:OpenAI 的一个核心目标是理解世界(物理和虚拟),而 Generative Model(生成式模型)是达成这个目标的最高可能性路径。

这篇文章在当时没有受到太多关注甚至被 ICLR 2018 拒稿,但我们分析认为,这个研究成果对 OpenAI 后续的研究产生了深远的影响,也为下一阶段 OpenAI all-in GPT 路线 阶段二:技术路径收敛,探索GPT路径工程极限(2017年6月~2022年12月)

2017 年Transformer 横空出世,Transformer 对 language model 的并行训练更友好,补齐了 OpenAI 需要的最后一环。自此,OpenAI 确立了以GPT 架构的 LLM为主要方向,逐渐将资源转移至 LLM,开启了 GPT 算法路径的工程极限探索之途。这个阶段 OpenAI 对于 GPT 路径的巨额押注在当时外界看来是不可思议的举动。

商业化上,OpenAI 推出了商业化 API 接口。GPT-3 不仅生成式任务表现优越,在理解类任务上已经开始赶超,尤其是 few-shot-learning(少样本学习)和 zero-shot-learning(零样本学习)的能力引起了大量创业公司的注意。之后两年,基于 GPT-3 API 构建的应用生态持续发展并逐渐繁荣,诞生了一系列明星公司:Jasper( 2022 年 ARR 达 9000 万美金),Repl.it,Copy.ai 等。GPT-3 发布及生态成型期间(2020-2022),OpenAI 一直没有推出下一代模型,而是开始重点研究 Alignment问题。

GPT-4 的基础模型其实于 2022 年 8 月就已完成训练。OpenAI 对于基础理解和推理能力越来越强的 LLM 采取了更为谨慎的态度,花 6 个月时间重点针对 Alignment、安全性和事实性等问题进行大量测试和补丁。2023 年 3 月 14 日,OpenAI 发布 GPT-4 及相关文章。文章中几乎没有披露任何技术细节。同时当前公开的 GPT-4 API 是限制了 few-shot 能力的版本,并没有将完整能力的基础模型开放给公众。

C 端:ChatGPT 第一次让没有编程能力的 C 端用户有了和 LLM 交互的界面,公众从各种场景全面对 LLM 能力进行挖掘和探索。以教育场景举例,美国媒体的抽样调查称, 89% 的大学生和 22% 的 K-12 学生已经在用 ChatGPT 完成作业和论文。截止 2023 年 3 月,ChatGPT 官网的独立访客量超过 1 亿(未进行设备去重)。2023 年 3 月 23 日,ChatGPT Plugin 的发布,让更多的人认为 ChatGPT 可能会发展为新的超级流量入口(这是一个非常值得单独讨论的问题,由于本文主题今天暂不展开讨论)。

科技巨头。与 OpenAI 合作深度最深的 Microsoft 一方面裁撤整合内部的 AI 部门,一方面全产品线拥抱 GPT 系列产品。Google 多管齐下,原 LaMDA 团队发布对话产品 Bard,PaLM 团队发布 PaLM API 产品,同时投资 OpenAI 最主要竞对 Anthropic 3 亿美金。Meta 发布 LLaMA 模型并开。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注