〓【球友会】分享IT计算机各类电子书,包括各类编程语言,人工智能,机器学习、深度学习以及各类大数据、算法等内容的电子书
昆仑万维CEO:AI训练成本会从两方面迅速降低中小企业要更关注大模型应用|见智研究
昆仑万维CEO:AI训练成本会从两方面迅速降低中小企业要更关注大模型应用|见智研究

昆仑万维CEO:AI训练成本会从两方面迅速降低中小企业要更关注大模型应用|见智研究

:商业化机会来自两方面,一是中文大模型底座、二是面向ToC(创作优秀内容的成本下降,质量提高形成AI内容社区),ToB(降本增效)的应用,成长速度B端慢于C端。

2、 商业模式:目前国外主流是API调用次数收费,少部分C端付费,长期来看将通过生态获取用户,小企业API调用与大企业解决方案模式将并存。

3、 研发成本:计算费用高昂为短期情况,人才涌入后成本也会随之下降。降本来自于两方面,一是算法底层的优化,二是国产训练卡的推出,第一项优化将更迅速。

4、大模型安全问题:OpenAI胜出是基于可以控制大模型内容安全,自监管也会趋于完善,长期看安全问题可以保障,相关技术处于持续研究中。

5、游戏与AI:游戏产业本身更新速度快且愿意拥抱新技术,同时游戏也需要AI最擅长的文本、美术与编程技术,因而成为热点。此外,游戏能模拟简单世界进行预测。

6、浏览器与AI:浏览器是满足互联网长尾需求的工作平台,且是搜索引擎的重要入口。目前文本大模型存在问题:时效性滞后、准确性需考证,将大模型与搜索引擎结合可以解决这两大问题,因此非常看好AIGC与浏览器相结合,可以解决大多数长尾需求。

7、图像扩散模型进展:原有对抗网络模型已被扩散模型取代,扩散模型已成为文本生成图像的技术标准,已广泛使用于电商广告营销中。

第一个是大模型本身的底座,它应该是这一轮AI革命的一个基石。如果能制作出一个优秀的中文大模型底座,必然能在中国市场上获得许多商业机会。这是第一个方向。

第二个方向就是面向ToC或ToB的应用层。ToB的应用层比较容易理解,就是降本增效,能够降低企业的成本,为企业的工作效率带来极大的提升。然后在C端,我们可以看到这一轮AIGC能让C端创作优秀内容的成本大幅下降,速度大幅提升,质量大幅提高。这样会形成新的类似于原来短视频平台一样的内容社区,商业机会非常大。我们的工作范围也会在大模型底座领域和应用层进行努力和开拓。

预测具体的增长空间是不好说的,但一般来说,B端企业的生产速度通常比C端要慢,因为C端的增长速度非常快,用户量非常庞大。在这一轮AIGC的浪潮中,我们可以看到针对C端的主要应用是各种端到端的内容创作工具。这种工具越简单易用,门槛越低,就会获得更多用户,从而形成大量的内容社区。

所以在C端的商业逻辑就是,使用方法要足够简单,同时创作出的内容质量要足够高。这样在C端自然能吸引大量用户。而在B端,实际上目前AI生成内容或者通用人工智能跟现有的商业工作流结合还需要做很多细节工作。在各行各业落地的时候,都需要大量的工程实践。哪个企业能够先把一个行业的AIGC彻底打透,让这个行业里的用户都认为这是一个事实上的标准,那么它获得的优势或者护城河将会长期持续。所以在B端来说,实际上就是针对行业进行深入挖掘。

对于C端来说,就是尽可能地制作出门槛足够低的内容创作工具,让用户能够更好、更快、更强地去创作内容。我觉得这两个商业逻辑有明显的差异,相对来说C端的增长速度会更快一些。

这次大模型与以往的SaaS模式或解决方案模式有所不同,因为大模型本身非常领先。在国外,目前最主流的方式仍然是通过API调用次数来收费。当然,C端也有直接付费的模式。然而,从长期来看,大模型应该依靠生态来获取用户,因为一开始大模型具有很大的垄断地位。随着大模型的普及,针对行业的解决方案将能够在这个行业中吸引足够多的用户。

前期可能是按照 API 模式,或者对于中小客户来说还是按照 API 模式。但对于行业的大客户,商业解决方案更受欢迎。长期来看,API 模式主要针对中小企业或者某些行业,而商业解决方案则更适合大企业定制,这两种模式将长期共存。

不同的模型解决不同的问题。预训练文本大模型是相对通用的人工智能模型,这几个模型的基石都是预训练大模型。文本生成图像、文本生成代码以及文本生成音乐这几个方向,是为了满足美术工作者、程序工作者以及音乐工作者日常工作流程中的使用而推出的行业子模型。这会成为大模型生态的经典形式,即一个大模型配上多个针对不同行业的子模型来协同完成工作。如果只是做通用人工智能,那么预训练文本大模型仍然是最重要的基石模型。

在图文方面,首先我们人类手上最大的数据集或者最准确的数据集仍然是文本数据集,因此文本和训练大模型的发展是最迅速的。虽然现在可以在网上抓取到大量的图片和视频,但大多数这些图片和视频都没有经过标注,因此需要大量的工作进行标注,这是一个非常消耗人力成本的问题。

首先在数据方面,训练多模态大模型需要克服一定的门槛。其次,我们知道图像和视频的容量都远远超过文本,所以它们单独需要更大的存储空间。同样地,我们去理解一段文本所需的计算能力与去理解图片和视频所需的计算能力也是完全不同的。打个简略的例子,训练一个 GPT 3 的大模型或者 GPT 4 的大模型,可能只需要 1000 张训练卡,但训练图片和视频可能需要 1 万张训练卡,因此所需的训练资源会以 10 倍的量级增长。

从历史的角度来看,商业操作系统最早是有很多家竞争者,但最后Windows胜出了。但是在Windows之后,仍然有Linux这样的开源操作系统兴起,并且成为了Windows的一个重要补充部分,它们也在长期竞争。随后,在移动时代,既有闭源的iOS,也有开源的安卓。对于第三方厂商和中小企业来说,使用开源的安卓系统是他们最优的选择。

因此,从长期来看,开源大模型和闭源大模型之间是一个相互补充并存的关系。对于有定制能力的企业来说,开源大模型是他们的最佳选择,而对于没有定制能力的小企业来说,闭源模型是他们能够拿到最好的服务。

高昂的计算费用是一个短期的问题。任何新事物在刚出现时成本都会很高。但是随着行业中优秀人才的涌现,成本会迅速下降。

目前来看,这种成本下降主要有两个方面。第一个方面是算法底层的优化,比如我们当前使用的训练方式是否最优。现在有许多开源的大型模型,发布了新的优化方法,大家都在发布各种各样的方法来降低训练微调的成本。

那么我认为在开源上这一点表现的是很明显的,也就是说我们业界会在软件上很迅速的去把训练成本给降下来,这是训练成本,同时间相比是有一个相关性的,随着时间的流逝,那么它的训练单位训练成本一定会逐步下降。

第二条路径比较艰难也就是硬件,也就是说目前的训练主要还是依赖于美国 Nvidia 公司的训练卡。那么长期来看,国内有很多硬件公司也在制作自己的训练卡,大家也知道国内还是有 4-5 家企业在这个赛道里面,那么在国产的训练卡出来之后,基于国产的训练卡进行一个成本上的优化和下降,也是可以预期的。当然了,这条路的速度应该没有软件优化来的快,所以说相对是长而艰难的路。

并不是任何情况下都需要一个1千亿或者是1万亿参数的模型,在很多情况下,一个几十亿参数的小模。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注