开源中国董事长马越
出品 | 搜狐科技
(资料图片)
作者 | 梁昌均
“谷歌在人工智能方面并没有护城河,OpenAI也没有。”这是不久前谷歌内部一份研究给出的判断,理由则是开源的AI模型正在与它们有力竞争。
开源的力量终于在激烈的百模大战中涌现,并越发不可忽视。Meta开源的LLaMA 2引起轰动,智源、智谱、百川等先后开源,阿里也在上周打响国内大厂大模型开源的第一枪。
在头部AI开源社区HuggingFace中,已有超过27万个开源模型,其中对话和文本生成模型接近2万个,不少都是今年新增的大模型。
在开源中国董事长马越看来,开源本身是一种研发模式,也是一种竞争策略,是否开源跟产品研发能力有关,也是一件特别市场化的事。因此Meta、阿里云等开源模型,更多是市场竞争策略的选择。
不过,马越对搜狐科技强调,绝对领先的技术不太可能会开源,因为闭源的商业变现反射弧相对更短、更直接。“OpenAI从GPT-3绝对领先后不再开源,如果持续一骑绝尘大概率今后还是不会开源。”
马越认为,国内先天性投入较差,说几个月、半年追上OpenAI不太可能,反倒可能是半年之后它把我们抛得更远。但幸亏有开源,为很多追赶者提供了超越的可能,且从中也一定会诞生类似ChatGPT的杀手级应用。
在他看来,AI大模型的关键是要有人用,没需求、没反馈,就无法迭代,不能闭门造车。“不要为了模型而模型,不要去追逐富人的游戏,要从现在的用户去倒推,从能够创造的商业价值去倒逼技术选择。”
同时,马越认为,国内巨头在大模型上不可能齐头并进,只会有一两个领先,且会选择挣钱更快的方式。“如果闭源能让大家以很低的成本用起来,就没必要去开源。”
但开源也存在风险,如果是好的模型开源,能够推动AI普惠,降低个人和组织去赋能千行百业的成本。如果技术和产品本身没有竞争力,开源也不是灵丹妙药,反倒会更快“见光死”。
“开源本身也会形成竞争,如果用户都不下载使用,那也没意义。开源模型好不好绝不是靠权威来背书,而是要靠大众点评,关键是看可持续增长的用户量和使用量。”马越表示。
在互联网时代,开源的力量不容小觑,相关的开源软件都是服务器和移动端操作系统的市场主力。马越就此给出论断:未来AI大模型开源的市场份额会更大,闭源只会为少量用户服务,但因它的商业反射弧快,变现效率高,会吃掉大部分利润。
面对当前正酣的百模大战,马越认为这是热度刚开始时的正常竞争,就像当年的“百团大战”。“但通用大模型最后会是赢者通吃,只有少量几家能够胜出。”
对垂直模型来说,则需要类似HuggingFace的分发平台。“大模型开源是为爱发电,通过开源相当于节约了90%的成本,这是成本最低的方式。”
马越还认为,AI和开源是相互成就的乘法关系,会让对方加速发展。“不靠开源,大模型没法传播落地;没有大模型,开源也不能在互联网时代的未来实现新高峰的增长。”
谈及这些年国内开源生态的发展,马越则用“超出预期”来形容。十六年前,他回国成立了国内第一家开源技术服务公司,打造了国内最早的开源社区,并带领Gitee成为全球第二大代码托管平台。
马越回忆到,2007年刚回国时,没多少人理解开源的概念,但现在中国已是全球第二大开源生态贡献国,有了开源基金会和国际通用的开源协议,开源还被写入十四五规划。他认为,开源能够驱动自主创新、提高创新速度。
开源中国最近也完成一轮7.75亿元的融资,20多家股东中有一半是国资,百度、华为、联想也有投资。马越表示,开源中国重组为中立平台后,新使命是打造中国版的HuggingFace,希望借此早点结束百模大战,让千行百业都能用上大模型。
以下是对话实录(经编辑整理)
搜狐科技:AI涉及很多要素,AI开源开的到底是什么?这块谁做得比较领先?
马越:当前需要多关注HuggingFace,这是AI领域的GitHub。开源除了代码,还有模型、数据集等,每家企业可能不一样。好的开源模型能够推动AI普惠,极大降低个人和组织去赋能千行百业的成本。
搜狐科技:阿里、智谱、百川等先后开源自己的模型,怎么看这些企业开源的行为?
马越:OpenAI遥遥领先,其它企业不开源的话其实很难有建树,拿着模型也没多大意义,还不如开源。通过开源免费先把用户获取过来是个极好的做法,也十分重要,否则很难在百模大战中上桌。如果靠开源靠免费,还是吸引不来用户,只能说明产品竞争力实在不行,被淘汰了也能更早地发现问题,反过来也能印证开源行为的价值。
企业开源也会面临商业回报的问题,反射弧长,变现效率低,前期研发成本打水漂。但换个思路来看,开源的目的是更好地获得用户,塑造口碑和品牌,获得用户反馈,也可以看作是市场营销的行为。
搜狐科技:阿里打响国内大厂大模型开源第一枪,未来会有更多大厂开源吗?
马越:国内这几家巨头不可能齐头并进,以后只会有一两个遥遥领先,且一定会选择挣钱更快的方式。如果闭源就能让大家以很低的成本就用起来,何必开源?但如果闭源没有好的商业回报,自身也没那么强,不开源的话很难坐上牌桌。
大模型关键是要有人用,没需求,没反馈,就无法迭代,闭门造车有什么用?ChatGPT没有开源,但短短几个月就有上亿人用,它何必开源呢?这是个市场博弈问题,市场竞争、用户受益压倒一切,不是为了开源而开源,它只是手段。
搜狐科技:OpenAI最初开源,但在GPT-3之后不再开源,又有消息称在开发开源模型,怎么看这种摇摆?
马越:开源本身是一种研发模式,也是个竞争策略,本质上是个方法论。是否开源跟产品研发的能力进度有关,也是一件特别市场化的事。GPT-3之后的版本非常厉害,不需要开源,后面很多追赶者却需要用开源的方式去追赶。所以绝对领先的技术不太可能会开源,因为闭源的商业变现反射弧相对更短、更直接。
搜狐科技:开源的大模型能追上Open AI吗?从中会诞生出类似ChatGPT的杀手级应用?
马越:开源模型一定会诞生类似ChatGPT这样的应用。垂直场景商机无限,就看谁能应用。不要为了模型而模型,不要去追逐富人的游戏,要从现在的用户去倒推,从能够创造的商业价值去倒逼技术选择。
OpenAI做了好几年,烧了很多钱,相比之下国内先天性的投入较差,几个月、半年追上不太可能,更大可能是半年之后它把我们抛得更远。我甚至觉得可能永远跟不上它的脚步,因为它没有算力卡脖子等问题,还在加速度成长。但幸亏有开源,提供了竞争的可能。
搜狐科技:杨立昆认为,Meta开源LLaMA2会改变大模型行业的竞争格局,您怎么看?
马越:看看历史就很清楚。开源的安卓能占有移动操作系统80%的市场份额,但利润可能只有百分之二三十,大头让份额只有20%左右的iOS拿走。开源也差不多,它在策略上是让闭源无法通吃,未来大多数人和企业会使用开源模型,市场份额会更大。闭源只为少量用户服务,但反射弧快,变现效率高,会吃掉大部分利润。
搜狐科技:国内已进入百模大战,您怎么看这股热潮?这些大模型都能活下去吗?
马越:很多人起哄、追热点,反正人口多、场景多、不缺钱,这是无序盲目的竞争,很多投资人哪怕知道只会赢一两家,也不敢错过,有些创业者可能也抱着投机心态。它会持续一段时间,如同当年的“百团大战”。
但通用模型是大厂的游戏,最后只有少数几家巨头能胜出,其它家可能都会消失,我不太相信会有多少纯创业公司能做出杀手级的通用模型。垂直模型则需要类似HuggingFace的分发平台,市场化自由竞争。
目前看,大模型开源就是为爱发电,通过在已经用数据集训练过的开源模型上推理和调优比从头训练一个模型可以节约90%的成本,这是使用门槛最低的方式。
搜狐科技:开源对AI的落地应用会有什么样的作用?怎么看两者之间的关系?
马越:开源第一波浪潮是从互联网开始,开源的操作系统、数据库等基础设施给了互联网公司野蛮生长的机会,互联网使得获取开源项目更加容易,它们是相辅相成的乘法关系。
AI类似互联网,跟开源也是相互成就的乘法关系,会让对方加速发展。不靠开源,大模型没法很好地传播落地;没有大模型,开源也不能在互联网时代的未来实现新高峰的增长。
搜狐科技:过去国内比较依赖国外开源软件,现在强调自主创新,开源如何推动创新?
马越:开源可以让我们站在巨人的肩膀上,是驱动生产力发展的一个不可避免的方式,也能驱动自主创新,提高创新的速度。现在有人指出我们应该在什么地方上投入,我觉得那就利用好开源的方法论。但现在想要薅羊毛的太多了,最大问题是不敬畏专业,开源是个专业的事,代码托管平台技术含量很高,不是谁都能干,也不是一蹴而就。
搜狐科技:开源越来越受重视,开源中国希望起到什么样的作用或达成什么目标?
马越:新使命是要把软件产品研发平台升级为AI工程平台,帮助软件工程师升级为AI工程师,打造中国版的HuggingFace。我们是中立第三方,以开发者利益出发,做这件事比大厂合适。我们希望借此让百模大战早点结束,让每家企业、每个人都能用上大模型,未来将是千模甚至是万模大战。我们目前引进的7000多个模型会在今年底随着新平台上线,但要先解决算力问题。
搜狐科技:开源中国如何商业化?在获得融资后,接下来的重点规划是什么?
搜狐科技:开源中国现在是彻底商业化的软件工具厂商,已经实现盈亏平衡。接下来会加大信创产品线的开发,并拥抱人工智能。未来我们希望作为一家高科技公司在科创板上市,成为国内软件工程和AI工程的第一股。