AI颠覆者:DeepSeek的过去、现在与未来

文学娱乐 1
声明:本文来自于微信公众号窄播,作者:余智敏,授权站长之家转载发布。2025年开年,AI行业迎来了一场出乎意料的「地震」——国内的DeepSeek以颠覆性姿态炸裂出圈,短短数日登顶全球应用下载榜榜首,日活用户迅速突破1500万。中美科技界对DeepSeek进行了激烈的争论,观点交锋,有人高度认可,有人冷嘲热讽,更有人陷入恐慌。Anthropic CEO达里奥·阿莫迪万字长文呼吁进一步加强对华的芯片封锁;OpenAI CEO山姆·奥特曼罕见认错,并且承认OpenAI的领先性被削弱。不仅是科技行业,

声明:本文来自于微信公众号窄播,作者:余智敏,授权站长之家转载发布。

2025年开年,AI行业迎来了一场出乎意料的「地震」——国内的DeepSeek以颠覆性姿态炸裂出圈,短短数日登顶全球应用下载榜榜首,日活用户迅速突破1500万。

中美科技界对DeepSeek进行了激烈的争论,观点交锋,有人高度认可,有人冷嘲热讽,更有人陷入恐慌。Anthropic CEO达里奥·阿莫迪万字长文呼吁进一步加强对华的芯片封锁;OpenAI CEO山姆·奥特曼罕见认错,并且承认OpenAI的领先性被削弱。不仅是科技行业,美国总统特朗普也指出DeepSeek给美国敲响了警钟。

DeepSeek到底做了什么?为何会引发全球性的轰动?DeepSeek的出现,打破了哪些行业共识?如何理解DeepSeek带来的机会以及未来的挑战?本文将会逐个探讨这些问题。

DeepSeek做了什么?

DeepSeek引发AI行业地震的前提包含三个基础事实:模型能力追平行业领先水平;在算法和工程上有核心创新;产品引发全球关注。

第一,模型能力上,R1追平行业领先水平。

关于年初发布的DeepSeek R1模型能力,相信大家已经看到足够多的信息,或者也自己体验过了,测评层面,DeepSeek R1在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1正式版。

对于大语言模型,逻辑能力和语文能力是最直观可以感受到的。Claude3.5Sonnet去年发布之后,这两项能力是非常突出的,个人体感是比GPT还优秀,尤其是语文能力,最近半年多最主要使用的也是Claude。

如今的DeepSeek R1在逻辑和语文能力上也是非常突出,结合外显的思考过程,给用户的冲击非常强烈。小红书上出现了大量DeepSeek的「锐评帖」、「情感贴」,因其详实全面的思考过程,被网友戏称为「最内耗的AI」。并且,DeepSeek针对法律、市场营销等专业领域的问题,也能给出全面、有洞察,甚至是让从业人员「不寒而栗」的回答。

总的来说,目前DeepSeek R1在基础能力上,明确地属于第一梯队。

第二,核心创新上,V3在算法和工程上围绕MoE进行了大胆尝试。

AI颠覆者:DeepSeek的过去、现在与未来

关于DeepSeek模型的争议有很多,R1虽然效果很亮眼,有很好地运用了强化学习的范式,但是这个算是在行业中已经被运用的方法,DeepSeek进行了很好的实践,更像是对OpenAI的o1进行复现,有不同的地方是,DeepSeek把思考的过程给用户呈现了。

DeepSeek在算法和工程方面最具创新性的突破在于MoE(混合专家模型)的规模化应用。从V2开始,DeepSeek将专家数量从传统的8或16个扩展到160个;到V3时期,更是突破性地达到256个专家数量,实现了671B参数量下仅需激活37B参数的高效运算。

MoE模型的效率优势正源于其选择性激活机制。与传统模型(如Llama)需要激活全部网络权重不同,MoE通过对计算网络进行「分类」,只激活相关专家进行运算,显著降低计算成本。类似分成8个专家,运算的时候激活1个,这样运算量就只有八分之一,剩下的7个专家都是和输入八竿子打不着的部分,没必要进行运算。

那如果MoE这么高效,为什么此前行业没有大规模运用呢?

MoE模型此前未被广泛应用的主要障碍是训练难度大,容易出现信息分类不当。DeepSeek V3通过创新性的算法和工程优化,成功突破这一限制,在保证模型效果的同时,实现了仅需激活5%参数的高效运算,开创了大规模MoE的先河。

AI颠覆者:DeepSeek的过去、现在与未来

第三,产品表现上,引发全球轰动,日活迅速超1500万。

模型能力、技术创新引发全球性讨论的同时,DeepSeek的APP也陆续在全球100多个国家登顶下载榜榜首,日活很快超过了1500万。硅谷一线风投a16z的创始人Marc Andreessen也转发了相关的对比数据,显示DeepSeek日活已经达到了ChatGPT的23%。实际上公司因为遭受了不明原因的大规模攻击,不得不暂停了海外新用户的注册,不然这个增长势头可能会更猛烈。

DeepSeek为什么能引发全球轰动?

列完这三个基础的事实,不知道大家有没有发现,DeepSeek产品表现上只是追赶到第一梯队,并不是超越当前市面上的产品,也不是底层的范式创新。要说模型能力,其实Anthropic的Claude3.5Sonnet真的也很能打,都半年多了,但是看数据就知道和ChatGPT的声量(日活)是完全没法比的,除了AI的从业者,外部的讨论微乎其微。

相较而言,DeepSeek的新模型发布之所以能在AI领域掀起惊涛骇浪,是因为有三点远超大家预期。

第一个远超预期的点是DeepSeek R1做到了又好又便宜。

在模型效果追平第一梯队的情况下,DeepSeek的训练成本不到600万美金,而Meta开源的Llama3-405B训练成本超6000万美元,DeepSeek用不到Meta十分之一的训练成本,实现了更好的模型表现。

在推理的API定价的层面,与能力相当的OpenAI o1模型进行对比,DeepSeek的定价约为o1的三十分之一。参考DeepSeek去年推出的V2模型,如果效果不好,但是便宜,不会引起这么大轰动;参考Anthropic的Claude3.5Sonnet,如果效果好,但是不便宜,也不会有这么大的轰动。

如果要给好和便宜排个序,肯定是便宜更超预期。因为好的层面,已经有GPT和Claude,其他的也在追赶。好到追平第一梯队,不能说太超预期。但是在好的基础上,还便宜这个点,是全世界没有其他团队做到的。因此给了业界极大的冲击。

至于团队是如何做到如此大幅度的降成本,重要原因是刚才提到的算法和工程的创新,MoE大胆地拓到了256个,实际运行只需要激活5%左右的参数,极大地提升了运算的效率。

第二个远超预期的点是DeepSeek做到了完全开源。

第一梯队的模型GPT和Claude都是闭源的,开源的Llama效果要比GPT和Claude逊色一些。现在DeepSeek在比肩第一梯队的情况下,还做到了开源,而且是在论文中公布了详实的模型细节。OpenAI没能做到的Open和开源,反而让来自中国的DeepSeek做到了。

第三个远超预期的点是DeepSeek的成果由中国团队做出。

一直以来都被认为是追赶者的中国公司,第一次在AI行业中站上世界舞台的中心,给到全球一个又好又便宜,还开源的大模型。而且DeepSeek的核心研究员都是中国本土培养的博士,没有海外留学的背景。

DeepSeek打破了哪些共识?

DeepSeek打破的第一个共识是:美国引领一切。

AI科技领域,美国长期以来都是创新的引领者,中国企业往往扮演跟随者的角色,更擅长技术的应用场景拓展。现在竟然有中国的团队,在AI技术领域,做出了像消费电子般的中国「智造」模型,又好又便宜,在一定程度上打破了技术创新只能在美国出现的刻板印象。

图灵奖得主LeCun也借此痛批硅谷傲慢病:患有这种病症的人认为自己所在的小圈子垄断了好想法,甚至认为其圈子以外的所有创新都是通过「作弊手段」得来的。

第二个被打破的共识是:资金密集投入,大力出奇迹,垄断市场就能获得超额收益。

DeepSeek的全球热议还带来了美股的惊天震动,英伟达单日大跌近17%,市值蒸发5950亿美元,近6000亿美元,相当于人民币4.3万亿,创美股单日跌幅最高记录。

二级市场短期是情绪的体现,大家恐慌性地抛售,原因不仅是因为DeepSeek训练成本下降,带来了芯片算力需求可能会下降的恐慌,也源自传统的美国科技资本逻辑受到的冲击。

传统逻辑是:在行业中进行密集的资金投入,寡头的几家企业获得垄断性的资金优势,进而大力出奇迹,带来技术成果后获得垄断市场的主导地位。简单来说,就是大资金、大投入、长周期带来超额回报。从互联网时代开始,到移动互联网已经多次印证了这个逻辑。

在AI的时代,由于算力成本高昂,这个逻辑更是被放大。像是最近公布的有特朗普站台的「星际之门」(Stargate)计划,由OpenAI、孙正义(SoftBank 软银掌门人)以及中东基金共同推动,宣称要在4年内投入5000亿美元,打造「全球算力中心」,想要依靠大规模投入建立算力优势。

DeepSeek的出现,给这个资本逻辑一记重拳——在AI领域大资金、大投入并不意味着一劳永逸。实现领先有可能根本不需要这么大资金的投入,抑或是这么大资金的投入之后,即使是闭源,也无法保证垄断。假如基本的逻辑开始面临挑战,逐利的资本显然需要重新思考自己的投资思路。

第三个被打破的共识是:闭源始终领先。

关于AI开源闭源领先性的讨论,其实一直争论不断。DeepSeek R1的出现,是一个巨大的变量。模型追上了闭源的OpenAI和Anthropic,而且进行了开源,为整个AI行业注入新的动力。OpenAI CEO山姆·奥特曼也罕见认错,认为OpenAI在是否开源上,站在了历史错误的一面。

关于开源闭源之争,还有两点值得关注。

AI语言模型VS传统开源技术差异:

- 技术同源而非分叉:对比Android与iOS的生态隔离,开源与闭源大模型均基于Transformer架构,差异是在数据、算法运用、工程等维度,并非是截然不同的技术路线。

- 企业主导型开源:Meta、DeepSeek、OpenAI等公司掌握开源与否的节奏,社区更多是参与者而非主导者,而传统Linux更像是社区驱动的模式。

AI多模态模型现状:

- 图像生成:开源stable diffusion相关的生态繁荣,闭源的midjourney等企业也有很好的商业化。

- 音乐生成:闭源的Suno相对领先。

- 视频生成:闭源的Runway、快手的可灵、生数科技的vidu等相对领先。

我们在讨论DeepSeek开源的时候,语境都是LLM大语言模型。但是除了语言模型,AI还有非常重要并行的领域是多模态模型。DeepSeek也在近期发布了图像模型Janus pro,但是效果一般。在多模态的领域,开源还有更长的路要走。

未来展望:机会与挑战

首先,DeepSeek会给AI应用的发展带来长期利好。

应用对基础服务的需求,从来都是「又好又快又便宜」。如果要排序,好>便宜>快。不好的东西可以不用,同样好用的产品,便宜当然是有优势,然后速度快,服务稳定。DeepSeek当前的语言模型,做到了又好又便宜。

对于现有的AI应用来说,已经接入语言模型的应用,可以替换成价格是三十分之一的API,显著降低的成本,可以更好地探索PMF(Product Market Fit),有更大的空间进行尝试。这个是第一步最直接的影响。

关于能否因此出现新的killer app,我的答案是:短期否定,长期肯定。

短期来看,AI的killer app需要的不只是PMF,在PMF之前,还有技术。技术在细分场景是不是足够好用,是killer app的必要条件。而这个和模型的能力直接挂钩,最早就有提到这次的出圈,并不是模型能力的突破,所以短期这个必要条件没有变化。

长期来看,会利好AI应用的发展。原因在于DeepSeek这次的开源,让行业最领先的水平平权了,会加速推动AI进化的速度,进而推动必要条件的成熟,带来新的应用机会。

其次,推理芯片和云服务也有望受益。

一方面,好用便宜,所以多用。会让推理的市场需求加速扩大,对应的推理芯片和配套的云服务市场也扩大。英伟达在训练芯片上的优势是更显著的,推理芯片层面相对而言,国内头部芯片代差会小一些。

另一方面,亚马逊和微软都已经接入DeepSeek,国内的百度云、腾讯云、阿里云也都已经接入。上文提到的AI应用企业,使用API的选择之一也是从云服务接入。

当然,DeepSeek在未来也会面临来自模型技术发展和地缘因素的双重挑战。

虽然这次DeepSeek给AI行业带来一股强心剂,但是没有改变是当前模型发展的困境。对于语言模型,还有类似幻觉这样的问题难以解决,可能需要更底层的范式创新才能突破;对于多模态的模型,考验就更多,图片的指令遵循效果差,细节控制差。

视频生成模型在过去半年,进展速度非常快,但是指令遵循、一致性等都还有很大空间,并且成本很高,非常需要像DeepSeek V3一样能把价格打下来的模型。

同时,DeepSeek的出现给了中国企业更大的信心去做创新性的尝试,也给美国敲响了警钟。可以预见的是,中美的科技冷战会进一步加剧。芯片的限制可能会进一步加强,中国企业的国际化也会面临比以往更大的压力。

道路难免崎岖,前行必有曙光。

在通往AGI的征程上,DeepSeek的崛起不仅打破了闭源垄断的旧秩序,更以开源民主化的方式推动重构着AI领域的竞争规则。从「美国引领」到「中国创新」,从「资本密集」到「人人可及」,从「闭源垄断」到「开放共享」,这些根本性的改变,正在塑造AI发展的新秩序。

打赏
版权声明 本文地址:https://sdlongpai.cn/post/67938.html
1.文章若无特殊说明,均属本站原创,若转载文章请于作者联系。
2.本站除部分作品系原创外,其余均来自网络或其它渠道,本站保留其原作者的著作权!如有侵权,请与站长联系!
广告二
扫码二维码