多模态卷王阶跃震撼6连发,春节档最强AI家族来袭!
声明:本文来自于微信公众号 新智元,作者:新智元,授权站长之家转载发布。
【新智元导读】开年放大招!阶跃星辰重磅升级 Step 系基座模型全家桶,一口气连更上新6款模型。作为业内公认的「多模态卷王」,这家 AI 明星公司目前已拥有业内最全模型矩阵。
临近过年,阶跃星辰的春节系列大礼包也来了!
是的,这个国内屈指可数的坚持自研底座模型的大模型创业公司,又给业内带来了不小的震撼。
一口气接连上新了6款模型,从语言、语音、推理到多模态理解和生成,一网打尽。
经过这一轮迭代后,阶跃星辰的模型更全面,能力也更强了。而截至目前,国内有全类型基模布局的大模型公司,仅阶跃星辰、阿里通义、智谱三家。
当然,布局全是一方面,模型性能究竟同样令人关注。几乎跟阶跃发布全新模型同一时间,全新升级多模态 Step-1o 系在两大权威榜单中,再次拿下中国第一。
如今,阶跃在多模态卷王的路上越走越远。
接下来,让我们好好扒一扒,这波神级的更新有多猛。
理解生成一体化,多模态卷王持续领先
一开年,阶跃火速拿下新排位——在国内权威大模型评测平台 OpenCompass 中,Step-1o 直接问鼎。
这一情形似曾相识。
要知道,Step-1o 的上一个版本 Step-1V 多模态理解模型,去年上半年刚发布时,也火速登上了 OpenCompass 榜第一。最近一年,阶跃多模态模型在这张榜单上多次成功「守擂」。
Step-1o Vision:超越想象的视觉理解
与此同时,Step1o 系列的视觉版本多模态——Step-1o Vision,一经推出就为阶跃在多模态赛道的竞争中增加了一大助力。
在1月20日 LMSYS Org 最新发布的大模型竞技场 Chatbot Arena 多模态榜单中,Step-1o Vision 位列视觉领域中国大模型第一,是唯一进入前10名的中国公司。
相较于 Step-1V 系列模型,Step-1o Vision 进行了架构升级,在视觉识别、感知、指令跟随、推理等核心能力上都有大幅提升。看得更清楚,拥有更强大的细节感知能力,且看得更明白,能深刻理解视觉背后的复杂语义和隐喻。
更精准图像理解
Step-1o Vision 就像是获得了「火眼金睛」,能轻松应对复杂场景的识别图像内容的挑战,即便是相似的图片,也能轻松识别。
前段时间,Karpathy 转发了一篇关于软件工程「认知符合」的一篇论点文章,其中一张图很好诠释了核心观点。
将它扔给 Step-1o Vision,看看它的理解力如何?
AI 一眼就辨别出了图中左右部分差异之处,它分别分析了左图和右图核心要点,并在最后给出一个言简意赅的总结。
更令人惊叹的是,它还能精确识别并理解图像中的文化隐喻。
就好比如下这类的梗图,Step-1o Vision 分析得可是头头是道。
更强大的视觉推理
但真正令人震撼的是,Step-1o Vision 的视觉推理能力。
它不仅能看懂图片,还能基于图像内容进行深度思考和推理,为你答疑解惑、激发创意,成为每个人工作与学习路上的智能伙伴。
如下这张广告牌中,Step-1o Vision 准确读取了核心信息,并给出了超强的理解力——人类技能的不可替代性,以及对 AI 的幽默回应。
再比如,需要运用到策略的问题——拿到 VC 需要几步?
Step-1o Vision 先理解了图片之后,准确推理出得到最终目标物,需要的步骤。
语音模型 Step-1o Audio 再升级
Step-1o 系列这次升级的,还有语音模型 Step-1o Audio。
去年12月阶跃发布了国内首个千亿参数端到端语音大模型,如今在情绪感知与理解、多语种和多方言、通话体验上,又有了新的突破。
现在,它能感知你的情绪,精准识别出语气语调中的特别之处。真的 AI,就要做到比对象还贴心。
共情是深度沟通的基础。当我吐槽今天工作太累太累,它会贴心地送上问候,并愿意倾听我的糟心事,甚至还站在我的角度去考虑问题。
同时,它还支持多语种、多方言对话,在中英交流时,直接达到「同传」的水平!
而通话体验,也更加低延迟、声音更自然,有了个性化的风格。
首款推理模型:文理兼修,效果媲美 o1-mini
最近,业内各家都纷纷推出了自家的推理模型。
阶跃星辰的首款推理模型 Step R-mini,也及时登场了。至此,阶跃就圆满达成了这一成就:成为目前基座模型最全的公司之一。
虽说推理模型早已不是一个新鲜的概念,但在它们之中,却存在着严重的「偏科」现象。只会做数理题的 AI,就像个只会背公式的学霸,很难在实际任务中广泛应用。
而模型想要「文理兼修」,就必须变身全能型选手,什么通用任务都能轻松搞定。
这里的问题在于,如果只是简单地通过增加训练数据来提升文科能力,那么就会像跷跷板一样,造成模型理工科能力的下滑。
为了规避这一点,Step R-mini 采用了 On-Policy(同策略)强化学习算法,并进行了大规模的强化学习训练。
所以,Step R-mini 的推理能力如何?
令人惊喜的是,在 AIME 和 Math 等数学基准测试上,它的成绩超过了 o1-preview,比肩 OpenAI o1-mini。在 LiveCodeBench 代码任务上,也比 o1-preview 效果更佳。
接下来,我们就要上实测题了。
比如这道逻辑推理,Step R-mini 很轻松地就给出了正确答案。
一个控制小飞机躲子弹游戏的 python 代码,它经过一番思考后丝滑写出。
下面测试大部分推理模型的盲区——文科。在内容创作上,Step R-mini 写的现代诗的表现也是可圈可点。
在思考过程中,它会首先分析我们的要求,思考该怎样处理创作角度,如何赋予事物人类情感的象征意义。
上下滑动查看
引人注意的是,在推理模型的研发上,阶跃也在将自己擅长的多模态融入进去,Step R-mini 在视觉推理上已经有了阶段性成果。
最常见的问路题,Step R-mini 在复杂场景中,也能做出判断,给出正确的导向。
还有类似的题——「从蓝色箭头出发,我能到达哪个」,Step R-mini 一眼就辨认出路线。
再上升一个难度——「这些小球分别对应什么数字」,更多起到找终点的问题,AI 也没有被绕晕。
针对复杂视觉场景下的 Reasoning 问题,团队引入了慢感知和空间推理的思想,把 Test-Time Scaling 从文本空间转移到视觉空间,实现在视觉空间下的 Spatial-Slow-Thinking。
据悉,阶跃也计划今年发布多模态视觉推理。
Step-Video V2:开启视频生成新篇章
若说 Step-1o Vision 让 AI 真正理解了视觉世界,那么 Step-Video 则让 AI 创造力插上了想象的翅膀。
这一次,Step-Video 模型迎来了重大升级,迭代到了最新 V2版本。
复杂运动,动作更自然
其中,最令人印象深刻的是,其在复杂运动场景的突破。
我们已经看过太多太多,AI 视频模型在体操、运动、健身等场景中,频频失败的案例。
舞蹈、运动等各种复杂运动场景中,在 Step-Video V2的演绎下,呈现出前所未有的流畅自然感。
比如下面这段芭蕾舞,双腿频频交替之间,并没有出现幻觉。
舞台灯光为蓝色,背景幕布描绘了湖水和山峦的景象。一位身穿白色芭蕾舞裙的芭蕾舞演员在舞台中央翩翩起舞。固定镜头,平视拍摄,演员旋转,挥舞手臂,踮起脚尖。镜头拉远,平视拍摄,展示出更多芭蕾舞演员,她们身穿白色芭蕾舞裙,在舞台上整齐地排列,跟随主角的舞步,一同挥舞手臂,踮起脚尖。镜头缓慢推近,平视拍摄,聚焦于主角,她优雅地跳跃、旋转。固定镜头,平视拍摄,主角和芭蕾舞团的演员们在舞台上继续表演,她们的动作协调一致,展现出优美的舞姿。
人物刻画更逼真
在人物形象刻画上,Step-Video V2将细节表现推向了极致,更逼真生动、细节更丰富,表现更自然。
从五官轮廓到真实的皮肤质感,从自然的面部表情到微妙的身体语言,每一个细节都经过精心打磨。
再来看这位乘坐列车看向窗外的女子,AI 在人物刻画上也做到的非常真实,包括窗外物体运动方向,也很好地遵循了物理世界。
视频中,一位身着蓝色上衣的女子坐在列车窗前,头依靠着窗户看向窗外。她面带微笑,眼神中透露出对窗外景色的向往。列车正高速行驶,窗外的景色迅速向后掠过,仿佛是一幅幅流动的画卷。整个画面采用固定镜头拍摄,画面清晰,具有纪实风格,展现了女子与窗外景色的和谐美感。
Step-Video V2在「变身」方面,表现更加精彩——一个小男孩突然变身毒液。
视频中,一个身穿西装的小男孩,突然表情变得狰狞,身体逐渐被黑色的液体包裹,最终变身成为黑色毒液。这个过程在暗色调的环境中进行,背景较为模糊,突出表现了小男孩变身的每一个细节。视频采用特写镜头拍摄,具有科幻风格,清晰地展示了变身的每一个动作细节,给人以震撼感。
精准文字生成
不仅如此,Step-Video V2在文字生成方面,更加精准,还能支持中英双语输入。
下面「2025」字样中,比较难得一点是,AI 还可以将倒映在地板上的2025同时生成出来。
采用3D 动画风格,视频中,慢慢显现出了“Year of Snake,2025”的字样,天空中绽放出绚烂的烟花。2025字样晶莹剔透泛着金光,地板上反射着它的倒影,背景是黑色的地板。一条卡通蛇戴着一副酷炫的黑色墨镜不断扭动身体,镜片上反射着舞台的灯光。画面采用固定机头,动画风格,展现了蛇年过年喜庆热闹的氛围。
带着红色围巾的小猫,手里拿着福字,过年氛围感完全拉满了。
视频中,一只毛色柔软的灰色小猫前爪紧握着写有「福」字样的对联。它戴着一条红色的围巾,围巾上绣着金色的花纹。小猫的眼神专注而灵动,似乎在为新年的到来而欢呼雀跃。它站在一个装饰华丽的房间里,房间里挂满了彩带和气球,充满了节日的氛围。整个画面采用固定镜头拍摄,画面清晰,具有温馨而喜庆的氛围。
镜头表现力突破性升级
更令人兴奋地是,Step-Video V2在视频叙事上,实现了全方位的升级。
丰富的镜头语言,让其能够创作出更具感染力的作品。
视频中,一名身穿醒目黄色和红色赛车服的赛车手,头戴专业头盔,驾驶一辆设计独特的白色和红色本田摩托车,在泥土赛道上展开紧张刺激的越野赛。镜头以平视方式跟随赛车手,捕捉他每一个跳跃、转弯和加速的瞬间。赛道由松散的泥土构成,背景中观众席、围栏、旗帜
再加上推位摇移等专业镜头技巧的灵活运用,Step-Video V2不仅让视频画面更具美感,更为内容叙事注入了独特的艺术魅力。
下面这个「跟拍」宇航员的镜头,完全不输好莱坞大片。人物角色额头上的汗珠,这么微小的细节,AI 也能完全呈现出来。
手持跟踪镜头滑过飞船走廊,捕捉到宇航员工作时专注而有序的神态。镜头拉近到一名操作员,他全神贯注地盯着屏幕,额头上沁出了汗珠,周围的仪器发出低沉的嗡嗡声,加剧了紧迫感。
Step-2mini、Step 文学大师来了
除了多模态模型,阶跃自研的语言模型也实力强大,表现亮眼。
比如去年3月发布的 Step-2,就是国内最早由创业公司发布的万亿参数大模型,多次在国内外权威榜单上获得中国第一。
此次升级的 Step-2mini、Step 文学大师版都是 Step-2系列的分支。不同的是,前者性价比更高,更具商用性,后者则在文学创作上表现出了惊人能力。
Step-2mini
Step-2mini 是一款小参数模型,它的亮点是极速响应、高性价比,因而商业化场景更广泛。
对比 Step-2来看,Step-2mini,只有3%左右的参数量,却保有了80%以上的模型性能。
与此同时,它拥有更快的生成速度,和极高的性价比。
在输入4000tokens 的情况下,Step-2mini 的平均首字时延仅0.17秒。输入低至1元/百万 token;输出低至2元/百万 token。
之所以能达到如此极速的效果和极致性价比,都要归功于阶跃星辰自主研发的新型注意力机制架构——MFA(多矩阵分解注意力)及其变体 MFA-Key-Reuse。
相比于常用的 MHA(多头注意力)架构,这种架构节省了近94%的 KV 缓存开销,因而拥有了更快的推理速度,同时大幅降低了推理成本。
现在,在阶跃星辰开放平台,开发者已经可以调用 Step-2mini 的 API 接口了。
Step 文学大师
Step-2文学大师版,是专为创作而生的语言模型。
它不仅沿袭了万亿参数语言模型 Step-2广袤的知识储备、对文字强大的细节把控能力,还拥有更强大的内容创作能力。
为什么很多大模型创作的内容,总有一股挥之不去的 AI 味?
本质原因,就是这些模型过度对齐社会共识,「跪得太直」。因为丝毫没有真情实感,一出口自然也就是「正确的废话」,缺少灵魂。
好的内容创作,需要逻辑严密、语言凝练、句句带料,拥有深刻思想和独特风格。
不过,这许多人类都无法做到的事,模型怎么做到呢?
此时,Scaling Law 就是重中之重了。模型小、预训练数据小,模型就没有足够的智能。
而 Step-2文学大师的训练过程中,足够的模型容量、训练数据量,都成为了它文字功底的基石。
那就让我们来看看,Step-2文学大师的写作功底究竟如何。
我们请它以「过年」为题,写一篇悬疑小说。
有了有了,有那味了!这个悬念丛生的故事,是小编在某乎上看到,一定会付费看到结局的程度。
上下滑动查看
接下来,让它试试写一篇科幻小说,描写一下100年后人类和 AI 共存的世界。
这篇故事的主人公,负责 AI 的定期销毁。看到最后一段,小编后背一凉:Step-2文学大师,您的大作真是绝了!
初心不变,AGI 路上的技术理想主义者
百模大战之后,阶跃星辰、智谱、百川智能、月之暗面、MiniMax、零一万物脱颖而出,成为人们口中的「AI 六小强」。而这六家 AI 初创明星公司,也因过去一年的选择,分化出了全新的格局。
一直以来,技术演进和商业探索都不是一条直线。各家根据自身特点选择不同的路径,这种多元化发展格局,恰恰体现了行业的蓬勃生机。
百川智能专注 AI 医疗领域,其医疗增强大模型能力全球领先,并且在落地应用上也取得了不错进展。聚焦金融、教育、医疗等行业的商业化,通过全链路领域增强的一站式解决方案帮助企业智能化升级。
零一万物聚焦参数适中、推理速度更快、推理成本更低、更具商业落地前景的性能卓越的轻量化模型。在国内市场专注 ToB 方向,在海外市场则以理性的姿态继续 ToC 应用的探索。
月之暗面通过 Kimi 探索国内消费级市场,力争打造 AI 时代的超级应用。并于近日推出了 OpenAI 满血版 o1之外第二个多模态推理模型 k1.5。
此外,阶跃星辰则选择继续在基座大模型上加大研发。
不久前,阶跃星辰已经完成了 B 轮融资,资金总额高达数亿美金。据了解,这笔资金将继续用于基础模型的研发,继续强化多模态和复杂推理方面。阶跃一口气发布的基模「六连更」,是2025年第一张成绩单。
回顾过去一年各大 AI 产品的发展历程,我们不难发现一个规律:无论是对话能力、创意写作,还是代码生成,用户体验的天花板始终受限于底层模型的能力边界。
一些看似简单的产品创新,往往需要强大的模型能力的支撑。
值得一提的是,Step 系模型多次在各大权威榜单中登顶榜首,收获国内外开发者诸多好评,充分验证了其技术实力。
AI 大模型的竞争就像一场马拉松,重要的不是起跑的速度,而是途中的节奏和后程的耐力。而现在,阶跃冲刺的后劲十足。
从千亿参数到万亿参数的跨越,从文本图像理解到视频生成的拓展,阶跃正在用一个个具体成果,将那张通往 AGI 的路线图变为现实。
毕竟,在通过 AGI 的征程上,只有那些能够持续积累的玩家,才有可能走到最后。