豆包提出全新稀疏架构 推理成本较MoE最高可降83%
证券时报e公司讯,随着模型规模的扩大,推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构UltraMem,该架构有效解决了MoE推理时高额的访存问题,推理速度较MoE架构提升2—6倍,推理成本最高可降低83%。该研究还揭示了新架构的Scaling Law,证明其不仅具备优异的Scaling特性,更在性能上超越了MoE。实验结果表明,训练规模达2000万value的UltraMem模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能
证券时报e公司讯,随着模型规模的扩大,推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构UltraMem,该架构有效解决了MoE推理时高额的访存问题,推理速度较MoE架构提升2—6倍,推理成本最高可降低83%。该研究还揭示了新架构的Scaling Law,证明其不仅具备优异的Scaling特性,更在性能上超越了MoE。实验结果表明,训练规模达2000万value的UltraMem模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模value或expert开辟了新路径。
打赏
相关推荐
-
杭钢股份连收7个涨停板
-
低空经济概念拉升 中设股份等涨停
-
开评:三大指数均下跌 阿里概念等涨幅居前
-
DeepSeek带飞科大讯飞?
-
从北大的华尔街精英到B站顶流:小Lin说用“说人话”征服2000万粉丝
-
高中生暑假刷机 寒假去取手机没了:当时说好会保留
-
杭钢股份连收7个涨停板
-
低空经济概念拉升 中设股份等涨停
-
开评:三大指数均下跌 阿里概念等涨幅居前
-
DeepSeek带飞科大讯飞?
-
从北大的华尔街精英到B站顶流:小Lin说用“说人话”征服2000万粉丝
-
高中生暑假刷机 寒假去取手机没了:当时说好会保留
-
杭钢股份连收7个涨停板
-
低空经济概念拉升 中设股份等涨停
-
开评:三大指数均下跌 阿里概念等涨幅居前
-
DeepSeek带飞科大讯飞?
-
从北大的华尔街精英到B站顶流:小Lin说用“说人话”征服2000万粉丝
-
高中生暑假刷机 寒假去取手机没了:当时说好会保留