中国AI开源双星:阶跃星辰联手吉利,Step-Video-T2V与Step-Audio能否成为DeepSeek最强队友?

阶跃星辰与吉利汽车集团联合开源的两款多模态大模型,不仅刷新了全球视频生成与语音交互的技术天花板,更以MIT开源协议的开放姿态,让中国AI开源生态再添重磅筹码。这是继DeepSeek之后,国产大模型在开源领域的又一次高调突围。


一、视频生成新标杆:Step-Video-T2V如何颠覆行业?

参数爆炸:作为全球首个300亿参数的开源视频生成模型,Step-Video-T2V直接生成204帧、540P分辨率的高质量视频,其核心技术突破堪称“暴力美学”

技术黑匣

  1. Video-VAE压缩技术实现16×16空间压缩+8倍时间压缩,训练效率提升64倍(对比主流8×8×4方案)
  2. Video-DPO算法引入人类偏好优化,生成视频的物理合理性和运动流畅度提升10%以上
  3. 自建评测体系Step-Video-T2V-Eval,在11类场景中超越混元等商业模型

实测案例中,从“云端赛车”到“水下腊肠犬”,模型对复杂运镜指令的精准执行能力已接近专业影视制作水平


二、语音交互革命:Step-Audio凭什么定义“产品级”?

行业首杀:作为首个开源即商用的语音交互模型,Step-Audio实现三大突破:

  • 端到端架构:统一语音识别、语义理解与生成,告别传统ASR-LLM-TTS级联架构的误差累积
  • 情绪引擎:支持方言、歌声、个性化风格,实测中甚至能模拟“东北老铁唠嗑”的地道腔调
  • 评估体系:开源StepEval-Audio-360基准测试,在逻辑推理、角色扮演等9项能力中全面领先

三、DeepSeek队友or对手?中国开源势力的战略合围

Hugging Face官方评价阶跃星辰为**“The Next DeepSeek”,但二者实则形成差异化布局**:

维度DeepSeek阶跃星辰
主赛道语言模型多模态
开源策略代码/模型全开源侧重应用层开源
产业落地通用场景智驾/文娱/消费

值得关注的是,双方均采用MIT协议构建开发者生态,在茶百道智能巡检、飞书多维表格等场景已形成互补。这种“开源同盟”模式,正在重构全球AI竞争格局。


四、开源生态的“中国时刻”

从DeepSeek到阶跃星辰,中国团队正以**“技术开源+商业闭环”**的创新模式,打破西方主导的开源霸权。当300亿参数的视频模型可以免费商用,当语音交互的护城河被彻底打开,我们或许正在见证:AGI时代的开源话语权,第一次向东方倾斜。

中国AI开源双星:阶跃星辰联手吉利,Step-Video-T2V与Step-Audio能否成为DeepSeek最强队友?

中国AI开源双星:阶跃星辰联手吉利,Step-Video-T2V与Step-Audio能否成为DeepSeek最强队友?

© 版权声明
THE END
喜欢就支持一下吧
点赞6赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容