科技媒体marktechpost 8月25日报道,微软发布全新开源文本转语音模型VibeVoice-1.5B,支持一次生成最长90分钟、最多4位说话者的自然语音,并具备跨语言与歌声合成功能。该模型基于Qwen2.5语言模型,结合声学与语义双分词器,采用低帧率处理与扩散解码器技术,提升语音质量与上下文连贯性。训练中通过扩展上下文长度,实现多说话者轮流发言的自然对话模拟。目前模型仅支持中英文,禁止用于虚假信息等非法用途,主要面向科研与开发者社区,适用于播客制作、对话式AI等领域。微软计划推出更高参数版本以支持实时交互。