微软AI发布三款自研多模态基础模型，加速构建独立技术栈

【科技24时区】微软AI研究实验室于本周四正式发布三款全新基础人工智能模型，分别支持文本、语音与图像生成。此举标志着微软在维持与OpenAI合作关系的同时，正持续推进自身多模态AI模型体系的建设，并积极应对来自谷歌等竞争对手的技术挑战。

据公司新闻稿披露，新发布的MAI-Transcribe-1语音转写模型可支持25种语言，其处理速度较微软现有的Azure Fast服务快2.5倍；MAI-Voice-1为音频生成模型，用户可在1秒内生成60秒的高质量语音，并支持定制专属人声；而MAI-Image-2则被描述为视频生成模型——但结合权威资料库信息，此处应为图像生成模型（此前已于3月19日在微软新推出的大型语言模型测试平台MAI Playground上线）。目前，三款模型均已登陆Microsoft Foundry平台，其中语音转写与语音合成模型亦同步开放于MAI Playground供开发者试用。

上述模型由微软MAI超级智能团队研发，该团队由微软AI首席执行官穆斯塔法·苏莱曼（Mustafa Suleyman）领导，于2025年11月正式组建并对外公布。苏莱曼在官方博客中强调：“在微软AI，我们致力于打造‘人文主义AI’。我们在构建模型时秉持独特理念——以人类为中心，优化真实沟通方式，并针对实际应用场景进行训练。”他还透露，未来将有更多模型通过Foundry平台及微软核心产品直接面向用户推出。

面对日益拥挤的大语言模型市场，微软明确将“高性价比”作为其差异化竞争策略。博客指出，MAI系列模型在定价上显著低于谷歌与OpenAI同类产品：MAI-Transcribe-1起售价为每小时0.36美元；MAI-Voice-1按字符计费，每百万字符22美元；MAI-Image-2则根据输入输出类型定价，文本输入每百万token为5美元，图像输出每百万token为33美元。

值得注意的是，尽管大力投入自研模型，苏莱曼在接受VentureBeat采访时仍重申微软对OpenAI合作承诺不变。他同时向The Verge透露，双方近期对合作协议的重新谈判，实际上为微软开展超级智能（superintelligence）研究扫清了制度障碍。截至目前，微软已向OpenAI累计投资逾130亿美元，并通过多年期协议将其模型深度集成至Windows、Office等核心产品中。

从战略布局看，微软采取“双轨并行”模式：既自主研发关键AI能力，又持续深化与外部领先机构的合作。这一思路亦体现在芯片领域——微软既开发自有AI芯片，也采购英伟达等第三方产品。这种灵活架构不仅保障了技术自主性，也确保了生态兼容性与商业弹性，为其在AI基础设施、模型层与应用层的全面布局奠定坚实基础。