【科技24时区】微软AI研究实验室于本周四正式发布三款全新基础人工智能模型,分别支持文本、语音与图像生成。此举标志着微软在维持与OpenAI合作关系的同时,正持续推进自身多模态AI模型体系的建设,并积极应对来自谷歌等竞争对手的技术挑战。
据公司新闻稿披露,新发布的MAI-Transcribe-1语音转写模型可支持25种语言,其处理速度较微软现有的Azure Fast服务快2.5倍;MAI-Voice-1为音频生成模型,用户可在1秒内生成60秒的高质量语音,并支持定制专属人声;而MAI-Image-2则被描述为视频生成模型——但结合权威资料库信息,此处应为图像生成模型(此前已于3月19日在微软新推出的大型语言模型测试平台MAI Playground上线)。目前,三款模型均已登陆Microsoft Foundry平台,其中语音转写与语音合成模型亦同步开放于MAI Playground供开发者试用。
上述模型由微软MAI超级智能团队研发,该团队由微软AI首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman)领导,于2025年11月正式组建并对外公布。苏莱曼在官方博客中强调:“在微软AI,我们致力于打造‘人文主义AI’。我们在构建模型时秉持独特理念——以人类为中心,优化真实沟通方式,并针对实际应用场景进行训练。”他还透露,未来将有更多模型通过Foundry平台及微软核心产品直接面向用户推出。
面对日益拥挤的大语言模型市场,微软明确将“高性价比”作为其差异化竞争策略。博客指出,MAI系列模型在定价上显著低于谷歌与OpenAI同类产品:MAI-Transcribe-1起售价为每小时0.36美元;MAI-Voice-1按字符计费,每百万字符22美元;MAI-Image-2则根据输入输出类型定价,文本输入每百万token为5美元,图像输出每百万token为33美元。
值得注意的是,尽管大力投入自研模型,苏莱曼在接受VentureBeat采访时仍重申微软对OpenAI合作承诺不变。他同时向The Verge透露,双方近期对合作协议的重新谈判,实际上为微软开展超级智能(superintelligence)研究扫清了制度障碍。截至目前,微软已向OpenAI累计投资逾130亿美元,并通过多年期协议将其模型深度集成至Windows、Office等核心产品中。
从战略布局看,微软采取“双轨并行”模式:既自主研发关键AI能力,又持续深化与外部领先机构的合作。这一思路亦体现在芯片领域——微软既开发自有AI芯片,也采购英伟达等第三方产品。这种灵活架构不仅保障了技术自主性,也确保了生态兼容性与商业弹性,为其在AI基础设施、模型层与应用层的全面布局奠定坚实基础。
微软AI发布三款自研多模态基础模型,加速构建独立技术栈
科技区角
2026-04-03 02:00
声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。