微软发布首批自研AI模型,解锁配音新技能

科技美学 2025-08-31 21:48
前两天,微软人工智能部门发布了首批自主研发的人工智能模型,包括MAI-Voice-1 语音模型和 MAI-1-preview通用模型。
据介绍,全新 MAI-Voice-1 语音模型仅需单块 GPU 即可在不到一秒的时间内生成一分钟的音频,而 MAI-1-preview 展现了 Copilot 未来产品的雏形
资讯配图
目前,微软已将 MAI-Voice-1 应用于多项功能中。
例如,在Copilot Daily功能里,AI 主持人会通过该模型播报当日热点新闻;同时,它还能生成播客风格的对话内容,帮助用户理解各类话题。
资讯配图
同时,普通用户可在 Copilot Labs 平台亲自体验 MAI-Voice-1:不仅能输入希望 AI 表达的内容,还可自定义语音音色与说话风格。
资讯配图
此外,微软在 Copilot Labs 推出全新 AI 语音生成工具 Copilot Audio Expressions,可通过 Emotive 和 Story 两种模式生成更具情感的英文语音。
资讯配图
据了解,Copilot Audio Expressions 是一款 AI 语音生成工具,功能是让输出的音频更接近真人,并可根据需求加入创意润色。
用户无需注册即可直接体验,并可下载 MP3 格式音频,方便在任何设备播放。
资讯配图
有媒体在测试 Emotive 模式后,选用Oak音色和narration叙述风格,将模拟火车站的脚本输入系统。
生成的音频不仅朗读了文字,还自动增添细节、调整措辞,让表达更生动。单段音频最长 59 秒,支持十余种声音与风格组合。
资讯配图
而在 Story 模式下,系统自动选择音色和风格,用户仅需提供主题提示。
测试结果表明,Story 模式在情节构建、角色区分及声音融合度方面表现出色,输出的成品不像单调的机器朗读,更像是一次配音合作,让该工具不仅适用于简单朗诵,也可胜任有多角色的创意作品制作。
资讯配图
除这款语音模型外,微软此次同步推出的 MAI-1-preview 模型,训练过程动用了约 1.5 万块英伟达 H100 GPU
该模型专为特定需求用户设计,具备遵循指令的能力,可为日常咨询提供实用回应
资讯配图
据悉,微软 AI 计划将 MAI-1-preview 模型应用于 Copilot 助手的特定文本使用场景(目前 Copilot 主要依赖 OpenAI 的大型语言模型)。同时,该模型已开始在 AI 基准测试平台 LMArena 上进行公开测试。
资讯配图
微软表示,公司内部的人工智能模型并不专注于企业应用场景。
我的逻辑是,我们必须创造出对消费者极其有效的东西,并真正针对我们的用例进行优化。因此,我们在广告、消费者行为数据等方面拥有大量极具预测性和实用性的数据。我的重点是构建真正适合陪伴消费者的模型。
资讯配图
近期文章精选:
小米召回14万充电宝 支持退款
小米16蓄势待发 澎湃OS3上岛!
iPhone17发布会官宣,待发新品全汇总
华为Mate80大提升!新三折叠定价下探
首款曲面iPhone上热搜!这次真换外观了

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
四院士联合撰文 | AI Edge: 面向智能应用的移动信息服务基础设施
75家机器人上市公司2025半年报总结:营收5829亿,盈利300亿,传统巨头与AI新锐谁能最终胜出?
全面国产化:阿里AI芯片不再由台积电代工
超150名全球大咖齐聚杭州!顶尖研究院、科技巨头、高校精英引爆开源AI热潮,GOSIM HANGZHOU 2025即将揭幕
智慧地球大讲堂 | 创·无界  智·未来AI专题月开讲啦!
华人影响力爆棚!时代2025 AI百人榜出炉
【AI Agent展】Smartbi AIChat——Agent BI 企业智能分析师
【书评】AI芯片:科技探索与AGI愿景
芯来科技马越:RISC-V深度耦合NPU,加速AI时代芯应用
《Data meets AI:智能时代的双引擎》论坛重磅来袭! 定义AGI时代的数据基础设施新范式
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号