全文约 1000 字,预计阅读时间 3 分钟
新闻资讯
1. 通义千问发布Qwen3-ASR-Flash:语音识别更准,还能听懂歌声

通义千问团队正式推出语音识别模型 Qwen3-ASR-Flash。该模型基于 Qwen3 基座模型,并经由海量数据训练,支持 11种语言、多种口音,甚至能够进行 歌声识别。其核心特性包括 领先的识别准确率、歌声识别能力、定制化识别、语种识别与非人声拒识以及 高鲁棒性,为语音交互和多模态应用提供更强支撑。
https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
2. 快手上线AI超级员工Kwali:一句话生成完整短视频

快手近日推出 AIGC 超级员工 Kwali,目前已进入内测阶段。用户只需在对话框中输入一句需求,Kwali 即可在数分钟内生成包含 脚本、字幕与背景音乐 的完整短视频。Kwali 背后依托强大的 云端多Agent框架,能够将任务自动拆解并分配给不同Agent完成,包括 意图解析、脚本生成、镜头匹配与剪辑合成 等环节,大幅提升了短视频生产的效率与自动化程度。
https://kc.kuaishou.com/kwali
3. 百度文心X1.1登场:深度思考模型性能对标GPT-5

在 百度Wave Summit深度学习开发者大会 上,百度正式发布 文心大模型X1.1、飞桨框架V3.2 以及 文心快码3.5S。其中,文心X1.1 在事实性能力上提升 34.8%,指令遵循能力提升 12.5%,智能体能力提升 9.6%。在多项基准测试中,该模型表现已超越 DeepSeek-R1-0528,整体性能与 GPT-5 和 Gemini 2.5 Pro 基本持平,被视为百度迄今最强深度思考模型。
https://wenxin.baidu.com/
4. LongCat API开放平台上线:开发者平滑迁移无忧

美团 LongCat 团队宣布推出 「LongCat API开放平台」,为受美国大模型公司 Anthropic 停止服务影响的在华企业与开发者提供平滑迁移方案。平台每日提供 10万免费tokens,同时兼容 OpenAI API 与 Anthropic API 格式,开发者可无缝切换至 LongCat-Flash-Chat 模型,有效解决服务中断带来的不确定性。
https://longcat.chat/platform
小工具
1. Seedream 4.0上线:100+官方模版全赠,玩法再升级

Seedream 4.0 全量登陆扣子空间,为用户带来多样创作玩法。新版本支持 多图无缝融合,可用于手办设计、周边制作、装潢装置构思等场景,还能实现 跨场景穿越、图片融合、漫画主角出演 以及 系列表情包生成。在文字编辑能力上,Seedream 4.0 支持 精准修改海报 并生成不同风格作品,为创作者提供更丰富的AI工具体验。
https://seed.bytedance.com/en/seedream4_0
-- 完 --
机智流推荐阅读:
1. AI图生图大乱斗|谷歌nano-banana、OpenAI、字节Seedream 4.0、阿里Qwen
2. 腾讯云推出Youtu-Agent:让开源智能体开发像搭积木一样简单,还送300万免费Deepseek令牌!
3. 字节Seed团队发布Robix:机器人交互、推理和规划的统一模型,如何让机器人更懂人类?
4. HF八月「Agent智能体」方向论文: AgentFly、GLM-4.5、WebWatcher、Chain-of-Agents等
关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有HuggingFace每日精选论文与顶会论文解读、Talk分享、通俗易懂的Agent知识与项目、前沿AI科技资讯、大模型实战教学活动等。
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 智能体 | Agent 技术交流群