新闻资讯
面壁智能发布VoxCPM:语音生成媲美真人,声音复刻逼真

面壁智能携手清华大学深圳国际研究生院推出 0.5B 参数语音生成基座模型 VoxCPM。该模型在 自然度、音色相似度和韵律表现力 上表现突出,在权威语音合成评测中达到 SOTA 水平。VoxCPM 支持 零样本声音克隆,可快速生成高度个性化的语音,具备广泛应用潜力。
https://github.com/OpenBMB/VoxCPM/
InternVLA·A1上线:上海AI实验室打造首个具身操作大模型

上海人工智能实验室发布 InternVLA·A1,这是国内首个集 理解、想象、执行 于一体的具身操作大模型。模型基于自研 InternData·A1 虚实混合数据集、国地中心实训场数据及互联网多源数据训练而成。在真机测试中,InternVLA·A1 在多项指标上显著优于 π0 和 GRO0T N1.5,尤其在 高动态场景 下展现出卓越的多机器人协作与适应能力。
https://github.com/InternRobotics/InternVLA-A1
李飞飞团队发布Marble:一张图生成3D世界


斯坦福大学教授李飞飞创办的 World Labs 宣布上线空间智能新成果 Marble。该平台目前为限量访问的 Beta 版,用户可在官网直接体验与创建 3D 世界。Marble 的核心技术是通过 输入一张照片,让 AI 自动生成场景的几何结构与细节,从而构建可探索的 3D 世界,展示了 AI 在空间智能与虚拟现实领域的前沿突破。
https://marble.worldlabs.ai/
通义DeepResearch开源:重塑AI科研流程

阿里巴巴通义实验室正式开源 DeepResearch 模型、框架及方案,旨在全面提升 AI 的科研能力。团队自研 全流程合成数据方案,无需人工干预即可构造高质量数据集,并创新性提出 智能体增量预训练阶段,推动大规模数据合成。DeepResearch 在 后训练数据合成、形式化建模、自动生成高难度学科数据 等方面均有突破,为下一代 Agent 模型训练提供全新范式。
https://tongyi-agent.github.io
小工具
MasterGo Agent发布:全球首个数字界面生产级AI Agent

莫高设计(MasterGo)正式发布 MasterGo Agent,成为全球首个面向 数字界面生产 的 AI Agent。基于 MasterGo AI 整页生成的迭代成果,该智能体可调用设计规范、在画布中直接生成并灵活修改设计,并深度融入 设计与协作流程。MasterGo Agent 的推出标志着 AI在UI/UX设计生产环节实现生产级落地。
https://mastergo.com/
-- 完 --
机智流推荐阅读:
1. 万字长文解答为何LLM同问不同答?OpenAI前CTO团队最新研究让大模型结果可复现
2. VLA-Adapter:北邮等团队以0.5B参数实现机器人智能新高度,还无需预训练
3. 理解和生成让任务真的能相互受益吗,还是仅仅共存?北大&百度UAE框架,统一视觉理解与生成,实现多模态模型新突破
4. 聊聊大模型推理系统之Q-Infer技术突破:GPU-CPU协同推理提速3倍背后的三大创新
关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有HuggingFace每日精选论文与顶会论文解读、Talk分享、通俗易懂的Agent知识与项目、前沿AI科技资讯、大模型实战教学活动等。
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 智能体 | Agent 技术交流群