生成式AI
一、苹果首款AI服务器芯片曝光!2027年落地,主攻推理
1. 苹果正开发首款代号"Baltra"的AI服务器芯片,与博通合作开发网络技术,采用台积电3nm工艺,预计2027年部署;
2. 苹果已放弃自建大模型转而每年支付约10亿美元使用谷歌定制的1.2万亿参数Gemini模型,Baltra主要用于满足庞大的AI推理需求;
3. 芯片架构将注重时延与吞吐量优化,采用INT8等低精度运算,可能采用64颗芯片互连配合大容量LPDDR内存的方案。
二、英伟达推出 Nemotron 3 系列开源模型,推理效率升4倍
1. 英伟达推出Nemotron 3系列开放模型,包含Nano、Super和Ultra三种规模,采用突破性异构混合专家架构;
2. Nemotron 3 Nano吞吐量比上一代高4倍,在大规模多智能体系统中实现领先的每秒生成token数,推理效率显著提升;
3. 模型通过先进强化学习技术和大规模并行多环境后训练实现卓越准确率,并提供完整的训练数据集和强化学习库。
三、一位网友逆向破解了 ChatGPT 记忆系统,意外的简洁
1. 开发者Manthan Gupta逆向破解发现ChatGPT记忆系统采用四层架构:会话元数据、用户记忆、近期对话摘要和滑动窗口;
2. 系统未使用向量数据库或RAG检索,而是通过预生成的轻量级摘要和显式保存的结构化信息实现"记住用户"的效果;
3. GPT-4最大上下文窗口为128k token,超出后最前面的内容会被遗忘,用户可随时要求模型删除或修改记忆内容。
四、元宝「写作模式」来了:边聊边写,就能写出万字长文!
1. 腾讯元宝上线写作模式,支持自动补全剧情人设大纲并一键生成成稿,单次可直出数万字文本,保证人物性格一致、情节连贯且能记忆伏笔;
2. 功能适配历史、科幻、同人等多题材创作,用户仅需一句话设定即可让AI补全大纲章节结构,并可自定义故事走向与结局;
3. 元宝可在约14 分钟生成约 3 万字,半小时写出 5 万字,并支持将长稿一键导出至本地文档或腾讯文档。
五、通义万相Wan2.6发布,上线了国内首个角色扮演功能
1. 通义万相2.6成为国内首个支持角色扮演的视频模型,支持音画同步、多镜头生成及声音驱动,是全球功能最全的视频生成模型;
2. 视频生成支持15秒长视频、多镜头叙事和自然音画同步,能参考输入视频角色外观和音色实现单人、多人合拍;
3. 图像生成升级包括艺术风格高度美学可控、真实人像质感提升、文字生成图表插画、图文混排输出和多图融合生成等功能。
六、字节Seedance 1.5 pro 音视频创作模型发布,声画俱全
1. 字节跳动发布Seedance 1.5 pro音视频联合生成模型,支持精准音画同步、多语言方言、电影级运镜和15秒长视频生成;
2. 模型采用MMDiT架构实现视听流精准协同,原生支持中英日韩等多语种及四川话粤语等方言,音频指令遵循处于业内头部水平;
3. 在综合评测SeedVideoBench 1.5中,动态表现饱满,人物表情生动,音画错位现象显著减少,可应用于影视、广告、短剧等场景。
前沿科技
七、我国首批L3级自动驾驶车型,长安、北汽获得准入许可
1. 工信部于第401批公告附条件许可长安深蓝SL03和极狐阿尔法S两款L3级自动驾驶车型,成为我国首批获准入的L3车型;
2. 深蓝SL03可在拥堵环境下最高时速50km/h实现单车道自动驾驶,仅限重庆内环等指定路段;极狐阿尔法S最高时速80km/h,仅限北京京台高速等路段;
3. 两家企业已完成并通过产品测试与安全评估,将由长安车联科技和北京出行汽车服务在指定区域开展上路通行试点。
报告观点
八、谷歌前CEO:当技术融合到一定阶段会出现递归自我改进
1. 谷歌前CEO Eric Schmidt提出"旧金山共识",认为语言智能体与推理能力结合将趋近人类核心能力,技术融合到一定阶段会出现AI递归自我改进;
2. 他预测AI数学家将在未来一年内出现推动新数学理论诞生,行业普遍认为这一变革在2-4年内发生,但强调必须保持人类主体性和决策主导权;
3. 美中AI竞争路径分化:美国聚焦超级智能研发但电力不足,中国全力推动AI商业应用落地且电力充足,两国均依赖私营部门推动发展。
九、AI「手指难题」翻车,6根手指暴露Transformer致命缺陷
1. 多款AI模型面对六指手图像无法正确数出手指数量,即使prompt明确说明有6根手指,模型仍坚持认为是5根;
2. 问题根源在于训练数据中"人手=五指"的强关联和Transformer架构缺乏显式结构约束,单次前向传递无法追踪状态信息;
3. 扩散模型擅长捕捉整体分布和纹理但难以精确控制局部离散结构,暴露出当前AI在视觉推理、因果关系理解上的阿喀琉斯之踵。