📑 DeepSeek R1 技术报告新增 64 页,训练细节全公开
DeepSeek 没更新 R2,反而是在论文平台 arXiv 上,悄悄更新了其 R1 模型的技术论文,将原本的 22 页扩展至 86 页。
,这次论文更新,提供了大量的工程实现细节、负面结果分析、安全评估以及具体的 Prompt 案例。
在核心算法上,v2 版本不仅仅介绍了 GRPO 算法,还深入解释了其背后的工程考量和对比。解释了为什么 GRPO 更节省显存,且在长思维链推理中表现更好。
训练基础设施上,也详细介绍了基于 vLLM 的强化学习训练框架,极其透明地公开了训练超参数,学习率、Batch Size、KL 系数等。
以及具体的训练成本,DeepSeek-R1 总训练成本约为 29.4 万美元,使用了 14.7 万个 H800 GPU 小时。
此外,还公开了大量的实际 Prompt,包括用于生成人类可读解答的 Prompt、用于生成代码测试用例的 Prompt、用于简单数学问题的 CoT 生成 Prompt、作为裁判的 Reward Model Prompt 等。
同时在顿悟时刻上,还统计了反思性词汇,如 「wait」, 「verify」等,在训练过程中的频率变化,证明了反思能力的涌现。
更多实验与泛化能力验证,也体现在补充了模型在 AIME 2025(论文发表时尚未发生的竞赛)上的表现,证明模型没有过拟合训练集,具有真实的泛化能力。
对比了 DeepSeek-V3 和 R1 在不同学科上的具体提升幅度。也分析了问题难度,与模型生成的思考 Token 数量之间的正相关关系。
最后还专门讨论了安全问题,包括风控系统,介绍了 DeepSeek-R1 线上服务部署的风险控制系统架构;多维度的基准测试,在 discrimination, illegal behavior, harmful content 等多个维度上对比了 R1 与 GPT-4o、Claude-3.5-Sonnet 的安全性;以及越狱攻击,测试了模型在面对恶意攻击时的鲁棒性。
🔗 https://arxiv.org/abs/2501.12948v2
💰 xAI 去年前三季度亏损约 80 亿美元,融资 200 亿继续
据彭博社报道,马斯克旗下的 AI 初创公司 xAI 在2025年前九个月,已消耗近 78 亿美元现金,主要用于建设数据中心、吸引顶尖人才,和开发用于人形机器人 Optimus 的软件。
公司在 9 月季度净亏损 14.6亿 美元,高于第一季度的 10 亿美元。尽管亏损扩大,xAI 的收入在第三季度接近翻番,达到 1.07 亿美元,不过离全年 5 亿美元的目标,还是有距离。
xAI最近还完成了一轮高达 200 亿美元的融资,由英伟达、Valor Equity Partners、和卡塔尔投资局等机构参与,公司估值达到 2300 亿美元。
这笔资金预计又可以,支撑公司一年以上的高额投资运营。
在马斯克的多项业务中,xAI 与 Tesla 和 SpaceX 等公司频繁交叉协作。尽管 Tesla 股东近期,未通过对 xAI 的投资提案,xAI 已从 SpaceX 获得资金支持,并在多个项目中使用 Tesla 的技术。
🔗 https://www.bloomberg.com/news/articles/2026-01-09/musk-s-xai-reports-higher-quarterly-loss-plans-to-power-optimus
📈 智谱上市后,MiniMax 香港上市首日股价翻倍
MiniMax(0100.HK)于 1 月 9 日在香港交易所上市,首日交易表现就引起市场广泛关注。
MiniMax 股价从发行价每股 165 港元,飙升至收盘价 345 港元,涨幅高达 109%,一度触及每股 351.8 港元的高点;这使得 MiniMax 市值约达 137 亿美元。
本次 IPO 共募集资金 48 亿港元(约 6.2 亿美元),将主要用于研发投入。
MiniMax 是继智谱 AI(2513.HK)后,第二家成功上市的「国产 AI 六小虎」企业。相比之下,智谱 AI 在前一天的首秀中股价仅上涨 13%。
1 月 8 日,智谱在香港交易所上市,是全球首家上市的大型语言模型公司,其发行价为每股 116.20 港元,开盘价为 120.00 港元,市值达 528.3 亿港元。
有分析师认为,MiniMax 的市场吸引力,源于其专注消费市场的高增长潜力,而智谱 AI 则主打企业与政务服务,定位更为稳定但缺乏市场热度。
除市场表现外,MiniMax 还吸引了包括阿里巴巴、阿布扎比投资局、博裕资本及未来资产在内的重要基石投资者的支持。与此同时,智谱 AI 的股价在第二个交易日也再涨 20.6%,投资者对国产 AI 企业还是相当有信心。
🔗 https://www.reuters.com/world/asia-pacific/china-ai-firm-minimax-set-surge-hong-kong-debut-2026-01-09/
👩 HER 变成现实,AI 成人机器人亮相 CES
还记得电影《her》里面,由斯嘉丽扮演的 AI 系统 OS 1,萨曼莎吗?在电影里,男主角和萨曼莎发现他们非常投缘,还存在双向的需求与欲望。
现在,成人互动玩具品牌 Lovense 爱感在 CES 上,推出了名为 Emily 的 AI 驱动伴侣机器人。它结合了硅胶外观与仿人类的交互体验,拥有真人大小的尺寸,通过 AI 系统实现记忆、学习用户喜好及个性化适配。
Lovense 强调 Emily 的定位不仅是成人工具,更是情感陪伴者,探索人机关系的新可能。它也是作为公司整个生态系统的一部分,集硬件、软件与长期机器学习于一体,展现 AI 和人类关系,从工具向情感依赖演变的趋势。
该产品的售价将在 4000-8000 美元之间,根据定制化程度而异,计划于2027年正式发售。目前消费者可以支付 200 美元的预约费加入等待名单。
在 CES 期间,APPSO 几乎也逛遍了所有场馆,还有更多有趣或者抽象的产品,可以看看我们之前的汇总。
🔗 https://www.cnet.com/tech/services-and-software/ces-2026-emily-sex-robot-with-memory/
🛒 奥特曼的购物功能还没整明白,微软的 Copilot 也加了结账功能
根据《The Information》前两天的报道,OpenAI 希望将 ChatGPT 打造为个人购物助手的计划,正面临数据处理的复杂性。ChatGPT 内置结账功能的推广速度远低于预期。
尽管 OpenAI 早在去年 9 月,就宣布了与 Shopify 和 Stripe 合作,并计划将数百万家商店的产品接入 ChatGPT,但由于商户商品数据标准化问题,该功能的实际覆盖范围仍然非常有限。
在 ChatGPT 的购物体验上,存在的不少技术障碍,包括实时获取准确的库存和价格信息等。OpenAI 必须处理,分散在多个系统中的模糊数据,如果解读错误,就可能导致错误定价,或无库存商品的订单,从而引发支付纠纷。
而就在 OpenAI 都焦虑搞不好支付功能的时候,微软周四又宣布,将在它们的聊天机器人 Copilot 中,添加 「购买」按钮,让它也可以成为一款购物的 AI 应用。
Copilot 将允许用户无需离开聊天机器人窗口,即可完成购物;并且,能从 Urban Outfitters 和 Etsy,等零售商处购买商品。Shopify商家的账户,将被自动加入该功能,但提供了选择退出的时间窗口。
电商这块饼,最后会被哪家 AI 给吃下,现在看来还没有定数。
🔗 https://www.theinformation.com/briefings/microsoft-adds-checkout-features-copilot
🧑🎓姚顺雨、杨植麟、唐杰、杨强等大佬齐聚一堂聊 AI
1 月 10 日,清华大学基础模型实验室和智谱 AI,主办的 AGI-Next 前沿峰会上,中国 AI 领域的几位重量级人物齐聚一堂。
包括前不久刚入职腾讯的姚顺雨、Kimi 的杨植麟、智谱创始人兼首席科学家唐杰、阿里通义千问 Qwen 技术负责人林俊旸等 AI 大佬。
他们围绕 AI 基模发展、Agent 战略和未来前景进行了深度探讨。
在模型分化的趋势上,姚顺雨表示 AI 大模型的应用,已明显分化为 To C(面向消费者)和 To B(面向企业)领域。
To C 领域用户需求较弱,多扮演搜索引擎加强版角色;To B 领域则通过智能提升生产力,创造更高商业价值。
模型与应用之间的分层路径,与垂直整合路径也开始分化,模型公司需在训练、优化和应用场景中找到平衡。
关于 Agent,他们提到,未来的 Agent 有望完成 1-2 周的人类工作量。To B 领域的 Agent 发展目标,聚焦于提升模型智能以解决高价值问题;To C 领域则需更关注用户教育,和环境适配。
唐杰说 DeepSeek 的横空出世令学界和产业界感到震撼。聊天的 AI 可能已接近天花板,新的范式是让每个人能用 AI 做事,就是 Agentic 智能体。
而谈到中国 AI 企业的未来潜力时,他们都对中国 AI 企业,在 3-5 年内的 AI 发展持乐观态度。不过当被问到,是否能超过美国时,林俊旸估计,中国公司在这一时间内实现重大突破、超越 OpenAI 和 Anthropic 等美国公司的可能性不到 20%。
杨植麟计划在未来 10-20 年内,陆续推出 K4、K5 直至 K100 系列模型。
🔗 https://news.qq.com/rain/a/20260110A06GIY00
马斯克宣布将在一周内开源 X(前称Twitter)的新算法,让用户了解其推荐机制,包括原生内容和广告的推荐代码。
尽管他曾在 2023 年部分开源 Twitter 算法,但其 GitHub 代码库长期未更新,现有的代码也已过时。
马斯克承诺此次算法开源后会每四周更新一次,并附带开发者注释。
马斯克一直承诺开源 X 的部分功能,并且至少在一定程度上兑现了承诺。然而,由于过往的承诺和实际情况存在出入,例如马斯克在 2024 年发布了 Grok-1,但如今 xAI 已经基于 Grok-3,而 Grok 的 GitHub 代码库已经两年没有更新了。
还有近期针对马斯克和 X 上不雅 AI 照片的争议,外界对此次开源计划的真实性和透明度,都持怀疑态度。
🔗 https://www.theverge.com/news/860294/elon-musk-open-source-x-algorithm