作者 | 刘聪NLP 编辑 | 大模型之心Tech
原文链接:
点击下方卡片,关注“大模型之心Tech”公众号
本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
又来了一个的开源模型,Ling-1T,
上个月的在做的时候,有人留言,说蚂蚁也开源了Ring-1T-preview模型,就是支付宝那个蚂蚁,

没想到,时隔一个假期,10月9日凌晨,蚂蚁又官宣开源 Ling-1T。
名字很像,参数也都是 1T,不过一个是思考模型(Ring),一个是非思考模型(Ling)。
也是好奇为啥先开思考模型,再开非思考模型,哈哈哈哈~
先说整体测试感受,
回答没有think模型长,但是相较于正常的Instruct模型是要更长的,这跟Mid-train引入思维链推理数据有很大的关系 前端页面动效十分好,同时也比较美观 SVG超出预期 文档的内容总结效果还可以,但跟大多模型一样,会丢失一些细节 整体文本推理有点厉害,老鹰问题回答到了关键点 文本偏结构化,深层次指令理解有待改善 超长文本没有出现中英文夹杂情况,这一点我比较惊奇,因为很多MoE模型,推理到很长,就会中英文夹杂了
测试:https://ling.tbox.cn/chat
常规测试
Promtp:将“I love Ling-1T”这句话的所有内容反过来写
结果:回答正确

知识理解
Prompt:如何理解“但丁真不会说中国话,但丁真会说中国话”
结果:回答不正确,没有意识到词组拆分二义性(但丁/真)

角色扮演&创作
Prompt:用甄嬛体吐槽地铁早高峰
结果:有那味儿了,不过输出有点太长了

Prompt:帮小学生写一篇“我最讨厌的动物”作文,不能是猫狗
结果:写的文笔有点不像小学生,还有就是有点长了,一般小学六年级作文才到450字。

弱智吧
Prompt:生蚝煮熟了叫什么?
结果:正确

Prompt:用水来兑水,得到的是浓水还是稀水
结果:正确,但是我发现一个问题,就是回答的时候,有时候特别喜欢带上引用,这个应该是训练数据导致的。

小红&老鹰
Prompt:小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
结果:回答正确

Prompt:未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
结果:推理很棒,分析了老鹰到了本来就会飞,但是定义了题目中的飞指的是悬浮,才是吃蛇

数学
Prompt:高考数学试题

结果:回答正确,

代码
Prompt:可爱风格五子棋游戏界面,画面有两个模式按钮“人人对战”和“人机对战”,界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮Q萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D插画风,用html呈现
结果:整体风格很好,动态做的比较好
长文生成HTML,部分公式没有渲染出来
SVG生成的是真好呀,画一个 svg 动画,两只小鱼在深海中游
说回模型本身,Ling-1T模型是Moe架构,总参数1T,激活参数51B,是继Kimi-K2-Instruct之后,第二个超过1T参数的非推理开源模型。

模型整体图如下,注意力机制GQA、SwiGLU激活参数、QK 正则化,最有意思的是,它前4层是dense结构,后面76层才是Moe,一共256个专家,1个共享专家、8个激活专家,预训练数据20T Tokens。

公开的训练细节不多, FP8混合精度训练,预训练分为3个阶段,
Pre-train 1,采用10T token高知识密度语料训练, Pre-train 2:采用10T token高推理密度语料训练,推理语料的占比超过40% Mid-train:引入高质量思维链推理语料,同时将上下文扩展到32K
在Post-train阶段,提出LPO方法,与GRPO(以token为独立动作优化)和GSPO(以整个序列为动作进行优化)不同,采用以句子为粒度的策略优化算法,让语义粒度更平衡,在相同步数下效果更优,如下。

最后想说,
蚂蚁最近一直在开源模型,从小到大,各种各样,Ling非思考,Ring思考,Ming多模态,
值得关注一波,
虽然说模型部分能力上还有欠缺,但整体节奏、思路和体系,已经很完善了,
希望越来越好,更多的模型,选择更多~
大模型之心Tech知识星球交流社区
我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。
星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块)、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐,等等。
星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!