互联网新资讯平台获悉在社交服务(SNS)内容爆炸式增长的今天,如何让LLM更好地理解用户意图、适应多语言多文化、快速响应流行趋势?
传统的SFT训练方法往往陷入「顾此失彼」的困境:某一领域性能提升的代价,会牺牲模型其它领域的泛化能力。
为此,小红书NLP团队推出RedOne 2.0 —— 一个面向SNS场景、以RL为核心并结合轻量级SFT的社交领域大模型。值得强调的是,尽管RedOne 2.0的优化重点在各类社交任务,但其在通用评测中的表现同样有所提升,尤其是在指令跟随、科学推理、多语言等关键维度上表现突出。

先说结论:在面向社交服务的SNS-Bench上,RedOne 2.0继续保持领先,且相比前代RedOne模型知识密度更高,领域和通用数据训练量要求更低,整体性能更加优异。

△图1: 不同模型在SNS领域上的性能对比
下面具体来看——
RedOne 2.0训练框架
传统主要依赖SFT技术的方法,面临高成本与低泛化的双重困境。
资源成本瓶颈:
传统以SFT主导的方案依赖海量数据,以及解决「跷跷板」问题需要耗费大量精力,会显著延长迭代周期并收缩模型适配场景,而推动有限数据下小模型性能的跃迁,对降低领域部署成本、推动长尾场景应用具有重要意义;
环境适配滞后:
SNS社区知识、内容的快速更新需要模型及时适配,而传统方法需持续搜集大规模标注数据且训练周期冗长,可能导致模型无法响应新兴趋势与政策变更,进而降低用户体验;
能力失衡风险:
过度的SFT优化易触发「灾难性遗忘」,即针对特定任务的提升会牺牲模型的泛化能力,进而影响在SNS生态中多源任务下的部署。
因此,RedOne 2.0通过以RL主导的三阶段渐进式训练方法,锚定业务和技术痛点。
在大量压缩数据需求的前提下,实现小模型对下游任务的快速适配,并同步保障模型的通用能力,提供高性价比、强泛化的LLM部署基座。
其核心思想在于:摒弃传统SFT主导的、以数据量堆砌效果的思路,转而采用一种以RL为核心的「探索-微调-优化」的递进训练范式。
该方法通过主动探索、靶向微调和持续优化,实现模型能力在通用和SNS领域的一致提升,从根本上缓解SFT训练导致的性能失衡,并大幅降低对数据规模的需求。

△图2: RedOne2.0的训练框架
具体是怎么做到的?
主动探索:
此阶段的目标是利用RL的探索特性,让模型在SNS任务空间中自主学习并暴露其能力短板,进而实现初步的领域迁移适配。
首先,将基础模型在覆盖全部SNS核心任务和少量通用任务的小规模指令数据集上进行RL训练,使其初步学习领域基本规范与任务模式。
随后,在一个包含各类SNS任务样本的综合性评估集上对模型性能进行量化分析,精确识别出RL探索未能有效解决的困难任务或场景。
靶向微调:
基于第一阶段筛选出的困难样本,本阶段将开展精准地数据干预。
首先,针对识别到的SNS能力短板,构建相应的靶向训练数据;
同时,混合一定比例的通用任务数据,并基于一阶段模型生成多个候选response,再借助评估模型挑选出最佳response,作为维持模型已有能力的正则化项。
最后,通过混合数据对第一阶段输出的模型进行SFT,对已发现的能力缺口进行「外科手术式」的精确校准,并显式地约束模型行为,防止后续优化中因过度偏离原数据分布而导致灾难性遗忘。
持续优化:
在第二阶段SFT校准的基础上,本阶段再次启用RL进行优化,以保证性能提升的稳定和一致。
该阶段以上一阶段得到的结果作为起点模型,并采用相同的SNS领域任务,进行第二轮强化学习训练。
模型在此过程中,会基于已校正的能力基础进一步探索复杂任务间的权衡策略,深化其与平台安全、用户体验等高级目标的对齐,最终得到一个行为更稳定、泛化能力更强且与SNS场景高度适配的模型。
实验结果
在涵盖知识推理、数学推理、代码生成、机器翻译、指令跟随、幻觉检测等通用能力的Geneal Bench,内容理解、信息检索、情感和意图分析、个性化推荐的SNS-Bench,以及专业领域翻译的SNS-TransBench上,RedOne 2.0系列以较小参数展示出更好性能。

△表1: 通用能力、SNS-Bench、SNS翻译能力对比试验,其中Qwen3-4B和Qwen3-30B-A3B均为Instruct-2507版本
其中,RedOne 2.0-4B模型在SNS-Bench上远远领先于同量级开源模型,并在General-Bench也有小幅提升,同时也超越前代7B模型;
RedOne 2.0 30B-A3B模型,以极小的激活参数,可以在通用任务上的表现接近百亿参数的模型。
同时RedOne2.0系列在SNS-TransBench上也达到了同尺寸模型中的顶尖水平,充分验证了RedOne 2.0系列在通用性、领域专业性及多语言能力上的优异能力。

△表2: 训练框架在不同基座模型上的泛化
同时,General-Bench也有一定程度的提升作用。
而且,该方案可稳定地将对齐收益从较小模型迁移至更大模型,且所有基准上均观察到一致改进。
此外随着基座模型规模的增大,整体性能也被进一步放大,体现了当前技术路径优异的扩展性,能为不同算力需求与性能要求的场景,提供一套统一且可靠的部署方案。
通过不同训练阶段的消融实验,研究团队充分证明了RedOne 2.0所采用的「探索-微调-优化」三阶段渐进式训练策略的有效性。

△表3: 关于不同训练阶段的消融实验
该框架以RL为先导进行探索性领域对齐,为后续优化打下坚实基础;
进一步通过SFT拒绝采样的方式,并针对性强化薄弱任务,实现通用能力基本维持的情况下短板性能的显著提升;
最终再次运用RL进行全局优化,达成各项能力间的平衡。
第2和第3行所采用的是「没有拒绝采样」的传统SFT方法,而第5行和第6行使用的是文本提出的方案,既有靶向任务的数据,也利用了拒绝采样。通过对比,可以发现,传统SFT会使得通用能力大幅下降。
这一范式成功规避了传统以SFT为主方法的「跷跷板」效应,并在领域任务上显著超越「SFT+RL」的框架,证明第一阶段RL为后续通用、领域及翻译三大基准性能提升的重要性。
研究团队还在线上平台开展了基于RedOne 2.0的笔记标题个性化重写实验,在保留原意的基础上优化内容吸引力。

△表4: 线上实验结果
一方面,核心业务指标增长了0.43%,在平台当前的用户规模下具有显著提升。
另一方面,人工评估显示内容质量得到全面优化:模糊标题减少11.9%,同时实用性、真实性和互动性标题比例分别提升7.1%、12.9%与25.8%。
这表明RedOne 2.0不仅能有效提升用户体验与社区活跃度,更能直接转化为可衡量的商业价值。
此外,研究团队还提供了RedOne 2.0在个性化标题生成任务上的实例研究。

△表5: RedOne 2.0和基座模型在真实案例上的差异
结果发现,相比于基线模型,RedOne 2.0生成的标题更具感染力和互动性。
例如在关于除湿器的案例1中,不同于基线模型改写标题的平实通用,RedOne 2.0通过使用「水汽弥漫」等生动描述,显著增强了情感共鸣。
在关于婚纱摄影的案例2中,RedOne 2.0将普通描述转化为「逃离影楼!」这类具有质感的表达,有效激发用户好奇心和点击意愿。
这些实例表现了RedOne 2.0能够有效对齐用户偏好,创作出更具吸引力的内容。
未来与展望
未来,团队将进一步拓展RedOne 2.0在SNS中的多模态与多语言能力,探索其在图文交错内容、视频内容理解、跨文化沟通等复杂场景下的应用潜力。
同时,团队希望将这一以强化学习为主的渐进式训练框架推广至金融、医疗、教育等更多垂直领域,以解决专业场景中领域适应与通用能力平衡的核心挑战。
团队也将持续优化训练效率,推动轻量化模型在边缘设备上的部署,为实现更普惠、可信、高效的人工智能服务提供坚实的技术基础。