
1.BOND: Aligning LLMs with Best-of-N Distillation

【要点】本文提出了BOND算法,一种新颖的基于人类反馈的强化学习算法,旨在模仿Best-of-N采样策略,但无需承担其在推理时的巨大计算开销。
【方法】BOND算法通过分布匹配,使策略生成的分布更接近Best-of-N分布,使用Jeffreys散度来平衡模式覆盖和模式寻求行为,并推导出一种利用移动锚点的迭代公式以提升效率。
【实验】通过在抽象摘要和Gemma模型上的实验,验证了BOND方法的有效性及设计选择的合理性,Gemma策略通过BOND对齐在多个基准测试上表现优于其他RLHF算法。
2.Durable Quantization Conditioned Misalignment Attack on Large Language Models

【要点】论文提出了一种新的量化条件错位攻击(Q-Misalign),能够在模型量化后激活原本在浮点模型中休眠的安全错位问题,从而绕过安全机制生成有害内容,并增强攻击的持久性。
【方法】作者采用了一种基于对比任务向量的方法来增强攻击的持久性,确保即使在下游微调之后,漏洞依然存在。
【实验】实验使用了Q-Misalign攻击方法,并在多个量化模型上进行了测试,结果表明该攻击显著提高了量化模型中的越狱成功率,同时保持了全精度模型性能和安全性。具体数据集名称在论文中未提及。
3.Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs

【要点】本文提出了一种基于Direct Preference Optimization的细粒度事实性对齐方法Mask-DPO,通过仅从事实正确的句子学习,有效提高了大型语言模型(LLM)响应的事实性。
【方法】Mask-DPO利用句子级别的事实性作为掩码信号,在偏好样本中仅学习事实正确的句子,并在不偏好的样本中避免对事实内容的惩罚,从而解决偏好学习中的模糊性。
【实验】在ANAH数据集上进行的实验表明,Mask-DPO显著提高了LLM对域内和域外问题响应的事实性。仅训练于ANAH训练集的Llama3.1-8B-Instruct在ANAH测试集上的得分从49.19提升至超过Llama3.1-70B-Instruct的53.44,同时在域外传记数据集上的FactScore从30.29提升至39.39,实验还比较了不同训练样本扩展策略,发现扩展数据集中的主题数量比问题数量更有效。
4.RMB: Comprehensively benchmarking reward models in LLM alignment

【要点】本文提出了RMB,一个全面的奖励模型(RM)基准,覆盖了49个现实世界场景,通过pairwise和Best-of-N(BoN)评估方法,揭示了奖励模型在指导大语言模型(LLM)对齐中的有效性,并发现了现有先进RM的泛化缺陷。
【方法】通过构建包含多种评估方式的RMB基准,对RM进行综合评价,探究了其与下游对齐任务性能之间的相关性。
【实验】使用RMB基准,在多个数据集上进行了实验,分析了当前最先进的RM,发现了新的泛化缺陷,并通过实验验证了生成性RM的潜力。
5.Instructional Segment Embedding: Improving LLMSafety with Instruction Hierarchy

【要点】论文提出了一种名为指令段嵌入(Instructional Segment Embedding,ISE)的新技术,通过在大型语言模型中直接嵌入指令优先级信息,以提升模型对恶意指令的防御能力,从而增强大型语言模型的安全性。
【方法】作者借鉴BERT模型,将指令优先级信息嵌入到大型语言模型的架构中,使得模型能够明确区分和优先处理不同类型的指令。
【实验】研究者在Structured Query和Instruction Hierarchy基准数据集上进行了实验,结果显示,使用ISE技术的模型在平均稳健准确性上分别提高了15.75%,同时在指令遵循能力上也有所提升。
6.TODO: Enhancing LLM Alignment with Ternary Preferences

【要点】本研究提出了Tie-rank Oriented Direct Preference Optimization (TODO)算法,通过引入TOBT模型以处理人类偏好的复杂性,提高了大型语言模型与人类意图的对齐度。
【方法】研究采用Tie-rank Oriented Bradley-Terry (TOBT)模型,该模型是Bradley-Terry模型的扩展,能够显式处理偏好中的平局情况,从而实现更细微的偏好表示。
【实验】在Mistral-7B和Llama 3-8B模型上进行的实验中,TODO算法与Direct Preference Optimization (DPO)相比,在处理偏好对齐方面表现更优。使用MT Bench以及Piqa、ARC-c和MMLU等基准测试进一步验证了TODO算法在偏好对齐上的优越性。

福利放送
科研资料大放送:
1.《全方向顶会顶刊论文合集》
2.《1000+热门idea合集》
3. 《申博咨询规划一次》



扫码领取
科研福利大礼包⬇️
