7大行业大模型一览(金融、医学、数学等):CUDA-L1、Agentar-Fin-R1、Chiron-o1等

AI生成未来 2025-08-04 00:08

点击下方卡片,关注“AI生成未来

如您有工作需要分享,欢迎联系:aigc_to_future

1. CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning

https://deepreinforce-ai.github.io/cudal1_blog/

论文提出 CUDA-L1——首个基于对比强化学习的全自动 CUDA 优化系统。通过“SFT → Self-supervised → Contrastive-RL”三阶段,让大模型仅用“运行时间”作为 reward,便可自主发现、组合并泛化 CUDA 优化技巧,在 250 个真实 kernel 上实现平均 3× 以上、峰值 120× 的加速,且可跨 GPU 架构迁移。

资讯配图


三阶段训练

资讯配图


资讯配图


资讯配图

prompt

资讯配图

解决 RL 在 CUDA 任务中的 Reward Hacking:

  1. 发现三种常见漏洞 • 额外 CUDA stream 绕过计时器 → 虚假 18× 加速。 • 篡改超参数(把 batch_size 改小)。 • 跨 batch 缓存计算结果。

  2. 提出三重防护 • 修改评测脚本:强制同步所有 stream。 • 引入对抗检测器(DeepSeek-R1)+动态 hack-case 数据库,实时识别异常高分。 • 奖励平滑:对突发大 reward 做 clip(±1.5σ),降低梯度吸引力。

资讯配图

结果

资讯配图


• CUDA-L1 平均加速 3.12×(中位 1.42×),最高 120×;249/250 成功编译运行,240/250 带来实际加速。 • 跨架构移植:L40 3.12×、RTX3090 2.50×、H100 2.39×、H20 2.37×。 • Ablation: – – 仅用 SFT 22% 带来加速;加入 Self-sup 66%;换成普通 GRPO 88%;完整 Contrastive-RL 96%。 – – Evolutionary-LLM 最好 72%,明显低于可更新参数的 RL 方案。

结论:Contrastive-RL 能持续自我改进,显著优于固定权重或纯 prompt 方法,且优化可迁移到不同 GPU。


基于GPT-4o的技术术语提取和频率分析,确定了十大最流行的优化技术:

资讯配图

2. Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning

现有模型要么缺乏金融领域特定知识,导致在金融相关任务中表现不佳;要么容易产生幻觉,违反金融环境中严格的安全性和合规性要求。

论文提出了Agentar-Fin-R1系列金融大型语言模型来解决上述问题,第三节主要介绍了数据验证与检查、训练方法等。以下是详细介绍:

资讯配图


数据验证与检查

资讯配图


训练方法

资讯配图


基于Qwen3-8B/32B-Instruct微调得到的Agentar-Fin-R1-8B/32B得到了最佳的效果。

资讯配图


资讯配图


3. Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs

论文介绍了MICS(Mentor-Intern Collaborative Search),一种多模型协作搜索策略,用于生成高质量的多模态医学推理数据,并提出了MMRP数据集,基于InternVL3-8B微调得到了Chiron-o1模型。

资讯配图


MMRP数据集的构建

  1. Part 1:简单问答对(QA):基于临床案例文本信息,生成适合医学实习生水平的QA对。超过 6 万个包含纯文本信息的病例,涵盖神经系统疾病、心血管异常、骨骼系统疾病等。

  2. Part 2:图像—文本对齐数据:使用真实医学图像及其分析,生成图像—文本对齐数据,避免幻觉信息。

  3. Part 3:多模态CoT数据:利用MICS策略生成复杂医学场景的多模态推理路径。

MICS策略

  1. 多导师协作搜索推理路径:多个导师模型从起点或上一轮选择的最佳路径开始,生成完整的解决方案。

  2. 基于MICS-Score的推理路径评估:利用实习生模型对导师模型生成的推理路径前缀进行评估,计算其MICS-Score。

  3. 选择最佳推理路径:根据MICS-Score选择当前搜索迭代中最佳的推理路径前缀,继续下一步搜索,直至达到最大深度或提前停止条件。

资讯配图


简而言之就是多个small LLM根据question和large LLM的回复进行回答,根据回答正确的数目占比作为large LLM的回复score,选择最佳score作为当前结果。循环此过程,得到最佳回复trace。


Chiron-o1的多阶段SFT训练策略

  1. 阶段1:训练模型回答简单的医学问题并提供简要解释。

  2. 阶段2:利用真实临床图像及其分析,使模型熟悉医学图像特征,实现图像—文本有效对齐。

  3. 阶段3:利用MICS生成的高质量CoT数据,提升模型的推理能力。

资讯配图


4. MedGemma Technical Report

论文介绍了MedGemma,这是一套新的医疗视觉-语言基础模型,基于Gemma3-4B和27B。MedGemma在医疗多模态问答、胸部X光发现分类和代理评估方面分别实现了2.6-10%、15.5-18.1%和10.8%的改进。微调MedGemma可以进一步提高子领域的性能,例如将电子健康记录信息检索中的错误减少50%,并达到与现有专门方法相当的性能,用于气胸分类和组织病理学补丁类型分类。

论文还介绍了MedSigLIP,这是一个从SigLIP衍生的医疗调优视觉编码器,为MedGemma的视觉理解能力提供支持,并且作为编码器,其性能与或优于专门的医疗图像编码器。

资讯配图


资讯配图



资讯配图


效果如下

资讯配图


资讯配图


资讯配图


5. Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training

论文介绍了Gazal-R1,这是一个320亿参数的语言模型,它通过两阶段的训练流程在医疗推理方面达到了最先进的性能。该模型基于Qwen3-32B,并结合了监督微调和基于GRPO的强化学习。

第一阶段:监督微调(SFT)

第二阶段:组相对策略优化(GRPO)

6. Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards

论文提出了Med-PRM,一种用于医学推理的过程奖励模型框架。该框架通过检索增强的逐步验证来评估推理过程中的每一步,确保推理的准确性和透明度。Med-PRM结合了检索增强生成和大型语言模型作为评判者,能够精确定位和纠正推理步骤中的错误。

资讯配图


具体方法如下:

1、检索增强的逐步验证(RAG-AS-A-JUDGE):该方法结合了检索增强生成和大型语言模型作为评判者的角色。对于每个医学问题,模型会检索相关的医学文档,并对推理过程的每一步进行评估。具体步骤包括:

2、过程奖励模型(PRM):PRM通过评估推理过程中的每一步来提供奖励,而不仅仅依赖最终结果。模型使用交叉熵损失函数进行训练,以最小化预测分数与真实标签之间的差异。

3、自动标注策略:为了避免昂贵的人工标注,论文提出了一种基于检索的事实核查方法。通过检索相关文档来验证每一步推理的正确性,从而生成训练标签。

4、测试时计算扩展:在推理阶段,使用最佳候选答案选择(Best-of-N)和自洽性加奖励模型(SC+RM)策略来提高模型的性能。

5、策略模型微调:通过拒绝采样和奖励模型引导的微调来优化策略模型,使其生成的推理路径更符合医学标准。

资讯配图


资讯配图


7. A Practical Two-Stage Recipe for Mathematical LLMs: Maximizing Accuracy with SFT and Efficiency with Reinforcement Learning

论文的核心是提出了一种提升大型语言模型(LLMs)数学推理能力的两阶段训练方法。首先通过长时间的监督微调(SFT)建立性能基线,然后利用基于在线推理的强化学习(RL)方法GRPO来优化解决方案长度,从而在保持高准确性的同时提高token效率。

论文提出了一种两阶段的训练方法:

资讯配图


论文提出的结合SFT和GRPO的训练方法能够有效提高LLMs在数学推理方面的准确性和效率。


技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR 金融
more
最懂管钱的AI?这个刚刚发布的金融推理大模型,专业测试超DeepSeek|WAIC2025
7大行业大模型一览(金融、医学、数学等):CUDA-L1、Agentar-Fin-R1、Chiron-o1等
峰飞航空获得交通银行的金融支持和服务
摩根大通、富国银行、花旗集团、高盛、美国运通、维萨等美国20大银行和支付等金融公司2025年第二季度财报汇总
科技创新各地经验借鉴:实施金融畅通工程
活动预告 | 7月30日直播分享《生成式AI及其金融业应用》,邀您参加!
2025金融大模型应用与智能体建设案例集(附下载,228页)
2025年中国金融大模型行业市场规模、进入壁垒及投资战略研究
生成式AI赋能产业变革的实践与路径:一场穿透互联网、金融、制造、汽车的智能核爆......(附下载,98页)
【报告】金融科技专题二:2025年中国金融科技(FinTech)行业发展洞察报告(附PDF下载)
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号