机智流团队首份研究!全球首个音文对齐“慢思考”反诈数据集与生成框架开源发布,斩获ACM Multimedia 2025

机智流 2025-09-28 23:11


本文由 Intern-S1 等 AI 生成,机智流编辑部校对

导语

电信诈骗的阴影笼罩全球,每年造成的经济损失高达万亿美元,如同一头难以驯服的猛兽。传统的反诈手段在日益狡猾的骗术面前,常常显得力不从心。

当大模型(LLM)强大的“慢思考”推理能力为我们带来一线曙光时,一个新的挑战又摆在眼前:我们如何跨越从真实语音通话到冰冷文本分析之间的“模态鸿沟”?那些藏在语气、停顿、声调里的关键诈骗信号,又该如何捕捉?

今天,我们激动地向大家宣布一项已被计算机多媒体领域顶会 ACM Multimedia 2025 接收的突破性研究成果——TeleAntiFraud-28k

这项研究由机智流社区(SmartFlowAI)核心成员尖米联合中移互联网、东北大学等顶尖机构的研究者们共同完成,全球首个专为电信诈骗分析设计的、开源的、音文对齐的“慢思考”数据集。

这个项目提供了包含 28,511 个样本、总时长超过 307 小时的高质量数据集,更开源了一整套创新的数据生成框架与评测基准,旨在为全球的多模态反诈研究奠定一块坚实的基石。

机智流团队首份研究!全球首个音文对齐“慢思考”反诈数据集与生成框架开源发布,斩获ACM Multimedia 2025图1
图 1:模型在 TeleAntiFraud-Bench 上的性能表现

一、研究背景:反诈之困与多模态破局

电信诈骗已成为一个刻不容缓的全球性社会难题。根据论文引述的数据,全球因诈骗导致的经济损失已触目惊心地高达 1.02万亿美元,占全球GDP的1.05%。面对如此严峻的形势,开发更高效、更智能的检测技术已是迫在眉睫。

然而,当前的反诈技术正面临两大核心挑战:

  1. 数据质量与隐私的“两难困境” :高质量的反诈模型离不开海量真实通话数据的“喂养”。但通话录音是用户的隐私红线,直接获取和使用几乎不可能。这使得现有方法大多依赖规则匹配或纯文本分析,不仅准确率受限,更难以跟上骗子们“日新月异”的剧本。
  2. “模态鸿沟”导致的关键信息丢失:诈骗的主要媒介是语音,但大语言模型(LLM)的主场是文本。目前行业主流的“ASR转写+LLM分析”方案,就像一个有损翻译器。骗子急切的语气心虚的停顿伪装的权威声调……这些宝贵的非语义信息在转写过程中大量流失,而它们恰恰是识破骗局的“胜负手”。

近年来,能够直接“倾听”并理解音频的大型音频语言模型(LALM),如Qwen2-Audio、GPT-4o等,为填平“模态鸿沟”带来了希望。同时,模拟人类专家深度分析、层层推理的“慢思考”(Slow-Thinking)机制,也被证明能显著提升模型在复杂判断任务中的准确性和可解释性。

但一个关键的瓶颈制约了这些前沿技术的应用——学术界和工业界都极度缺乏一个专为电信诈骗场景设计的、既有音频、又有“慢思考”推理链的高质量、大规模数据集

为了攻克这一难题,TeleAntiFraud-28k 应运而生。它的使命,就是为研究社区提供一个融合了真实场景、保护用户隐私、蕴含深度推理过程的多模态“军火库”,推动反诈技术迈向一个更智能、更精准的新纪元。

二、核心方法:三管齐下,铸造顶级反诈数据

TeleAntiFraud-28k的构建过程严谨且充满巧思,其核心方法可以概括为三大策略:高质量语音数据生成基于慢思考的文本标注,以及标准化的评测基准构建

机智流团队首份研究!全球首个音文对齐“慢思考”反诈数据集与生成框架开源发布,斩获ACM Multimedia 2025图2
图 2:TeleAntiFraud-28k 概述。我们的系统通过真实数据语音识别处理、基于大语言模型的模拟与增强以及多智能体对抗合成构建了 TeleAntiFraud28k,以此应对电信诈骗检测挑战。我们开发了 TeleAntiFraud-Bench 用于评估,并提供了带有开源数据处理的有监督微调模型。

第一步:创新的三阶段音频数据生成管线

为了打造一个既真实又多样化的数据集,研究团队设计了一套精妙的三阶段对话文本生成流程,再通过顶尖的语音合成技术赋予其“声音”。

机智流团队首份研究!全球首个音文对齐“慢思考”反诈数据集与生成框架开源发布,斩获ACM Multimedia 2025图3
图 3:音频数据生成的数据流

(1)真实数据ASR处理 (Real-Data ASR Processing)

从真实的电信诈骗和正常通话录音出发,在严格匿名化处理后,利用ASR技术将其“翻译”成文本。这一步确保了数据的“原生感”,完美保留了真实对话的语言模式

(2)大模型模仿与增强 (LLM-Based Imitation and Augmentation)

利用LLM强大的“自我指导(self-instruct)”能力,对上一步的真实文本进行模仿和扩写。通过精心设计的提示词(Prompt)和少样本,引导LLM在保留核心欺诈逻辑的同时,创造出场景更丰富、对话更多样的海量数据。

(3)多智能体对抗合成 (Multi-Agent Adversarial Framework)

这是最具创新性的一步!为了模拟层出不穷的新骗术,研究团队进一步构建了一个“反诈剧本杀”框架,其中包含三个智能体角色:

  1. “骗子” (Cheater): 被赋予特定诈骗任务(如投资、冒充客服)。
  2. “潜在受害者” (Callee): 拥有不同的用户画像,确保互动真实。
  3. “管理者” (Manager): 监控对话流程,确保其自然流畅且不偏离主题。 这个框架能高效生成大量新颖、复杂的诈骗对话,极大提升了数据集的“抗打击能力”。
机智流团队首份研究!全球首个音文对齐“慢思考”反诈数据集与生成框架开源发布,斩获ACM Multimedia 2025图4
图 4:多智能体对抗框架的结构
机智流团队首份研究!全球首个音文对齐“慢思考”反诈数据集与生成框架开源发布,斩获ACM Multimedia 2025图5
图 5:上述方法生成的三种数据映射到低维空间后的可视化结果。既显示了三种方法所生成数据的对话场景的不断拓展,也显示了其高度一致性

最后,团队采用先进的 ChatTTS 技术,将所有文本合成为包含独立声道的双通道音频,高度还原了真实电话的通话体验。

机智流团队首份研究!全球首个音文对齐“慢思考”反诈数据集与生成框架开源发布,斩获ACM Multimedia 2025图6
图 6:TeleAntiFraud-28k的数据样例

第二步:“慢思考”赋能,注入专家级推理能力

TeleAntiFraud-28k最核心的价值,在于其独特的“慢思考”标注机制。它要让模型不仅“知其然”(判断是否诈骗),更能“知其所以然”(为什么这么判断)。

整个标注流程如同一位反诈专家的工作实录:

  1. 音频分析: 首先,通过专业模型提取语音中的情感、语调、语速等特征。
  2. 专家推理: 随后,将音频特征与文本内容打包,交给一个扮演“反诈专家”的强大推理模型(DeepSeek-R1)。该模型被要求在给出最终结论前,必须在 <think> 标签内,像写破案笔记一样,详细记录其完整的思考链条。最终结论则在 <answer> 标签中给出。

这个推理过程遵循三级递进分析,逻辑清晰,层层深入:

  1. 通话场景分类: 首先判断通话属于哪种日常场景(如购物、订餐、打车等)。
  2. 欺诈与否判定: 基于场景,结合对话和语音特征,判断是否存在欺诈,并给出理由和置信度。
  3. 欺诈类型识别: 若为诈骗,再细分为 投资诈骗、钓鱼网站、身份盗用等具体类型。
机智流团队首份研究!全球首个音文对齐“慢思考”反诈数据集与生成框架开源发布,斩获ACM Multimedia 2025图7
表 1:训练和测试集上通话场景的分布情况
机智流团队首份研究!全球首个音文对齐“慢思考”反诈数据集与生成框架开源发布,斩获ACM Multimedia 2025图8
表 2:训练和测试集上欺诈类型的分布情况

这种“慢思考”标注,不仅让模型的决策过程变得透明、可解释,也为训练提供了极其宝贵的深度信息。

机智流团队首份研究!全球首个音文对齐“慢思考”反诈数据集与生成框架开源发布,斩获ACM Multimedia 2025图9
图 7:三级递进分析的示例

三、全面开源:共享成果,共建反诈新生态

本研究最大的亮点之一,是其彻底的开源精神。团队向全球社区开放了四大核心资源:

  1. TeleAntiFraud-28k 数据集: 包含28,511个音文对齐样本,总时长307小时,覆盖7大日常场景和7大主流诈骗类型。
  2. TeleAntiFraud-Bench 评测基准: 一个标准化的“反诈能力考场”,确保所有模型都能在公平、统一的标准下进行性能PK。
  3. 数据处理框架: 开源完整的数据生成与处理工具链,欢迎社区开发者在此基础上进行二次创新,共同壮大反诈数据集。
  4. TeleAntiFraud-Qwen2-Audio SFT模型: 提供了一个在本项目数据集上精调(SFT)的Qwen2-Audio模型。

微调后,模型在反诈任务上的综合得分从45.48%飙升至72.98% !其思考过程质量得分也从4.91大幅提升至6.44

这充分证明了本数据集和方法的巨大价值。它不仅为多模态反诈研究奠定了坚实的基础,更通过开源工具赋能社区,为构建一个更智能、更强大的全球反欺诈系统铺平了道路。

我们在此诚挚地感谢机智流社区、书生社区、中移互联网公司、魔搭社区以及所有为本项目提供支持的组织和个人。期待这项工作能激发更多创新,让我们携手共进,共同推动全球反电信诈骗研究迈向新的高峰!


👇 点击下方链接,直达项目仓库,即刻体验! 🚀

GitHub: https://github.com/JimmyMa99/TeleAntiFraud

论文链接:https://arxiv.org/pdf/2503.24115


-- 完 --


机智流推荐阅读

1. 

2. 

3. 

4. 



关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有
等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 智能体 | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
实测开源版 nano banana:更聪明的超长文本渲染,彻底告别 AI 汉字鬼画符
0925:云栖大会通义集中发布6款模型+1个全新品牌|Meta FAIR发布代码世界模型CWM|英伟达开源Audio2Face
大毛拆了一台前所未见的二毛无人机:树莓派+开源飞控+玄云SW400pro涡喷发动机
美的华为达成战略合作:星闪+开源鸿蒙生态,迎来传统家电巨头
刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了
软件全面开源开放,昇腾AI生态发展进入加速期
智元机器人GO-1通用具身基座大模型开源:向全球免费开放!
RAL'25开源 | 清华新作EffoNAV:复杂环境的高效视觉导航方
NeurIPS'25 开源|Co-Adaptation-3DGS:3DGS的过度共适应现象是稀疏视角重建伪影的核心原因
首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号