本文由 Intern-S1 等 AI 生成,机智流编辑部校对
导语
电信诈骗的阴影笼罩全球,每年造成的经济损失高达万亿美元,如同一头难以驯服的猛兽。传统的反诈手段在日益狡猾的骗术面前,常常显得力不从心。
当大模型(LLM)强大的“慢思考”推理能力为我们带来一线曙光时,一个新的挑战又摆在眼前:我们如何跨越从真实语音通话到冰冷文本分析之间的“模态鸿沟”?那些藏在语气、停顿、声调里的关键诈骗信号,又该如何捕捉?
今天,我们激动地向大家宣布一项已被计算机多媒体领域顶会 ACM Multimedia 2025 接收的突破性研究成果——TeleAntiFraud-28k!
这项研究由机智流社区(SmartFlowAI)核心成员尖米联合中移互联网、东北大学等顶尖机构的研究者们共同完成,全球首个专为电信诈骗分析设计的、开源的、音文对齐的“慢思考”数据集。
这个项目提供了包含 28,511 个样本、总时长超过 307 小时的高质量数据集,更开源了一整套创新的数据生成框架与评测基准,旨在为全球的多模态反诈研究奠定一块坚实的基石。

一、研究背景:反诈之困与多模态破局
电信诈骗已成为一个刻不容缓的全球性社会难题。根据论文引述的数据,全球因诈骗导致的经济损失已触目惊心地高达 1.02万亿美元,占全球GDP的1.05%。面对如此严峻的形势,开发更高效、更智能的检测技术已是迫在眉睫。
然而,当前的反诈技术正面临两大核心挑战:
数据质量与隐私的“两难困境” :高质量的反诈模型离不开海量真实通话数据的“喂养”。但通话录音是用户的隐私红线,直接获取和使用几乎不可能。这使得现有方法大多依赖规则匹配或纯文本分析,不仅准确率受限,更难以跟上骗子们“日新月异”的剧本。 “模态鸿沟”导致的关键信息丢失:诈骗的主要媒介是语音,但大语言模型(LLM)的主场是文本。目前行业主流的“ASR转写+LLM分析”方案,就像一个有损翻译器。骗子急切的语气、心虚的停顿、伪装的权威声调……这些宝贵的非语义信息在转写过程中大量流失,而它们恰恰是识破骗局的“胜负手”。
近年来,能够直接“倾听”并理解音频的大型音频语言模型(LALM),如Qwen2-Audio、GPT-4o等,为填平“模态鸿沟”带来了希望。同时,模拟人类专家深度分析、层层推理的“慢思考”(Slow-Thinking)机制,也被证明能显著提升模型在复杂判断任务中的准确性和可解释性。
但一个关键的瓶颈制约了这些前沿技术的应用——学术界和工业界都极度缺乏一个专为电信诈骗场景设计的、既有音频、又有“慢思考”推理链的高质量、大规模数据集。
为了攻克这一难题,TeleAntiFraud-28k 应运而生。它的使命,就是为研究社区提供一个融合了真实场景、保护用户隐私、蕴含深度推理过程的多模态“军火库”,推动反诈技术迈向一个更智能、更精准的新纪元。
二、核心方法:三管齐下,铸造顶级反诈数据
TeleAntiFraud-28k的构建过程严谨且充满巧思,其核心方法可以概括为三大策略:高质量语音数据生成、基于慢思考的文本标注,以及标准化的评测基准构建。

第一步:创新的三阶段音频数据生成管线
为了打造一个既真实又多样化的数据集,研究团队设计了一套精妙的三阶段对话文本生成流程,再通过顶尖的语音合成技术赋予其“声音”。

(1)真实数据ASR处理 (Real-Data ASR Processing)
从真实的电信诈骗和正常通话录音出发,在严格匿名化处理后,利用ASR技术将其“翻译”成文本。这一步确保了数据的“原生感”,完美保留了真实对话的语言模式。
(2)大模型模仿与增强 (LLM-Based Imitation and Augmentation)
利用LLM强大的“自我指导(self-instruct)”能力,对上一步的真实文本进行模仿和扩写。通过精心设计的提示词(Prompt)和少样本,引导LLM在保留核心欺诈逻辑的同时,创造出场景更丰富、对话更多样的海量数据。
(3)多智能体对抗合成 (Multi-Agent Adversarial Framework)
这是最具创新性的一步!为了模拟层出不穷的新骗术,研究团队进一步构建了一个“反诈剧本杀”框架,其中包含三个智能体角色:
“骗子” (Cheater): 被赋予特定诈骗任务(如投资、冒充客服)。 “潜在受害者” (Callee): 拥有不同的用户画像,确保互动真实。 “管理者” (Manager): 监控对话流程,确保其自然流畅且不偏离主题。 这个框架能高效生成大量新颖、复杂的诈骗对话,极大提升了数据集的“抗打击能力”。


最后,团队采用先进的 ChatTTS 技术,将所有文本合成为包含独立声道的双通道音频,高度还原了真实电话的通话体验。

第二步:“慢思考”赋能,注入专家级推理能力
TeleAntiFraud-28k最核心的价值,在于其独特的“慢思考”标注机制。它要让模型不仅“知其然”(判断是否诈骗),更能“知其所以然”(为什么这么判断)。
整个标注流程如同一位反诈专家的工作实录:
音频分析: 首先,通过专业模型提取语音中的情感、语调、语速等特征。 专家推理: 随后,将音频特征与文本内容打包,交给一个扮演“反诈专家”的强大推理模型(DeepSeek-R1)。该模型被要求在给出最终结论前,必须在 <think>
标签内,像写破案笔记一样,详细记录其完整的思考链条。最终结论则在<answer>
标签中给出。
这个推理过程遵循三级递进分析,逻辑清晰,层层深入:
通话场景分类: 首先判断通话属于哪种日常场景(如购物、订餐、打车等)。 欺诈与否判定: 基于场景,结合对话和语音特征,判断是否存在欺诈,并给出理由和置信度。 欺诈类型识别: 若为诈骗,再细分为 投资诈骗、钓鱼网站、身份盗用等具体类型。


这种“慢思考”标注,不仅让模型的决策过程变得透明、可解释,也为训练提供了极其宝贵的深度信息。

三、全面开源:共享成果,共建反诈新生态
本研究最大的亮点之一,是其彻底的开源精神。团队向全球社区开放了四大核心资源:
TeleAntiFraud-28k 数据集: 包含28,511个音文对齐样本,总时长307小时,覆盖7大日常场景和7大主流诈骗类型。 TeleAntiFraud-Bench 评测基准: 一个标准化的“反诈能力考场”,确保所有模型都能在公平、统一的标准下进行性能PK。 数据处理框架: 开源完整的数据生成与处理工具链,欢迎社区开发者在此基础上进行二次创新,共同壮大反诈数据集。 TeleAntiFraud-Qwen2-Audio SFT模型: 提供了一个在本项目数据集上精调(SFT)的Qwen2-Audio模型。
微调后,模型在反诈任务上的综合得分从45.48%飙升至72.98% !其思考过程质量得分也从4.91大幅提升至6.44!
这充分证明了本数据集和方法的巨大价值。它不仅为多模态反诈研究奠定了坚实的基础,更通过开源工具赋能社区,为构建一个更智能、更强大的全球反欺诈系统铺平了道路。
我们在此诚挚地感谢机智流社区、书生社区、中移互联网公司、魔搭社区以及所有为本项目提供支持的组织和个人。期待这项工作能激发更多创新,让我们携手共进,共同推动全球反电信诈骗研究迈向新的高峰!
👇 点击下方链接,直达项目仓库,即刻体验! 🚀
GitHub: https://github.com/JimmyMa99/TeleAntiFraud
论文链接:https://arxiv.org/pdf/2503.24115
-- 完 --
机智流推荐阅读:
1.
2.
3.
4.
关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有与、、、、等。
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 智能体 | Agent 技术交流群