机智流团队首份研究！全球首个音文对齐“慢思考”反诈数据集与生成框架开源发布，斩获ACM Multimedia 2025

本文由 Intern-S1 等 AI 生成，机智流编辑部校对

导语

电信诈骗的阴影笼罩全球，每年造成的经济损失高达万亿美元，如同一头难以驯服的猛兽。传统的反诈手段在日益狡猾的骗术面前，常常显得力不从心。

当大模型（LLM）强大的“慢思考”推理能力为我们带来一线曙光时，一个新的挑战又摆在眼前：我们如何跨越从真实语音通话到冰冷文本分析之间的“模态鸿沟”？那些藏在语气、停顿、声调里的关键诈骗信号，又该如何捕捉？

今天，我们激动地向大家宣布一项已被计算机多媒体领域顶会 ACM Multimedia 2025 接收的突破性研究成果——TeleAntiFraud-28k！

这项研究由机智流社区（SmartFlowAI）核心成员尖米联合中移互联网、东北大学等顶尖机构的研究者们共同完成，全球首个专为电信诈骗分析设计的、开源的、音文对齐的“慢思考”数据集。

这个项目提供了包含 28,511 个样本、总时长超过 307 小时的高质量数据集，更开源了一整套创新的数据生成框架与评测基准，旨在为全球的多模态反诈研究奠定一块坚实的基石。

电信诈骗已成为一个刻不容缓的全球性社会难题。根据论文引述的数据，全球因诈骗导致的经济损失已触目惊心地高达 1.02万亿美元，占全球GDP的1.05%。面对如此严峻的形势，开发更高效、更智能的检测技术已是迫在眉睫。

然而，当前的反诈技术正面临两大核心挑战：

数据质量与隐私的“两难困境” ：高质量的反诈模型离不开海量真实通话数据的“喂养”。但通话录音是用户的隐私红线，直接获取和使用几乎不可能。这使得现有方法大多依赖规则匹配或纯文本分析，不仅准确率受限，更难以跟上骗子们“日新月异”的剧本。
“模态鸿沟”导致的关键信息丢失：诈骗的主要媒介是语音，但大语言模型（LLM）的主场是文本。目前行业主流的“ASR转写+LLM分析”方案，就像一个有损翻译器。骗子急切的语气、心虚的停顿、伪装的权威声调……这些宝贵的非语义信息在转写过程中大量流失，而它们恰恰是识破骗局的“胜负手”。

近年来，能够直接“倾听”并理解音频的大型音频语言模型（LALM），如Qwen2-Audio、GPT-4o等，为填平“模态鸿沟”带来了希望。同时，模拟人类专家深度分析、层层推理的“慢思考”（Slow-Thinking）机制，也被证明能显著提升模型在复杂判断任务中的准确性和可解释性。

但一个关键的瓶颈制约了这些前沿技术的应用——学术界和工业界都极度缺乏一个专为电信诈骗场景设计的、既有音频、又有“慢思考”推理链的高质量、大规模数据集。

为了攻克这一难题，TeleAntiFraud-28k 应运而生。它的使命，就是为研究社区提供一个融合了真实场景、保护用户隐私、蕴含深度推理过程的多模态“军火库”，推动反诈技术迈向一个更智能、更精准的新纪元。

TeleAntiFraud-28k的构建过程严谨且充满巧思，其核心方法可以概括为三大策略：高质量语音数据生成、基于慢思考的文本标注，以及标准化的评测基准构建。

为了打造一个既真实又多样化的数据集，研究团队设计了一套精妙的三阶段对话文本生成流程，再通过顶尖的语音合成技术赋予其“声音”。

从真实的电信诈骗和正常通话录音出发，在严格匿名化处理后，利用ASR技术将其“翻译”成文本。这一步确保了数据的“原生感”，完美保留了真实对话的语言模式。

利用LLM强大的“自我指导（self-instruct）”能力，对上一步的真实文本进行模仿和扩写。通过精心设计的提示词（Prompt）和少样本，引导LLM在保留核心欺诈逻辑的同时，创造出场景更丰富、对话更多样的海量数据。

这是最具创新性的一步！为了模拟层出不穷的新骗术，研究团队进一步构建了一个“反诈剧本杀”框架，其中包含三个智能体角色：

“骗子” (Cheater): 被赋予特定诈骗任务（如投资、冒充客服）。
“潜在受害者” (Callee): 拥有不同的用户画像，确保互动真实。
“管理者” (Manager): 监控对话流程，确保其自然流畅且不偏离主题。这个框架能高效生成大量新颖、复杂的诈骗对话，极大提升了数据集的“抗打击能力”。

最后，团队采用先进的 ChatTTS 技术，将所有文本合成为包含独立声道的双通道音频，高度还原了真实电话的通话体验。

TeleAntiFraud-28k最核心的价值，在于其独特的“慢思考”标注机制。它要让模型不仅“知其然”（判断是否诈骗），更能“知其所以然”（为什么这么判断）。

整个标注流程如同一位反诈专家的工作实录：

音频分析: 首先，通过专业模型提取语音中的情感、语调、语速等特征。
专家推理: 随后，将音频特征与文本内容打包，交给一个扮演“反诈专家”的强大推理模型（DeepSeek-R1）。该模型被要求在给出最终结论前，必须在 <think> 标签内，像写破案笔记一样，详细记录其完整的思考链条。最终结论则在 <answer> 标签中给出。

这个推理过程遵循三级递进分析，逻辑清晰，层层深入：