
阿里云: 《思维的边界:认知智能-从感知智能迈向认知智能》
(完整版.pdf ) 以下仅展示部分内容 下载方式见文末
这份报告围绕 “认知智能” 展开深度探讨,汇聚了创新工场、清华大学、阿里巴巴等机构专家的观点,从技术演进、研究突破、场景应用、核心模型与数据集等多维度,系统剖析了人工智能从感知智能迈向认知智能的关键路径与挑战,同时介绍了阿里研究院在该领域的实践成果。
一、认知智能的核心挑战与技术演进
在人工智能发展中,数据、算法、算力构成 “三轮驱动” 格局,但要实现从感知智能到认知智能的跨越,仍面临多重核心挑战。感知智能作为单轮交互模式,仅需接收输入并输出结果,不涉及复杂知识与推理,目前我国在该领域已达世界领先水平;而认知智能属于多轮交互,需结合知识图谱、常识进行复杂推理,全球范围内仍处于摸索阶段。
周明提出,当前人工智能存在 “基础技能缺失” 问题。人类依靠语言理解、计算等基础技能,面对新任务只需微调即可应对,而现有端到端预训练模型忽略基础技能,每次新任务都需从零设计,导致小样本学习(Few-shot)时数据量不足。他设想构建类似 SaaS 平台的基础技能库,各领域专家可在此基础上搭建领域知识库,实现知识传承与跨领域扩展,且这一基础技能库需兼顾通用性与领域专用性,底层为通用技能,深入领域后补充专属底层技能。
李涓子则指出,当前大模型虽能建模参数与多模态关系,但未上升到知识或认知层面。她提出两种突破思路:一是训练大模型时融入认知要素,二是构建 “知识库 + 大模型” 架构,从大模型中蒸馏知识,结合两者进行复杂推理。我国正按知识生命周期分领域建立知识图谱技术架构,为认知智能提供基础设施支撑。
二、人工智能的场景应用与实践挑战
在场景应用中,人工智能在提升效率与风控领域表现突出。以阿里双十一为例,智能客服可处理高并发场景下大量简单重复咨询,大幅提升服务效率;在风控方面,面对阿里平台十亿级商品,人工智能能高效筛选假冒伪劣商品,解决人工难以完成的任务。此外,人工智能还广泛应用于优酷赛事精彩片段实时制作、阿里鹿班智能设计、法庭记录角色识别等场景,不同场景对其应用需求层次各异,推动技术持续迭代。
不过,实践中仍存在三大挑战。一是准确率要求差异大,如钢铁厂钢材评级需极高识别准确率,否则直接影响产品价格,而网店智能客服在缓解人工压力时,对回答准确率要求相对较低;二是鲁棒性不足,测试阶段表现良好的数据,在实际场景加入随机噪音后,模型稳定性会大幅下降;三是样本量制约,互联网场景数据积累多、成本低,人工智能应用效果显著,而政企场景数据量少且复杂,对技术应用形成较大挑战。程璟还提出,未来人工智能或可探索主体转化,如从城市视角思考问题,以及在科学发现领域发挥更大作用,同时云计算将持续作为数字时代基础设施,为人工智能发展提供支撑。
三、超大规模预训练模型的创新与应用
苏中详细介绍了阿里在超大规模预训练模型领域的成果,指出人工智能已进入数据、算力、算法三轮驱动时代,2019 年成为 AI 大模型参数爆炸增长元年,从 GPT-2 开始,模型参数从 10 亿级逐步迈向千亿、万亿级,大模型在海量数据与强大算力支撑下,开始展现融会贯通的能力,甚至可能通过图灵测试。
阿里的中文多模态预训练模型 M6 极具代表性,2020 年启动后,参数规模从 3 亿逐步突破至万亿、十万亿级,在训练过程中攻克了计算机体系架构、海量计算、绿色计算等多方面挑战。M6 实现图片与文本协同学习,在电商领域应用广泛,如输入商品文字描述可生成对应高清晰度产品图,助力时装设计;输入产品图片能生成多条推广文案,满足商家营销需求。
超大规模中文预训练语言模型 PLUG 参数达 270 亿,是当时中文领域最大纯文本预训练模型,在语言理解与生成任务上表现优异,不仅刷新 Chinese GLUE 分类榜单记录,还能完成诗词创作、小说续写、菜谱生成等多样化任务,例如输入 “西红柿炒胡萝卜的做法”,可生成多种菜谱,输入《红楼梦》片段能进行合理续写。
大规模预训练模型 AliceMind 在 VQA(视觉问答)任务上取得重大突破,以 81.26% 的准确率超越人类 80.83% 的基准,在 “读图会意” 场景中,能准确回答复杂问题,展现出在复杂数据集上媲美甚至超越人类的能力,为认知智能中小样本、零样本学习问题的解决提供了新思路。
四、面向知识的可解释认知推理框架
李涓子团队提出面向知识的可解释认知推理框架,聚焦复杂问答(Complex QA)与可解释推理,指出认知的核心是知识获取与应用过程,第三代人工智能需实现可解释、安全可信,构建 “知识 + 数据 + 算法算力” 框架,图灵奖获得者也强调需结合表示学习与复杂推理,融合符号表示与深度学习。
复杂问答区别于简单问答,无法直接从文本或图片中获取答案,需具备多跳推理、计数、比较、逻辑运算等能力。现有语义解析、图神经网络、多步查询等方法存在可解释性差、知识处理类型有限等问题。为此,团队提出 “图 + 逻辑表示 + 推理” 的核心思路,图结构符合人类认知习惯,能显式表示知识,且适用于知识图谱、场景图等不同形式,结合深度学习工具可实现高效表征。
基于此思路,团队设计了知识导向编程语言(KoPL),由知识库上的原子函数构成,可将复杂问题转化为多步推理程序,具有高可解释性,便于人工修正与控制。KoPL 定义了知识库(含概念、实体、关系、属性、限定词)、14 个操作原子函数与 13 个查询原子函数,通过函数组合形成推理程序,在执行后可得到问题答案,不仅适用于知识库问答(KBQA),还能结合文本与大模型实现知识引导的复杂问答。
为推动推理程序自动化、智能化,团队构建了 KQA Pro 数据集,包含 117,970 个带推理程序的复杂问题,基于 FB15k-237 数据集扩展,融入 Wikidata 中的多种知识类型,保证问题复杂性与多样性。数据集构建过程严格,先通过模板生成大量问题,再由母语者重述使其更贴近自然语言,最后经多人评估筛选。实验表明,传统端到端模型在该数据集上准确率极低,而基于 KoPL 程序进行语义解析,能大幅提升问题理解准确率,且在零样本学习场景中表现出色,展现出强泛化能力。
五、总结与未来展望
文档总结指出,认知智能处于起步阶段,虽面临诸多未知,但前景广阔,需从知识、图谱、融合等方向探索突破。当前在感知智能领域已取得领先,但认知智能仍需攻克知识融合、可解释推理、小样本学习等关键问题。
未来发展方向明确,一是完善可扩展的推理函数库,增强认知推理框架的适用性;二是结合文本与预训练语言模型,拓展复杂问答的知识来源;三是探索多模态认知推理,融合多种信息形式提升推理能力;四是实现增量学习推理,允许对错误推理程序进行修正与优化,持续提升模型性能。同时,需推动认知智能在工业界的广泛应用,将搜索、问答、推理等能力落地到更多实际场景,释放技术价值。




☟☟☟
☞人工智能产业链联盟筹备组征集公告☜
☝
精选报告推荐:
11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:
【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单?
【清华第七版】文科生零基础AI编程:快速提升想象力和实操能力
【清华第十一版】2025AI赋能教育:高考志愿填报工具使用指南
10份北京大学的DeepSeek教程
【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施
【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望
【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)
8份浙江大学的DeepSeek专题系列教程
浙江大学DeepSeek专题系列一--吴飞:DeepSeek-回望AI三大主义与加强通识教育
浙江大学DeepSeek专题系列二--陈文智:Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景
浙江大学DeepSeek专题系列三--孙凌云:DeepSeek:智能时代的全面到来和人机协作的新常态
浙江大学DeepSeek专题系列四--王则可:DeepSeek模型优势:算力、成本角度解读
浙江大学DeepSeek专题系列五--陈静远:语言解码双生花:人类经验与AI算法的镜像之旅
浙江大学DeepSeek专题系列六--吴超:走向数字社会:从Deepseek到群体智慧
浙江大学DeepSeek专题系列七--朱朝阳:DeepSeek之火,可以燎原
浙江大学DeepSeek专题系列八--陈建海:DeepSeek的本地化部署与AI通识教育之未来
4份51CTO的《DeepSeek入门宝典》
51CTO:《DeepSeek入门宝典》:第1册-技术解析篇
51CTO:《DeepSeek入门宝典》:第2册-开发实战篇
51CTO:《DeepSeek入门宝典》:第3册-行业应用篇
51CTO:《DeepSeek入门宝典》:第4册-个人使用篇
5份厦门大学的DeepSeek教程
【厦门大学第一版】DeepSeek大模型概念、技术与应用实践
【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇
10份浙江大学的DeepSeek公开课第二季专题系列教程
【精选报告】浙江大学公开课第二季:《DeepSeek技术溯源及前沿探索》(附PDF下载)
【精选报告】浙江大学公开课第二季:2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例(附PDF下载)
【精选报告】浙江大学公开课第二季:智能金融——AI驱动的金融变革(附PDF下载)
【精选报告】浙江大学公开课第二季:人工智能重塑科学与工程研究(附PDF下载)
【精选报告】浙江大学公开课第二季:生成式人工智能赋能智慧司法及相关思考(附PDF下载)
【精选报告】浙江大学公开课第二季:AI大模型如何破局传统医疗(附PDF下载)
【精选报告】浙江大学公开课第二季:2025年大模型:从单词接龙到行业落地报告(附PDF下载)
【精选报告】浙江大学公开课第二季:2025大小模型端云协同赋能人机交互报告(附PDF下载)
【精选报告】浙江大学公开课第二季:DeepSeek时代:让AI更懂中国文化的美与善(附PDF下载)
【精选报告】浙江大学公开课第二季:智能音乐生成:理解·反馈·融合(附PDF下载)
6份浙江大学的DeepSeek公开课第三季专题系列教程
【精选报告】浙江大学公开课第三季:走进海洋人工智能的未来(附PDF下载)
【精选报告】浙江大学公开课第三季:当艺术遇见AI:科艺融合的新探索(附PDF下载)
【精选报告】浙江大学公开课第三季:AI+BME,迈向智慧医疗健康——浙大的探索与实践(附PDF下载)
【精选报告】浙江大学公开课第三季:心理学与人工智能(附PDF下载)
资料下载方式
Download method of report materials

【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

如需获取更多报告
报告部分截图

编辑:Zero

文末福利
1.赠送800G人工智能资源。
获取方式:关注本公众号,回复“人工智能”。
2.「超级公开课NVIDIA专场」免费下载
获取方式:关注本公众号,回复“公开课”。
3.免费微信交流群:
人工智能行业研究报告分享群、
人工智能知识分享群、
智能机器人交流论坛、
人工智能厂家交流群、
AI产业链服务交流群、
STEAM创客教育交流群、
人工智能技术论坛、
人工智能未来发展论坛、
AI企业家交流俱乐部
雄安企业家交流俱乐部
细分领域交流群:
【智能家居系统论坛】【智慧城市系统论坛】【智能医疗养老论坛】【自动驾驶产业论坛】【智慧金融交流论坛】【智慧农业交流论坛】【无人飞行器产业论坛】【人工智能大数据论坛】【人工智能※区块链论坛】【人工智能&物联网论坛】【青少年教育机器人论坛】【人工智能智能制造论坛】【AI/AR/VR/MR畅享畅聊】【机械自动化交流论坛】【工业互联网交流论坛】
入群方式:关注本公众号,回复“入群”

