7月24日,AspenCore主办的“2025(第六届)国际AI+IoT生态发展大会”在深圳南山科兴科学园国际会议中心举行。在大会的主论坛“国际AIoT产业发展高峰论坛”上,深圳理工大学计算机科学与控制工程院创院院长、讲席教授,中国科学院深圳先进技术研究院高性能计算中心首席科学家潘毅博士,发表了题为《人工智能(AI)大模型成功落地的六个要素》的主题演讲。

当下,以大模型为代表的AI技术正加速向各行各业渗透,在众多领域展现出巨大的应用潜力。但一个关键问题摆在眼前——如何让这些先进技术真正落地应用,实现从理论到实践的跨越,这始终是业界关注的核心焦点。在此背景下,潘毅博士结合自身多年在AI领域的研究与实践经验,系统梳理了AI大模型落地所需的关键要素。
他指出,大众普遍认为,AI的发展依赖于“数据、算法、算力”这三驾马车。然而,随着技术的进步和应用场景的复杂化,仅靠这三者已不足以支撑AI大模型的落地。在此背景下,潘毅院士提出了一个更为全面的框架——六驾马车,即大数据、优算法、强算力、赋知识、可解释和低能耗。
为了更好地理解这一框架,潘毅院士首先阐述了AI大模型的本质:处于深度学习(多层神经网络)的技术大框架下,数据是燃料、模型是引擎、算力是动力、知识是本钱、解释是根本、能源是基础。基于这一认知,他详细解析了每个要素的重要性及其对AI大模型落地的关键作用。
一、大数据:AI的燃料
潘毅博士指出,大数据是AI大模型发展的基石。他提到,模型的参数越多,所需的数据量就越大。没有足够的数据,模型的参数就无法得到充分训练,精准度也会大打折扣。
2022年9月,DeepMind在其发布的Chinchilla论文中提出了Hoffman scaling laws,该定律表明每个参数需要大约20个文本token进行训练。例如,一个拥有70亿参数的模型,就需要1400亿个token的训练数据。若每个token使用int32(四字节)进行编码,那么所需的数据量将高达560GB。
大数据不仅规模巨大,而且结构多样,涵盖了纯数据、信号、图像、文字、动画、语音和视频等多模态数据。
在医疗领域,大数据的应用尤为广泛。通过收集和分析患者的临床数据、基因数据、影像数据等,可以实现临床决策的精准化、精准医疗的个性化、慢病干预的有效化以及健康管理的全面化。例如,利用大数据分析技术,医生可以根据患者的病史、症状和检查结果,为患者制定更加个性化的治疗方案,提高治疗效果;同时,通过对大量患者的健康数据进行分析,还可以提前发现潜在的健康问题,采取相应的预防措施,降低疾病的发生率。
二、强算力:驱动AI的引擎
“我们现在处于一个拼设备的时代,强算力是AI大模型成功的必需品。”潘毅博士形象地比喻道。他通过对比AlphaGo、AlphaGo Zero、AlphaFold和ChatGPT等知名模型的算力需求,进一步强调了强算力在模型训练中的重要性。
“就拿我们团队自主研发的ShouZhuo来说,它成功打败了AlphaGo,这一成绩的背后,其实反映了强算力的重要性。”潘毅博士介绍道。ShouZhuo后续改进的思路与AlphaGo Zero类似,不过,假如使用同样的算法与数据,仅依靠现有实验室的硬件,完成相关计算大概需要1000多年。而AlphaGo在与李世石对战时,就需要1920个CPU和280个GPU的强大算力支持。
再看其他知名模型,AlphaGo Zero若要生成自我对弈的棋谱,估计需要10000张GTX 1080 Ti的算力;AlphaFold训练过程中使用了100至200个GPU,耗时5天;ChatGPT作为当前最先进的大语言模型之一,其训练更是需要数万个A100 GPU并行计算。由此可见,它们都高度依赖强算力。
然而,强算力的获取并非易事,不仅需要大量资金投入来购买高性能计算设备,还得解决设备散热、能耗等一系列问题。为了缓解算力不足的问题,潘毅博士提出,除了加大算力投资外,还可以通过开发专用模型和改进算法来实现。例如,针对特定领域开发专用模型,如BioGPT、PoemGPT、DrugGPT等,能够更精准地处理特定类型的数据,提高计算效率;同时,通过改进算法,优化模型的训练过程,减少不必要的计算量,也可在一定程度上缓解算力压力。
三、优算法:提升效率与精度的关键
面对算力限制,优算法成为了提升模型训练效率和精度的关键。潘毅博士介绍了多种优化算法的方法,包括减少维度、采用新颖算法架构(如跨层架构)、冰冻层技术和梯度增强技术等。他以癫痫疾病预测为例,详细展示了如何通过减少数据维度和采用新颖架构来缩短训练时间并提高预测精度。
在传统的癫痫疾病预测模型中,由于需要处理大量的脑电信号数据,模型的训练时间往往很长,而且预测精度也不高。而通过采用数据降维技术,将高维的脑电信号数据转换为低维的特征向量,同时采用跨层架构的神经网络模型,可以有效地减少模型的参数数量和计算量,从而缩短训练时间;同时,跨层架构还可以更好地捕捉数据中的特征信息,提高模型的预测精度。
此外,潘毅博士还提到了DeepSeek模型在技术上的再创新,如Transformer架构、自监督学习、混合专家模型等。Transformer架构通过引入自注意力机制,能够更好地处理长序列数据,提高模型的上下文理解能力;自监督学习则可以让模型在无标签数据上进行预训练,从而减少对人工标注数据的依赖,降低数据获取成本;混合专家模型(MoE)则将多个专家模型组合在一起,根据输入数据的不同特点,选择合适的专家模型进行处理,提高了模型的适应性和性能。这些技术的创新为模型性能的提升提供了有力支持。
四、赋知识:融合数据与知识的智慧
潘毅博士将AI系统的发展分为三代:第一代是知识驱动,主要依靠人工编写的规则和知识库来进行推理和决策;第二代是数据驱动,通过大量的数据进行模型训练,让模型自动学习数据中的模式和规律;而第三代则是知识驱动与数据驱动的结合,将人类的知识和经验融入到数据驱动的模型中,使模型具有更强的归纳能力和逻辑推理能力。
他强调,在第二代AI系统中融入先验知识可以显著提升模型的性能。通过数据增强、损失项正则化和知识图谱等方法,可以将人类知识注入到模型中,减少训练数据量并提高准确率。例如,在图像分类任务中,利用图卷积层将类相似性信息整合到卷积神经网络模型中,可以让模型更好地理解不同类别之间的相似性和差异性,从而显著提高分类精度。在自然语言处理领域,通过引入知识图谱,可以让模型更好地理解文本中的语义信息,提高问答系统、机器翻译等任务的性能。
五、可解释:从黑盒到透明
“AI可解释性是当前研究的热点之一。”潘毅博士指出,传统的深度学习模型往往被视为黑盒,模型的内部决策过程难以解释,这使得模型在一些对安全性要求较高的领域,如医疗、新药研发和自动驾驶等,的应用受到了限制。在医疗领域,医生需要了解模型是如何做出诊断决策的,以便对诊断结果进行评估和验证;在新药研发中,研究人员需要知道模型是如何预测药物的有效性和安全性的,以便对药物进行优化和改进;在自动驾驶领域,乘客需要了解自动驾驶系统在遇到复杂情况时是如何做出决策的,以便增强对自动驾驶技术的信任。
为了解决AI模型的可解释性问题,潘毅博士介绍了自己在蛋白质结构预测和药物靶标发现方面的研究成果。他通过规则生成和决策树等方法,将复杂的模型决策过程转化为可理解的规则和流程,提高了AI模型的可解释性。这些研究不仅有助于理解模型的决策过程,还可以减少生物实验次数并降低研发成本。例如,在药物靶标发现中,通过提高模型的可解释性,研究人员可以更加准确地找到药物作用的靶点,从而加快新药的研发进程。
六、低能耗:绿色计算的新挑战
在“双碳”目标引领下,降低计算能耗成为了AI大模型发展的重要方向。潘毅博士提到,数据中心作为AI大模型运行的主要场所,已成为主要的碳排放源之一。随着AI大模型的不断发展和应用,数据中心的能耗问题日益突出,推动“绿色计算”十分关键。
为了衡量计算机系统的能效比,潘毅博士提出了新指标FLOPSJ(每秒每焦耳浮点运算次数)和TPSJ(每秒每焦耳令牌生成数)。这些指标可以从能耗和性能两个维度对计算机系统进行综合评估,有助于引导研发人员开发低能耗、高性能的计算机系统。
此外,他还介绍了零一万物推出的最新旗舰模型Yi-Lightning。该模型不仅在性能上超越GPT-4o(2024-05-13),冲上UC伯克利大模型竞技场总榜第6名,还将每百万token的价格打到了0.99元人民币的极低水平,不到该版本GPT-4o的3%。这充分展现了低能耗模型的经济潜力,既为AI大模型的广泛应用提供了成本优势,也为实现绿色计算目标提供了有益的探索。
总结与展望
潘毅博士提出的“六驾马车”框架,为AI大模型从理论走向实践提供了系统性的方法论。这一框架不仅涵盖了传统“三驾马车”的核心要素,更通过引入“赋知识、可解释、低能耗”三个关键维度,回应了当前AI落地过程中面临的核心挑战。
未来,随着多模态数据的持续增长、专用芯片的发展、算法结构的创新、知识引导机制的完善、模型透明度的提升以及绿色计算理念的深入,AI大模型有望在医疗、制造、教育、交通等多个领域实现更广泛、更深入的应用。
潘毅博士的演讲不仅为业界提供了清晰的技术路径,也为学术界指明了研究方向。在AI技术从“可用”走向“好用”的关键阶段,这六大要素将成为推动大模型真正落地、实现价值闭环的重要支撑。
责编:Franklin