浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破

AI科技大本营 2025-10-14 16:17

浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图1

近日,浙江大学范鹤鹤、杨易、吴飞与新加坡国立大学 Mohan Kankanhalli 教授提出新型深度神经网络基础操作 Translution,通过融合 Self-Attention 的自适应建模优势与 Convolution 的相对位置建模能力,灵活捕获只与数据本身内在结构相关的、与绝对位置无关的表征,实现了两种操作的统一。

浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图2
图 1浙江大学、新加坡国立大学联合提出Translution

实验结果显示,基于 Translution 构建的神经网络在 ViT 和 GPT 两大主流架构下均获得了性能提升,展现出广阔的应用前景。

浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图3
图 2基于Translution构建的ViT在ImageNet数据集上取得明显优于Self-attention
浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图4
图 3基于Translution构建的GPT在自然语言建模的任务上也取得了超过Self-attention

目前,基于Self-Attention 的 Transformer 凭借强大的建模能力和优异的 Scaling Law 特性,成为深度学习的主流架构,推动了大模型浪潮的兴起。然而,随着模型规模不断扩张,业界发现单纯增加网络参数和训练数据已难以带来性能提升,Scaling Law 的红利似乎正逐渐触顶。因此,探索新型神经网络,持续推动深度学习的繁荣,已成为人工智能领域的重要任务。

浙大提出的 Translution 正是对这一挑战的有力回应。其核心思想是将卷积操作中的“固定权重核”转变为由自注意力机制动态生成的“自适应核”。

浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图5
图 4 Self-attention和Convolution合二为一的性能怪兽Translution
然而,作为融合 Slef-attention 和 Convolution 两种操作优势的“性能怪兽”,Translution 在取得性能突破的同时,也对算力——特别是 GPU 显存——提出了更高要求,这在一定程度上或将进一步加剧人工智能领域的“贫富差距”。
论文:Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
论文链接:https://arxiv.org/pdf/2510.10060
代码链接:https://github.com/hehefan/Translution(投稿或寻求报道:zhanghy@csdn.net)
浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图6

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
人形机器人竞速赛,车企量产时间表曝光
机器人下鱼塘、救膝盖?这场机器人「脱口秀」路子太野了
新能源剧本重演?人形机器人扎堆上市,官方提醒:多数企业是“凑数”的!
再进化!阿童木天兵一号人形机器人正式迭代升级!
振臂一挥,大半个具身机器人圈都来了!智源研究院:别藏了,谁贡献数据多,谁的大脑就更好用
智元加持的北京四足机器人,国内传感器龙头投了数千万!
李泽湘押注的割草机器人,又融了数千万!
具身智能不要走那条自动驾驶的老路
疯狂擦边,互联网大厂对具身智能的小心思
人形机器人为什么今年成了必争之地?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号