浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破

AI科技大本营 2025-10-14 16:17

浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图1

近日,浙江大学范鹤鹤、杨易、吴飞与新加坡国立大学 Mohan Kankanhalli 教授提出新型深度神经网络基础操作 Translution,通过融合 Self-Attention 的自适应建模优势与 Convolution 的相对位置建模能力,灵活捕获只与数据本身内在结构相关的、与绝对位置无关的表征,实现了两种操作的统一。

浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图2
图 1浙江大学、新加坡国立大学联合提出Translution

实验结果显示,基于 Translution 构建的神经网络在 ViT 和 GPT 两大主流架构下均获得了性能提升,展现出广阔的应用前景。

浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图3
图 2基于Translution构建的ViT在ImageNet数据集上取得明显优于Self-attention
浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图4
图 3基于Translution构建的GPT在自然语言建模的任务上也取得了超过Self-attention

目前,基于Self-Attention 的 Transformer 凭借强大的建模能力和优异的 Scaling Law 特性,成为深度学习的主流架构,推动了大模型浪潮的兴起。然而,随着模型规模不断扩张,业界发现单纯增加网络参数和训练数据已难以带来性能提升,Scaling Law 的红利似乎正逐渐触顶。因此,探索新型神经网络,持续推动深度学习的繁荣,已成为人工智能领域的重要任务。

浙大提出的 Translution 正是对这一挑战的有力回应。其核心思想是将卷积操作中的“固定权重核”转变为由自注意力机制动态生成的“自适应核”。

浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图5
图 4 Self-attention和Convolution合二为一的性能怪兽Translution
然而,作为融合 Slef-attention 和 Convolution 两种操作优势的“性能怪兽”,Translution 在取得性能突破的同时,也对算力——特别是 GPU 显存——提出了更高要求,这在一定程度上或将进一步加剧人工智能领域的“贫富差距”。
论文:Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
论文链接:https://arxiv.org/pdf/2510.10060
代码链接:https://github.com/hehefan/Translution(投稿或寻求报道:zhanghy@csdn.net)
浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图6

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号