浙大提出Translution：统一Self-attention和Convolution，ViT、GPT架构迎来新一轮性能突破

浙大提出Translution：统一Self-attention和Convolution，ViT、GPT架构迎来新一轮性能突破图1

近日，浙江大学范鹤鹤、杨易、吴飞与新加坡国立大学 Mohan Kankanhalli 教授提出新型深度神经网络基础操作 Translution，通过融合 Self-Attention 的自适应建模优势与 Convolution 的相对位置建模能力，灵活捕获只与数据本身内在结构相关的、与绝对位置无关的表征，实现了两种操作的统一。

浙大提出Translution：统一Self-attention和Convolution，ViT、GPT架构迎来新一轮性能突破图2

图 1浙江大学、新加坡国立大学联合提出Translution

实验结果显示，基于 Translution 构建的神经网络在 ViT 和 GPT 两大主流架构下均获得了性能提升，展现出广阔的应用前景。

浙大提出Translution：统一Self-attention和Convolution，ViT、GPT架构迎来新一轮性能突破图3

图 2基于Translution构建的ViT在ImageNet数据集上取得明显优于Self-attention

浙大提出Translution：统一Self-attention和Convolution，ViT、GPT架构迎来新一轮性能突破图4

图 3基于Translution构建的GPT在自然语言建模的任务上也取得了超过Self-attention

目前，基于Self-Attention 的 Transformer 凭借强大的建模能力和优异的 Scaling Law 特性，成为深度学习的主流架构，推动了大模型浪潮的兴起。然而，随着模型规模不断扩张，业界发现单纯增加网络参数和训练数据已难以带来性能提升，Scaling Law 的红利似乎正逐渐触顶。因此，探索新型神经网络，持续推动深度学习的繁荣，已成为人工智能领域的重要任务。

浙大提出的 Translution 正是对这一挑战的有力回应。其核心思想是将卷积操作中的“固定权重核”转变为由自注意力机制动态生成的“自适应核”。

浙大提出Translution：统一Self-attention和Convolution，ViT、GPT架构迎来新一轮性能突破图5

图 4 Self-attention和Convolution合二为一的性能怪兽Translution

然而，作为融合 Slef-attention 和 Convolution 两种操作优势的“性能怪兽”，Translution 在取得性能突破的同时，也对算力——特别是 GPU 显存——提出了更高要求，这在一定程度上或将进一步加剧人工智能领域的“贫富差距”。

论文：Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

论文链接：https://arxiv.org/pdf/2510.10060

代码链接：https://github.com/hehefan/Translution（投稿或寻求报道：zhanghy@csdn.net）

浙大提出Translution：统一Self-attention和Convolution，ViT、GPT架构迎来新一轮性能突破图6