浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破

AI科技大本营 2025-10-14 16:17

浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图1

近日,浙江大学范鹤鹤、杨易、吴飞与新加坡国立大学 Mohan Kankanhalli 教授提出新型深度神经网络基础操作 Translution,通过融合 Self-Attention 的自适应建模优势与 Convolution 的相对位置建模能力,灵活捕获只与数据本身内在结构相关的、与绝对位置无关的表征,实现了两种操作的统一。

浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图2
图 1浙江大学、新加坡国立大学联合提出Translution

实验结果显示,基于 Translution 构建的神经网络在 ViT 和 GPT 两大主流架构下均获得了性能提升,展现出广阔的应用前景。

浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图3
图 2基于Translution构建的ViT在ImageNet数据集上取得明显优于Self-attention
浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图4
图 3基于Translution构建的GPT在自然语言建模的任务上也取得了超过Self-attention

目前,基于Self-Attention 的 Transformer 凭借强大的建模能力和优异的 Scaling Law 特性,成为深度学习的主流架构,推动了大模型浪潮的兴起。然而,随着模型规模不断扩张,业界发现单纯增加网络参数和训练数据已难以带来性能提升,Scaling Law 的红利似乎正逐渐触顶。因此,探索新型神经网络,持续推动深度学习的繁荣,已成为人工智能领域的重要任务。

浙大提出的 Translution 正是对这一挑战的有力回应。其核心思想是将卷积操作中的“固定权重核”转变为由自注意力机制动态生成的“自适应核”。

浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图5
图 4 Self-attention和Convolution合二为一的性能怪兽Translution
然而,作为融合 Slef-attention 和 Convolution 两种操作优势的“性能怪兽”,Translution 在取得性能突破的同时,也对算力——特别是 GPU 显存——提出了更高要求,这在一定程度上或将进一步加剧人工智能领域的“贫富差距”。
论文:Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
论文链接:https://arxiv.org/pdf/2510.10060
代码链接:https://github.com/hehefan/Translution(投稿或寻求报道:zhanghy@csdn.net)
浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破图6

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
私募市场三巨头竞逐IPO窗口:Anthropic热度飙升,SpaceX或成最大变量
华为重磅投资!这家公司凭啥敢说"全球第一"!
上海芯片“小巨人”赴港IPO!
再获1.5亿美元投资!B轮累计融资2.7亿美元,全面加速全球化业务布局
“两会”定调脑机接口成国家未来产业,破纪录投资趋势将至
Synopsys 获巨额投资!
小米AI团队平均年龄25岁,雷军:未来三年AI投资600亿/新SU7发布,21.99万起/深圳高三生回应成Kimi论文第一作者
长鑫存储投资AI芯片公司
中兴微荣获2025中国互联网发展创新与投资大赛(深圳)一等奖
全球AI投资:硬件狂飙与应用落差
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号