视觉图像驱动：多模型协同实现超表面智能逆设计

原文发表于《科技导报》2026年第9期《视觉图像驱动的多模型协同超表面逆设计方法》

随着超表面在电磁波精确调控领域的快速发展，复杂功能器件的高效、自动化设计已成为当前研究的核心挑战。《科技导报》邀请北京理工大学集成电路与电子学院、临近空间环境特性及效应全国重点实验室、北京理工大学唐山研究院、毫米波全国重点实验室、深圳北理莫斯科大学工程系司黎明教授团队撰写文章，提出了一种视觉图像驱动的多模型协同超表面逆设计方法，以视觉图像作为输入，实现电磁超表面阵列结构的自动生成。该方法采用多模型协同的策略，构建了从图像特征到物理结构参数的端到端映射框架，为图像驱动的智能超表面逆设计提供了一种高效、自动化的新方法，对复杂电磁功能器件的快速设计具有重要参考价值。

电磁超材料作为一种由人工结构单元按特定空间序构排列而成的功能性人工材料，其物理特性主要取决于单元的几何形态、周期排列方式及构成材料参数。通过对这些结构特征的精确设计，超材料能够展现出天然材料所不具备的特殊物理性质，从而突破自然界材料的物理响应限制。目前，电磁超材料已在宽带通信系统、雷达隐身技术、可重构波束成形，以及高分辨率成像探测等关键领域展现出巨大的应用潜力。然而，随着现代电磁系统对高性能、轻量化及动态可编程特性的需求日益迫切，如何实现满足特定复杂功能需求的超表面阵列精准设计已成为制约该领域发展的核心挑战。

近年来，人工智能（AI）技术，特别是深度学习与生成式模型在图像理解、语义编码、结构生成与复杂非线性映射学习方面取得显著进展，为超材料逆设计提供了新路径。深度学习与物理原理的深度融合显著提升了反演问题求解的保真度，而跨域生成技术的进步则为异构模态间的数据转换提供了稳健的支撑。但是，将这种分阶段处理的策略应用于视觉驱动的超表面逆设计的研究还处于起步阶段，如何克服从直观视觉图像到微观电磁结构之间巨大的信息鸿沟，并解决因缺乏有效中间过渡步骤而导致的相位预测失真及结构不可制造的问题还有待深入研究。

我们的研究提出一种由视觉图像驱动的多模型协同超表面逆设计框架。该框架创新性地引入中间态全息图像作为物理约束的桥梁，利用条件生成对抗网络（Pix2Pix）实现从视觉特征到干涉图像的跨域映射，从而建立图像语义与电磁物理场之间的初步关联。该方法有机融合了生成模型的跨域图像映射能力、多尺度网络的高精度相位重建能力，以及潜空间模型的结构表征与采样优势，实现了超表面阵面的全自动化逆设计。

多模型协同AI模型逆设计方法

图1全面展示了多模型协同AI赋能全息超表面逆设计方法的总体架构。该框架以原始视觉图像为起始输入，通过多模型间的深度协同，实现了从图像抽象特征到超表面具体物理结构的端到端映射。该网络通过对海量图像–全息纹理配对样本的对抗性训练，能够精准捕捉原始目标的边缘细节、纹理走向及全局拓扑关系。这种基于生成对抗的思想不仅提升了全息图的图像逼真度，而且为后续的相位恢复任务奠定了具备物理合理性的数据基础。这一设计贯通了从视觉输入到物理输出的完整设计链路，在实现高保真成像的同时，显著提升了全息超表面设计的自动化水平与工程实用性。

图1 多模型协同AI网络全息超表面逆设计示意

1.1 条件生成对抗网络实现跨域生成

二维平面图像的空间强度分布与电磁波前相位分布之间存在内在的数学物理关联。然而，从视觉图像直接映射到电磁相位面临非线性复杂度高、逆问题非适定等挑战。为此，我们的研究创新性地引入中间态全息纹理作为物理桥梁，全息纹理既保留了原始视觉特征的拓扑信息，又蕴含衍射过程的干涉物理特征。图2展示了以输入图像为例，经Pix2Pix生成全息图像的流程。

图2 Pix2Pix网络模型结构与结果

为了训练Pix2Pix网络将视觉图像映射为全息衍射图，需要构建高质量的图像−全息图配对数据集。训练集的生成基于Gerchberg−Saxton相位迭代算法（GS），该算法通过在输入图像域和输出衍射域之间迭代计算，实现目标图像强度的精确重建。

在训练集构建过程中，每张目标图像初始相位设为随机分布。每次迭代后，系统通过计算200 mm处衍射重构图像与目标图像的相似度指标来判断重建效果。如果相似度在连续10次迭代中未能进一步提升，即认为迭代达到收敛状态，停止计算并保存最终生成的100×100像素电磁全息图及其对应的相位排布结果。这种策略确保了训练集中的每一对样本均经过充分优化，为后续Pix2Pix网络的监督训练提供了具备物理真实性的输入。

在模型训练阶段，我们的研究利用预先构建的1万对视觉图像与电磁全息配对样本，对Pix2Pix网络进行了1000个Epoch的深度迭代优化。训练过程中生成器与判别器的损失收敛曲线如图2（b）~（c）所示，直观记录了模型从特征摸索到映射建立的学习轨迹。图2（b）显示随着网络对全息纹理细节捕捉能力的增强，损失值在经历动态博弈后逐渐趋于平稳，最终稳定在0.626左右。与此同时，图2（c）中的判别器损失在前期剧烈波动后迅速下降并收敛至4.5×10⁻⁴，表明判别器已难以区分生成的全息图与真实物理样本。这种生成对抗损失的协同收敛，有力证明了模型在训练中达到了理想的纳什平衡状态，确保了输出结果能够精准遵循电磁干涉的物理分布。这一训练成果充分验证了研究提出的多模型协同AI网络在处理电磁逆设计任务时，具备极高的收敛效率与强大的特征表征能力。

1.2 U−Net网络实现全息相位映射

在Pix2Pix网络生成高保真全息图像后，我们的研究构建基于U−Net架构的回归网络，用于实现从全息强度分布到空间相位信息的预测。如图3（a）所示，该网络采用对称的编码器–解码器结构。如图3（b）所示，随着迭代的深入，网络展现出卓越的收敛特性与泛化能力。结果表明，该U−Net回归网络能够建立全息纹理与相位分布之间的非线性映射，并在保持相位空间连续性的同时，为后续VAE单元结构生成提供可靠输入。

图3 U−Net网络模型结构

1.3 VAE网络实现单元逆设计

在U−Net输出的相位矩阵基础上，我们的研究引入VAE实现单元结构的逆向生成，将相位需求精准映射为可制造的几何参数（图4）。如图4（a）所示，VAE通过编码器将输入的二维相位块映射至潜在空间。如图4（b）所示，模型展现了良好的收敛特征。为直观展示VAE模型对超表面单元结构的生成能力，图4（c）给出了模型逆设计的12个示例单元的相位与幅度分布。这证明了VAE模型不仅能够在潜空间中精准捕获复杂的物理约束，实现相位到几何结构的端到端逆向映射，还能确保生成单元在全相位覆盖范围内具有高度的幅相一致性。

图4 VAE网络模型理论与结构

全息超表面实验结果

图5给出了数字“19”和“40”的端到端逆设计可视化结果，用于验证本研究多模型协同AI网络在不同目标图像上的可迁移性与稳定性。总体而言，图5的2组结果共同说明：该分阶段逆设计流程能够在保证结构可实现性的前提下，实现目标图像到超表面阵列的一致映射，并在典型数字图案上获得良好的重构质量与背景抑制能力。

图5 数字“19”和“40”的全息重构结果与超表面设计结果

图6对比展示了不同网络架构在数字（“19”“40”）、字母（“B”“I”“T”），以及复杂图形（如校徽）上的全息仿真结果。多模型协同AI网络通过更有效的特征编码与解码约束，提升了对“目标形状保持”和“背景杂波抑制”2类矛盾指标的兼顾能力，从而获得更高的视觉可辨识度与更稳定的重构质量。

图6 多模型协同AI网络方法、GS算法与传统卷积网络的仿真结果比较

为了定量评价重构图像与标准基准图像在全局强度分布上的一致性，我们的研究采用皮尔逊相关系数（PCC）作为核心评价指标。PCC通过衡量像素强度的线性相关程度反映重构图对目标整体形态与能量分布的保持能力；当背景杂波较强或目标能量外泄时，相关性会显著下降。结果与视觉对比一致：多模型协同AI网络在不同类型目标（高对比数字、细笔画字母与复杂轮廓图形）上均表现出更强的鲁棒性与一致性，说明其不仅提升局部结构保真度，也显著改善了全局能量映射的准确性，从而验证了研究方法在电磁全息重构任务中的有效性。

讨论

我们的研究相比传统电磁超表面逆设计方法与现有单一深度学习网络具有显著的创新性。分阶段混合AI模型框架通过Pix2Pix、U−Net和VAE的协同作用，首次系统性地建立了从视觉图像语义特征至可制造几何结构的完整映射链路，有效克服了传统端到端映射在处理电磁强非线性问题时的收敛困难。与传统物理仿真方法相比，该方法将设计周期从数小时的全波电磁仿真缩短至实时反演，设计自动化程度显著提升。

尽管本研究主要验证了10 GHz线极化、单一频点的全息成像，但该方法的核心框架具有显著的普适性，其理论基础支持拓展至更广泛的超表面功能器件。第一，方法的频率可扩展性源于相位−结构映射的频率独立性，可通过迁移学习实现。第二，极化维度的拓展基于相位调控的自由度独立性，可通过增加结构维度实现。第三，无论是全息成像、波束赋形、偏振转换还是各向异性调控，一般超表面功能本质上可统一描述为：根据空间位置（x,y）性能来设置局部相位Φ（x,y）以及幅度A(x,y)。构建的Pix2Pix、U−Net和VAE映射框架是一个与具体功能无关的通用特征转换器，只要为不同功能器件重新生成相应的标准相位标签，该框架就可直接迁移，证明了多模型协同AI超表面设计方法的普适性。

结论

我们的研究提出了一种基于多模型协同AI模型的全息超表面逆设计方法，实现了由视觉图像输入到离散六边形单元阵列结构生成的自动化映射流程。该方法采用多模型协同框架，依次利用Pix2Pix、U−Net与VAE完成电磁全息纹理转换、相位分布预测及几何参数生成，有效打通了图像语义与复杂物理结构之间的映射链路。结果表明，分阶段逆设计策略显著降低了端到端学习难度，在复杂字符与纹理成像任务中表现出优异的稳定性与鲁棒性。该高度自动化的设计方法在保证物理可实现性的同时显著缩短了设计周期，为图像驱动的智能超表面及大规模可编程电磁器件设计提供了一种高效的新设计思路。

本文作者：司黎明、牛荣、党晨阳、王钊睿、马天宇、李琰、朱卫仁、孙厚军

作者简介：司黎明，北京理工大学集成电路与电子学院、临近空间环境特性及效应全国重点实验室、北京理工大学唐山研究院、毫米波全国重点实验室、深圳北理莫斯科大学工程系，教授，研究方向为电磁场与微波技术。

文章来源：司黎明, 牛荣, 党晨阳, 等. 视觉图像驱动的多模型协同超表面逆设计方法[J]. 科技导报, 2026, 44(9): 88−97.

本文有删改，

点击文末阅读原文获取全文。

内容为【科技导报】公众号原创，欢迎转载
白名单回复后台「转载」

☟

精彩内容回顾

《科技导报》创刊于1980年，中国科协学术会刊，主要刊登科学前沿和技术热点领域突破性的研究成果、权威性的科学评论、引领性的高端综述，发表促进经济社会发展、完善科技管理、优化科研环境、培育科学文化、促进科技创新和科技成果转化的决策咨询建议。常设栏目有院士卷首语、科技新闻、科技评论、本刊专稿、特色专题、研究论文、政策建议、科技人文等。