试想一下:那些陈旧泛黄的照片,AI能够自动修复,复原其中的细节与色彩;而低分辨率的自拍照,也能瞬间变得清晰如初。无论你是摄影爱好者,还是从事医疗、科研工作的专业人士,4KAgent都能帮助你将任何图像从模糊转变为清晰,并提升至4K分辨率,带来前所未有的视觉效果。
由德州A&M大学、斯坦福大学、加州理工大学、斯纳普公司、加利福尼亚大学梅赛德分校、德州大学奥斯汀分校及CU Boulder等世界顶级院校和企业的专家团队联合研发,4KAgent通过集成最新的深度学习技术,采用创新的多代理(Agentic)架构,突破了传统图像超分辨率技术的瓶颈。无论是处理极低分辨率的图像,还是复杂的科研图像,4KAgent都能提供精准的修复解决方案,让图像焕发新生。

Figure 1: We present 4KAgent, an agentic image super-resolution generalist designed to universally upscaleany image to 4K, regardless of input type, degradation level, or domain.
论文标题:4KAgent: Agentic Any Image to 4K Super-Resolution
作者单位:德州A&M大学, 斯坦福大学, 加州理工大学,斯纳普公司, 加利福尼亚大学梅赛德分校, 德州大学奥斯汀分校和CU Boulder
论文链接:https://arxiv.org/abs/2507.07105
代码链接:https://github.com/taco-group/4KAgent
背景回顾
图像超分辨率(Super-Resolution, SR)是计算机视觉中的一项基础任务,旨在通过低分辨率(LR)图像重建高分辨率(HR)图像,广泛应用于诸如图像去噪、去模糊和低光增强等低层次视觉任务。然而,传统的图像超分辨率方法通常假设图像退化是已知的,这在面对现实世界中的复杂、异质化和不可预测的退化时,极大地限制了其泛化能力。
随着研究的深入,现实世界超分辨率(RealSR)成为了一个重要的研究方向,它旨在处理更多元、更复杂的退化类型,并要求超分辨率模型能够有效应对未知的退化情况。例如,当图像在低质量的环境下拍摄时(如低光、动态模糊等),传统方法往往无法很好地恢复图像细节,无法满足实际应用的需求。
4KAgent,全球首个AI驱动的“代理(Agent)”框架。它不仅能针对经典的图像超分辨率任务进行优化,还能处理现实世界中的多种图像退化问题,灵活适应不同的修复需求。4KAgent的核心优势在于其基于多代理(agentic)架构的设计,使得系统能够根据输入图像的退化情况智能选择最优修复策略。
4KAgent的核心由以下几个模块组成:
感知代理(Perception Agent):通过大规模的视觉语言模型(VLMs),感知代理能够分析图像的退化情况并制定修复计划。 修复代理(Restoration Agent):根据感知代理提供的计划,修复代理执行具体的图像修复任务,包括去噪、去模糊等多个处理步骤。 配置文件模块(Profile Module):为适应不同的修复任务,4KAgent可以根据用户需求调整修复策略,而无需额外的训练。该模块使得4KAgent能够灵活应对多种修复需求。

Figure 2: 4KAgent system overview.
方法详解
感知代理(Perception Agent)
感知代理是4KAgent系统的核心分析模块,采用四阶段的分析过程,将低级的图像质量评估与高级推理相结合。其主要任务是提取图像的语义信息和低级退化信息,为后续的恢复过程制定详细计划。
1. 图像分析器 (Image Analyzer):感知代理通过调用一系列专家图像质量评估(IQA)工具,评估输入图像的多个质量维度(如CLIPIQA、TOPIQ、MUSIQ和NIQE等)。这些工具提供了从不同角度评估图像质量的指标,帮助系统理解图像的整体退化状态。
2. 退化推理(Degradation Reasoning): 感知代理利用视觉语言模型(VLM)对获取的质量评估结果进行推理,结合图像内容分析,预测图像的退化类型 和图像描述,制定初步的修复计划。
3. 放大因子配置(Upscaling Factor Configuration.): 为了确保图像能够成功提升至4K分辨率,4KAgent会自动确定适当的超分辨率因子,并根据图像的尺寸调整修复任务的配置。计算公式如下:

4. 任务规划(Task Planning): 当输入图像中的退化列表 ( D_I ) 和修复议程 ( A_I ) 确定后,感知代理利用一个大语言模型(LLM)或视觉语言模型(VLM)来生成图像修复的计划。具体而言,感知代理通过协同图像描述 ( C_I )、退化列表 ( D_I )、修复经验(E)、修复议程 ( A_I ) 和输入图像 ( I ),生成初步的修复计划 ( P_I )。
修复代理(Restoration Agent)
修复代理是执行具体图像恢复任务的模块,它根据感知代理制定的恢复计划,逐步完成图像修复的每一个步骤。4KAgent的修复过程包括执行和反思两个阶段:
1. 执行(Execution): 在4KAgent中,修复代理根据感知代理提供的修复计划 PIP_IPI 来逐步执行图像修复操作。每个修复步骤中,输入图像会经过一系列修复工具,这些工具根据具体的退化类型执行不同的修复任务。主要包括九种不同的修复操作:亮度增强(Brightening)、去焦模糊(Defocus Deblurring)、运动模糊去除(Motion Deblurring)、去雾(Dehazing)、去噪(Denoising)、去卷曲(Deraining)、JPEG压缩伪影去除(JPEG Compression Artifact Removal)、超分辨率(Super Resolution)、面部修复(Face Restoration)。每个修复步骤会生成多个修复结果,通过这些结果,系统根据输入图像的质量选择最佳修复结果。每个步骤的修复结果将用于下一步的修复任务。

2. 反思(Reflection): 在每次修复步骤之后,修复代理会评估生成的多个修复结果,选择质量最好的一个进行输出。为了评估修复结果的质量,4KAgent结合了偏好模型(HPSv2)和无参考图像质量评估(IQA)工具,来计算修复结果的质量得分。这些得分基于图像内容的描述,尤其是图像的感知质量。无参考图像质量评估(IQA)工具包括:NIQE(Natural Image Quality Evaluator)、MANIQA(Manually Annotated Image Quality Assessment)、MUSIQ、CLIPIQA,4KAgent根据这些评估指标来选择质量最优的修复结果,并将其应用于图像。
3. 回滚机制(Rollback): 为了进一步增强修复的稳定性,4KAgent设计了一种回滚机制。回滚机制的工作原理是,如果某个修复步骤的质量得分低于预设的阈值 𝜂,则该修复步骤会被视为失败。此时,4KAgent会生成失败信息并启动回滚流程。感知代理将根据图像的退化类型和历史经验调整后续修复计划。它会在回滚后的基础上重新安排修复任务,并产生一个新的修复计划。如果后续修复任务仍然没有达到预期效果,系统将再次回滚,直到修复结果达到预期质量为止。
面部修复管道(Face Restoration Pipeline)
人脸区域通常是图像中最具视觉敏感性和语义重要性的部分。然而,传统的超分辨率方法在恢复人脸时,常常难以保持身份一致性,特别是在面部区域受到严重退化时,容易失去面部特征和感知质量。为了应对这一挑战,4KAgent引入了专门的面部修复管道(Face Restoration Pipeline),该管道在修复流程中根据需要被触发。面部修复管道作为4KAgent的一个子模块,只在超分辨率修复步骤之后激活,从而确保面部质量的精细修复无缝地集成到图像修复的迭代循环中。

Figure 3: Face restoration pipeline overview.
1. 面部修复管道的工作流程: 首先,4KAgent会检测并裁剪输入图像中的人脸区域 ( { F_l^I, l = 1 \sim L } ),其中 ( L ) 表示图像中人脸的数量。如果超分辨率的修复步骤不触发回滚机制(即图像的修复效果良好),则会继续执行人脸区域的修复。然后,4KAgent会在修复后的图像中检测并裁剪出人脸区域 ( { F_l^I, l = 1 \sim L' } ),其中 ( L' ) 是图像修复后仍保留的人脸数。
如果输入图像中的人脸数 ( L ) 与修复后图像中的人脸数 ( L' ) 相同,4KAgent就会对每个面部区域应用不同的高级人脸修复方法,从而生成多个修复结果 ( { T_i^F (F_l^I), i = 1 \sim N_f } ),其中 ( T_i^F ) 是修复工具箱中的人脸修复工具,( N_f ) 是工具箱中人脸修复工具的数量。
2. 面部修复的质量评估: 在面部修复过程中,4KAgent还采用了质量驱动的专家混合(Q-MoE)策略来选择最佳修复结果。面部修复的质量评估不仅考虑修复质量,还需要确保人脸身份的一致性。为此,4KAgent结合了以下几个步骤:
面部质量评分( ( Q_s^F )):4KAgent通过计算修复后人脸图像的质量来评估其效果。质量评分不仅考虑修复质量,还需要评估人脸特征的一致性。评分公式如下:
其中,IP表示基于ArcFace的面部特征相似度计算,CLIB-FIQA是一个高级面部质量评估指标。4KAgent结合这些质量评估工具,确保人脸修复的质量能够满足高标准。
最佳面部修复选择:4KAgent根据计算出的面部质量评分 ( Q_s^F ) 选择质量最好的修复结果 ( F_l^{out} ),并将其贴回到原始图像中:

然后,4KAgent将选定的最佳面部修复结果 ( F^l_{out} ) 回贴到原始图像中,继续进行后续的修复步骤。
配置文件模块(Profile Module)
该模块可以根据用户需求动态定制,适用于不同的图像修复场景。具体来说,配置文件模块充当系统提示,支持LLM(大语言模型)应用程序,允许通过以下七个配置参数对系统进行精细控制:
感知代理(Perception Agent):指定感知代理所使用的LLM/VLM(视觉语言模型)。 [默认值:Llama-vision]
超分辨率到4K(Upscale to 4K):确定是否将图像提升到4K分辨率。 [默认值:True]
放大因子(Scale Factor):明确指定整个修复流程的放大因子。 [默认值:4,选项:2, 4, 8, 16]当指定该参数时,它会覆盖“Upscale to 4K”选项。
修复选项(Restore Option):明确设置要应用的修复任务。如果设置为None,则修复任务由感知代理自动确定。 [默认值:None]
面部修复(Face Restore):控制是否启用专门的面部修复管道。 [默认值:True]
亮度增强(Brightening):控制是否激活图像亮度增强,以维持图像色彩的还原性。 **[提供为可选项]**,用于保持图像色彩的真实性。 [默认值:False]
修复偏好(Restore Preference):定义是否优先考虑更高的感知质量或更高的图像保真度。 [选项:Perception, Fidelity, Default: Perception]. 在这里,倾向于选择优化感知质量的模型(例如:PSNR、SSIM)和针对感知质量训练的模型。

研究将修复类型、修复任务和修复偏好结合起来,用以构建配置文件名称。例如,Gen表示普通图像,4K表示“超分辨率到4K”开启,P表示使用高感知质量的修复,而Exp表示显式设置,表示该配置文件明确设置了修复任务。
实验结果
4KAgent在多个复杂的退化和超分辨率(SR)任务中进行了评估,展示了其在不同修复需求下的灵活性。特别地,我们在26个基准数据集上测试了4KAgent,涵盖了11个不同的图像超分辨率任务。这些任务包括经典的图像超分辨率(4×)、现实世界的图像超分辨率、面部修复、以及大规模因子超分辨率等多个复杂场景。
4KAgent在常见的图像超分辨率任务(4×)上展示了其优秀的性能,采用了多个标准的基准数据集,包括Set5、Set14、B100、Urban100和Manga109等。在这些数据集上,4KAgent在PSNR、SSIM等常见指标上均显示出强大的性能。与此同时,我们还结合LPIPS、DISTs、FID等质量评估指标进行更全面的分析。
特别是,当4KAgent的配置文件设置为ExpSR-s4-F时,它展示了与现有技术相比在经典图像超分辨率任务中的竞争力。与其他先进方法(如SwinIR、X-Restorer等)相比,4KAgent在多个基准数据集(如Set5、Set14、B100等)上达到了最优性能。

不同数据集上的修复效果可视化:

Figure 4: Visual comparisons on classical image SR task. (Please zoom in to see details.)

Figure 5: Visual comparisons on real-world image SR task. (Please zoom in to see details)

Figure 6: Visual comparisons on multiple-degradation IR task. (Please zoom in to see details)

Figure 7: Visual comparisons on face restoration task. (Please zoom in to see details)

Figure 8: Visual comparisons on RealSRSet dataset (16× upscaling). (Please zoom in to see details)

Figure 9: Visual comparisons on DIV4K-50 dataset. (Please zoom in to see details)

Figure 10: Visual comparison on AID dataset (160→640).

Figure 11: Visual comparison on WorldStrat dataset (160→640).
Figure 12: Visualization of fluorescence microscopy image SR on SR-CACO-2 dataset (64→512).

Figure 13: Visual comparison of pathology image super-resolution on bcSR dataset (256→1024).

Figure 14: Visual comparison of fundoscopy image SR on DRIVE dataset (128→512).
消融实验
Q-MoE 策略的消融实验
Q-MoE政策:通过评估Q-MoE策略(质量驱动的专家混合)对修复结果的贡献,实验将Q-MoE替换为AgenticIR中的DFS(深度优先策略)。实验结果显示,集成Q-MoE显著提高了感知质量。具体来说,4KAgent在感知质量度量(如LPIPS、MANIQA、CLIPIQ、MUSIQ等)上表现出显著的提升,尤其是在视觉质量上,比DFS策略生成的图像更加锐利和真实。

Figure 15: Visual comparisons for ablation study on Q-MoE.
面部修复管道:为了评估面部修复管道对图像质量的影响,实验中使用了三个配置文件:ExpSR-s4-P、ExpSRFR-s4-P、GenSRFR-s4-P。结果显示,启用面部修复管道时(如使用GenSRFR-s4-P配置文件),在感知质量度量(如CLIB-FIQA、DSL-FIQA)上,图像质量显著提升,尤其是在面部细节(如头发、面部区域的和谐性)方面表现突出。

Figure 16: Visual comparisons for ablation study on face restoration pipeline.
推理时间分析:实验还对4KAgent的推理时间进行了分析。推理时间的长短取决于所选的配置文件、输入图像质量和修复任务的长度。最短的推理时间出现在ExpSR-s4-F配置文件的超分辨率任务中(约50.96秒)。最慢的推理时间出现在Gen4K-P配置文件的联合修复任务中(约1551.76秒)。

结论
在这篇文章中,作者介绍了4KAgent,一种设计用于将各种类型和退化级别的图像普遍提升到4K分辨率的多功能图像超分辨率模型。通过整合先进的多专家系统、适应性决策机制和专用工具来优化感知和保真度,4KAgent在多个挑战性领域中显著提升了图像修复质量,包括严重退化的图像、自然场景、肖像、AI生成内容以及特定科学领域的图像(如遥感、显微镜成像和医学影像)。
广泛的评估表明,4KAgent在标准基准和专业数据集上超越了现有的最先进方法,尤其在传统超分辨率方法难以应对的复杂场景中表现突出。通过无需领域特定的再训练,4KAgent展示了其独特的泛化能力和在消费者、商业和科学应用中的广泛实用性。