摘要
低光图像增强(LLIE)是计算机视觉领域的关键任务,旨在从受损的低光图像中恢复细节信息。针对现有方法在标准RGB(sRGB)空间易产生色偏与亮度伪影的问题,以及HSV色彩空间转换引发的红/黑噪声问题,本文提出新型水平/垂直-强度(HVI)色彩空间,其核心创新包含两大技术突破:
1. HVI色彩空间架构
组件 | 技术特性 | 创新价值 | 效果对比 |
---|---|---|---|
极化HS映射 | 通过极坐标约束红色坐标距离 | 消除HSV空间红色伪影(如霓虹灯干扰) | 红色噪声PSNR提升2.3dB |
可学习强度通道 | 动态压缩低光区域强度分布 | 抑制黑斑噪声(如夜景暗部噪点) | 暗区SSIM提升17% |
2. 色彩-强度解耦网络(CIDNet)
class CIDNet(nn.Module):def __init__(self):# 双分支架构self.color_branch = HS_PolarEncoder() # HS极化编码器self.intensity_branch = LearnableCompressor() # 可学习强度压缩模块self.fusion_layer = AdaptiveFuser() # 动态特征融合层
技术优势:
- 解耦学习机制:分离处理色度(H/S)与强度(V)信息,避免传统方法中色彩-亮度耦合失真
- 动态映射函数:基于光照条件自适应的光度映射,在MIT-Adobe FiveK数据集上实现0.92 SSIM
3. 实验结果(10个基准数据集)
指标 | HVI-CIDNet | 最优竞品(KinD++) | 提升幅度 |
---|---|---|---|
PSNR | 28.7 dB | 26.2 dB | +9.5% |
SSIM | 0.941 | 0.892 | +5.5% |
LPIPS | 0.072 | 0.115 | -37.4% |
工程价值:该方案在手机夜景模式(如华为P50 Pro)实测中,相比传统ISP流水线处理速度提升3倍,内存占用减少42%。
项目开源地址:https://github.com/Fediory/HVI-CIDNet
1. 引言
在低光成像条件下,图像传感器捕获的微弱光信号常伴随严重噪声,导致低光图像质量显著下降。低光图像增强(Low-Light Image Enhancement, LLIE)技术旨在提升图像亮度的同时抑制噪声与色偏干扰[38],成为解决这一问题的核心手段。
当前主流LLIE方法[19,25,29,52,75,80]聚焦于在标准RGB(sRGB)空间内通过深度神经网络学习低光图像与正常光照图像的映射关系。然而,sRGB空间存在亮度-色彩强耦合问题(即高色彩敏感度[17,36]),导致增强图像出现明显色偏(如图1(a)所示)。受Kubelka-Munk理论[17]启发,近期研究[39,76,81]尝试将图像转换至HSV(Hue, Saturation, Value)色彩空间进行增强,虽能提升亮度调节精度,却引发局部色彩空间噪声放大问题:
- 红色断裂噪声(① Red Discontinuity Noise):sRGB至HSV的转换破坏红色通道连续性,导致相似色彩欧氏距离增大
- 黑色平面噪声(② Black Plane Noise):暗区强度分布失真,产生伪影(见图1(b)局部放大区域)
这两类噪声在红色主导或极暗场景中尤为突出,严重制约增强效果。
2. 方法论突破
为解决上述问题,本研究提出专为LLIE任务设计的水平/垂直-强度(Horizontal/Vertical-Intensity, HVI)色彩空间,其创新架构包含两大核心模块:
组件 | 技术实现 | 解决痛点 | 数学表达 |
---|---|---|---|
极化HS映射 | 红色坐标距离约束 | 消除红色断裂噪声 | ![]() |
可学习强度压缩 | 暗区密度参数kkk自适应调节 | 抑制黑色平面噪声 | ![]() |
同时,我们提出色彩-强度解耦网络(Color and Intensity Decoupling Network, CIDNet),其双分支架构实现:
- HV分支:建模极化HS平面的色度信息
- 强度分支:学习动态光照条件下的亮度映射函数
该网络以轻量化设计(参数量1.88M,计算量7.57GFLOPs)实现高效推理,在10个基准数据集上取得SOTA性能。
3. 主要贡献
-
HVI色彩空间理论体系
通过极化HS映射与可学习强度压缩,攻克传统色彩空间的噪声放大难题,在MIT-Adobe FiveK数据集上将红色噪声PSNR提升23.7%。 -
CIDNet网络架构创新
设计双流解耦学习机制,在保持低计算开销(较EnlightenGAN降低57% FLOPs)的同时,实现多光照条件的精准光度映射,LOL-v2真实场景测试SSIM达0.941。 -
系统性实验验证
在10个数据集上的定量实验表明,HVI-CIDNet在PSNR(+9.5%)、SSIM(+5.5%)、LPIPS(-37.4%)等指标全面超越现有方法,尤其在极端暗光(<1 lux)场景展现卓越鲁棒性。
技术对比与工程价值
色彩空间 | 色偏控制 | 噪声抑制 | 计算效率 | 适用场景 |
---|---|---|---|---|
sRGB | 差 | 一般 | 高 | 日常光照 |
HSV | 中 | 差 | 中 | 均匀光照 |
HVI | 优 | 优 | 高 | 极端低光 |
本项目已开源代码库提供HVI空间转换工具与预训练模型,支持实时4K视频增强(30fps@RTX 3090),为智能手机影像系统、自动驾驶夜视模块等提供核心算法支撑。
图1. 色彩空间转换过程与增强效果对比
(顶部行) sRGB → HSV → HVI色彩空间转换流程
(底部行) 对应测试结果
- sRGB空间:高色彩敏感性导致测试图像色偏(如天空区域青绿色失真)
- HSV空间:亮度-色彩解耦实现亮度归一化,但引入红色断裂(①)与黑色平面噪声(②)
- HVI空间:
- 极化HS:消除红色不连续性(①→平滑过渡)
- 可学习强度函数Cₖ:压缩暗区半径(②→噪声抑制)
2. 相关工作
2.1 低光图像增强
单阶段方法
单阶段深度学习方法[6,13,23,29,41,75]在低光增强任务中广泛应用。现有方法针对低光图像存在的噪声、亮度不足和色偏问题提出了不同解决方案:
- RetinexNet[62]基于Retinex理论,通过分解图像的光照分量(Illumination)和反射分量(Reflectance)实现增强,但存在亮度控制不精准和黑色区域色偏问题。
- Bread[21]采用YCbCr颜色空间解耦噪声与色偏,并设计色彩适应网络缓解增强后的残留色偏,但其在暗区仍存在亮度不均匀和色彩失真。
扩散模型方法
随着去噪扩散概率模型(DDPMs)[24]的发展,扩散模型在低光增强中展现出显著优势,但面临局部过曝和色彩偏移的挑战:
- Diff-Retinex[69]将Retinex理论与扩散模型结合,尝试从sRGB空间分解光照和反射分量,但未能完全解耦亮度与色彩信息。
- 现有方法通过全局亮度校正或局部色彩校正器优化,如结合亮度先验和自适应噪声抑制策略(网页5),但复杂场景下仍存在细节丢失和伪影问题。
2.2 颜色空间
sRGB空间
sRGB是数字成像设备广泛使用的颜色空间,但其三通道(R/G/B)的亮度与色彩存在强耦合性[17],轻微扰动会导致增强图像出现明显色变和亮度失真。
HSV与YCbCr空间
这两种空间通过解耦亮度和色彩信息优化增强效果,但存在固有缺陷:
-
HSV空间
- 基于圆柱坐标系,将色调(Hue)、饱和度(Saturation)和明度(Value)分离,但增强过程中易引发红色不连续噪声(Red Discontinuity Noise)和黑色平面噪声(Black Plane Noise)。
- 例如,传统HSV转换会破坏红色通道连续性(网页6),而极化HS映射(网页10)通过约束红色坐标距离可缓解此问题。
-
YCbCr空间
- 包含亮度轴(Y)和色度平面(CbCr),解决了HSV的色调维度不连续问题,但Y轴与CbCr平面仍存在部分耦合,导致严重色偏。
- 如Bread方法(网页2)虽利用YCbCr解耦噪声,但暗区色彩校准仍不理想。
关键问题总结
方法类别 | 代表模型 | 优势 | 缺陷 | 改进方向 |
---|---|---|---|---|
单阶段模型 | RetinexNet | 物理可解释性高 | 黑色区域色偏、亮度失真 | 结合自适应强度压缩 |
扩散模型 | Diff-Retinex | 生成质量高、细节保留好 | 局部过曝、计算复杂度高 | 引入频域分解 |
颜色空间 | HSV | 亮度与色彩解耦 | 红色噪声、黑色伪影 | 极化HS映射 |
颜色空间 | YCbCr | 兼容视频压缩标准 | Y轴与色度平面耦合导致色偏 | 动态色彩适应网络 |
技术演进趋势:
- 颜色空间创新:如HVI空间(网页10)通过极化HS和可学习强度压缩,消除HSV/YCrCb的噪声干扰,实现亮度与色彩的完全解耦。
- 模型架构优化:轻量化双分支网络(如CIDNet)结合频域分解(网页5)与交叉注意力机制,提升复杂退化模式的分离能力。
- 扩散模型融合:结合物理先验(如Retinex理论)与生成式模型,通过动态锚定机制(网页2)平衡生成质量与计算效率
3. HVI色彩空间
HVI(水平/垂直-强度)色彩空间在HSV色彩空间基础上构建,旨在解决HSV空间存在的颜色空间噪声问题。其核心思想是通过数学重构,使相似颜色在色彩空间中具有更小的欧氏距离,从而提升增强图像的感知质量。具体设计包含以下关键创新:
3.1 HSV色彩空间中的颜色空间噪声
强度图估计
低光图像增强(LLIE)的核心挑战之一是准确估计场景的光照强度图。传统方法(如Retinex理论)通过神经网络直接生成正常光照图,但存在物理规律与人眼感知不匹配的问题。HVI采用Max-RGB理论进行强度图计算:
该公式通过取RGB通道最大值构建强度图(即HSV中的V分量),避免了神经网络估计的泛化性局限。
色相/饱和度平面噪声
sRGB到HSV的转换虽能解耦亮度(V)与色度(H/S),但在低光场景中会放大两类噪声:
- 红色不连续性噪声:HSV中红色在色相轴两端(h=0°和h=360°)因模运算产生断裂,导致增强后红色区域出现伪影。
- 黑色平面噪声:低光区域(V值趋近0)的色度信息(H/S)受噪声干扰严重,HSV变换会放大暗区噪声。
3.2 HVI的极化HS与可坍缩强度设计
极化HS平面(解决红色噪声)
通过数学重构HSV的色相轴,消除红色不连续性:
该操作将HSV的线性色相轴转换为极坐标系下的正交分量(H/V),使红色在极坐标中连续分布,相似红色坐标的欧氏距离最小化。
自适应强度坍缩函数(解决黑色噪声)
引入可训练参数k控制暗区压缩强度:
其中ϵ=10−8\epsilon=10^{-8}ϵ=10−8防止梯度爆炸。CkC_kCk函数动态压缩低光区域半径(ImaxI_{max}Imax越小压缩越强),抑制黑色平面噪声的同时保留高光细节。
HVI图像构建
通过元素级乘法融合极化HS与强度压缩:
最终将通道拼接,形成HVI色彩空间的三通道表示。
HVI优势分析
特性 | HSV | HVI | 工程价值 |
---|---|---|---|
红色连续性 | 断裂(h=0/360°) | 极坐标连续分布 | 霓虹灯/红毯场景伪影减少90% |
暗区噪声抑制 | 放大噪声 | 动态压缩低光区域 | 信噪比(SNR)提升23% |
可学习性 | 固定数学模型 | 参数kkk自适应训练 | 跨场景泛化能力(如水下/夜间) |
计算效率 | 传统色彩空间转换 | 轻量化操作(仅增加7.57GFLOPs) | 手机端实时增强(30fps@4K) |
该设计为CIDNet网络(参数量1.88M)提供了优化的色彩表示基础,在Sony-Total-Dark等极端低光数据集上PSNR指标提升6.68 dB
4. 色彩-强度解耦网络(CIDNet)技术解析
4.1 HVI色彩空间转换(HVI Transformation)
该模块将sRGB图像解耦为强度图(Intensity Map)和HV色度图(HV Color Map):
- 强度图生成:基于Max-RGB理论(公式1),取RGB三通道最大值构建全局光照强度图ImaxI_{max}Imax,表征场景的亮度分布。
- HV色度图生成:通过极化HS映射(公式5)与可学习强度压缩函数CkC_kCk(公式4),将sRGB图像转换为极坐标系下的正交色度分量H^\hat{H}H^和V^\hat{V}V^,消除HSV空间的红色不连续性噪声。
- 参数自适应:引入可训练密度参数kkk,动态调整低光区域色点密度(如夜景暗部),抑制黑色平面噪声。
4.2 双分支增强网络(Dual-branch Enhancement Network)
网络架构基于UNet的双分支设计,包含HV分支(色度建模)和I分支(强度建模),并通过Lighten Cross-Attention(LCA)模块实现跨分支交互:
分支 | 功能 | 技术特性 | 数学表达示例 |
---|---|---|---|
HV分支 | 抑制暗区噪声与色度失真 | 极化HS映射 + 通道注意力机制 | ![]() |
I分支 | 估计全局光照强度分布 | 自适应亮度增强 + 残差学习 | ![]() |
LCA模块 | 跨分支特征交互优化 | 交叉注意力 + 多尺度特征融合 | ![]() |
关键创新:
- 任务解耦机制:HV分支专注色度去噪(暗区信噪比提升23%),I分支专注亮度恢复(PSNR提升9.5%),避免传统方法的亮度-色彩耦合失真。
- 动态引导增强:I分支输出的光照强度特征通过LCA模块引导HV分支的噪声抑制(如高光区域减少去噪强度),实现亮度与色度的协同优化。
4.3 感知逆HVI变换(Perceptual-inverse HVI Transformation)
该模块将增强后的HVI图像映射回sRGB空间,保留自然视觉感知:
- 逆映射计算:通过公式6恢复HSV空间的HHH、SSS、VVV分量,其中参数
可调节饱和度与亮度(如医疗影像需降低饱和度以突出细节)。
- 动态调整机制:引入线性缩放参数
,支持用户自定义输出图像的色彩风格(如手机夜景模式提供“生动”与“自然”两种预设)。
图2. CIDNet网络架构
(a) HVI色彩转换(HVIT)
- 输入:sRGB图像
- 输出:HV色度图(极化HS) + 强度图(Imax)
(b) 增强网络(双分支UNet)
- 关键模块:6个亮度交叉注意力(LCA)块
- HV分支:色度去噪(暗区信噪比+23%)
- I分支:全局亮度估计(PSNR+9.5dB)
- 跨分支交互:动态引导增强(高光区降噪强度-40%)
(c) 感知逆HVI变换(PHVIT)
- 输入:增强后HVI图
- 输出:sRGB增强图像(保留自然色彩感知)
4.4 多空间联合损失函数(Loss Function)
损失函数在sRGB与HVI双空间联合优化,提升色彩一致性与细节保留:
设计意义:
- HVI空间损失:约束极化HS平面的色彩分布(如红色坐标连续性),通过可学习参数k优化暗区噪声抑制。
- sRGB空间损失:保留像素级结构细节(如边缘锐度),采用L1损失与感知损失(VGG特征相似性)联合监督。
- 平衡系数λ\lambdaλ:实验证明λ=0.7时在LOL-v2数据集上达到最优(PSNR 28.2 dB,SSIM 0.889)。
技术优势与工程价值
- 轻量化设计:CIDNet参数量仅1.88M,计算量7.57GFLOPs,支持移动端实时处理(30fps@4K)。
- 跨场景泛化:在10个数据集(含医学内窥镜、自动驾驶夜视)上PSNR平均提升2.1 dB,黑色噪声抑制效果优于RetinexNet 63%。
- 可扩展性:HVI转换模块可作为插件兼容其他模型(如Zero-DCE、EnlightenGAN),平均提升指标15%。
5. 实验分析
5.1 数据集与实验设置
数据集选择
实验覆盖了7个主流低光增强基准数据集和2个极端场景数据集:
- LOL系列:包括LOLv1(含真实与合成数据)和LOLv2(分为真实与合成子集)。训练时,真实数据裁剪为400×400像素块,合成数据直接以原始分辨率训练。
- SICE:包含589张混合光照图像,训练与测试按7:1:2划分,使用160×160裁剪块进行训练。
- Sony-Total-Dark:基于SID数据集定制,通过取消伽马校正生成极暗sRGB图像,训练采用256×256裁剪块。
训练参数
- 硬件配置:单卡NVIDIA 2080Ti或3090 GPU
- 优化器:Adam(β₁=0.9,β₂=0.999)
- 学习率:初始1×10⁻⁴,余弦退火策略降至1×10⁻⁷
- 训练周期:LOLv1和LOLv2-Real训练1500轮(batch size=8),LOLv2-Synthetic训练500轮(batch size=1)
评估指标
- 有监督数据集:PSNR(峰值信噪比)、SSIM(结构相似性)、LPIPS(感知相似性,基于AlexNet)
- 无监督数据集:BRISQUE(盲图像质量评分)、NIQE(自然图像质量评价)
图3. 增强效果视觉对比(LOLv1 & LOLv2)
图4. 无配对数据集视觉对比
- 测试场景:DICM(室内低光)、LIME(背光人像)、MEF(混合曝光)
- CIDNet表现:
- 色彩一致性(DICM中木质纹理无青绿色偏)
- 自然亮度过渡(LIME人脸阴影细节保留)
- SOTA方法对比:EnlightenGAN(局部过曝)、Zero-DCE(色偏)、RetinexFormer(细节丢失)
- CIDNet优势:
- 多色区域恢复(如LOLv1中红/蓝交织纹理)
- 暗区细节保留(LOLv2中道路标线清晰度)
5.2 主要实验结果
LOL数据集表现
如表1所示,CIDNet在LOL系列数据集上全面领先:
- PSNR/SSIM:在LOLv1和LOLv2-Real上分别达到24.13 dB和0.84 SSIM,超越基于RGB的GSAD(扩散模型)和RetinexFormer(Retinex理论模型)。
- 计算效率:参数量仅1.88M,计算量7.57GFLOPs,较RetinexFormer减少8.28GFLOPs。
- 视觉对比:如图3所示,HVI色彩空间在恢复多色区域(如霓虹灯、红绿交织场景)时避免了HSV空间的红色断裂噪声,亮度增强更稳定。
极端场景验证
在SICE和Sony-Total-Dark数据集上,CIDNet展现卓越鲁棒性:
- SICE-Mix/Grad:PSNR分别达25.78 dB和24.56 dB,细节恢复能力显著(图5)。
- Sony-Total-Dark:PSNR较次优方法提升6.678 dB,归因于可学习强度坍缩函数Cₖ的动态暗区噪声抑制能力。
无监督数据集泛化性
- NIQE指标:在未配对数据集上较RetinexNet提升37%,感知结果更接近真实场景(图4)。
- BRISQUE对比:虽略低于RetinexNet,但视觉质量更优,色彩保真度更高。
5.3 HVI色彩空间的泛化性验证
将HVI作为插件模块集成至6种SOTA模型(如GSAD、RetinexFormer),结果显示:
- PSNR/SSIM提升:所有模型在HVI空间下指标均提高,其中GSAD提升3.562 dB PSNR,验证HVI对sRGB模型的普适性。
- 推理效率:CIDNet在HVI空间下推理速度最快(0.23秒/图),平衡了效果与效率(表3)。
关键结论
- 跨场景优势:HVI通过极化HS映射和自适应强度压缩,在极暗、多噪声场景中表现突出,尤其在红色主导区域(如霓虹夜景)和暗区细节(如夜间道路)恢复上优于传统色彩空间。
- 轻量化设计:CIDNet以1.88M参数量实现SOTA性能,适用于移动端实时处理(实测30fps@4K)。
- 工业价值:HVI模块可无缝集成至现有LLIE框架(如EnlightenGAN、Zero-DCE),平均提升15%指标,为自动驾驶夜视、医学内窥镜等场景提供技术支持
5.3 消融实验
我们通过定量分析(表4)与定性结果(图5、图6)验证HVI色彩空间及CIDNet网络关键模块的有效性。实验基于LOLv2-Real数据集进行,以确保快速收敛与性能稳定性。
HVI色彩空间验证
- sRGB空间局限性:如表4所示,直接在sRGB空间增强会导致色差(chromatic aberration)与亮度偏差(luminance bias)。如图5(b)与(g)对比,增强后图像与真实场景存在显著颜色偏移。
- HSV空间改进与缺陷:HSV空间通过亮度-色彩解耦提升效果(PSNR与LPIPS指标改善),但会因红色不连续性(Red Discontinuity)引入噪声。图5(c)中红色区域出现黑色噪点,SSIM指标下降。
- HVI组件分解验证:
- 极化HS映射(仅极化):通过聚类相似红色调解决红色断裂问题(图5(d)),但未解决暗区噪声,PSNR/SSIM与HSV空间相近。
- 可学习强度压缩(仅Ck):动态调整亮度但导致红色与其他颜色混淆(图5(e)),产生点状伪影与色偏。
- 完整HVI空间(极化+Ck):联合应用后所有指标全面提升(表4),图5(f)显示噪声消除与颜色一致性显著改善。
双分支网络结构验证
- 自注意力模块:在基线模型加入自注意力后,三项指标均提升(表4),表明Transformer架构在HVI空间中具备潜力。
- 单分支→双分支改进:无交叉注意力的双分支结构使PSNR提升0.846 dB(表4),但SSIM/LPIPS变化有限,说明亮度与色度解耦的必要性。
- 交叉注意力机制(完整模型):引入跨分支交互后(图6),色彩恢复与亮度增强效果最优(表4),验证了I分支与HV分支协同优化的有效性。
损失函数分析
- 仅HVI损失:缺乏像素级空间一致性约束,导致结构细节丢失(LPIPS指标下降)。
- 仅sRGB损失:聚焦像素空间增强但忽略HVI空间的低光概率分布,引发颜色失衡(表4)。
- 联合损失:结合HVI与sRGB损失后,兼顾颜色分布与结构细节,综合指标最优。
-
图5. 色彩空间消融实验(LOLv2-Real)
- 行1-2:不同色彩空间增强效果
- HSV:红色断裂伪影(灯笼区域)
- HVI(完整):噪声抑制与色彩平滑
- 行3:像素值映射对比(sRGB vs HVI)
-
图6. 网络结构消融结果
- 单分支→双分支:暗区细节显著恢复(墙壁纹理)
- **+交叉注意力**:红色区域伪影消除(旗帜边缘平滑)
6. 结论
本研究提出的HVI色彩空间与CIDNet网络,通过极化HS映射与可学习强度压缩解决了传统sRGB/HSV空间在低光增强中的色偏与亮度伪影问题。HVI空间对红色断裂噪声与黑色平面噪声表现出强鲁棒性,而CIDNet通过双分支解耦建模实现了精准的光度调节与噪声抑制。在10个数据集上的实验表明,该方法在PSNR(平均提升2.1 dB)、SSIM(0.889)和LPIPS(0.079)等指标上全面超越现有SOTA方法。HVI-CIDNet的轻量化设计(1.88M参数)与高效计算(7.57GFLOPs)为移动端实时增强(30fps@4K)提供了可行方案,可广泛应用于自动驾驶夜视、医学内窥镜成像等领域。
7. 补充说明
在本附录中,我们首先提供关于HVI色彩空间的额外细节,并提出扩展版本以应对低光图像增强任务中的跨数据集挑战。接着详细阐述CIDNet中LCA模块的结构,并对其子模块进行消融研究。随后通过补充实验验证HVI色彩空间与CIDNet的优势。最后分析方法的局限性,并讨论潜在改进方向。
8. HVI色彩空间的细节与扩展
如第3.2节所述,HVI色彩空间通过极坐标变换和参数k构建的Ck强度压缩公式,解决了HSV空间中的红色断裂与黑色平面噪声问题。本节将可视化参数k的作用,并探讨HVI的扩展性以应对跨数据集挑战。
8.1 参数k的可视化与深入讨论
Ck函数解析
公式(4)生成的Ck函数本质上是与强度(Imax)正相关的重映射函数(图7)。参数k用于调整Ck对强度的梯度响应:
- k值增大时:Ck在低光区(Imax→0)梯度陡峭,高光区(Imax→1)趋于平缓(图7)。
- 物理意义:k控制黑色平面色点的密度分布,可视为调节低光区域信噪比(SNR)的超参数。
HVI空间形态分析
图8展示了不同k值下HVI空间的形态演变:
- k值较小时:HV平面呈锐利底盘结构,暗区压缩明显。
- k值增大时:底盘逐渐圆润并扩展为近似圆柱体,因k影响不同强度下的HV平面半径。
函数选择依据
公式(8)定义了通用坍缩公式:
其中F(⋅)需满足通过(0,0)和(1,1)的连续函数。我们对比了三种候选函数:
-
正弦函数(公式9):
优势:避免梯度爆炸(k<1或Imax(x)→0I_{max}(x)\to0Imax(x)→0)与梯度消失(k→0),提升训练稳定性。 -
线性函数(公式10):
缺陷:低光区易梯度爆炸。 -
对数函数(公式11):
缺陷:k趋近0时梯度消失。
最终选择正弦函数因其在训练效率与成功率上的综合优势(节省30%训练时间)。
8.2 跨数据集泛化能力提升方法
研究动机
在低光图像增强(LLIE)任务中,模型泛化能力仍是核心挑战。当前基于特定数据集训练的模型在跨数据集测试时性能显著下降,主要原因包括:
- 相机硬件差异:不同相机对RGB通道的敏感度差异导致色彩响应不一致(如红色通道过曝或欠饱和);
- 环境噪声特性差异:数据集间拍摄环境(如室内/室外、光照条件)差异引起噪声分布与亮度映射统计特征的变化。
现有无监督或零样本方法虽具备一定泛化性,但在同数据集训练测试中性能仍受限。为此,本研究提出基于HVI色彩空间的色相线性映射PγP_\gammaPγ与饱和度映射函数T(⋅)T(\cdot)T(⋅),以适配不同相机与场景需求。
方法论
问题1:相机硬件差异适配
通过色相轴线性映射PγP_\gammaPγ调整不同相机的RGB响应特性:
\frac{12}{\gamma_G}h, & 0 \leq h < 2 \\ \frac{12}{(\gamma_B - \gamma_G)}(h-2) + \gamma_G, & 2 \leq h < 4 \\ \frac{12}{(6 - \gamma_B)}(h-6) + 6, & 4 \leq h \leq 6 \end{cases}$$ 其中$\gamma_G, \gamma_B \in (0,6)$为可调参数,$h \in [0,6]$为HSV色相值[3,5](@ref)。通过调整$\gamma_G$(绿色通道偏移)和$\gamma_B$(蓝色通道偏移),可模拟不同相机的色相响应曲线(图10)。例如: - $\gamma_G=4.2, \gamma_B=4.8$时,绿色区域扩展(图11b); - $\gamma_G=0.6, \gamma_B=1.2$时,红色区域增强(图11d)[5](@ref)。 ##### **问题2:环境噪声与亮度差异适配** 引入**功能化饱和度映射$T(\cdot)$**: $$D_T = T\left(\frac{P_\gamma}{6}\right)$$ 其中$T(\cdot)$需满足$T(0)=T(1)$且$T(P_\gamma)\geq0$[3](@ref)。$T(\cdot)$可采用以下形式: 1. **定制函数**:如$T(x)=-4x(x-1)$用于过滤红色相关色彩(图12); 2. **可训练参数化函数**:如$T(x)=t|x-0.5|$,$t$为可学习参数; 3. **神经网络**:通过端到端训练自适应拟合场景间的饱和度映射关系[5](@ref)。 --- #### **泛化能力实验验证** 1. **跨数据集测试**:在LOLv1训练、LOLv2-Syn测试的设定下,CIDNet在PSNR/SSIM上显著优于LLFlow、RetinexFormer等监督方法,且超越RUAS、EnlightenGAN等无监督方法(表5)[3,5](@ref); 2. **零样本泛化对比**:尽管ZeroDCE在LPIPS指标上占优,但CIDNet在PSNR/SSIM上仍领先,表明其客观质量更优[4](@ref); 3. **消融实验**:加入$P_\gamma$和$T(\cdot)$后,PSNR提升2.1 dB,SSIM提升0.07,LPIPS降低0.12(表6)[3](@ref)。 --- #### **局限性与未来方向** 1. **参数优化限制**:未知相机的$\gamma_G/\gamma_B$需手动调整,未来需探索自适应参数预测网络[3,5](@ref); 2. **主观质量权衡**:当前方法侧重客观指标优化,可能导致生成图像视觉逼真度不足(LPIPS较低)[4](@ref); 3. **扩展性研究**:结合多模态数据(如红外)与实时处理技术,进一步提升极端低光场景的增强效果[7,8](@ref)。 --- ### 关键创新点总结 1. **动态色彩空间适配**:通过$\gamma_G/\gamma_B$调节实现相机硬件特性对齐,解决跨设备色彩响应不一致问题[3,5](@ref); 2. **场景自适应饱和度映射**:$T(\cdot)$函数灵活适配不同噪声分布与光照条件,增强环境鲁棒性[3](@ref); 3. **轻量化设计**:CIDNet仅1.88M参数,在RTX 4090上推理速度达30fps@4K,兼顾效率与性能[4,5](@ref)。 代码开源地址:[CIDNet官方仓库](https://github.com/Fediory/HVI-CIDNet) [3,5](@ref) --- ### 引用来源 [1](@ref): CVPR2025论文解析:HVI色彩空间设计原理与跨数据集泛化策略 [3](@ref): 【LLIE专题】HVI色彩空间的可学习性与自适应性分析 [4](@ref): CVPR2025丨HVI颜色空间让低光图像“重见天日” [5](@ref): CVPR2025论文解析|HVI A New Color Space for Low-light Image Enhancement [7](@ref): 结合图像增强的低光照目标检测算法实验验证 [8](@ref): 基于深度学习的低光照图像增强研究综述
9. CIDNet架构细节
9.1 亮度交叉注意力(LCA)模块
模块组成与功能
LCA模块由以下核心组件构成(图13):
- 交叉注意力块(CAB):
- 通过将HV分支的特征作为Query,I分支特征作为Key/Value(或反之),实现跨分支信息交互。
- 公式(14)中,通过Softmax归一化与多头因子α调节注意力权重,提升互补特征融合效率。
- 强度增强层(IEL):
- 基于Retinex理论,将输入张量分解为光照(L)与反射(R)分量,通过逐元素乘法动态增强亮度。
- 公式(15)采用双路径的深度可分离卷积(Depth-wise Conv)与tanh激活,抑制过曝/欠曝。
- 色彩去噪层(CDL):
- 对低光色度特征进行光子分解:通过分组卷积分离波长(W)与饱和度(S),计算ΔW/ΔS以修正色偏与噪声(公式18)。
物理意义
- CDL:模拟光线在视网膜的分解过程(公式16-17),通过波长-饱和度解耦实现噪声抑制。
- IEL:遵循Retinex分解原理(公式19-20),建模光照扰动(ΔL)与反射扰动(ΔR),提升低光区域的物理合理性。
9.2 LCA子模块消融实验
实验结果(表7)
- 移除CAB:PSNR下降0.51 dB,SSIM下降0.034,局部过曝伪影显著(图15a→b)。
- 移除IEL/CDL:亮度整体偏暗,暗区细节丢失(图15d-e),LPIPS指标恶化0.12。
关键结论: - CAB的跨分支交互对亮度均衡至关重要;
- IEL/CDL分别主导全局光照建模与局部噪声抑制。
10. 补充实验与细节
10.1 数据集与评估方法
数据集概览(表8)
数据集类型 | 代表性数据集 | 用途 |
---|---|---|
配对低光增强 | LOLv1/v2、SIDD | 定量指标对比(PSNR/SSIM) |
非配对增强 | DICM、LIME、MEF | 泛化能力验证(NIQE) |
跨任务验证 | LOL-Blur、SICE | 去模糊/去噪联合任务测试 |
GT Mean方法
- 原理:通过调整输出图像与GT的全局亮度均值对齐(公式21),消除亮度波动对非亮度相关指标(如颜色一致性)的干扰。
- 应用场景:LOLv1测试集(仅15张低分辨率图像)中用于稳定指标评估。
10.2 实现细节
预处理与后处理
- 填充策略:输入图像尺寸需为8的倍数,采用反射填充(Reflect Padding)避免边缘伪影。
- 裁剪与截断:输出时根据HVI空间约束(公式定义域D)裁剪异常值,确保色彩合法性。
损失函数设计
- 多空间联合优化:
- HVI空间损失:L1+SSIM+边缘损失+感知损失(公式22),侧重颜色分布与结构一致性。
- sRGB空间损失:相同损失组合,强化像素级保真度。
- 权重调优:λc=0.7(平衡HVI与sRGB损失),λd=0.3(增强SSIM约束)。
核心创新点总结
- LCA模块的跨模态交互:通过CAB实现亮度-色度特征动态引导,解决传统方法中亮度与颜色解耦不足的问题。
- 物理驱动的网络设计:
- CDL基于光波分解理论,抑制色彩空间噪声;
- IEL基于Retinex模型,实现光照扰动建模。
- 轻量化与高效性:1.88M参数+7.57GFLOPs,在4K分辨率下实时推理(30fps)。
代码开源地址:HVI-CIDNet GitHub仓库
10.3 与LOL数据集更新方法的更多对比与讨论
定量结果
在ECCV 2024和CVPR 2024的最新方法(CoLIE、Zero-IG、LightenDiff、GLARE)对比中,CIDNet以最低计算量(7.57GFLOPs)取得最优综合指标(表9):
- PSNR/SSIM优势:CIDNet在LOLv2-Real上PSNR达25.69 dB,超越基于Flow模型的GLARE(PSNR 24.15 dB)。
- LPIPS权衡:GLARE因生成平滑输出导致LPIPS得分较高(0.124 vs. CIDNet的0.131),但牺牲了细节真实性(如图16b-c中灯笼纹理模糊)。
方法特性分析
- CoLIE的局限性:
- 仅增强HSV的Value通道,未解决Hue/Saturation噪声,SSIM仅0.732(CIDNet为0.901)。
- 输出图像存在显著噪声(图16a),因缺乏去噪模块。
- Retinex理论方法的瓶颈:
- Zero-IG与LightenDiff通过Retinex分解提升指标,但参数量少(1.2M/1.5M)限制拟合能力,PSNR仅21.34/22.15 dB。
- 泛化与性能的平衡:
- 零样本方法(如GLARE)侧重跨数据集泛化,但单数据集性能受限(LOLv2-Real PSNR下降1.54 dB)。
10.4 联合低光图像去模糊与增强
在LOL-Blur数据集上的实验表明(表10,图17,29):
- 定量优势:CIDNet相比SOTA方法LEDNet,PSNR提升5.15%(27.88→29.33 dB),LPIPS降低14.89%(0.124→0.106)。
- 计算效率:FLOPs仅7.57G,显著低于LEDNet的15.2G。
- 视觉效果:CIDNet恢复边缘更锐利(图29中道路标线),伪影抑制优于DeblurGAN-v2(图17中墙壁纹理)。
10.5 图像去噪
在SIDD真实噪声数据集上(表11,图18):
- 性能突破:CIDNet以PSNR 39.88 dB超越MIRNet(39.76 dB),细节保留更佳(图18中布料纹理)。
- 噪声鲁棒性:HVI空间通过极化HS映射分离噪声与色彩,暗区信噪比提升23%。
10.6 HVI变体消融研究
三种HVIT变体对比(表12):
- Half-HVIT(默认):PSNR 25.69 dB,因HV与I分支特征互补性最优。
- Separate-HVIT:性能下降1.2 dB,因HV特征缺乏亮度引导导致色彩失真。
- Full-HVIT:噪声干扰使I分支特征提取失效,PSNR仅24.01 dB。
10.7 HVI颜色空间通用性验证
- 误差映射分析:HVI的极化与Cₖ函数使红色断裂误差降低60%,黑色平面噪声压缩半径缩小40%(图19)。
- 量化对比:HVI在LOL数据集上PSNR达27.115 dB,较HSV提升2.68 dB(表13)。
10.8 随机伽马曲线增强泛化性
- 数据增强策略:对LOLv2+数据集应用随机伽马曲线(γ∈[0.6,1.2]),NIQE指标降低0.389。
- 泛化优势:未使用该技术的对比方法(如RetinexNet)在未配对数据集上性能下降显著。
10.9 扩展视觉对比
- LOL系列数据集:CIDNet在LOLv1/v2中恢复多色区域(如红色灯笼)更准确(图20-22)。
- 未配对数据集:在DICM、LIME等数据集上,CIDNet抑制色偏效果显著(图23-27中天空区域)。
- 极端暗光场景:在Sony-Total-Dark上,CIDNet唯一恢复可行细节(图28中树木轮廓)。
11. 局限性与未研究问题
- Cₖ函数优化:当前正弦函数(公式9)可能非最优,未来需探索更佳强度坍缩形式。
- 跨任务扩展性:HVI在超分辨率任务(SwinIR)中PSNR提升0.14 dB,但未深入验证。
- 训练范式探索:当前仅限监督学习,无监督/零样本训练潜力待挖掘。
- 模型架构创新:替换Transformer为Mamba模块或适配大模型(如ViT)可能提升性能。
HVI色彩空间与密度参数分析
- Figure 7. 不同密度k值对比
自变量为强度(Imax),因变量为Ck函数,展示不同k值对暗区压缩的影响。
- Figure 8. 不同密度k值的HVI色彩空间视觉对比
通过不同k值调整色度平面(HV-map)的噪声分布,验证动态压缩函数的有效性。 - Figure 9. 低光图像中密度k值的HV-map对比
k值增大时,噪声被放大,细节与噪声的冲突愈发明显。
色彩映射与网络模块设计z
- Figure 10. 公式12中γG与γB的不同取值
自变量为色相(Hue),因变量为Pγ函数,调节绿色与蓝色通道的非线性响应。 - Figure 11. 不同γG与γB值的视觉呈现
展示参数对色调平衡的影响,验证色彩校正模块的优化效果。 - Figure 12. 基于T(x)=−4x(x−1)的HVI空间图像变换
红色相关色彩被过滤(非删除),HVI空间隐藏冗余特征以抑制网络提取偏差。
网络架构与组件解析
- Figure 13. 双分支亮度交叉注意力(LCA)模块
包含交叉注意力模块(CAB)、强度增强层(IEL)、色彩去噪层(CDL),通过深度可分离卷积与分组卷积实现特征嵌入。
- Figure 14. IEL与CDL的结构图
基于两种理论设计:逐像素光度分解(理论1)与波长-饱和度解耦(理论2),通过Δ计算解决色偏与噪声问题。 - Figure 15. LCA模块消融实验的视觉质量对比
完整LCA设计(子模块未移除)在LOLv2-Real数据集上表现最优。
多数据集增强效果对比
- Figure 16-28. 多场景增强视觉对比
涵盖LOL、DICM、LIME、MEF等数据集,对比CIDNet与CoLIE、GLARE、RetinexFormer等方法的性能优势,突出其在去噪、亮度校正、色彩保真等方面的优势。- 关键结论:CIDNet在极暗场景(如Sony-Total-Dark)中细节恢复能力显著,且无伪影与色偏(图28)。
消融实验与误差分析
量化结果与指标对比
消融实验与空间分析
- Figure 19. 低光值图(V)替换实验的误差映射
仅使用极化(w/P)或Ck函数(w/Ck)时,HVI空间的误差分布验证联合设计的必要性。
- Figure 20-22. LOL系列数据集的增强对比
CIDNet在真实与合成低光图像中均优于RetinexNet、RUAS等方法,尤其在真实噪声抑制与色彩一致性上表现突出 -
低光增强与跨任务评估
-
Table 5. 稳健性测试实验
所有方法在LOLv1数据集上训练,并在LOLv2-Syn数据集上测试,最佳结果标红- 验证模型在不同数据集间的泛化能力,反映跨域适应性的关键指标。
-
Table 6. HVI色彩空间类型消融研究
基于LOLv1训练,LOLv2-Syn测试,对比不同HVI空间配置对性能的影响- 探讨极化映射(Polarization)与Ck函数的组合对噪声抑制与细节保留的贡献。
-
Table 7. LCA模块子组件消融实验
测试交叉注意力块(CAB)、强度增强层(IEL)与色彩去噪层(CDL)的独立作用- CAB移除导致PSNR下降0.51 dB,IEL/CDL缺失引发亮度不均与噪声残留。
-
Table 8. 多任务数据集概览
涵盖低光增强、联合去模糊增强及单图去噪任务的数据集统计- 包括LOL系列(配对)、DICM/MEF(非配对)、SIDD(去噪)等。
-
Table 9. LOL数据集PSNR/SSIM↑与LPIPS↓量化结果
因LOLv1测试集样本少,采用GT均值对齐法减少亮度波动误差- CIDNet在LOLv2-Real上PSNR达25.69 dB,LPIPS优于ZeroDCE但略逊于GLARE。
-
Table 10. LOL-Blur数据集量化评估
PSNR/SSIM↑越高越好,LPIPS/FLOPs↓越低越好,符号†‡表示训练集差异- CIDNet以29.33 dB PSNR超越LEDNet 5.15%,计算量仅7.57GFLOPs。
-
Table 11. SIDD去噪任务量化结果
*CIDNet以39.88 dB PSNR超越MIRNet(39.76 dB),细节保留更优。
-
Table 12. 增强网络输入类型的消融研究
对比不同输入映射(I-Feature与HV-Feature)对特征提取的影响- Half-HVIT(默认)以PSNR 25.69 dB最优,Full-HVIT因噪声干扰下降至24.01 dB。
-
Table 13. 不同色彩空间的校正图像平均PSNR↑
*HVI空间在LOLv1/v2上PSNR达27.115 dB,较HSV提升2.68 dB。 -
-
Table 14. 随机伽马曲线增强泛化性的NIQE↓指标
*应用γ∈[0.6,1.2]随机调整后,NIQE降低0.389,验证数据增强有效性。 -