不用真缺陷图也能训练:MIRAGE用VLM全自动生成工业异常样本,13000+图像对开源

张开发
2026/4/10 23:39:21 15 分钟阅读

分享文章

不用真缺陷图也能训练:MIRAGE用VLM全自动生成工业异常样本,13000+图像对开源
导读工业异常检测面临一个根本矛盾模型性能依赖异常样本但真实缺陷图像极其稀缺。现有的合成方法要么需要真实异常作参考要么需要30GB以上显存的GPU要么生成的缺陷一眼就能看出是假的。帕多瓦大学提出MIRAGE用一条四阶段全自动pipeline解决这个问题——ChatGPT 5根据正常图像列出可能的缺陷类型Gemini 2.5 Flash据此生成异常图像CLIP过滤器自动剔除低质量结果最后Grounding DINO与YOLOv26-L-Seg双分支融合生成像素级mask。整个流程不需要任何真实异常样本不需要训练mask生成仅需约3GB VRAM。在31人参与的人类感知实验中MIRAGE的TrueSkill评分达到28.33与真实缺陷图像的28.61仅差0.28分。用这些合成数据训练U-Net在MVTec AD上取得I-AUROC 0.81、P-AUROC 0.92在VisA上取得I-AUROC 0.74、P-AUROC 0.92。团队同步开源了覆盖27个工业类别的13000组image-mask数据及全部pipeline代码。论文信息标题: MIRAGE: Model-agnostic Industrial Realistic Anomaly Generation and Evaluation for Visual Anomaly Detection作者: Jinwei Hu, Francesco Borsatti, Arianna Stropeni, Davide Dalle Pezze, Manuel Barusco, Gian Antonio Susto机构: University of Padova帕多瓦大学意大利代码: https://github.com/vadnomalous/mirage数据集: https://huggingface.co/datasets/visualanom/mirage_mvtec_visa一、工业异常检测的数据困境工业视觉异常检测Visual Anomaly Detection, VAD的主流方法通常只在正常样本上训练但研究已反复证明即使引入少量异常数据也能带来显著的性能提升。问题在于真实缺陷图像在工业场景中极其稀缺收集和标注的成本高昂。为了绕过数据瓶颈学界提出了多种合成异常的方案但各有局限DRAEM采用copy-paste加Perlin噪声纹理混合生成的缺陷视觉上缺乏真实感GLASS在Perlin噪声基础上引入梯度引导对弱缺陷有一定效果但生成结果与真实缺陷的外观差异仍然明显RealNetSDAS为每个类别训练一个DDPM去噪扩散概率模型计算开销大扩展到新类别的成本高AnomalyAny目前的zero-shot生成方法中表现最好使用冻结的Stable Diffusion加注意力引导优化但需要至少30GB VRAM的GPU生成速度慢且与特定的Diffusion pipeline紧密耦合难以随模型迭代升级这些方法在需要真实异常需要昂贵硬件生成质量不够难以升级四个维度上各有短板始终没有一个方案能同时解决所有问题。MIRAGE的设计目标正是填补这一空白不需要任何真实异常样本不需要训练不需要本地GPU生成阶段仅用API调用并且生成模型可以随时替换升级。二、四阶段全自动生成pipeline从正常图像到带mask的异常样本MIRAGE的核心设计原则是模型无关性model agnosticism——所有生成模型和VLM视觉语言模型都通过API黑盒调用升级时只需更换API端点。整个pipeline分为四个阶段图片来源于原论文阶段一VLM生成缺陷描述输入5张正常参考图像给ChatGPT 5通过结构化prompt要求其列出10种可能的制造缺陷类型。每种缺陷包含一个短名称和一段描述性句子例如surface scratch: a thin, shallow linear mark across the surface, exposing a slightly lighter layer underneath。VLM仅基于正常图像工作完全不接触任何异常域信息实现了真正的零样本zero-shot缺陷定义。阶段二条件图像生成将正常图像和缺陷描述一起输入Gemini 2.5 Flash Image模型以原始正常图像为条件保持场景布局、光照和纹理不变的同时引入指定缺陷。每个类别生成10种缺陷类型各50张共计500张异常图像。这一步仅需API调用不需要本地GPU也不需要下载任何模型权重。阶段三CLIP三条件质量过滤生成模型偶尔会出现未能引入目标异常或产生不相关伪影的情况。MIRAGE使用CLIP计算四组image-text相似度设置三个过滤条件C1异常图像与异常prompt的对齐度 正常图像与正常prompt的对齐度确保语义连贯C2异常图像与异常prompt的对齐度 异常图像与正常prompt的对齐度确认缺陷确实存在C3异常图像与异常prompt的对齐度 正常图像与异常prompt的对齐度验证缺陷出现在生成图像中而非原图中三个条件全部满足才保留图像。计算开销很小每张图像仅需一次CLIP前向传播。阶段四双分支语义变化检测生成mask这是pipeline中技术密度最高的部分。朴素的像素差分会因生成模型引入的微妙全局变化颜色偏移、纹理重渲染而产生大量假阳性因此MIRAGE设计了双分支融合方案语义分支使用Grounding DINO Tiny一种开放集目标检测器。从缺陷描述中提取关键词作为文本条件对正常图像和异常图像分别提取特征图计算L2范数差分得到语义异常分数图。这一分支对描述的缺陷类型高度响应但空间精度有限只能做粗定位。结构分支使用YOLOv26-L-Seg的分割变体不使用文本条件直接比较正常和异常图像在多个尺度上的视觉特征差异。浅层特征捕获精细的局部变化深层特征反映更广泛的结构变形。这一分支提供高空间精度但不具备语义选择能力。两个分支的输出通过Hadamard积逐元素乘积融合——最终mask必须同时满足语义相关与描述的缺陷类型一致和结构变化实际存在像素级修改从而有效抑制任一分支单独产生的假阳性。二值化阈值通过少量参考mask每个缺陷类别5-8张由Gemini 2.5 Flash Image V3生成校准确定。整个mask生成pipeline在单张GPU上处理一张图约1秒仅占用约3GB VRAM。图片来源于原论文三、生成质量与下游效果接近真实缺陷的视觉真实感人类感知评估论文组织了一项严格的人类感知研究31名参与者进行1,550次配对投票采用TrueSkill评分系统进行盲化随机评估。方法TrueSkill (μ ± σ)胜率 (%)Real images真实图像28.61 ± 0.8073.8MIRAGE28.33 ± 0.8067.2AnomalyAny27.16 ± 0.7959.2RealNet23.54 ± 0.7933.7GLASS20.26 ± 0.8414.4MIRAGE的TrueSkill得分28.33与真实图像的28.61仅差0.28分在所有生成方法中最接近真实图像。胜率67.2%明显高于AnomalyAny的59.2%而RealNet和GLASS则分别只有33.7%和14.4%。图片来源于原论文自动视觉质量指标在MVTec AD的15个类别上MIRAGE的平均Inception ScoreIS为2.68平均Intra-Cluster LPIPSIC-LPIPS为0.38两项指标均为所有方法中最高表明生成图像质量最好且与真实缺陷的感知对齐度最高。下游异常分割用各方法生成的合成数据每个类别100对image-mask训练U-Net在真实测试集上的分割结果MVTec AD15个类别均值方法I-AUROCP-AUROCAnomalyAny0.650.85RealNet0.780.84GLASS0.760.89MIRAGE0.810.92VisA12个类别均值方法I-AUROCP-AUROCAnomalyAny0.590.86RealNet0.680.84GLASS0.670.91MIRAGE0.740.92在MVTec AD上MIRAGE的P-AUROC 0.92为所有方法最高I-AUROC 0.81也排在首位。在VisA上MIRAGE的I-AUROC 0.74和P-AUROC 0.92均为最高。综合两个数据集MIRAGE在像素级异常分割上全面领先。Mask质量MIRAGE的双分支pipeline在MVTec AD上的像素级AUROC为0.9292在VisA上为0.9265大幅超过对比方法View-Delta的0.73。四、消融实验CLIP过滤和双分支融合各贡献了什么CLIP过滤的效果配置MVTec AD I-AUROCMVTec AD P-AUROCVisA I-AUROCVisA P-AUROC无CLIP过滤0.700.920.710.91有CLIP过滤0.800.920.740.92CLIP过滤在MVTec AD上将I-AUROC从0.70提升到0.800.10在VisA上从0.71提升到0.740.03。P-AUROC保持不变或微升。这说明CLIP过滤的主要作用是移除语义错位或生成失败的样本为下游分割模型提供更干净的训练集对图像级判断的提升尤为明显。双分支融合的设计逻辑语义分支Grounding DINO负责粗定位——对描述的缺陷类型高度响应但空间精度有限。结构分支YOLOv26-L-Seg负责细分割——捕获精细的像素级变化但不具备语义选择能力。两者通过Hadamard积融合要求某个像素同时被两个分支标记为异常才被保留有效抑制了单分支的假阳性。mask质量的数据也印证了这一设计MVTec AD整体像素级AUROC 0.9292VisA整体0.9265在无需任何训练的条件下达到了相当高的精度。五、总结与思考MIRAGE用VLM生成模型APICLIP过滤双分支mask检测实现了全自动、无需真实异常样本、无需本地GPU训练的工业缺陷数据生成。人类感知评估与真实图像仅差0.28分下游分割在MVTec AD和VisA上P-AUROC均达0.92。27个类别13000组image-mask数据已开源。设计上最值得注意的是模型无关性——所有生成模型和VLM通过API黑盒调用模型升级只需换端点不需要重新设计pipeline。CLIP过滤带来的I-AUROC 0.100.70→0.80也说明大规模合成数据中自动质量控制不可或缺。局限性在于pipeline依赖API的质量和可用性且当生成模型对图像整体外观改动过大时mask质量会下降。

更多文章