中文面向视觉-语言数据集蒸馏的多模态分布匹配
ENMultimodal Distribution Matching for Vision-Language Dataset Distillation
提出多模态分布匹配(MDM)框架,通过几何感知高效压缩视觉-语言训练集,在有限计算和内存下保持表示质量与跨模态对齐,解决了现有方法计算量大且忽视模态相关性的问题。
2026年5月25日星期一 · AI × 医学影像 领域前沿动态聚合(182 篇)
ENMultimodal Distribution Matching for Vision-Language Dataset Distillation
提出多模态分布匹配(MDM)框架,通过几何感知高效压缩视觉-语言训练集,在有限计算和内存下保持表示质量与跨模态对齐,解决了现有方法计算量大且忽视模态相关性的问题。
ENMDS-DETR: DETR with Masked Duplicate Suppressor
MDS-DETR提出联合使用一对一和一对多匹配监督,解决DETR收敛慢、召回率低的问题。传统方法虽增加一对多辅助目标但训练成本高且推理时丢弃辅助解码器。本方法在训练中保留所有解码器,有效提升性能且不增加推理开销,实现更高效的目标检测。
ENPixIE: Prompted Pixel-Space Low-Light Image Enhancement
我们提出PixIE,一种前馈像素空间低光增强框架,利用视觉基础模型DINO进行语义引导。方法先跨尺度去噪保结构,再通过DINO提示像素块注入中间特征精细恢复细节,实现联合去噪与细节增强,显著提升低光图像质量。
ENCalibration-Informative Region Selection for Online LiDAR--Camera Calibration in Agricultural Environments
该论文提出一种基于支持图的多模态校准新方法,将校准过程解耦为初始校准、跨模态残差提取、支持图估计和支持感知精化四个模块。实例化用于在线激光雷达-相机校准(MDPCalib),无需目标,基于运动和深度点。该方法能有效识别约束观测与噪声,提升校准可靠性与精度,对自动驾驶等实际应用具有重要意义。
ENGlowGS: Generative Semantic Feature Learning for 3D Gaussian Splatting in Nighttime Glow Scenes
现有3DGS方法在夜间场景(尤其发光区域)因缺乏纹理边缘等结构特征而渲染困难。本文提出利用扩散模型和视觉基础模型(VFM)补充结构线索,核心创新包括语义特征生成和新视图语义学习。该方法显著提升了夜间场景的新视图渲染质量,具有实际应用价值。
ENEM-Vid: Training-Free Entity-Centric Memory for Efficient and Consistent Multi-Shot Video Generation
多镜头视频生成需保持实体外观一致,但全帧存储会混杂持久实体信息与瞬态场景,导致信息泄漏与高计算成本。本文提出实体中心记忆——以实体索引的潜在补丁库,并引入稀疏令牌条件化,有效分离信息、降低开销。该方法提升了多镜头视频生成的实体一致性,实用性强。
ENDualMem: Bypassing the Objectness Bottleneck for Calibrated Unknown-Stream Filtering in Open-World Object Detection
研究揭示开放世界目标检测中未知预测流被背景误报严重污染(占46-71%),真正未知目标不足10%。该问题源于目标性头的信息瓶颈,而非信息缺失。需改进对象性头设计以提升未知检测能力。
ENCRONOS: Benchmarking Counterfactual Physical Consistency in Video Models
视频预测被视作通向通用世界模型的路径,但模型是否真正学习因果结构尚存疑。作者提出CRONOS基于干预的基准,通过改变场景上下文、视角、物体外观和类别等视觉输入,评估模型预测是否具有反事实物理一致性。该方法旨在区分模型是理解物理规律还是仅利用表面视觉相关性,对推动可泛化世界模型的发展具有重要意义。
ENWeierstrass Positional Encoding for Vision Transformers
视觉Transformer(ViT)因使用一维可学习位置编码破坏了图像二维空间结构,缺乏几何约束且无法保持欧氏距离与索引距离的单调性。本文提出基于周期性的Weierstrass位置编码,强制保留空间邻近先验,增强模型对图像局部结构的建模能力,有助于提升医学影像等依赖空间信息的任务性能。
ENRevitalizing Dense Material Segmentation: Stabilized Vision Transformers and the Generalization Paradox
本文复兴了Apple Dense Material Segmentation(DMS)基准,建立了基于Vision Transformer(ViT)的现代基线。通过详尽实验,克服了先前因几何偏置基础模型导致的基准停滞问题,提升了材料分割的像素级物理属性分类精度。该方法强化了对手感、材质等物理化学特征的理解,区别于传统对象解析,具有推动机器人操作、智能材料识别等实际应用的潜力。
ENDebiased Negative Mining Improves Out-of-distribution Detection with Pre-trained Vision-Language Models
本文聚焦基于预训练视觉语言模型的后验分布外(OOD)检测,通过分析输入与ID标签及负标签(语义不同)的亲密度来识别未知类输入。核心挑战在于目标OOD标签不可用,现有方法多依赖特定策略。研究旨在提升模型可靠性,有重要实用价值。
ENUniEmo: Unifying Emotional Understanding and Generation with Learnable Expert Queries
本文提出UniEmo统一框架,将情感理解与生成两大互补任务无缝整合。关键挑战在于情感的抽象性,需提取对两任务均有益的视觉表示。方法亮点:采用分层情感理解链(hierarchical emotional understanding chain)及可学习专家查询(learnable expert queries),逐步提取多尺度情感特征。实际意义:该框架可有效促进情感AI系统理解与生成能力的协同提升,为情感计算应用提供统一解决方案。
ENA drone-based framework for coral habitat mapping via weakly supervised segmentation
该研究提出多尺度弱监督语义分割框架,将水下图像的点级分类与航空数据结合,生成粗糙监督掩膜以训练高分辨率分割模型,有效降低生态标注成本,提升大范围影像分析效率。
ENDynamic Weight-based Temporal Aggregation for Low-light Video Enhancement Under Extreme Noise
DWTA-Net是一种新型递归深度学习框架,用于低光视频增强。其两阶段架构:第一阶段通过多帧对齐与时间一致性Mamba增强恢复局部结构和色彩;第二阶段(未详述)进一步处理。该方法利用长期时间线索,有效应对真实强噪声,提升增强质量。
ENEdge Assisted Multi-Camera Vehicle Tracking Framework for Real-Time and Scalable Deployment
现有MCVT研究注重跟踪精度,忽略实时性与可扩展性,难以满足城市级部署。本文针对此问题提出新方法,旨在平衡精度与效率,支持交通流预测等实际应用。
ENNeuralBoneReg: An Instance-Specific Label-Free Point Cloud-Based Method for Multi-Modal Bone Surface Registration
在计算机辅助骨科手术中,术前影像制定的个性化计划需精准配准到术中数据。针对不同模态间骨表面配准困难的问题,本文提出一种鲁棒、自动、与模态无关的配准方法,无需手动干预,可提升手术精度与安全性。
ENDocVAL: Validated Chain-of-Thought Distillation for Grounded Document VQA
大型视觉语言模型(VLM)空间定位强但成本高,紧凑VLM效率高但定位退化。为此提出DocVAL框架,采用验证的链式思维蒸馏,将大型模型的空间定位能力迁移至紧凑模型,在不增加推理开销的同时显著提升文档VQA的定位精度。
ENEnhancing 3D Semantic Scene Completion with a Refinement Module
ESSC-RM提出即插即用的语义场景补全增强框架,包含两阶段:基线网络生成粗略体素预测,再由3D U-Net的预测噪声感知模块(PNAM)和体素局部几何模块(VLGM)多尺度细化。在SemanticKITTI上持续提升语义预测性能,方法通用,可无缝集成现有模型。
ENOpenGaFF: Open-Vocabulary Gaussian Feature Field with Codebook Attention
OpenGaFF提出基于3D高斯泼溅的高斯特征场,将语义建模为几何和外貌的连续函数,从而解决了多视角语义预测碎片化及空间不一致问题,实现了更准确的开放词汇3D场景理解。
ENVISD: Enhancing Video Reasoning via Structured Self-Distillation
arXiv论文提出PRO奖赏结构化推理路径的调试蒸馏方法,解决视频大语言模型训练中序列奖励稀疏与细粒度信用分配难题。该方法结合结构化诊断反馈与强化学习,提升复杂时空推理效率。实践意义:改善模型长时序推理性能。