RadStudio News — 医学影像AI前沿资讯

arXiv cs.CV论文2026/5/25
中文面向视觉-语言数据集蒸馏的多模态分布匹配
ENMultimodal Distribution Matching for Vision-Language Dataset Distillation
提出多模态分布匹配（MDM）框架，通过几何感知高效压缩视觉-语言训练集，在有限计算和内存下保持表示质量与跨模态对齐，解决了现有方法计算量大且忽视模态相关性的问题。
详情
arXiv cs.CV论文2026/5/25
中文MDS-DETR：带掩码重复抑制器的DETR
ENMDS-DETR: DETR with Masked Duplicate Suppressor
MDS-DETR提出联合使用一对一和一对多匹配监督，解决DETR收敛慢、召回率低的问题。传统方法虽增加一对多辅助目标但训练成本高且推理时丢弃辅助解码器。本方法在训练中保留所有解码器，有效提升性能且不增加推理开销，实现更高效的目标检测。
arXiv cs.CV论文2026/5/25
中文PixIE：基于提示的像素空间低光照图像增强
ENPixIE: Prompted Pixel-Space Low-Light Image Enhancement
我们提出PixIE，一种前馈像素空间低光增强框架，利用视觉基础模型DINO进行语义引导。方法先跨尺度去噪保结构，再通过DINO提示像素块注入中间特征精细恢复细节，实现联合去噪与细节增强，显著提升低光图像质量。
arXiv cs.CV论文2026/5/25
中文农业环境下在线LiDAR-相机校准的校准信息区域选择
ENCalibration-Informative Region Selection for Online LiDAR--Camera Calibration in Agricultural Environments
该论文提出一种基于支持图的多模态校准新方法，将校准过程解耦为初始校准、跨模态残差提取、支持图估计和支持感知精化四个模块。实例化用于在线激光雷达-相机校准（MDPCalib），无需目标，基于运动和深度点。该方法能有效识别约束观测与噪声，提升校准可靠性与精度，对自动驾驶等实际应用具有重要意义。
arXiv cs.CV论文2026/5/25
中文GlowGS：面向夜间发光场景下3D高斯溅射的生成式语义特征学习
ENGlowGS: Generative Semantic Feature Learning for 3D Gaussian Splatting in Nighttime Glow Scenes
现有3DGS方法在夜间场景（尤其发光区域）因缺乏纹理边缘等结构特征而渲染困难。本文提出利用扩散模型和视觉基础模型（VFM）补充结构线索，核心创新包括语义特征生成和新视图语义学习。该方法显著提升了夜间场景的新视图渲染质量，具有实际应用价值。
arXiv cs.CV论文2026/5/25
中文EM-Vid：无需训练的实体中心记忆，用于高效一致的多镜头视频生成
ENEM-Vid: Training-Free Entity-Centric Memory for Efficient and Consistent Multi-Shot Video Generation
多镜头视频生成需保持实体外观一致，但全帧存储会混杂持久实体信息与瞬态场景，导致信息泄漏与高计算成本。本文提出实体中心记忆——以实体索引的潜在补丁库，并引入稀疏令牌条件化，有效分离信息、降低开销。该方法提升了多镜头视频生成的实体一致性，实用性强。
arXiv cs.CV论文2026/5/25
中文DualMem: 绕过目标性瓶颈实现开放世界目标检测中的校准未知流过滤
ENDualMem: Bypassing the Objectness Bottleneck for Calibrated Unknown-Stream Filtering in Open-World Object Detection
研究揭示开放世界目标检测中未知预测流被背景误报严重污染（占46-71%），真正未知目标不足10%。该问题源于目标性头的信息瓶颈，而非信息缺失。需改进对象性头设计以提升未知检测能力。
arXiv cs.CV论文2026/5/25
中文CRONOS：视频模型中反事实物理一致性的基准测试
ENCRONOS: Benchmarking Counterfactual Physical Consistency in Video Models
视频预测被视作通向通用世界模型的路径，但模型是否真正学习因果结构尚存疑。作者提出CRONOS基于干预的基准，通过改变场景上下文、视角、物体外观和类别等视觉输入，评估模型预测是否具有反事实物理一致性。该方法旨在区分模型是理解物理规律还是仅利用表面视觉相关性，对推动可泛化世界模型的发展具有重要意义。
arXiv cs.CV论文2026/5/25
中文用于视觉Transformer的魏尔斯特拉斯位置编码
ENWeierstrass Positional Encoding for Vision Transformers
视觉Transformer（ViT）因使用一维可学习位置编码破坏了图像二维空间结构，缺乏几何约束且无法保持欧氏距离与索引距离的单调性。本文提出基于周期性的Weierstrass位置编码，强制保留空间邻近先验，增强模型对图像局部结构的建模能力，有助于提升医学影像等依赖空间信息的任务性能。
arXiv cs.CV论文2026/5/25
中文重振密集材料分割：稳定视觉变换器与泛化悖论
ENRevitalizing Dense Material Segmentation: Stabilized Vision Transformers and the Generalization Paradox
本文复兴了Apple Dense Material Segmentation（DMS）基准，建立了基于Vision Transformer（ViT）的现代基线。通过详尽实验，克服了先前因几何偏置基础模型导致的基准停滞问题，提升了材料分割的像素级物理属性分类精度。该方法强化了对手感、材质等物理化学特征的理解，区别于传统对象解析，具有推动机器人操作、智能材料识别等实际应用的潜力。
arXiv cs.CV论文2026/5/25
中文去偏负样本挖掘提升基于预训练视觉语言模型的分布外检测
ENDebiased Negative Mining Improves Out-of-distribution Detection with Pre-trained Vision-Language Models
本文聚焦基于预训练视觉语言模型的后验分布外（OOD）检测，通过分析输入与ID标签及负标签（语义不同）的亲密度来识别未知类输入。核心挑战在于目标OOD标签不可用，现有方法多依赖特定策略。研究旨在提升模型可靠性，有重要实用价值。
arXiv cs.CV论文2026/5/25
中文UniEmo：利用可学习的专家查询统一情感理解与生成
ENUniEmo: Unifying Emotional Understanding and Generation with Learnable Expert Queries
本文提出UniEmo统一框架，将情感理解与生成两大互补任务无缝整合。关键挑战在于情感的抽象性，需提取对两任务均有益的视觉表示。方法亮点：采用分层情感理解链（hierarchical emotional understanding chain）及可学习专家查询（learnable expert queries），逐步提取多尺度情感特征。实际意义：该框架可有效促进情感AI系统理解与生成能力的协同提升，为情感计算应用提供统一解决方案。
arXiv cs.CV论文2026/5/25
中文基于无人机的弱监督分割珊瑚栖息地测绘框架
ENA drone-based framework for coral habitat mapping via weakly supervised segmentation
该研究提出多尺度弱监督语义分割框架，将水下图像的点级分类与航空数据结合，生成粗糙监督掩膜以训练高分辨率分割模型，有效降低生态标注成本，提升大范围影像分析效率。
arXiv cs.CV论文2026/5/25
中文基于动态权重的时域聚合：极端噪声下的低光视频增强
ENDynamic Weight-based Temporal Aggregation for Low-light Video Enhancement Under Extreme Noise
DWTA-Net是一种新型递归深度学习框架，用于低光视频增强。其两阶段架构：第一阶段通过多帧对齐与时间一致性Mamba增强恢复局部结构和色彩；第二阶段（未详述）进一步处理。该方法利用长期时间线索，有效应对真实强噪声，提升增强质量。
arXiv cs.CV论文2026/5/25
中文面向实时与可扩展部署的边缘辅助多摄像头车辆追踪框架
ENEdge Assisted Multi-Camera Vehicle Tracking Framework for Real-Time and Scalable Deployment
现有MCVT研究注重跟踪精度，忽略实时性与可扩展性，难以满足城市级部署。本文针对此问题提出新方法，旨在平衡精度与效率，支持交通流预测等实际应用。
arXiv cs.CV论文2026/5/25
中文NeuralBoneReg：基于点云的实例特定无标签多模态骨表面配准方法
ENNeuralBoneReg: An Instance-Specific Label-Free Point Cloud-Based Method for Multi-Modal Bone Surface Registration
在计算机辅助骨科手术中，术前影像制定的个性化计划需精准配准到术中数据。针对不同模态间骨表面配准困难的问题，本文提出一种鲁棒、自动、与模态无关的配准方法，无需手动干预，可提升手术精度与安全性。
arXiv cs.CV论文2026/5/25
中文DocVAL：验证的思维链蒸馏用于有依据的文档视觉问答
ENDocVAL: Validated Chain-of-Thought Distillation for Grounded Document VQA
大型视觉语言模型（VLM）空间定位强但成本高，紧凑VLM效率高但定位退化。为此提出DocVAL框架，采用验证的链式思维蒸馏，将大型模型的空间定位能力迁移至紧凑模型，在不增加推理开销的同时显著提升文档VQA的定位精度。
arXiv cs.CV论文2026/5/25
中文利用细化模块提升3D语义场景补全
ENEnhancing 3D Semantic Scene Completion with a Refinement Module
ESSC-RM提出即插即用的语义场景补全增强框架，包含两阶段：基线网络生成粗略体素预测，再由3D U-Net的预测噪声感知模块（PNAM）和体素局部几何模块（VLGM）多尺度细化。在SemanticKITTI上持续提升语义预测性能，方法通用，可无缝集成现有模型。
arXiv cs.CV论文2026/5/25
中文OpenGaFF：具有码本注意力的开放词汇高斯特征场
ENOpenGaFF: Open-Vocabulary Gaussian Feature Field with Codebook Attention
OpenGaFF提出基于3D高斯泼溅的高斯特征场，将语义建模为几何和外貌的连续函数，从而解决了多视角语义预测碎片化及空间不一致问题，实现了更准确的开放词汇3D场景理解。
arXiv cs.CV论文2026/5/25
中文VISD：通过结构化自蒸馏增强视频推理
ENVISD: Enhancing Video Reasoning via Structured Self-Distillation
arXiv论文提出PRO奖赏结构化推理路径的调试蒸馏方法，解决视频大语言模型训练中序列奖励稀疏与细粒度信用分配难题。该方法结合结构化诊断反馈与强化学习，提升复杂时空推理效率。实践意义：改善模型长时序推理性能。

5 / 10

今日资讯