RadStudio News — 医学影像AI前沿资讯

arXiv cs.CV论文2026/5/25
中文HorizonDrive：面向长时域驾驶仿真的自校正自回归世界模型
ENHorizonDrive: Self-Corrective Autoregressive World Model for Long-horizon Driving Simulation
闭环驾驶模拟需要自回归（AR）滚动以实现实时交互。现有AR蒸馏方法存在缺陷：帧下沉方式因自车快速运动和场景快速变化而迁移效果差；学生端退化训练受限于教师的单次输出长度，监督视野有限。关键问题在于：能否通过AR扩展教师模型本身？这提示了现有方法在长时程动态场景下的局限性，亟需更有效的AR扩展策略来提升闭环仿真性能。
详情
arXiv cs.CV论文2026/5/25
中文RT-NeRV：通过残差标记化重新思考视频的混合神经表示
ENRT-NeRV: Rethinking Hybrid Neural Representations for Video via Residual Tokenization
NeRV将视频表示为紧凑神经网络，实现高效压缩。混合方法通过内容自适应嵌入提升重建质量，但低比特率下细节保留不足，因浅层残差信息连续传输成本高。本文重新思考混合设计，优化残差利用。
arXiv cs.CV论文2026/5/25
中文通过句子级早期干预缓解物体幻觉
ENMitigating Object Hallucinations via Sentence-Level Early Intervention
多模态大语言模型（MLLM）常产生与视觉输入矛盾的幻觉。研究发现幻觉主要出现在文本生成的早期阶段并传播。为此提出SENTINEL（句子级干预），在早期阶段抑制幻觉，避免高昂计算成本与数据分布不匹配问题，有效提升模型可靠性。
arXiv cs.CV论文2026/5/25
中文GT-SVJ：基于生成式Transformer的自监督视频评判器，用于高效视频奖励建模
ENGT-SVJ: Generative-Transformer-Based Self-Supervised Video Judge For Efficient Video Reward Modeling
提出基于生成式Transformer的自监督视频评判器（\modelname），将视频生成模型重新用作奖励模型，以替代难以捕捉时间动态的视觉语言模型，实现更优的人类偏好对齐，提升视频生成质量。
arXiv cs.CV论文2026/5/25
中文PipeMFL-240K：面向管道漏磁成像目标检测的大规模数据集与基准
ENPipeMFL-240K: A Large-scale Dataset and Benchmark for Object Detection in Pipeline Magnetic Flux Leakage Imaging
PipeMFL-240K数据集发布，用于磁通量泄漏（MFL）管道检测。该数据集含24万张精细标注图像，填补了大规模公开基准的空白，可公平比较和复现深度学习模型，推动管道缺陷自动检测的可靠性与工业化应用。
arXiv cs.CV论文2026/5/25
中文VideoTemp-o3: 协调智能体视频思考中的时间定位与视频理解
ENVideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
arXiv:2602.07801v4 提出新方法改进长视频理解：传统均匀帧采样效率低、易幻觉，现有“定位-剪辑-回答”流程虽好但定位弱、工作流僵化。该研究旨在解决上述问题，提升关键证据捕捉与推理效率。
arXiv cs.CV论文2026/5/25
中文ProGIC: 基于残差向量量化的渐进式轻量生成图像压缩
ENProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization
近年来生成式图像压缩（GIC）在感知质量上取得显著进步，但大型刚性模型限制了其在低比特率场景的灵活部署。为此，本文提出渐进式生成图像压缩（ProGIC），基于残差向量量化（RVQ）构建紧凑编解码器。RVQ通过多级向量量化器逐阶段编码残差，每级拥有独立码本，从而在低码率下实现高效灵活传输，兼顾实用性与压缩性能。
arXiv cs.CV论文2026/5/25
中文基于元学习的少样本三维LGE MRI左心房壁分割
ENFew-Shot Left Atrial Wall Segmentation in 3D LGE MRI via Meta-Learning
本研究提出一种基于MAML的3D残差U-Net框架，用于LGE-MRI左心房壁小样本分割（K=5/10/20）。通过联合训练心房壁与心腔辅助任务，并引入边界感知损失，显著提升了薄壁结构的分割精度，减少了对专家标注的依赖。
arXiv cs.CV论文2026/5/25
中文VFM$^{4}$SDG：揭示VFM在单域泛化目标检测中的威力
ENVFM$^{4}$SDG: Unveiling the Power of VFMs for Single-Domain Generalized Object Detection
真实世界天气、光照等变化引发域偏移，导致单源目标检测器漏检大幅增加，性能下降。现有方法依赖数据增强或域不变学习，但忽略了域偏移破坏预测稳定性。本文通过分析实验揭示了这一现象，为设计更鲁棒的泛化检测器提供了新视角。
arXiv cs.CV论文2026/5/25
中文迈向基于地球观测数据的树篱与线性木本特征的可泛化制图：德国国家产品
ENTowards Generalizable Mapping of Hedges and Linear Woody Features from Earth Observation Data: a national Product for Germany
树篱等线性木本特征在集约农业景观中提供关键生态系统服务，支持气候适应与生物多样性，是动植物的栖息地。利用地球观测数据进行系统化、大规模制图对管理保护至关重要。
arXiv cs.CV论文2026/5/25
中文迷失在折叠中：交叉验证并非深度集成用于不确定性估计
ENLost in the Folds: When Cross-Validation Is Not a Deep Ensemble for Uncertainty Estimation
该研究指出，医学图像分割中常用K折交叉验证（CV）形成集成并误称为“深度集成”，其分歧混合了种子随机性与数据暴露效应，改变了不确定性解释方式。审计发现术语与实现普遍不匹配。实际意义：需区分集成类型以正确解读不确定性。
arXiv cs.CV论文2026/5/25
中文蒸馏思考，预见行动：用于自动驾驶的认知-物理强化学习
ENDistill to Think, Foresee to Act: Cognitive-Physical Reinforcement Learning for Autonomous Driving
arXiv:2605.21139v2提出CoPhy框架，通过融合认知（理解交通语义与驾驶意图）和物理（预见动作后果）两个基础，突破端到端自动驾驶中模仿学习的行为克隆天花板，为强化学习提供了实用化路径。
arXiv cs.CV论文2026/5/25
中文Uni-Edit：智能编辑是统一模型调优的通用任务
ENUni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning
现有统一多模态模型（UMM）通常采用混合多任务训练，导致任务冲突与性能折衷。本文提出Uni-Edit，将智能图像编辑作为首个通用调谐任务，取代复杂混合流程，从根源避免冲突，实现真正相互增强，简化训练并提升效果。
arXiv cs.CV论文2026/5/25
中文ForeSplat: 面向前馈3D高斯溅射的优化感知前瞻
ENForeSplat: Optimization-Aware Foresight for Feed-Forward 3D Gaussian Splatting
本文提出ForeS方法，针对前馈3D高斯溅射模型因缺乏3D标注而难以达到逐场景优化质量的问题，改进训练策略，使预测输出更好初始化下游优化器，从而提升重建性能。
arXiv cs.CV论文2026/5/25
中文瞬间再现：基于交叉快门引导的逆运动退化
ENMoment-Reenacting: Inverse Motion Degradation with Cross-shutter Guidance
本文提出统一框架，联合利用全局快门模糊与滚动快门畸变的互补性，实现运动退化逆过程与成像时刻再现。方法亮点在于将模糊分解与滚动快门时间超分辨率任务统一处理，突破传统分离局限。实际意义在于提升快速运动或弱光条件下的成像质量。
arXiv cs.CV论文2026/5/25
中文利用集成扩散估计端到端自动驾驶的不确定性
ENUsing Ensemble Diffusion to Estimate Uncertainty for End-to-End Autonomous Driving
EnDfuser提出一种基于扩散模型的端到端驾驶规划系统，有效融合相机与LiDAR感知信息，通过注意力机制处理不确定性。相比不考虑或依赖专用表示的方法，该方法在CARLA仿真中表现更优，具有更好的通用性和实际部署潜力。
arXiv cs.CV论文2026/5/25
中文GAF：高斯动作场作为机器人操作中动态世界建模的4D表示
ENGAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation
提出V-4D-A框架，通过运动感知的4D表示直接推理动作，克服传统方法在复杂动态操作场景中的不准确性。亮点在于利用时域信息增强场景理解，提升机器人抓取与操控精度。
arXiv cs.CV论文2026/5/25
中文VGAS：面向少样本视觉-语言-动作自适应的价值引导动作块选择
ENVGAS: Value-Guided Action-Chunk Selection for Few-Shot Vision-Language-Action Adaptation
提出VGAS框架，应对VLA模型在少样本适应中因几何歧义导致的执行失败。通过“生成-选择”视角，先由VLA策略生成多个动作候选，再训练价值模型评估并选择最优动作，显著提升新任务适应可靠性。方法轻量，实用性强。
arXiv cs.CV论文2026/5/25
中文量子启发的鲁棒可扩展SAR目标分类
ENQuantum-Inspired Robust and Scalable SAR Object Classification
本研究探索张量网络在SAR图像分类中的应用，其天然抗噪声、高动态范围，且能平衡模型大小与精度，对数据投毒具有韧性，适合部署在无人机等边缘设备上。
arXiv cs.CV论文2026/5/25
中文Imagine2Real: 基于视频生成先验的零样本人形物体交互
ENImagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors
本研究提出Imagine2Real，零样本人形机器人-物体交互框架，解决3D数据稀缺导致的表示不对齐和重定向复杂问题。关键发现：无需几何先验（如CAD模型）和密集形态变形，实现灵活无几何交互。方法核心：基于视频生成先验，绕过显式3D模型。实际意义：降低对高保真数据的依赖，提升机器人交互的适应性与效率。

6 / 10

今日资讯