RadStudio News — 医学影像AI前沿资讯

arXiv cs.CV论文2026/5/25
中文基于元学习的低成本高效模型评估
ENCost-Effective Model Evaluation with Meta-Learning
MetaEvaluator提出一种低成本、模型无关的框架，无需标注即可快速评估未见过的AI模型（跨架构与模态）。它利用元学习避免昂贵标注与反复微调，解决了新模型可靠性验证难题。适用于医学影像等场景下的模型快速筛选与部署前验证。
详情
arXiv cs.CV论文2026/5/25
中文CoMoGen：基于掩码引导的可控运动动力学与交互视频生成
ENCoMoGen: COntrollable MOtion Dynamics and Interactions with Mask-Guided Video GENeration
CoMoGen提出可控视频生成框架，基于输入图像和单条二值掩码序列生成逼真交互动态。其轻量级MaskAdapter将掩码编码为潜在残差信号，通过余弦加权调度注入多模态扩散Transformer（MMDiT），克服了传统UNet分层注入的局限。该方法实现了精准的时序控制，为交互仿真和视频编辑提供新方案。
arXiv cs.CV论文2026/5/25
中文抖动防御：基于多级Floyd-Steinberg抖动的视觉基础模型对抗鲁棒性
ENDithering Defense: Adversarial Robustness of Vision Foundation Models via Multi-Level Floyd-Steinberg Dithering
视觉基础模型作为冻结骨干易受对抗攻击。本研究采用多级Floyd-Steinberg误差扩散抖动，一种轻量、模型无关的输入变换，在保持语义内容的同时破坏对抗扰动。与以往仅限于二值抖动和单小模型不同，我们在分类、分割、深度估计等六个任务上评估，验证了其有效性与通用性，为保护AI模型提供实用防御手段。
arXiv cs.CV论文2026/5/25
中文RoboSurg-VQA：一种面向手术分割感知的多模态视觉问答基准
ENRoboSurg-VQA: A Multimodal Benchmark for Surgical Segmentation-Aware Visual Question Answering
RoboSurg-VQA基准：面向机器人辅助微创手术，整合公开手术分割数据集，构建分割感知的视觉问答任务。旨在解决术中遮挡、烟雾、出血等退化视图下，医生对手术上下文、器械与解剖结构的语言类提问，实现超越精确遮罩的可靠视觉理解。
arXiv cs.CV论文2026/5/25
中文流不匹配：通过流匹配模型中的速度差异实现无监督异常检测
ENFlow Mismatching: Unsupervised Anomaly Detection via Velocity Discrepancies in Flow Matching Models
Flow Mismatching提出无监督异常检测新方法，避免重建范式，利用流匹配几何动力学：比较正常流与通向测试图像的几何路径差异。仅用正常图像训练，沿仿射路径比较模型预测速度与几何速度，差异指示异常，高效检测。
arXiv cs.CV论文2026/5/25
中文利用纵向上下文的临床医生验证交互式病灶追踪
ENExploiting Longitudinal Context in Clinician-Verified Interactive Lesion Tracking
arXiv:2605.23118v1 提出“验证跟踪”范式：临床医生验证配准提示后，模型利用该提示进行肿瘤病变跟踪，兼顾端到端跟踪的高自动化和配准-分割管线的可验证性，解决了自动跟踪失败不可纠正及忽略既往外观的局限，提升模糊病例的跟踪准确性。
arXiv cs.CV论文2026/5/25
中文LQ-rPPG：一种用于远程生理测量的标签量化粗到细学习框架
ENLQ-rPPG: A Label-Quantized Coarse-to-Fine Learning Framework for Remote Physiological Measurement
深度学习方法在远程光电容积描记（rPPG）中取得进展，但现有研究忽视训练标签质量。接触式PPG信号作为标签常因运动伪影存在噪声和变异，导致模型学习偏差。该研究强调标签预处理与质量评估对提升rPPG估计准确性的关键作用，对远程健康监测具有实际指导意义。
arXiv cs.CV论文2026/5/25
中文共同构图：面向多人交互场景的迭代姿态-图像生成
ENComposing People Together: Iterative Pose-Image Generation for Multi-Person Interaction Scenes
本文提出一种双姿态-图像表示，将人物中心结构先验引入预训练扩散变换器，联合预测2D姿态可视化图像和RGB图像，使结构与外观协同进化，解决了多人物交互场景生成中语义多样性不足、布局重复和交互失真的问题。该方法提升了生成图像的构图准确性与交互合理性。
arXiv cs.CV论文2026/5/25
中文IntentionNav: 隐式人类指令下的意图驱动物体导航基准
ENIntentionNav: A Benchmark for Intent-Driven Object Navigation from Implicit Human Instruction
现有物体导航基准要求智能体寻找指定类别（如微波炉），但人类常提间接需求（如“加热食物”）。本文提出IntentionNav，一个用于主动搜索隐含意图驱动物体的诊断基准。智能体需推断满足需求的物体、找到场景中的实例并判断目标达成。该方法强调从隐含指令推理目标，为更自然的人机交互提供评估框架。
arXiv cs.CV论文2026/5/25
中文超越正常参考：判别式少样本异常检测
ENBeyond Normal References: Discriminative Few-Shot Anomaly Detection
本文提出鉴别性少样本异常检测（FSAD）设定，同时利用少量正常和异常样本作为参考。现有方法仅依赖正常参考或直接拟合异常易过拟合。IDEAL框架通过内在偏差学习，有效利用两类参考，避免过拟合，提升了异常检测的泛化能力。实际应用场景包括医学影像等数据稀缺领域。
arXiv cs.CV论文2026/5/25
中文CARE: 类别自适应专家共识用于长尾噪声标签的可靠学习
ENCARE: Class-Adaptive Expert Consensus for Reliable Learning with Long-Tailed Noisy Labels
真实世界数据常面临长尾分布与噪声标注的双重挑战，现有方法忽略噪声对各类别的不均匀影响。为此，提出CARE框架，通过视觉语言模型的三种互补监督源实现类别自适应修正，参数高效，有效改善尾部类校正与头部类过正则化问题。
arXiv cs.CV论文2026/5/25
中文着色噪声：对抗性Sobolev对齐实现忠实图像超分辨率
ENColoring the Noise: Adversarial Sobolev Alignment for Faithful Image Super Resolution
生成式超分辨率中保真度损失源于各向同性目标与自然图像流形的频谱错位。直接偏好优化因使用频谱平坦高斯噪声而无法区分真实高频与幻觉。本文提出ASASR框架，通过Sobolev诱导生成流实现频谱对齐，提升超分辨率保真度，有效抑制伪影。
arXiv cs.CV论文2026/5/25
中文ChainFlow-VLA：利用视觉-语言模型进行因果流规划
ENChainFlow-VLA: Causal Flow Planning with Vision-Language Models
当前端到端自动驾驶系统存在时序因果推理与全局轨迹一致性的根本矛盾。自回归模型通过因果分解捕捉交互依赖，但逐步解码导致误差累积；扩散模型全局优化轨迹却缺乏因果约束，在交互及安全关键场景不可靠。该研究揭示了两类方法的深层缺陷。
arXiv cs.CV论文2026/5/25
中文DepthAgent: 通过样本级专家选择实现更优通用深度估计
ENDepthAgent: Towards Better Universal Depth Estimation via Sample-wise Expert Selection
本文发现，针对不同相机（透视、鱼眼、全景）的单目深度估计模型存在样本级互补性：模型偏好与输入域高度相关。现有单一模型方法忽略了这一点。通过利用专家模型的选择性优势，可在多样化相机设置下实现更鲁棒的深度估计，为实际部署提供新思路。
arXiv cs.CV论文2026/5/25
中文使用混合量子神经网络增强血细胞分类
ENEnhancing Blood Cells Classification using Hybrid Quantum Neural Networks
本研究提出混合量子-经典神经网络（HQNN），结合预训练ResNet-50与变分量子电路，通过低维潜在瓶颈增强特征表示，在显微血细胞分类中显著提升性能，尤其适用于数据有限和细微差异场景。
arXiv cs.CV论文2026/5/25
中文CHASD：语言增量校准的对比解码对抗LVLM幻觉
ENCHASD: Language Increment-Calibrated Contrastive Decoding against Hallucination in LVLMs
大型视觉-语言模型存在对象幻觉，源于语言先验主导而视觉证据不足。现有对比解码方法通过全局扰动或逐步负分支来缓解，但可能破坏有用视觉证据或增加计算开销。本文提出关键令牌感知对比解码（KCI-CD），仅对最可能引发幻觉的视觉令牌进行扰动，有效减少幻觉且保持生成质量，无需额外推理分支。
arXiv cs.CV论文2026/5/25
中文基于深度点对应的联合无目标相机-激光雷达内外参标定
ENJoint Target-Less Intrinsic and Extrinsic Camera-LiDAR Calibration using Deep Point Correspondences
本文提出首个完全无目标的相机-激光雷达联合标定方法，利用深度像素-点对应同时估计相机内参（含畸变）和外参，无需已知内参或矫正图像，扩展了深度对应技术的适用性。
arXiv cs.CV论文2026/5/25
中文RS2AD-LiDAR：从路边传感器观测生成端到端自动驾驶激光雷达数据
ENRS2AD-LiDAR: End-to-End Autonomous Driving LiDAR Data Generation from Roadside Sensor Observations
端到端自动驾驶依赖单车辆数据采集，存在成本高、场景稀缺和数据孤岛问题。为此提出RS2AD-LiDAR框架，通过重建与生成激光雷达数据，降低采集标注成本，丰富训练场景，具有重要实践意义。
arXiv cs.CV论文2026/5/25
中文FAST-ME：面向高效物联网视频分析的基础感知自适应停止运动估计
ENFAST-ME: Foundation-aware Adaptive Stopping for Motion Estimation for Efficient IoT Video Analysis
arXiv 介绍了一种基于最优停止理论（OST）的块运动估计算法，通过评估时空差异来加速视频压缩中的运动估计，显著降低计算开销，适用于物联网相机、自主平台等资源受限的多媒体系统。该方法兼顾效率与精度，为实时视频处理提供了实用方案。
arXiv cs.CV论文2026/5/25
中文PhenoYieldNet: 学习作物感知的物候响应以预测多作物产量
ENPhenoYieldNet: Learning Crop-Aware Phenological Responses for Multi-Crop Yield Prediction
PhenoYieldNet提出多作物产量预测框架，通过显式建模作物物候对天气动态的响应，克服了现有单作物模型泛化性差的问题，为可持续农业和粮食安全提供新方法。

4 / 10

今日资讯