RadStudio News — 医学影像AI前沿资讯

arXiv cs.CV论文2026/5/25
中文利用学习的世界到图像投影改进视觉到海图浮标关联
ENImproved Vision-to-Chart Buoy Association with Learned World-to-Image Projection
在MaCVi 2026视觉-图表数据关联挑战中，对DETR融合Transformer基线进行轻量修改。原基线解码器以编码世界距离和方位的浮标查询隐式学习几何投影。本文训练专用MLP（QueryMLP），利用图表测量和IMU方向显式预测浮标水线接触点在图像中的位置，简化学习任务，提升数据关联准确性。
详情
arXiv cs.CV论文2026/5/25
中文注视行为标注工具包(GBAT): 基于AI的自动标注工具，用于儿童与照护者互动的第一人称眼动追踪和视频数据
ENGazeBehavior Annotation Toolkit (GBAT): AI-powered toolkit for automatic annotation of egocentric eye-tracking and video data of child-caregiver interaction
本文介绍基于深度学习的GazeBehavior Annotation Toolkit，用于简化儿童-看护者互动视频的数据预处理与特征提取，实现多视频同步与半自动标注，助力实时注意力、动作和语言交互研究，减少人工成本。
arXiv cs.CV论文2026/5/25
中文场景重建作为3D检测的建图先验
ENScene Reconstruction as Mapping Priors for 3D Detection
该论文提出利用地图作为静态环境结构先验，提升自动驾驶中3D目标检测的鲁棒性，尤其针对远距离和恶劣天气下的传感器数据稀疏或噪声问题。然而，传统高精地图获取和维护成本高，作者因此提出一种更高效的新方法，以平衡性能与部署成本。
arXiv cs.CV论文2026/5/25
中文TIME机器：论运动在高效感知中的作用
ENThe TIME Machine: On The Power of Motion for Efficient Perception
本文指出视频表示学习虽因大规模训练和语言对比学习取得进展，但面临成本高昂及概念受限于文本描述的问题，导致模型仍存在不足。方法上强调当前依赖语言对比的局限，实际意义在于提示未来需探索更高效、无语言依赖的视频学习策略。
arXiv cs.CV论文2026/5/25
中文毫米波成像用于人体测量
ENMillimeter-wave Imaging for Anthropometric Body Measurement
本研究利用毫米波雷达实现无接触身体形状与围度测量（如腰臀比、肢干周长），无需脱衣或固定姿势，保护隐私且可穿透衣物，尤其适用于老年人和行动不便者，提升了测量速度与尊严。
arXiv cs.CV论文2026/5/25
中文面向深度伪造定位的不一致性感知多模态薛定谔桥
ENInconsistency-aware Multimodal Schr\"odinger Bridge for Deepfake Localization
音频-视觉深度伪造定位新方法IaMSB：采用不一致性感知的多模态Schrödinger桥，联合估计跨模态一致性并进行区间级定位。与扩散模型不同，该方法无需显式噪声注入，通过最小化路径分布差异生成一致性分数，有效抑制对称融合下的交叉模态噪声传播，提升高精度定位性能。
arXiv cs.CV论文2026/5/25
中文CoReVAD：一种用于免训练视频异常检测的上下文推理框架
ENCoReVAD: A Contextual Reasoning Framework for Training-Free Video Anomaly Detection
现有视频异常检测方法依赖特定训练，域依赖强且成本高，且仅输出异常分数，缺乏可解释性。新方法利用视觉语言模型同时实现异常检测与可解释推理，减少域依赖，降低训练成本，提供人类可理解的异常原因。
arXiv cs.CV论文2026/5/25
中文VisAnalog：面向自然图像视觉概念迁移的诊断套件
ENVisAnalog: A Diagnostic Suite for Visual Concept Transfer on Natural Images
我们提出VisAnalog，一个用于评估视觉概念学习的自然图像类比推理测试集。通过A:B::C:?形式，要求模型识别并应用相同变换序列从A到B和C到D。该方法能有效检测模型在变换下保留概念属性并迁移至新场景的能力，为视觉概念学习提供更严格的评测基准。
arXiv cs.CV论文2026/5/25
中文SLIP-RS: 面向遥感目标检测的结构化属性语言-图像预训练
ENSLIP-RS: Structured-Attribute Language-Image Pre-Training for Remote Sensing Object Detection
现有遥感目标检测的语言-图像预训练受限于单标签学习，依赖穷举开放类别。为此提出SLIP-RS，建立结构化属性解耦范式，将开放类别空间映射至有限物理属性空间，突破数据稀缺瓶颈，提升细粒度判别能力。
arXiv cs.CV论文2026/5/25
中文DRIVESPATIAL：面向自动驾驶视觉语言模型时空智能的基准
ENDRIVESPATIAL: A Benchmark for Spatiotemporal Intelligence in VLMs for Autonomous Driving
该论文指出，现有自动驾驶视觉-语言基准集中于单视图、静态或单源问答，无法测试视觉语言模型（VLM）的时空智能。作者引入新基准Driv...，要求模型整合多视角观测、保持物体跨视角和时间连续性，并推理空间关系与未来动态，填补了动态场景推理的评估空白，推动VLM在自动驾驶中的应用。
arXiv cs.CV论文2026/5/25
中文用于鲁棒视频编辑的遮挡感知物理语义关键帧选择
ENOcclusion-Aware Physics-Semantic Keyframe Selection for Robust Video Editing
针对视频编辑在遮挡、视角变化和快速运动下的不稳定性，本文提出利用3D重建作为视觉锚点，提升编辑一致性。方法先重建场景3D表示，再将编辑指令传播到各帧，有效解决定位不准和闪烁问题。实际意义：显著增强复杂场景下的视频编辑鲁棒性与可操作性。
arXiv cs.CV论文2026/5/25
中文利普希茨优化用于单应性形式验证
ENLipschitz Optimization for Formal Verification of Homographies
现有视觉神经网络鲁棒性验证方法局限于统计或ℓ_p范数及仿射变换，未覆盖相机运动，制约其在医疗、自动驾驶等安全关键领域的部署。该文提出一种形式化鲁棒性验证方法，直接针对相机运动扰动，为落地应用提供正式保障。
arXiv cs.CV论文2026/5/25
中文CaST-Bench: 面向视频问答的因果链引导时空推理基准测试
ENCaST-Bench: Benchmarking Causal Chain-Grounded Spatio-Temporal Reasoning for Video Question Answering
arXiv新论文提出CaST-Bench基准，用于评估时空视频因果推理。它要求模型识别并定位多步因果链，填补了现有基准缺乏细粒度证据的空白，推动VLM从表面感知深入因果机制理解。
arXiv cs.CV论文2026/5/25
中文StereoGenBench: 受控基线条件下立体生成的合成多相机基准
ENStereoGenBench: A Synthetic Multi-Camera Benchmark for Stereo Generation under Controlled Baseline Regimes
立体图像/视频生成和几何估计需要已知且可控的双目几何变量（基线、内参、场景深度、相机运动）。现有资源缺乏同时提供场景配对、多基线校准右视图真值及内参、密集度量深度等完整参数的公开数据集，限制了相关评估与开发。
arXiv cs.CV论文2026/5/25
中文SimInsert: 基于区域稀疏注意力融合的无缝视频对象插入
ENSimInsert: Seamless Video Object Insertion via Regional Sparse Attention Fusion
SimInsert提出一种无需训练的视频物体插入范式，将任务解耦为单帧编辑与语义运动描述，利用图像到视频的生成先验。该方法无需显式运动工程或重新训练，提升了灵活性与泛化能力，可实现时空连贯且交互真实的插入效果。实际意义在于降低了视频编辑门槛，拓展了生成式AI在视频内容创作中的应用。
arXiv cs.CV论文2026/5/25
中文超越防御：面向内在三维点云鲁棒性的流形对齐正则化
ENBeyond Defenses: Manifold-Aligned Regularization for Intrinsic 3D Point Cloud Robustness
尽管点云鲁棒性研究已取得进展，现有方法多依赖数据增强或防御机制，却忽视了对抗脆弱性的几何本质。研究发现，3D网络的对抗脆弱性源于模型学习的潜在几何与底层表面内在几何之间的流形错位：沿输入流形的微小保几何扰动会在特征空间引发不成比例的扭曲。这一发现揭示了对抗攻击的几何根源，为设计更鲁棒的3D深度学习模型提供了新思路。
arXiv cs.CV论文2026/5/25
中文MedVIGIL：在视觉证据受损情况下评估可信的医疗VLM
ENMedVIGIL: Evaluating Trustworthy Medical VLMs Under Broken Visual Evidence
医学视觉语言模型在证据被破坏（如假前提、措辞扰动、知识改写或ROI损坏图像）时，仍会给出流利但错误的回答（静默失败）。本研究引入medvigil，包含300个评估案例，旨在检验模型识别证据失效的能力，对临床可信赖性至关重要。
arXiv cs.CV论文2026/5/25
中文并非所有任务都同等量化：视觉几何变换器的Fisher引导量化
ENNot All Tasks Quantize Equally: Fisher-Guided Quantization for Visual Geometry Transformer
前馈3D重建模型（如VGGT）可通过单次前向推理同时预测深度、相机位姿和点云，但十亿级参数导致高内存与计算开销。针对此问题，本文提出后训练量化（PTQ）方法，在不显著损失精度前提下压缩模型，使其更适应设备端部署。
arXiv cs.CV论文2026/5/25
中文EgoInteract：合成第一人称视频用于交互理解与预测
ENEgoInteract: Synthetic Egocentric Videos Generation for Interaction Understanding and Anticipation
该研究提出EgoInteract，一个可控的第一人称视频生成模拟器，旨在解决真实数据集成本高、存在隐私和偏见等问题。它能够生成具有时间一致性的复杂人-物交互视频，有望降低数据采集成本、扩大交互模式覆盖范围，为第一人称感知任务提供灵活的合成数据来源。
arXiv cs.CV论文2026/5/25
中文聚焦VLM：视觉语言模型中的视线追踪与社会性注视预测基准测试
ENEyes on VLM: Benchmarking Gaze Following and Social Gaze Prediction in Vision Language Models
视觉语言模型（VLM）虽能推理物理场景和社交情境，但理解人类注视和注意力的可靠性尚未明确。EyeVLM系统性地评估了VLM在注视分析任务中的表现，揭示了其优势与局限，为改进多模态行为理解提供了基准。

2 / 10

今日资讯