RadStudio News — 医学影像AI前沿资讯

arXiv cs.CV论文2026/5/25
中文InfVSR：迈向一致性驱动的流式生成视频超分辨率
ENInfVSR: Toward Consistency-Driven Streaming Generative Video Super-Resolution
InfVSR将视频超分辨率重构为自回归一步扩散范式，实现长视频流式推理，突破多步去噪的低效和时间分解导致的伪影与不连续问题，显著提升处理效率与帧间一致性。
详情
arXiv cs.CV论文2026/5/25
中文从婴儿对单个物体的重复视觉经验中发现小样本泛化学习方案
ENA solution to generalized learning from small training sets found in infant repeated visual experiences of individual objects
该研究通过分析14名婴儿进餐时的头部摄像头图像（87次记录），发现一岁婴儿对8个早期物体类别的日常视觉经验中，实例分布高度偏斜：每个婴儿每个类别包含大量图像，但不同实例出现频率及视觉变异性差异显著，为理解婴儿快速形成和泛化类别提供了证据。
arXiv cs.CV论文2026/5/25
中文论梯度对语言辅助图像聚类的可证明重要性
ENOn the Provable Importance of Gradients for Language-Assisted Image Clustering
本文研究语言辅助图像聚类（LaIC），利用文本语义提升视觉表征判别性。核心挑战在于真实类名未知，需从未标注语料中过滤与图像语义相近的阳性名词。现有过滤策略主要基于CLIP的现成特征空间。
arXiv cs.CV论文2026/5/25
中文研究自主X光引导脊柱手术的机器人控制策略学习
ENInvestigating Robot Control Policy Learning for Autonomous X-ray-guided Spine Procedures
本文探讨了模仿学习在双平面X射线引导穿刺针插入手术中的可行性。研究开发了高真实感硅基模拟环境，用于可扩展自动化脊柱手术仿真，并构建了正确轨迹数据集。初步结果表明，该方法在稀疏输入下仍具应用潜力，但面临数据获取与泛化挑战，为脊柱机器人的数据驱动策略提供了新思路。
arXiv cs.CV论文2026/5/25
中文NP-LoRA：基于零空间投影的主题风格LoRA融合
ENNP-LoRA: Null Space Projection for Subject-Style LoRA Fusion
现有LoRA融合通过权重合并实现风格与内容组合，但忽略了共享子空间中的参数冲突。本研究从几何视角揭示：独立训练的LoRA占据重叠、非正交的低秩子空间，导致更新冲突。该发现为优化融合策略、提升生成一致性提供了理论依据。
arXiv cs.CV论文2026/5/25
中文DFIR-DETR：频域迭代精化与动态特征聚合的小目标检测
ENDFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection
本文针对复杂场景小目标检测中注意力均匀、上采样激活膨胀及边缘平滑问题，提出DFIR-DETR。通过针对性模块改进RT-DETR基线，有效提升小目标检测性能，具有实际应用价值。
arXiv cs.CV论文2026/5/25
中文压缩图像理解的VLM基准测试与增强
ENBenchmarking and Enhancing VLM for Compressed Image Understanding
本研究首次构建综合基准，评估视觉语言模型（VLM）对低比特率压缩图像的理解能力，涵盖多种图像编解码器与多样化任务。结果表明，现有VLM主要处理高比特率压缩图像，而对低比特率压缩图像的解读能力尚待探索，为相关应用提供了重要参考。
arXiv cs.CV论文2026/5/25
中文渐进式$\mathcal{J}$-不变自监督学习用于低剂量CT去噪
ENProgressive $\mathcal{J}$-Invariant Self-supervised Learning for Low-Dose CT Denoising
自监督学习用于低剂量CT（LDCT）去噪可减少对配对正常剂量数据的依赖，但现有盲点方法因感受野受限导致训练效率低、性能次优。本文提出渐进式J-invariant学习，通过最大化利用J-invariant特性增强LDCT去噪，提升效果与效率。
arXiv cs.CV论文2026/5/25
中文PROGRESSLM: 迈向视觉语言模型中的进度推理
ENPROGRESSLM: Towards Progress Reasoning in Vision-Language Models
arXiv:2601.15224v2 提出Progress-Bench基准，系统评估视觉语言模型从部分观测中推理任务进展的能力。研究探索了人类启发的两阶段推理范式（无训练提示及训练方法），突破仅识别静态视觉内容的局限，为手术机器人等长程动态任务的进展监控提供新思路。
arXiv cs.CV论文2026/5/25
中文CLEAR-HPV：全切片组织学中人乳头瘤病毒相关形态学的可解释概念发现
ENCLEAR-HPV: Interpretable concept discovery for human-papillomavirus-associated morphology in whole-slide histology
近期研究提出CLEAR-HPV框架，通过注意力重构多实例学习（MIL）潜在空间，在不需外部概念标注的情况下实现可解释的HPV状态预测。该方法在头颈癌和宫颈癌全切片组织病理学中，既保持了高预测性能，又增强了形态学可解释性，对临床决策具有重要价值。
arXiv cs.CV论文2026/5/25
中文超越基于VLM的奖励：扩散原生潜在奖励建模
ENBeyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling
DiNa-LRM提出一种扩散原生潜在奖励模型，解决VLM作为奖励函数时计算成本高、域不匹配的问题。该方法直接在潜在空间优化偏好，提升对齐效率，降低资源消耗，适用于扩散和流匹配模型的实用对齐。
arXiv cs.CV论文2026/5/25
中文解剖引导的视觉-语言学习与角度原型分离用于类别不平衡下的多标签视频胶囊内镜分类
ENAnatomy-Guided Vision-Language Learning with Angular Prototype Separation for Multi-Label Video Capsule Endoscopy Classification Under Class Imbalance
该研究提出针对视频胶囊内镜的多标签时间事件检测框架，通过类原型角度分离损失和生物状态机时间解码器解决Galar数据集极端类别不平衡。采用BiomedCLIP基础模型，结合局部差分注意力模块融合三连续帧，抑制静态背景增强瞬态病理信号，显著提升罕见异常检测性能。
arXiv cs.CV论文2026/5/25
中文Gen-Searcher：面向图像生成的强化代理搜索
ENGen-Searcher: Reinforcing Agentic Search for Image Generation
Gen-Searcher首次提出训练搜索增强图像生成智能体，通过多跳推理和搜索收集文本知识与参考图像，实现有根据的生成。该方法突破传统模型固定内部知识限制，提升在知识密集型或需最新信息场景中的生成质量与实用性。
arXiv cs.CV论文2026/5/25
中文面向多模态推理的视觉引导策略优化
ENVisually-Guided Policy Optimization for Multimodal Reasoning
强化学习结合可验证奖励（RLVR）显著提升了视觉语言模型（VLM）的推理能力。然而，VLM固有的文本主导导致视觉注意力稀疏，且时序推理中视觉遗忘加剧。为此，提出视觉引导策略优化（VGPO），通过强化视觉信息关注来弥补不足。该方法有效提升了视觉忠实度，为复杂视觉推理任务提供新思路。
arXiv cs.CV论文2026/5/25
中文DocRevive：一种统一的文档文本恢复流水线
ENDocRevive: A Unified Pipeline for Document Text Restoration
本文提出一种结合OCR、图像分析、掩码语言建模与扩散模型的统一流程，用于重建受损、遮挡或不完整的文档文本，同时保持视觉完整性。创建了包含30,078个退化文档的合成数据集。该方法可显著提升下游文档理解任务性能，为实际场景中的文本修复提供了有效解决方案。
arXiv cs.CV论文2026/5/25
中文迈向临床的脑MRI基础模型：FOMO25挑战赛的发现
ENTowards Brain MRI Foundation Models for the Clinic: Findings from the FOMO25 Challenge
脑部MRI临床部署面临数据异质与标注昂贵难题。自监督学习（SSL）利用临床工作流中大量未标记数据预训练基础模型，使其能仅需少量监督适应域外数据。然而，现有基础模型受限于预训练规模小及域内基准测试，限制了临床应用潜力。
arXiv cs.CV论文2026/5/25
中文VGGT-Segmentor: 几何增强的跨视图分割
ENVGGT-Segmentor: Geometry-Enhanced Cross-View Segmentation
这项研究聚焦于跨视角（自我中心与外部中心）的实例级物体分割难题，指出尺度、视角和遮挡变化导致像素级匹配不稳定。方法亮点：基于几何感知模型VGGT进行特征对齐，但发现其在密集预测中因像素投影漂移而失败。实际意义：揭示了现有模型在跨视角分割中的关键局限，为开发更鲁棒的几何-语义融合方法提供了方向，对具身AI和远程协作应用具有指导价值。
arXiv cs.CV论文2026/5/25
中文World-R1：强化文本到视频生成中的3D约束
ENWorld-R1: Reinforcing 3D Constraints for Text-to-Video Generation
世界-R1通过强化学习（Flow-GRPO）对齐视频生成与3D约束，无需高成本架构修改。利用纯文本数据集优化模型，显著提升几何一致性，为可扩展、低计算开销的视频世界模拟提供新路径。
arXiv cs.CV论文2026/5/25
中文WildTableBench：面向真实场景的表格理解多模态基础模型评测
ENWildTableBench: Benchmarking Multimodal Foundation Models on Table Understanding In the Wild
WildTableBench是首个面向真实世界表格图像的问答基准，填补了当前评估仅依赖结构化文本或渲染图像的空白。该基准强调视觉复杂性、多变布局及多样化领域，要求模型具备结构感知和数值推理能力，对多模态基础模型在消费和企业场景中的应用有重要实践意义。
arXiv cs.CV论文2026/5/25
中文4DThinker：利用4D影像进行动态空间理解
EN4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding
4DThinker是首个让视觉语言模型（VLM）基于动态4D空间推理的框架，解决单目视频理解中空间-时间推理的挑战。它避免了依赖外部几何模块或冗长文本描述，直接增强模型内在的4D时空推理能力，从而提升从视频中理解物理世界动态的准确性与效率。

1 / 10

今日资讯