RadStudio News — 医学影像AI前沿资讯

arXiv cs.CV论文2026/5/25
中文GenEvolve：通过工具编排的视觉体验蒸馏实现自我进化的图像生成智能体
ENGenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation
本文提出GenEvolve框架，基于工具编排的视觉经验蒸馏，实现图像生成智能体的自我进化。该方法让智能体结合模型内在生成能力与外部工具，在多样化任务中通过轨迹学习更高效地使用工具。关键亮点在于“自我进化”机制，无需人工标注，通过经验蒸馏持续提升性能。实际意义：为开放域复杂图像生成任务提供可扩展的通用解决方案。
详情
arXiv cs.CV论文2026/5/25
中文通过聚合预训练实现从解剖到疾病表型的通用CT表示
ENUniversal CT Representations from Anatomy to Disease Phenotype through Agglomerative Pretraining
FlexiCT是CT基础模型家族，基于56个公开数据集、266,227个CT体数据，通过三阶段聚合持续预训练（含二维轴向预训练）构建。该方法统一了分割、分类、配准和报告分析等碎片化AI任务，为CT表征学习提供大规模公开资源，有望推动医学影像AI的标准化发展。
arXiv cs.CV论文2026/5/25
中文记忆破碎：利用退化生成检测与缓解扩散模型中的记忆化
ENBroken Memories: Detecting and Mitigating Memorization in Diffusion Models with Degraded Generations
扩散模型生成高质量图像时易记忆训练数据，引发隐私和版权风险。研究首次发现记忆导致内部数值不稳定，产生视觉“破碎”伪影。受数值方法稳定性分析启发，基于潜在更新范数定义经验稳定区域，量化生成稳定性。提出在线稳定启动策略，有效提升隐私保护且不牺牲图像质量。
arXiv cs.CV论文2026/5/25
中文面向CVPR 2026第八届UG2+挑战赛赛道2的鲁棒语义分割流程
ENA Robust Semantic Segmentation Pipeline for the CVPR 2026 8th UG2+ Challenge Track 2
针对恶劣天气下的语义分割任务，提出半监督分割方案，仅使用WeatherProof数据集，无外部数据。以UniMatch V2为基线，将所有降质天气图像视为未标注数据进行半监督训练，充分挖掘数据潜力。
arXiv cs.CV论文2026/5/25
中文欧洲多中心乳腺癌MRI数据集
ENA European Multi-Center Breast Cancer MRI Dataset
早期乳腺癌检测至关重要。MRI作为致密乳腺和高危人群的补充筛查工具，但多参数MRI获取和解释耗时且依赖专业知识，限制了临床推广。人工智能方法有望辅助乳腺MRI解读，提升可扩展性。
arXiv cs.CV论文2026/5/25
中文我们距离用基础模型生成缺失模态还有多远？
ENHow Far Are We from Generating Missing Modalities with Foundation Models?
多模态基础模型在缺失模态重建中潜力被低估。本研究提出并形式化三种重建范式，评估42个模型变体的重建精度与下游任务适应性。结果表明，当前基础模型在这一任务中普遍表现不佳，需进一步优化。
arXiv cs.CV论文2026/5/25
中文EvalVerse：面向专业级电影视频生成的流水线感知与专家校准评测
ENEvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation
现有视频生成模型评估存在瓶颈：多数基准仅关注“是否正确”（基本提示跟随），忽略“是否良好”（电影质量、表演、美学）。该研究提出应借助强化学习与智能体工作流，转向专业级电影合成质量评估。方法论亮点：评估需涵盖更全面的审美与演技维度。实际意义：推动生成视频从“对错”转向“优劣”评估。
arXiv cs.CV论文2026/5/25
中文U-CESE：面向2025年胡志明市人工智能挑战赛的统一基于片段的事件搜索引擎
ENU-CESE: Unified Clip-based Event Search Engine for AI Challenge HCMC 2025
U-CESE提出统一的基于片段的事件搜索引擎，整合多模态处理模块与统一裁剪算法，解决大规模视频中时空及多模态事件检索的挑战，提升跨源检索一致性和效率，适用于复杂视频数据集的实用场景。
arXiv cs.CV论文2026/5/25
中文LangFlash：基于稀疏无位姿图像的前馈三维语言高斯溅射
ENLangFlash: Feed-forward 3D Language Gaussian Splatting from Sparse Unposed Images
本文提出LangFlash，一种前馈式3D语言高斯溅射框架，能从稀疏无位姿多视图图像中直接预测几何与语义，无需优化迭代，实现低延迟3D重建及语言一致场景理解。为支持大规模训练，作者丰富了RealEstate10k数据集，添加了连贯密集的语义信息。
arXiv cs.CV论文2026/5/25
中文面向开放词汇动作识别的时空相似性体积聚合
ENSpatio-Temporal Similarity Volume Aggregation for Open-Vocabulary Action Recognition
近期开放词汇动作识别（OVAR）方法通常将视觉特征聚合为全局表示，丢失局部细节。本文提出SimVA框架，构建基于patch级视觉-文本相似度的密集4D时空相似度体积，并通过类别采样确保相似度对齐。该方法保留了细粒度时空线索，提升了动作识别的准确性与泛化性。
arXiv cs.CV论文2026/5/25
中文通过令牌排列实现更稀疏的块稀疏注意力
ENSparser Block-Sparse Attention via Token Permutation
大语言模型扩展上下文长度时，自注意力机制带来O(N²)计算瓶颈。研究发现长序列注意力矩阵稀疏，提出块稀疏注意力：将序列分块并跳过无关计算，显著降低内存和延迟，实现高效优化。
arXiv cs.CV论文2026/5/25
中文压缩即适应：基于扩散基础模型的隐式视觉表示
ENCompression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models
现代视觉生成模型通过大规模训练获得丰富知识，但现有表示（像素、潜变量或令牌）无法直接利用这些知识进行紧凑存储或重用。本文提出新框架：将信号编码为函数，由附着在冻结视觉生成模型上的低秩适应参数化。例如，一个81帧视频可表示为这种隐式函数。该方法充分利用生成模型的先验知识，实现更高效的视觉信号存储与复用。
arXiv cs.CV论文2026/5/25
中文MapGCLR: 面向在线矢量化高精地图构建的地理空间对比表示学习
ENMapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction
本文聚焦在线矢量化高清地图构建，提出改进鸟瞰视角（BEV）特征网格表示的方法，通过自监督训练减少对大量标注数据的依赖，旨在降低地图构建成本，提升可扩展性。
arXiv cs.CV论文2026/5/25
中文扩散教师模型的期望方差缩减
ENVariance Reduction for Expectations with Diffusion Teachers
CARV提出一种计算感知的方差核算框架，通过分层蒙特卡洛估计器替代传统方法，在扩散模型作为冻结教师的场景中，分摊昂贵的上游工作（如渲染、仿真、编码），从而降低梯度估计的方差和计算成本。该方法显著提升了文本到3D、单步蒸馏等下游管道的效率。
arXiv cs.CV论文2026/5/25
中文多任务放射学报告生成中的双重困境：梯度动力学分析与解决方案
ENThe Double Dilemma in Multi-Task Radiology Report Generation: A Gradient Dynamics Analysis and Solution
arXiv:2605.22635v2 指出当前多任务放射学报告生成多采用线性标量化，但无法平衡临床监督与平滑生成。作者从梯度动力学分析其失败机制，提出新方法以改善平衡。
arXiv eess.IV论文2026/5/25
中文基于遗传算法的热成像乳腺图像ROI提取
ENROI Extraction in Thermographic Breast Images Using Genetic Algorithms
本研究提出用遗传算法（GA）从热成像乳腺图像中提取乳房区域（ROI），基于色彩信息与心形线适应度函数。首次将GA与心形线结合用于ROI提取，可提升癌症检测准确率并标准化采集流程。58张图像中成功分离52张。
arXiv cs.CV论文2026/5/25
中文GEM-4D：面向机器人操作的几何增强视频世界模型
ENGEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation
GEM-4D提出几何基础视频世界模型，通过蒸馏预训练几何模型的密集4D对应监督注入生成主干，解决现有模型无法保持点级运动一致性问题，使生成视频具备物理基础，支持机器人等可靠动作执行。
arXiv cs.CV论文2026/5/25
中文不看而见：视觉-语言基准真的在测试视觉吗？
ENSeeing without Looking: Do Vision-Language Benchmarks Really Test Vision?
arXiv:2605.22903v1 指出，视觉语言模型（VLM）在幻觉基准上的高准确率常被误认为依赖视觉证据，但移除大量图像token后性能仅轻微下降。研究通过多粒度视觉退化分析，系统揭示了开源VLM对非视觉线索的过度依赖，警示基准分数并不等同于真正的视觉理解。
arXiv cs.CV论文2026/5/25
中文基于AI视频监控的自杀风险评估：地铁站预防的可解释框架
ENSuicide Risk Assessment from AI-powered Video Surveillance: An Interpretable Framework for Prevention in Metro Stations
该研究提出通过地铁监控视频联合分析乘客行为、空间上下文与时间动态，评估自杀风险，以支持早期干预。方法亮点在于融合人体运动感知与站台几何理解。实际意义：可提升高风险情境的自动识别能力，助力自杀预防。
arXiv cs.CV论文2026/5/25
中文VideoOdyssey：面向超长上下文与全模态视频理解的基准测试
ENVideoOdyssey: A Benchmark for Ultra-Long-Context and Omni-Modal Video Understanding
现有长视频理解基准测试仅评估短视频片段理解，无法衡量超长上下文推理的挑战。本文针对现实长视频理解所需连续跟踪、信息整合与记忆保持的核心瓶颈，提出新的评估框架。

3 / 10

今日资讯