中文B-GRTO: 基于自举的组相对工具优化用于指代分割
ENB-GRTO: Bootstrapped Group Relative Tool Optimization for Referring Segmentation
该研究探讨复杂指代分割任务,采用大视觉语言模型与分割解码器结合的方法,强化学习提升推理能力,但指出分割解码器等可训练模块通常...(原文截断)。
2026年5月25日星期一 · AI × 医学影像 领域前沿动态聚合(182 篇)
ENB-GRTO: Bootstrapped Group Relative Tool Optimization for Referring Segmentation
该研究探讨复杂指代分割任务,采用大视觉语言模型与分割解码器结合的方法,强化学习提升推理能力,但指出分割解码器等可训练模块通常...(原文截断)。
ENVINS-120K: Ultra High-Resolution Image Editing with A Large-Scale Dataset
VINS-120K是首个基于指令的超高分辨率(≥4K)图像编辑大规模数据集,包含12万组指令、输入和编辑图像三元组。通过严格多阶段流水线确保视觉质量、指令对齐与美观性,解决了高纹理细节建模和高质量数据缺失的难题,为UHR图像编辑提供重要基准。
ENComPose: When to Trust Hands for Object Pose Tracking
ComPose提出一种手部感知的6DoF物体跟踪框架,从RGB视频中估计姿态,将手视为交互而非纯遮挡,显著提升手部严重遮挡下的鲁棒性,适用于机器人操作。
ENGenerator-Refiner-Examiner: A Tri-Module Data Augmentation Framework for 3D Human Avatar Learning from Monocular Videos
本文提出TrioMan框架,从单目视频重建逼真可动画3D化身。针对训练帧有限时细节缺失问题,采用三模块协同:生成器通过高斯扰动创建多样样本,增强数据学习,有效提升细节捕捉精度,为稀疏数据下高保真虚拟人重建提供新方案。
ENPathNavigate: A Training-Free Pathology Agent with Surprise-Guided Scan and Shared Slide Memory for Whole-Slide Image VQA
本文介绍一种无需训练的多模态框架WSI-VQA,通过结合预训练视觉编码器和大型语言模型,实现全切片图像的临床问答。该方法将导航与推理解耦,在有限的检查预算下定位稀疏关键区域,显著优于传统监督式多模态大模型,为病理诊断提供高效、灵活的AI辅助方案。
ENDDX-TRACE: A Benchmark for Medical Diagnostic Trajectories in VLMs
DDX-TRACE是一个多模态神经放射学基准,通过模拟临床序贯检查过程评估AI推理能力,包括证据收集、鉴别诊断和终止决策,而非仅最终答案。该方法能揭示AI在不确定更新和工作流程中的缺陷,提升诊断可靠性。
ENExpOS: Explainable Open-Surgery Skills Assessment Using 3D Hand Reconstruction
ExpOS提出一种可解释框架,直接从运动数据中学习手术技能的时间模式,自动识别关键行为片段,无需专家定义指标。该方法支持实时反馈与自主训练,提高了评估可扩展性。
ENCVSearch: Empowering Multimodal LLMs with Cognitive Visual Search for High-Resolution Image Perception
CVSearch提出一种无需训练的自适应框架,动态调度视觉搜索策略以平衡高分辨率图像感知中的覆盖率与效率。它结合专家辅助搜索的高效性与扫描式搜索的全面性,解决盲点与计算冗余问题,显著提升多模态大语言模型的HR图像理解能力,适用于医学影像等精细视觉分析场景。
ENRecursive Block-Diagonal Coupling for Resource-Efficient Training of Vision Models
从零训练高容量视觉模型需大量计算资源。现有生长方法常假设已有窄模型,掩盖整体成本。本文提出RBDC协议,通过无参数块对角方式递归耦合独立训练的窄模型构建宽模型,灵活分配训练预算,显著降低总计算开销,提升训练效率。
ENRiGS: Rigid-aware 4D Gaussian Splatting from a Single Monocular Video
本文提出刚性感知4D高斯溅射(RiGS),从单目视频中重建动态3D场景。通过引入三种高斯类型,同时捕捉长期平滑与短期复杂运动,解决现有方法时间不一致或高频动态丢失问题。方法亮点在于多时间尺度运动建模,提升动态场景重建的准确性和连贯性,适用于视频、动画等实际应用。
ENPhotoFlow: Agentic 3D Virtual Photography Missions
虚拟摄影要求智能体在无预设视角下,依据语言意图和场景信息,自主选择相机参数并渲染照片。PhotoFlow提出导演-评审-反思框架,解决了三维空间理解与审美判断的联合评估难题,为视觉语言模型在空间智能与摄影美学结合上提供了新思路。
ENMachine learning applied to emerald gemstone grading: framework proposal and creation of a public dataset
该研究提出一套完整框架,实现宝石自动分级。传统方法依赖专家目视比对参考石,主观性强。新方法从图像采集到最终分类全自动化,消除主观差异。
ENExploring deep learning for Event-Based Saliency Prediction with a Transformer-based model
SEST(Swin Event-based Saliency Transformer)是一种基于Transformer的显著性预测模型,专为事件相机数据设计。该方法解决了当前缺乏大规模事件显著性数据集和强基线的两大难题,为事件相机在人类视觉注意建模中的应用提供了有效基线。
ENNot Too Generative, Not Too Discriminative: The Human Alignment Sweet Spot
通过联合能量模型(JEM)在固定架构中连续插值判别与生成训练,分离了学习目标对视觉表征类人对齐的混杂影响。研究发现:目标本身(而非架构或数据规模)是驱动对齐的关键。该方法为理解人类视觉表征的计算原理提供了新工具。
ENDecomposing Queries into Tool Calls for Long-Video Keyframe Retrieval
提出了ToolMerge方法,用于长视频问答的关键帧选择。该方法利用基于大语言模型的规划器将查询分解为多个工具调用,并指定各工具的应用区域与权重,再通过融合策略选出最具证据性的关键帧。相比单查询评分或固定模式分解,ToolMerge能灵活适配不同查询需求,提升关键帧检索的准确性。
ENVision Transformers Need Better Token Interaction
维基视觉变换器在长时间训练中会出现密集退化现象,本研究提出“语义扩散”机制:全局语义信息不合理地扩散到局部补丁,而非仅由高范数伪影导致。分析表明密集表示质量无法通过局部性指标衡量。该发现对优化ViT稠密预测任务具有重要启示。
ENPGT: Procedurally Generated Tasks for improving visual grounding in MLLMs
针对多模态大语言模型细粒度理解不足,提出程序化生成任务(PGT)框架。通过叠加无歧义的几何图元于图像,生成额外密集监督信号,既能诱导细粒度视觉理解,又作为低成本诊断工具,分离视觉定位能力与语义理解缺陷。该方法简单有效,可识别感知失败根源。
ENGenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction
提出一种高保真3D场景重建新方法,从多视图RGB图像中紧密耦合重建与生成式3D先验。将场景视为局部重叠块的生成任务,拼接后实现大规模扩展,继承了Trellis.2等生成模型的保真度与完整性。
ENSmart-Insertion-V: Photorealistic Video Insertion via a Closed-Loop Feedback Dual-Stream Framework
arXiv:2605.23891v1 提出 Smart-Insertion-V,一种端到端双流框架,同时进行视频插入与图像风格迁移。通过图像流同步引导视频生成,并引入闭环机制,有效克服参考对象与源场景间的严重风格差异,实现和谐的无遮罩视频对象插入。
ENGood Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry Transformers
视觉几何变换器在多视角3D重建中表现优异,但全局注意力导致计算成本随输入序列平方增长,限制扩展性与效率。本研究提出简单通用策略:限制全局注意力中每个查询交互的键/值令牌数量。该方法有效降低复杂度,提升可扩展性与效率。