中文InfVSR:迈向一致性驱动的流式生成视频超分辨率
ENInfVSR: Toward Consistency-Driven Streaming Generative Video Super-Resolution
InfVSR将视频超分辨率重构为自回归一步扩散范式,实现长视频流式推理,突破多步去噪的低效和时间分解导致的伪影与不连续问题,显著提升处理效率与帧间一致性。
2026年5月25日星期一 · AI × 医学影像 领域前沿动态聚合(182 篇)
ENInfVSR: Toward Consistency-Driven Streaming Generative Video Super-Resolution
InfVSR将视频超分辨率重构为自回归一步扩散范式,实现长视频流式推理,突破多步去噪的低效和时间分解导致的伪影与不连续问题,显著提升处理效率与帧间一致性。
ENA solution to generalized learning from small training sets found in infant repeated visual experiences of individual objects
该研究通过分析14名婴儿进餐时的头部摄像头图像(87次记录),发现一岁婴儿对8个早期物体类别的日常视觉经验中,实例分布高度偏斜:每个婴儿每个类别包含大量图像,但不同实例出现频率及视觉变异性差异显著,为理解婴儿快速形成和泛化类别提供了证据。
ENOn the Provable Importance of Gradients for Language-Assisted Image Clustering
本文研究语言辅助图像聚类(LaIC),利用文本语义提升视觉表征判别性。核心挑战在于真实类名未知,需从未标注语料中过滤与图像语义相近的阳性名词。现有过滤策略主要基于CLIP的现成特征空间。
ENInvestigating Robot Control Policy Learning for Autonomous X-ray-guided Spine Procedures
本文探讨了模仿学习在双平面X射线引导穿刺针插入手术中的可行性。研究开发了高真实感硅基模拟环境,用于可扩展自动化脊柱手术仿真,并构建了正确轨迹数据集。初步结果表明,该方法在稀疏输入下仍具应用潜力,但面临数据获取与泛化挑战,为脊柱机器人的数据驱动策略提供了新思路。
ENNP-LoRA: Null Space Projection for Subject-Style LoRA Fusion
现有LoRA融合通过权重合并实现风格与内容组合,但忽略了共享子空间中的参数冲突。本研究从几何视角揭示:独立训练的LoRA占据重叠、非正交的低秩子空间,导致更新冲突。该发现为优化融合策略、提升生成一致性提供了理论依据。
ENDFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection
本文针对复杂场景小目标检测中注意力均匀、上采样激活膨胀及边缘平滑问题,提出DFIR-DETR。通过针对性模块改进RT-DETR基线,有效提升小目标检测性能,具有实际应用价值。
ENBenchmarking and Enhancing VLM for Compressed Image Understanding
本研究首次构建综合基准,评估视觉语言模型(VLM)对低比特率压缩图像的理解能力,涵盖多种图像编解码器与多样化任务。结果表明,现有VLM主要处理高比特率压缩图像,而对低比特率压缩图像的解读能力尚待探索,为相关应用提供了重要参考。
ENProgressive $\mathcal{J}$-Invariant Self-supervised Learning for Low-Dose CT Denoising
自监督学习用于低剂量CT(LDCT)去噪可减少对配对正常剂量数据的依赖,但现有盲点方法因感受野受限导致训练效率低、性能次优。本文提出渐进式J-invariant学习,通过最大化利用J-invariant特性增强LDCT去噪,提升效果与效率。
ENPROGRESSLM: Towards Progress Reasoning in Vision-Language Models
arXiv:2601.15224v2 提出Progress-Bench基准,系统评估视觉语言模型从部分观测中推理任务进展的能力。研究探索了人类启发的两阶段推理范式(无训练提示及训练方法),突破仅识别静态视觉内容的局限,为手术机器人等长程动态任务的进展监控提供新思路。
ENCLEAR-HPV: Interpretable concept discovery for human-papillomavirus-associated morphology in whole-slide histology
近期研究提出CLEAR-HPV框架,通过注意力重构多实例学习(MIL)潜在空间,在不需外部概念标注的情况下实现可解释的HPV状态预测。该方法在头颈癌和宫颈癌全切片组织病理学中,既保持了高预测性能,又增强了形态学可解释性,对临床决策具有重要价值。
ENBeyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling
DiNa-LRM提出一种扩散原生潜在奖励模型,解决VLM作为奖励函数时计算成本高、域不匹配的问题。该方法直接在潜在空间优化偏好,提升对齐效率,降低资源消耗,适用于扩散和流匹配模型的实用对齐。
ENAnatomy-Guided Vision-Language Learning with Angular Prototype Separation for Multi-Label Video Capsule Endoscopy Classification Under Class Imbalance
该研究提出针对视频胶囊内镜的多标签时间事件检测框架,通过类原型角度分离损失和生物状态机时间解码器解决Galar数据集极端类别不平衡。采用BiomedCLIP基础模型,结合局部差分注意力模块融合三连续帧,抑制静态背景增强瞬态病理信号,显著提升罕见异常检测性能。
ENGen-Searcher: Reinforcing Agentic Search for Image Generation
Gen-Searcher首次提出训练搜索增强图像生成智能体,通过多跳推理和搜索收集文本知识与参考图像,实现有根据的生成。该方法突破传统模型固定内部知识限制,提升在知识密集型或需最新信息场景中的生成质量与实用性。
ENVisually-Guided Policy Optimization for Multimodal Reasoning
强化学习结合可验证奖励(RLVR)显著提升了视觉语言模型(VLM)的推理能力。然而,VLM固有的文本主导导致视觉注意力稀疏,且时序推理中视觉遗忘加剧。为此,提出视觉引导策略优化(VGPO),通过强化视觉信息关注来弥补不足。该方法有效提升了视觉忠实度,为复杂视觉推理任务提供新思路。
ENDocRevive: A Unified Pipeline for Document Text Restoration
本文提出一种结合OCR、图像分析、掩码语言建模与扩散模型的统一流程,用于重建受损、遮挡或不完整的文档文本,同时保持视觉完整性。创建了包含30,078个退化文档的合成数据集。该方法可显著提升下游文档理解任务性能,为实际场景中的文本修复提供了有效解决方案。
ENTowards Brain MRI Foundation Models for the Clinic: Findings from the FOMO25 Challenge
脑部MRI临床部署面临数据异质与标注昂贵难题。自监督学习(SSL)利用临床工作流中大量未标记数据预训练基础模型,使其能仅需少量监督适应域外数据。然而,现有基础模型受限于预训练规模小及域内基准测试,限制了临床应用潜力。
ENVGGT-Segmentor: Geometry-Enhanced Cross-View Segmentation
这项研究聚焦于跨视角(自我中心与外部中心)的实例级物体分割难题,指出尺度、视角和遮挡变化导致像素级匹配不稳定。方法亮点:基于几何感知模型VGGT进行特征对齐,但发现其在密集预测中因像素投影漂移而失败。实际意义:揭示了现有模型在跨视角分割中的关键局限,为开发更鲁棒的几何-语义融合方法提供了方向,对具身AI和远程协作应用具有指导价值。
ENWorld-R1: Reinforcing 3D Constraints for Text-to-Video Generation
世界-R1通过强化学习(Flow-GRPO)对齐视频生成与3D约束,无需高成本架构修改。利用纯文本数据集优化模型,显著提升几何一致性,为可扩展、低计算开销的视频世界模拟提供新路径。
ENWildTableBench: Benchmarking Multimodal Foundation Models on Table Understanding In the Wild
WildTableBench是首个面向真实世界表格图像的问答基准,填补了当前评估仅依赖结构化文本或渲染图像的空白。该基准强调视觉复杂性、多变布局及多样化领域,要求模型具备结构感知和数值推理能力,对多模态基础模型在消费和企业场景中的应用有重要实践意义。
EN4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding
4DThinker是首个让视觉语言模型(VLM)基于动态4D空间推理的框架,解决单目视频理解中空间-时间推理的挑战。它避免了依赖外部几何模块或冗长文本描述,直接增强模型内在的4D时空推理能力,从而提升从视频中理解物理世界动态的准确性与效率。