中文PiD: 基于像素扩散的快速高分辨率潜在解码
ENPiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion
arXiv 2605.23902v1提出PiD,一种基于可扩展像素空间扩散的高效解码新范式。现有高分辨率文本-图像系统受限于重建导向的潜空间解码器,缺乏细节且计算成本随分辨率激增。PiD利用像素扩散提升生成质量和效率,为兆像素级图像合成提供更优实用方案。
2026年5月25日星期一 · AI × 医学影像 领域前沿动态聚合(182 篇)
ENPiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion
arXiv 2605.23902v1提出PiD,一种基于可扩展像素空间扩散的高效解码新范式。现有高分辨率文本-图像系统受限于重建导向的潜空间解码器,缺乏细节且计算成本随分辨率激增。PiD利用像素扩散提升生成质量和效率,为兆像素级图像合成提供更优实用方案。
ENMedExpMem: Adapting Experience Memory for Differential Diagnosis
提出的MedExpMem经验记忆框架,让医学视觉语言模型能像医生一样积累鉴别诊断专长,提升对易混淆疾病的区分能力。该方法不依赖检索百科知识,而是通过临床实践动态更新经验,有望增强AI诊断的准确性。
ENExtending Deep Event Visual Odometry with Sparse Point-Cloud Export
事件相机因低延迟、高时间分辨率和高动态范围,适用于高速运动和挑战光照下的视觉里程计。DEVO通过稀疏补丁跟踪、学习补丁选择、循环对应细化和可微光束平差,实现了单目事件里程计的强性能。本项目扩展了DEVO,增加了稀疏点云导出管道。
ENDo Synthetic Brain MRIs Reliably Improve Tumour Classification? A StyleGAN2-ADA Class-Plane Augmentation Study on BRISC 2025
研究测试了StyleGAN2-ADA生成图像对肿瘤分类的增强效果。在BRISC 2025数据集上训练12个类条件生成器,并引入InceptionV3特征空间滤波,评估合成样本对留出分类任务性能的影响。
ENSTAMBRIDGE: Spectral-Temporal Amplitude-aware Mid-Feature Bridge for EEG Visual Decoding
针对低信噪比脑电图与视觉-语言空间模态差异导致的跨模态对齐不稳定问题,提出STAMBRIDGE两阶段框架:先通过频谱-时间振幅感知调制(STAM)用振幅软信道替代硬频率掩码,提取良好条件的EEG特征;再执行跨模态对齐。该方法有效提升视觉解码稳定性,为脑机接口与神经信号处理提供新思路。
ENTurning Adaptation into Assets: Cross-Domain Bridging for Online Vision-Language Navigation
针对视觉语言导航(VLN)中非平稳环境导致的灾难性遗忘与负迁移问题,提出IDEA框架,将测试时自适应转化为历史资产的积累与组合,通过软提示实现跨域桥接,有效提升在线适应鲁棒性。
ENEfficient Learned Image Compression without Entropy Coding
提出无熵编码学习图像压缩(EF-LIC),一种多速率框架,通过无约束向量量化去除统计与相关性冗余,证明其索引分布逼近最大熵,从而降低编码延迟。
ENWhat Linear Probes Miss: Multi-View Probing for Weight-Space Learning
开源模型仓库“模型丛林”中检查点常缺文档。权重空间学习虽可直接分析参数,但计算成本高。现有探测方法通过可学习向量提取置换等变表示,提供轻量级替代,但受限于单视图,需改进以提升模型识别能力。
ENCommutator-Induced Uncertainty in VAEs
变分自编码器(VAE)难以表示潜在空间中的非交换结构,现有对称感知VAE通过代数正则化强制交换性,但可能抑制数据内在的非交换特征。本文提出李群VAE框架,结合几何与代数方法,显式诊断非交换性并反映在重建中。该方法能更真实地捕捉数据结构,尤其适用于医学影像等复杂对称场景,提升生成与重建的准确性。
ENDrawVideo: Generating Long Video from Storyboard Keyframe Sketches
DrawVideo提出草图引导的故事板框架,将长视频分解为独立可控镜头,每个镜头由黑白草图(控制姿态)、外观提示和运动提示定义。它解决了现有文本转视频方法依赖单一长提示、缺乏对姿态/构图/布局/运动精细控制的问题,提高了长视频生成的保真度和叙事连贯性。
ENLeveraging Foundation Models for Causal Generative Modeling
本文介绍FM-CGM框架,利用预训练基础模型实现端到端视觉因果推理。通过概念提取、因果结构学习和反事实生成三大模块,无需额外训练即可进行零样本因果推理,提升了AI系统的可靠性和透明度。
ENMirrorCheck: Efficient Adversarial Defense for Vision-Language Models
视觉语言模型(VLM)易受自适应对抗攻击,现有防御常失效。提出MirrorCheck检测框架,模型无关,通过文本到图像模型从目标模型输出标题重建图像,比较特征嵌入语义一致性,有效发现恶意样本,提升多模态防御鲁棒性。
ENBVI-RLV: A Fully Registered Dataset for Low-Light Video Enhancement
BVI-RLV数据集包含40个场景、超3万帧像素对齐的低光视频,解决时空噪声和训练数据稀缺问题。该方法通过双低光条件与正常光配对,提升低光视频增强性能,适用于计算机视觉应用。
ENPixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation
现有ControlNet类方法在组合视觉条件控制中因分离控制分支引入冲突引导,导致结构失真和伪影。本文提出新方法,在扩散文本到图像生成中同时保持多个异构控制信号的语义保真度与高视觉质量。
ENUniReg: A Universal Model for Controllable CT Image Registration
UniReg首个条件统一模型解决医学图像配准泛化难题。现有方法需针对不同任务(如个体间/内、特定解剖区域)开发多个网络,导致开发繁琐。UniReg通过统一框架实现跨场景高效配准,减少人工干预,提升临床实用性。
ENMulti-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models
本文提出框架,通过整合深度感知、视觉对应和动态感知等基础空间技能,赋予多模态大语言模型多帧空间理解能力。设计了新数据管道,收集了2700万+样本的MultiSPA数据集,显著提升模型在物理世界多帧推理任务中的表现。
ENRADAR: Relative Angular Divergence Across Representations
RADAR提出一种基于几何的简单度量,通过分析基础模型层间演化,估计跨域可迁移性。该方法能指导数据扩展,避免负迁移导致的性能下降。
ENSemantic-Aware Guided Drone Exploration for Language-Conditioned 3D Indoor Mapping
基于FALCON体积探索器,提出SAGE系统,通过CLIP集成四个组件(对象嵌入存储、时间缓存、对象前沿、统一语义),实现开放词汇的3D室内未知环境探索,在保持覆盖导向行为的同时,允许语义线索重新排序前沿选择,提升探索效率。
ENGMENet: Generative Mixture of Experts Network for Multi-Center Glioma Diagnosis with Incomplete Imaging Sequences
GMENet提出生成式专家混合网络,解决临床MRI序列不完整导致数据丢弃、应用受限问题。方法亮点:利用多中心数据生成缺失序列,保持诊断准确性。实际意义:提升胶质瘤分子与病理整合诊断的临床适用性。
ENDiscontinuous Galerkin Neural Operator for Pathology Defocus Deblurring
病理显微镜散焦去模糊面临空间变化和局部不连续的挑战。现有深度学习方法受平移不变性限制,而神经算子通过将散焦建模为积分算子提供新思路。该方法提升了去模糊效果,有望改善病理图像诊断质量。