RadStudio News — 医学影像AI前沿资讯

arXiv eess.IV论文2026/5/25
中文VAMP-Diff: VampPrior潜在扩散用于光电容积描记法建模
ENVAMP-Diff: VampPrior Latent Diffusion for Photoplethysmography Modeling
光电容积描记法（PPG）生成模型面临挑战：对抗训练可产生合理波形但缺乏推理路径，变分自编码器虽能映射潜在编码，却模糊收缩期上升支并减弱振幅，难以保留真实形态及心肺生理结构。
详情
arXiv eess.IV论文2026/5/25
中文解析可泛化超声基础模型的任务聚合
ENUnderstanding Task Aggregation for Generalizable Ultrasound Foundation Models
该研究指出，超声基础模型在多任务统一时性能下降的主因并非容量不足，而是任务聚合策略忽略了异质性与数据规模的交互作用。通过系统分析，建立了异构超声任务无性能损失联合学习的实用标准，为多任务模型设计提供指导。
arXiv cs.CV论文2026/5/25
中文利用cGAN和图像处理技术的新型原木计数方法
ENA Novel Approach for the Counting of Wood Logs Using cGANs and Image Processing Techniques
本研究提出基于条件生成对抗网络（cGANs）的桉木原木分割方法，结合专用图像处理技术处理噪声与交叉，并采用连通域算法实现高效计数。该方法可应用于自动化材料管理、监控、安全科学及木材体积估算等领域。
arXiv cs.CV论文2026/5/25
中文MuellerPT：分解驱动预训练用于穆勒偏振密集学习
ENMuellerPT: Decomposition Driven Pretraining for Dense Learning in Mueller Polarimetry
MuellerPT是一种物理引导的预训练方法，通过预测Lu-Chipman分解图来学习可迁移的密集表示，以解决生物组织Mueller矩阵成像中标注稀缺和域偏移问题。研究同时构建了多光谱动物偏振器官数据集MAP-Org以扩展预训练规模。该方法在组织分析中表现出良好的跨样本与跨设备泛化能力。
arXiv cs.CV论文2026/5/25
中文利用真实世界视频学习粒子动力学模型
ENLearning a Particle Dynamics Model with Real-world Videos
数据驱动的物理模拟（世界模型）利用可微分特性，可预测刚体与非刚体在复杂场景中的运动，效果显著。但这类模型需依赖模拟环境训练，因其需要完整场景点云及时间点对应等完美状态信息，限制了在真实场景中的直接应用。
arXiv cs.CV论文2026/5/25
中文LaMo：自监督潜在运动先验实现视频生成中的物理真实性
ENLaMo: Self-Supervised Latent Motion Priors for Physical Realism in Video Generation
现代视频生成器缺乏物理与运动一致性。LaMo提出自监督方法，从训练视频的无标签数据中提取运动线索，构建基于当前潜在表示和文本提示的帧间潜在变化运动先验，无需外部模拟器或物理数据集。
arXiv cs.CV论文2026/5/25
中文HorizonStream: 用于流式3D重建的长程注意力
ENHorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction
现有在线3D重建方法处理长序列时易出现漂移、抖动甚至崩溃，根源在于流式几何具有时序异质性，包含从短期对应到持久全局尺度的多层级证据，而滑动窗口、无门控递归等架构施加了病理性的均匀影响模式。需针对异质性设计约束方可稳定。
arXiv cs.CV论文2026/5/25
中文从激活到因果：人脑中因果视觉表征的发现
ENFrom Activation to Causality: Discovery of Causal Visual Representations in the Human Brain
现有激活最大化方法定位的脑区仅反映强激活，未必代表视觉概念本身。BrainCause框架通过因果关系分析，区分概念表征与相关线索，提升了脑区功能定位的准确性，为神经科学提供新工具。
arXiv cs.CV论文2026/5/25
中文ETCHR：编辑以澄清和利用推理
ENETCHR: Editing To Clarify and Harness Reasoning
多模态大语言模型在视觉推理上有进步，但纯文本思维链对精细聚焦或视角转换问题存在瓶颈。“用图像思考”范式弥补差距，但现有方法受限于固定工具包或产生噪声中间图像。本文提出解耦专用图像编辑模型与理解模型的新方案，但现成图像编辑器无法胜任该推理任务。该方法有望提升复杂视觉推理的准确性与灵活性。
arXiv cs.CV论文2026/5/25
中文通用危险检测
ENGeneral Hazard Detection
摘要：该研究指出现有危险检测系统依赖预定义类别和大量标注示例，但在处理抽象安全概念时面临三大挑战：训练数据噪声稀疏、定义动态演变、泛化能力差。论文提出新方法，通过认知逻辑推理定义危险，无需具体示例，有望提升系统对抽象概念的适应性和泛化能力。
arXiv cs.CV论文2026/5/25
中文GFSR：基于几何保真与空间细化的可靠车道线检测
ENGFSR: Geometric Fidelity and Spatial Refinement for Reliable Lane Detection
车道检测研究中，现有方法仅依赖分类置信度过滤会导致几何质量差的候选被保留，而优化低置信度但高几何质量的候选被剔除。该工作揭示了这一问题并提出改进策略，通过结合几何质量重新定义置信度，提升复杂场景下车道检测鲁棒性，对自动驾驶安全性有重要实际意义。
arXiv cs.CV论文2026/5/25
中文SCOPE：面向FPS世界模型的可玩环境中跨游戏操作模拟
ENSCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models
针对第一人称射击游戏中的高频重叠控制信号，提出SCOPE方法。发现FPS动作具有空间选择性：离散事件（开火、换弹）只影响武器周围的局部区域（scope），而连续摄像头与移动信号控制稳定环境。该方法通过条件注入避免全局干扰，优于现有全局训练方案。实用意义：提升交互世界模型在密集输入下的鲁棒性与区域稳定性。
arXiv cs.CV论文2026/5/25
中文用于细粒度羽毛球动作定位的解耦时空适配器
ENDecoupling Spatio-Temporal Adapter for Fine-Grained Badminton Action Localization
临时动作定位（TAL）在通用视频理解中研究广泛，但细粒度体育场景（如职业羽毛球）因时空动态复杂尚未充分探索。本文提出Fine-Badminton数据集（31场比赛、29种击球类别、2104回合、27597个标注动作），并设计方法有效捕捉精细运动模式，为体育AI分析提供新基准。
arXiv cs.CV论文2026/5/25
中文VDE: 基于速度分解与估计的无训练整流流模型加速方法
ENVDE: Training-Free Accelerating Rectified Flow Model via Velocity Decomposition and Estimation
整流流模型在图像、视频和3D生成中表现出色，但推理速度慢。现有加速方法重用缓存特征，但静态缓存与动态输入不匹配导致保真度下降。本文提出无训练加速方法VDE（速度分解与估计），从缓存重用转向分解估计，有效提升推理速度并保持输出质量。
arXiv cs.CV论文2026/5/25
中文Geo-Align: 基于度量几何奖励的视频生成对齐
ENGeo-Align: Video Generation Alignment via Metric Geometry Reward
现有相机控制视频生成方法依赖合成数据集微调，缺乏真实多视角同步视频数据，导致泛化性差、难以准确遵循物理尺度和相机轨迹。本文提出Geo-方法，旨在弥补这一差距，提升对真实世界视频的通用性及精度。
arXiv cs.CV论文2026/5/25
中文基于三维卷积神经网络的在线手势识别
ENOnline Hand Gesture Recognition Using 3D Convolutional Neural Networks
本文提出一种在线手部动态手势识别系统，能够在实时视频流中定位并分类手势。系统采用滑动窗口方法提升鲁棒性，应对个体执行差异，实现低延迟响应。该方法为人机交互中实时、可靠的手势识别提供了有效方案。
arXiv cs.CV论文2026/5/25
中文DFSAttn：动态细粒度稀疏注意力实现高效视频生成
ENDFSAttn: Dynamic Fine-grained Sparse Attention for Efficient Video Generation
扩散变换器在高质量视频生成中依赖时空3D全注意力，计算成本高昂。块稀疏注意力虽聚焦重要区域降本，但DiT注意力图具有动态细粒度稀疏性，导致现有块稀疏方法在高稀疏率下质量显著下降。
arXiv cs.CV论文2026/5/25
中文紧凑令牌压缩与线性注意力的高效一步式扩散恢复模型
ENEfficient One-Step Diffusion Restoration Model with Compact Token Compression and Linear Attention
真实世界图像超分辨率存在计算和内存瓶颈，根源不在于恢复先验不足，而是密集潜在表示与二次成本全局建模导致的高冗余标记。现有方法继承高分辨率图像合成范式，限制了实际部署。优化标记效率可突破性能与效率困境。
arXiv cs.CV论文2026/5/25
中文One-Forcing：迈向稳定的单步自回归视频生成
ENOne-Forcing: Towards Stable One-Step Autoregressive Video Generation
最新研究指出，现有少步自回归视频生成方法（通常从多步教师模型蒸馏）默认4步采样，部署延迟大；进一步减少步数（尤其单步）时质量严重下降。论文提出轨迹一致性蒸馏方法，旨在降低延迟并提升实时交互视频生成的质量。
arXiv cs.CV论文2026/5/25
中文重新思考工业检测中的迁移学习：DINOv3与ImageNet预训练在RGB和X射线任务上的对比
ENRethinking Transfer Learning for Industrial Inspection: DINOv3 vs. ImageNet Pretraining Across RGB and X-ray Tasks
近期研究对比了ConvNeXt骨干网络在监督ImageNet预训练与自监督（MAE、DINOv2等）预训练对工业视觉检测的影响。结果表明，自监督预训练整体优于监督预训练，但优势不如自然图像任务显著，且最佳方法因数据集而异。这提示自监督特征可迁移，但仍需针对工业细粒度任务优化。

7 / 10

今日资讯