RS
RadStudio News
  • 首页
  • 分类浏览
  • 搜索
RS
RadStudio News

专注于医学影像AI、深度学习与影像组学的前沿资讯聚合平台

快速链接

  • 分类浏览
  • 高级搜索
  • 我的收藏

研究方向

  • 深度学习
  • 影像组学
  • 多模态AI

关于

  • 关于我们
  • 投稿指南
  • RSS 订阅

© 2026 RadStudio News. All rights reserved.

今日资讯

2026年5月25日星期一 · AI × 医学影像 领域前沿动态聚合(182 篇)

高级筛选 →
  • arXiv cs.CV论文15 小时前

    中文HorizonDrive:面向长时域驾驶仿真的自校正自回归世界模型

    ENHorizonDrive: Self-Corrective Autoregressive World Model for Long-horizon Driving Simulation

    闭环驾驶模拟需要自回归(AR)滚动以实现实时交互。现有AR蒸馏方法存在缺陷:帧下沉方式因自车快速运动和场景快速变化而迁移效果差;学生端退化训练受限于教师的单次输出长度,监督视野有限。关键问题在于:能否通过AR扩展教师模型本身?这提示了现有方法在长时程动态场景下的局限性,亟需更有效的AR扩展策略来提升闭环仿真性能。

    详情
  • arXiv cs.CV论文15 小时前

    中文RT-NeRV:通过残差标记化重新思考视频的混合神经表示

    ENRT-NeRV: Rethinking Hybrid Neural Representations for Video via Residual Tokenization

    NeRV将视频表示为紧凑神经网络,实现高效压缩。混合方法通过内容自适应嵌入提升重建质量,但低比特率下细节保留不足,因浅层残差信息连续传输成本高。本文重新思考混合设计,优化残差利用。

  • arXiv cs.CV论文15 小时前

    中文通过句子级早期干预缓解物体幻觉

    ENMitigating Object Hallucinations via Sentence-Level Early Intervention

    多模态大语言模型(MLLM)常产生与视觉输入矛盾的幻觉。研究发现幻觉主要出现在文本生成的早期阶段并传播。为此提出SENTINEL(句子级干预),在早期阶段抑制幻觉,避免高昂计算成本与数据分布不匹配问题,有效提升模型可靠性。

  • arXiv cs.CV论文15 小时前

    中文GT-SVJ:基于生成式Transformer的自监督视频评判器,用于高效视频奖励建模

    ENGT-SVJ: Generative-Transformer-Based Self-Supervised Video Judge For Efficient Video Reward Modeling

    提出基于生成式Transformer的自监督视频评判器(\modelname),将视频生成模型重新用作奖励模型,以替代难以捕捉时间动态的视觉语言模型,实现更优的人类偏好对齐,提升视频生成质量。

  • arXiv cs.CV论文15 小时前

    中文PipeMFL-240K:面向管道漏磁成像目标检测的大规模数据集与基准

    ENPipeMFL-240K: A Large-scale Dataset and Benchmark for Object Detection in Pipeline Magnetic Flux Leakage Imaging

    PipeMFL-240K数据集发布,用于磁通量泄漏(MFL)管道检测。该数据集含24万张精细标注图像,填补了大规模公开基准的空白,可公平比较和复现深度学习模型,推动管道缺陷自动检测的可靠性与工业化应用。

  • arXiv cs.CV论文15 小时前

    中文VideoTemp-o3: 协调智能体视频思考中的时间定位与视频理解

    ENVideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

    arXiv:2602.07801v4 提出新方法改进长视频理解:传统均匀帧采样效率低、易幻觉,现有“定位-剪辑-回答”流程虽好但定位弱、工作流僵化。该研究旨在解决上述问题,提升关键证据捕捉与推理效率。

  • arXiv cs.CV论文15 小时前

    中文ProGIC: 基于残差向量量化的渐进式轻量生成图像压缩

    ENProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization

    近年来生成式图像压缩(GIC)在感知质量上取得显著进步,但大型刚性模型限制了其在低比特率场景的灵活部署。为此,本文提出渐进式生成图像压缩(ProGIC),基于残差向量量化(RVQ)构建紧凑编解码器。RVQ通过多级向量量化器逐阶段编码残差,每级拥有独立码本,从而在低码率下实现高效灵活传输,兼顾实用性与压缩性能。

  • arXiv cs.CV论文15 小时前

    中文基于元学习的少样本三维LGE MRI左心房壁分割

    ENFew-Shot Left Atrial Wall Segmentation in 3D LGE MRI via Meta-Learning

    本研究提出一种基于MAML的3D残差U-Net框架,用于LGE-MRI左心房壁小样本分割(K=5/10/20)。通过联合训练心房壁与心腔辅助任务,并引入边界感知损失,显著提升了薄壁结构的分割精度,减少了对专家标注的依赖。

  • arXiv cs.CV论文15 小时前

    中文VFM$^{4}$SDG:揭示VFM在单域泛化目标检测中的威力

    ENVFM$^{4}$SDG: Unveiling the Power of VFMs for Single-Domain Generalized Object Detection

    真实世界天气、光照等变化引发域偏移,导致单源目标检测器漏检大幅增加,性能下降。现有方法依赖数据增强或域不变学习,但忽略了域偏移破坏预测稳定性。本文通过分析实验揭示了这一现象,为设计更鲁棒的泛化检测器提供了新视角。

  • arXiv cs.CV论文15 小时前

    中文迈向基于地球观测数据的树篱与线性木本特征的可泛化制图:德国国家产品

    ENTowards Generalizable Mapping of Hedges and Linear Woody Features from Earth Observation Data: a national Product for Germany

    树篱等线性木本特征在集约农业景观中提供关键生态系统服务,支持气候适应与生物多样性,是动植物的栖息地。利用地球观测数据进行系统化、大规模制图对管理保护至关重要。

  • arXiv cs.CV论文15 小时前

    中文迷失在折叠中:交叉验证并非深度集成用于不确定性估计

    ENLost in the Folds: When Cross-Validation Is Not a Deep Ensemble for Uncertainty Estimation

    该研究指出,医学图像分割中常用K折交叉验证(CV)形成集成并误称为“深度集成”,其分歧混合了种子随机性与数据暴露效应,改变了不确定性解释方式。审计发现术语与实现普遍不匹配。实际意义:需区分集成类型以正确解读不确定性。

  • arXiv cs.CV论文15 小时前

    中文蒸馏思考,预见行动:用于自动驾驶的认知-物理强化学习

    ENDistill to Think, Foresee to Act: Cognitive-Physical Reinforcement Learning for Autonomous Driving

    arXiv:2605.21139v2提出CoPhy框架,通过融合认知(理解交通语义与驾驶意图)和物理(预见动作后果)两个基础,突破端到端自动驾驶中模仿学习的行为克隆天花板,为强化学习提供了实用化路径。

  • arXiv cs.CV论文15 小时前

    中文Uni-Edit:智能编辑是统一模型调优的通用任务

    ENUni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning

    现有统一多模态模型(UMM)通常采用混合多任务训练,导致任务冲突与性能折衷。本文提出Uni-Edit,将智能图像编辑作为首个通用调谐任务,取代复杂混合流程,从根源避免冲突,实现真正相互增强,简化训练并提升效果。

  • arXiv cs.CV论文15 小时前

    中文ForeSplat: 面向前馈3D高斯溅射的优化感知前瞻

    ENForeSplat: Optimization-Aware Foresight for Feed-Forward 3D Gaussian Splatting

    本文提出ForeS方法,针对前馈3D高斯溅射模型因缺乏3D标注而难以达到逐场景优化质量的问题,改进训练策略,使预测输出更好初始化下游优化器,从而提升重建性能。

  • arXiv cs.CV论文15 小时前

    中文瞬间再现:基于交叉快门引导的逆运动退化

    ENMoment-Reenacting: Inverse Motion Degradation with Cross-shutter Guidance

    本文提出统一框架,联合利用全局快门模糊与滚动快门畸变的互补性,实现运动退化逆过程与成像时刻再现。方法亮点在于将模糊分解与滚动快门时间超分辨率任务统一处理,突破传统分离局限。实际意义在于提升快速运动或弱光条件下的成像质量。

  • arXiv cs.CV论文15 小时前

    中文利用集成扩散估计端到端自动驾驶的不确定性

    ENUsing Ensemble Diffusion to Estimate Uncertainty for End-to-End Autonomous Driving

    EnDfuser提出一种基于扩散模型的端到端驾驶规划系统,有效融合相机与LiDAR感知信息,通过注意力机制处理不确定性。相比不考虑或依赖专用表示的方法,该方法在CARLA仿真中表现更优,具有更好的通用性和实际部署潜力。

  • arXiv cs.CV论文15 小时前

    中文GAF:高斯动作场作为机器人操作中动态世界建模的4D表示

    ENGAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation

    提出V-4D-A框架,通过运动感知的4D表示直接推理动作,克服传统方法在复杂动态操作场景中的不准确性。亮点在于利用时域信息增强场景理解,提升机器人抓取与操控精度。

  • arXiv cs.CV论文15 小时前

    中文VGAS:面向少样本视觉-语言-动作自适应的价值引导动作块选择

    ENVGAS: Value-Guided Action-Chunk Selection for Few-Shot Vision-Language-Action Adaptation

    提出VGAS框架,应对VLA模型在少样本适应中因几何歧义导致的执行失败。通过“生成-选择”视角,先由VLA策略生成多个动作候选,再训练价值模型评估并选择最优动作,显著提升新任务适应可靠性。方法轻量,实用性强。

  • arXiv cs.CV论文15 小时前

    中文量子启发的鲁棒可扩展SAR目标分类

    ENQuantum-Inspired Robust and Scalable SAR Object Classification

    本研究探索张量网络在SAR图像分类中的应用,其天然抗噪声、高动态范围,且能平衡模型大小与精度,对数据投毒具有韧性,适合部署在无人机等边缘设备上。

  • arXiv cs.CV论文15 小时前

    中文Imagine2Real: 基于视频生成先验的零样本人形物体交互

    ENImagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors

    本研究提出Imagine2Real,零样本人形机器人-物体交互框架,解决3D数据稀缺导致的表示不对齐和重定向复杂问题。关键发现:无需几何先验(如CAD模型)和密集形态变形,实现灵活无几何交互。方法核心:基于视频生成先验,绕过显式3D模型。实际意义:降低对高保真数据的依赖,提升机器人交互的适应性与效率。

6 / 10
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情