RS
RadStudio News
  • 首页
  • 分类浏览
  • 搜索
RS
RadStudio News

专注于医学影像AI、深度学习与影像组学的前沿资讯聚合平台

快速链接

  • 分类浏览
  • 高级搜索
  • 我的收藏

研究方向

  • 深度学习
  • 影像组学
  • 多模态AI

关于

  • 关于我们
  • 投稿指南
  • RSS 订阅

© 2026 RadStudio News. All rights reserved.

今日资讯

2026年5月25日星期一 · AI × 医学影像 领域前沿动态聚合(182 篇)

高级筛选 →
  • arXiv eess.IV论文17 小时前

    中文VAMP-Diff: VampPrior潜在扩散用于光电容积描记法建模

    ENVAMP-Diff: VampPrior Latent Diffusion for Photoplethysmography Modeling

    光电容积描记法(PPG)生成模型面临挑战:对抗训练可产生合理波形但缺乏推理路径,变分自编码器虽能映射潜在编码,却模糊收缩期上升支并减弱振幅,难以保留真实形态及心肺生理结构。

    详情
  • arXiv eess.IV论文17 小时前

    中文解析可泛化超声基础模型的任务聚合

    ENUnderstanding Task Aggregation for Generalizable Ultrasound Foundation Models

    该研究指出,超声基础模型在多任务统一时性能下降的主因并非容量不足,而是任务聚合策略忽略了异质性与数据规模的交互作用。通过系统分析,建立了异构超声任务无性能损失联合学习的实用标准,为多任务模型设计提供指导。

  • arXiv cs.CV论文17 小时前

    中文利用cGAN和图像处理技术的新型原木计数方法

    ENA Novel Approach for the Counting of Wood Logs Using cGANs and Image Processing Techniques

    本研究提出基于条件生成对抗网络(cGANs)的桉木原木分割方法,结合专用图像处理技术处理噪声与交叉,并采用连通域算法实现高效计数。该方法可应用于自动化材料管理、监控、安全科学及木材体积估算等领域。

  • arXiv cs.CV论文17 小时前

    中文MuellerPT:分解驱动预训练用于穆勒偏振密集学习

    ENMuellerPT: Decomposition Driven Pretraining for Dense Learning in Mueller Polarimetry

    MuellerPT是一种物理引导的预训练方法,通过预测Lu-Chipman分解图来学习可迁移的密集表示,以解决生物组织Mueller矩阵成像中标注稀缺和域偏移问题。研究同时构建了多光谱动物偏振器官数据集MAP-Org以扩展预训练规模。该方法在组织分析中表现出良好的跨样本与跨设备泛化能力。

  • arXiv cs.CV论文17 小时前

    中文利用真实世界视频学习粒子动力学模型

    ENLearning a Particle Dynamics Model with Real-world Videos

    数据驱动的物理模拟(世界模型)利用可微分特性,可预测刚体与非刚体在复杂场景中的运动,效果显著。但这类模型需依赖模拟环境训练,因其需要完整场景点云及时间点对应等完美状态信息,限制了在真实场景中的直接应用。

  • arXiv cs.CV论文17 小时前

    中文LaMo:自监督潜在运动先验实现视频生成中的物理真实性

    ENLaMo: Self-Supervised Latent Motion Priors for Physical Realism in Video Generation

    现代视频生成器缺乏物理与运动一致性。LaMo提出自监督方法,从训练视频的无标签数据中提取运动线索,构建基于当前潜在表示和文本提示的帧间潜在变化运动先验,无需外部模拟器或物理数据集。

  • arXiv cs.CV论文17 小时前

    中文HorizonStream: 用于流式3D重建的长程注意力

    ENHorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction

    现有在线3D重建方法处理长序列时易出现漂移、抖动甚至崩溃,根源在于流式几何具有时序异质性,包含从短期对应到持久全局尺度的多层级证据,而滑动窗口、无门控递归等架构施加了病理性的均匀影响模式。需针对异质性设计约束方可稳定。

  • arXiv cs.CV论文17 小时前

    中文从激活到因果:人脑中因果视觉表征的发现

    ENFrom Activation to Causality: Discovery of Causal Visual Representations in the Human Brain

    现有激活最大化方法定位的脑区仅反映强激活,未必代表视觉概念本身。BrainCause框架通过因果关系分析,区分概念表征与相关线索,提升了脑区功能定位的准确性,为神经科学提供新工具。

  • arXiv cs.CV论文17 小时前

    中文ETCHR:编辑以澄清和利用推理

    ENETCHR: Editing To Clarify and Harness Reasoning

    多模态大语言模型在视觉推理上有进步,但纯文本思维链对精细聚焦或视角转换问题存在瓶颈。“用图像思考”范式弥补差距,但现有方法受限于固定工具包或产生噪声中间图像。本文提出解耦专用图像编辑模型与理解模型的新方案,但现成图像编辑器无法胜任该推理任务。该方法有望提升复杂视觉推理的准确性与灵活性。

  • arXiv cs.CV论文17 小时前

    中文通用危险检测

    ENGeneral Hazard Detection

    摘要:该研究指出现有危险检测系统依赖预定义类别和大量标注示例,但在处理抽象安全概念时面临三大挑战:训练数据噪声稀疏、定义动态演变、泛化能力差。论文提出新方法,通过认知逻辑推理定义危险,无需具体示例,有望提升系统对抽象概念的适应性和泛化能力。

  • arXiv cs.CV论文17 小时前

    中文GFSR:基于几何保真与空间细化的可靠车道线检测

    ENGFSR: Geometric Fidelity and Spatial Refinement for Reliable Lane Detection

    车道检测研究中,现有方法仅依赖分类置信度过滤会导致几何质量差的候选被保留,而优化低置信度但高几何质量的候选被剔除。该工作揭示了这一问题并提出改进策略,通过结合几何质量重新定义置信度,提升复杂场景下车道检测鲁棒性,对自动驾驶安全性有重要实际意义。

  • arXiv cs.CV论文17 小时前

    中文SCOPE:面向FPS世界模型的可玩环境中跨游戏操作模拟

    ENSCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models

    针对第一人称射击游戏中的高频重叠控制信号,提出SCOPE方法。发现FPS动作具有空间选择性:离散事件(开火、换弹)只影响武器周围的局部区域(scope),而连续摄像头与移动信号控制稳定环境。该方法通过条件注入避免全局干扰,优于现有全局训练方案。实用意义:提升交互世界模型在密集输入下的鲁棒性与区域稳定性。

  • arXiv cs.CV论文17 小时前

    中文用于细粒度羽毛球动作定位的解耦时空适配器

    ENDecoupling Spatio-Temporal Adapter for Fine-Grained Badminton Action Localization

    临时动作定位(TAL)在通用视频理解中研究广泛,但细粒度体育场景(如职业羽毛球)因时空动态复杂尚未充分探索。本文提出Fine-Badminton数据集(31场比赛、29种击球类别、2104回合、27597个标注动作),并设计方法有效捕捉精细运动模式,为体育AI分析提供新基准。

  • arXiv cs.CV论文17 小时前

    中文VDE: 基于速度分解与估计的无训练整流流模型加速方法

    ENVDE: Training-Free Accelerating Rectified Flow Model via Velocity Decomposition and Estimation

    整流流模型在图像、视频和3D生成中表现出色,但推理速度慢。现有加速方法重用缓存特征,但静态缓存与动态输入不匹配导致保真度下降。本文提出无训练加速方法VDE(速度分解与估计),从缓存重用转向分解估计,有效提升推理速度并保持输出质量。

  • arXiv cs.CV论文17 小时前

    中文Geo-Align: 基于度量几何奖励的视频生成对齐

    ENGeo-Align: Video Generation Alignment via Metric Geometry Reward

    现有相机控制视频生成方法依赖合成数据集微调,缺乏真实多视角同步视频数据,导致泛化性差、难以准确遵循物理尺度和相机轨迹。本文提出Geo-方法,旨在弥补这一差距,提升对真实世界视频的通用性及精度。

  • arXiv cs.CV论文17 小时前

    中文基于三维卷积神经网络的在线手势识别

    ENOnline Hand Gesture Recognition Using 3D Convolutional Neural Networks

    本文提出一种在线手部动态手势识别系统,能够在实时视频流中定位并分类手势。系统采用滑动窗口方法提升鲁棒性,应对个体执行差异,实现低延迟响应。该方法为人机交互中实时、可靠的手势识别提供了有效方案。

  • arXiv cs.CV论文17 小时前

    中文DFSAttn:动态细粒度稀疏注意力实现高效视频生成

    ENDFSAttn: Dynamic Fine-grained Sparse Attention for Efficient Video Generation

    扩散变换器在高质量视频生成中依赖时空3D全注意力,计算成本高昂。块稀疏注意力虽聚焦重要区域降本,但DiT注意力图具有动态细粒度稀疏性,导致现有块稀疏方法在高稀疏率下质量显著下降。

  • arXiv cs.CV论文17 小时前

    中文紧凑令牌压缩与线性注意力的高效一步式扩散恢复模型

    ENEfficient One-Step Diffusion Restoration Model with Compact Token Compression and Linear Attention

    真实世界图像超分辨率存在计算和内存瓶颈,根源不在于恢复先验不足,而是密集潜在表示与二次成本全局建模导致的高冗余标记。现有方法继承高分辨率图像合成范式,限制了实际部署。优化标记效率可突破性能与效率困境。

  • arXiv cs.CV论文17 小时前

    中文One-Forcing:迈向稳定的单步自回归视频生成

    ENOne-Forcing: Towards Stable One-Step Autoregressive Video Generation

    最新研究指出,现有少步自回归视频生成方法(通常从多步教师模型蒸馏)默认4步采样,部署延迟大;进一步减少步数(尤其单步)时质量严重下降。论文提出轨迹一致性蒸馏方法,旨在降低延迟并提升实时交互视频生成的质量。

  • arXiv cs.CV论文17 小时前

    中文重新思考工业检测中的迁移学习:DINOv3与ImageNet预训练在RGB和X射线任务上的对比

    ENRethinking Transfer Learning for Industrial Inspection: DINOv3 vs. ImageNet Pretraining Across RGB and X-ray Tasks

    近期研究对比了ConvNeXt骨干网络在监督ImageNet预训练与自监督(MAE、DINOv2等)预训练对工业视觉检测的影响。结果表明,自监督预训练整体优于监督预训练,但优势不如自然图像任务显著,且最佳方法因数据集而异。这提示自监督特征可迁移,但仍需针对工业细粒度任务优化。

7 / 10
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情