RS
RadStudio News
  • 首页
  • 分类浏览
  • 搜索
RS
RadStudio News

专注于医学影像AI、深度学习与影像组学的前沿资讯聚合平台

快速链接

  • 分类浏览
  • 高级搜索
  • 我的收藏

研究方向

  • 深度学习
  • 影像组学
  • 多模态AI

关于

  • 关于我们
  • 投稿指南
  • RSS 订阅

© 2026 RadStudio News. All rights reserved.

今日资讯

2026年5月25日星期一 · AI × 医学影像 领域前沿动态聚合(182 篇)

高级筛选 →
  • arXiv cs.CV论文11 小时前

    中文GenEvolve:通过工具编排的视觉体验蒸馏实现自我进化的图像生成智能体

    ENGenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation

    本文提出GenEvolve框架,基于工具编排的视觉经验蒸馏,实现图像生成智能体的自我进化。该方法让智能体结合模型内在生成能力与外部工具,在多样化任务中通过轨迹学习更高效地使用工具。关键亮点在于“自我进化”机制,无需人工标注,通过经验蒸馏持续提升性能。实际意义:为开放域复杂图像生成任务提供可扩展的通用解决方案。

    详情
  • arXiv cs.CV论文11 小时前

    中文通过聚合预训练实现从解剖到疾病表型的通用CT表示

    ENUniversal CT Representations from Anatomy to Disease Phenotype through Agglomerative Pretraining

    FlexiCT是CT基础模型家族,基于56个公开数据集、266,227个CT体数据,通过三阶段聚合持续预训练(含二维轴向预训练)构建。该方法统一了分割、分类、配准和报告分析等碎片化AI任务,为CT表征学习提供大规模公开资源,有望推动医学影像AI的标准化发展。

  • arXiv cs.CV论文11 小时前

    中文记忆破碎:利用退化生成检测与缓解扩散模型中的记忆化

    ENBroken Memories: Detecting and Mitigating Memorization in Diffusion Models with Degraded Generations

    扩散模型生成高质量图像时易记忆训练数据,引发隐私和版权风险。研究首次发现记忆导致内部数值不稳定,产生视觉“破碎”伪影。受数值方法稳定性分析启发,基于潜在更新范数定义经验稳定区域,量化生成稳定性。提出在线稳定启动策略,有效提升隐私保护且不牺牲图像质量。

  • arXiv cs.CV论文11 小时前

    中文面向CVPR 2026第八届UG2+挑战赛赛道2的鲁棒语义分割流程

    ENA Robust Semantic Segmentation Pipeline for the CVPR 2026 8th UG2+ Challenge Track 2

    针对恶劣天气下的语义分割任务,提出半监督分割方案,仅使用WeatherProof数据集,无外部数据。以UniMatch V2为基线,将所有降质天气图像视为未标注数据进行半监督训练,充分挖掘数据潜力。

  • arXiv cs.CV论文11 小时前

    中文欧洲多中心乳腺癌MRI数据集

    ENA European Multi-Center Breast Cancer MRI Dataset

    早期乳腺癌检测至关重要。MRI作为致密乳腺和高危人群的补充筛查工具,但多参数MRI获取和解释耗时且依赖专业知识,限制了临床推广。人工智能方法有望辅助乳腺MRI解读,提升可扩展性。

  • arXiv cs.CV论文11 小时前

    中文我们距离用基础模型生成缺失模态还有多远?

    ENHow Far Are We from Generating Missing Modalities with Foundation Models?

    多模态基础模型在缺失模态重建中潜力被低估。本研究提出并形式化三种重建范式,评估42个模型变体的重建精度与下游任务适应性。结果表明,当前基础模型在这一任务中普遍表现不佳,需进一步优化。

  • arXiv cs.CV论文11 小时前

    中文EvalVerse:面向专业级电影视频生成的流水线感知与专家校准评测

    ENEvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

    现有视频生成模型评估存在瓶颈:多数基准仅关注“是否正确”(基本提示跟随),忽略“是否良好”(电影质量、表演、美学)。该研究提出应借助强化学习与智能体工作流,转向专业级电影合成质量评估。方法论亮点:评估需涵盖更全面的审美与演技维度。实际意义:推动生成视频从“对错”转向“优劣”评估。

  • arXiv cs.CV论文11 小时前

    中文U-CESE:面向2025年胡志明市人工智能挑战赛的统一基于片段的事件搜索引擎

    ENU-CESE: Unified Clip-based Event Search Engine for AI Challenge HCMC 2025

    U-CESE提出统一的基于片段的事件搜索引擎,整合多模态处理模块与统一裁剪算法,解决大规模视频中时空及多模态事件检索的挑战,提升跨源检索一致性和效率,适用于复杂视频数据集的实用场景。

  • arXiv cs.CV论文11 小时前

    中文LangFlash:基于稀疏无位姿图像的前馈三维语言高斯溅射

    ENLangFlash: Feed-forward 3D Language Gaussian Splatting from Sparse Unposed Images

    本文提出LangFlash,一种前馈式3D语言高斯溅射框架,能从稀疏无位姿多视图图像中直接预测几何与语义,无需优化迭代,实现低延迟3D重建及语言一致场景理解。为支持大规模训练,作者丰富了RealEstate10k数据集,添加了连贯密集的语义信息。

  • arXiv cs.CV论文11 小时前

    中文面向开放词汇动作识别的时空相似性体积聚合

    ENSpatio-Temporal Similarity Volume Aggregation for Open-Vocabulary Action Recognition

    近期开放词汇动作识别(OVAR)方法通常将视觉特征聚合为全局表示,丢失局部细节。本文提出SimVA框架,构建基于patch级视觉-文本相似度的密集4D时空相似度体积,并通过类别采样确保相似度对齐。该方法保留了细粒度时空线索,提升了动作识别的准确性与泛化性。

  • arXiv cs.CV论文11 小时前

    中文通过令牌排列实现更稀疏的块稀疏注意力

    ENSparser Block-Sparse Attention via Token Permutation

    大语言模型扩展上下文长度时,自注意力机制带来O(N²)计算瓶颈。研究发现长序列注意力矩阵稀疏,提出块稀疏注意力:将序列分块并跳过无关计算,显著降低内存和延迟,实现高效优化。

  • arXiv cs.CV论文11 小时前

    中文压缩即适应:基于扩散基础模型的隐式视觉表示

    ENCompression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

    现代视觉生成模型通过大规模训练获得丰富知识,但现有表示(像素、潜变量或令牌)无法直接利用这些知识进行紧凑存储或重用。本文提出新框架:将信号编码为函数,由附着在冻结视觉生成模型上的低秩适应参数化。例如,一个81帧视频可表示为这种隐式函数。该方法充分利用生成模型的先验知识,实现更高效的视觉信号存储与复用。

  • arXiv cs.CV论文11 小时前

    中文MapGCLR: 面向在线矢量化高精地图构建的地理空间对比表示学习

    ENMapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

    本文聚焦在线矢量化高清地图构建,提出改进鸟瞰视角(BEV)特征网格表示的方法,通过自监督训练减少对大量标注数据的依赖,旨在降低地图构建成本,提升可扩展性。

  • arXiv cs.CV论文11 小时前

    中文扩散教师模型的期望方差缩减

    ENVariance Reduction for Expectations with Diffusion Teachers

    CARV提出一种计算感知的方差核算框架,通过分层蒙特卡洛估计器替代传统方法,在扩散模型作为冻结教师的场景中,分摊昂贵的上游工作(如渲染、仿真、编码),从而降低梯度估计的方差和计算成本。该方法显著提升了文本到3D、单步蒸馏等下游管道的效率。

  • arXiv cs.CV论文11 小时前

    中文多任务放射学报告生成中的双重困境:梯度动力学分析与解决方案

    ENThe Double Dilemma in Multi-Task Radiology Report Generation: A Gradient Dynamics Analysis and Solution

    arXiv:2605.22635v2 指出当前多任务放射学报告生成多采用线性标量化,但无法平衡临床监督与平滑生成。作者从梯度动力学分析其失败机制,提出新方法以改善平衡。

  • arXiv eess.IV论文11 小时前

    中文基于遗传算法的热成像乳腺图像ROI提取

    ENROI Extraction in Thermographic Breast Images Using Genetic Algorithms

    本研究提出用遗传算法(GA)从热成像乳腺图像中提取乳房区域(ROI),基于色彩信息与心形线适应度函数。首次将GA与心形线结合用于ROI提取,可提升癌症检测准确率并标准化采集流程。58张图像中成功分离52张。

  • arXiv cs.CV论文11 小时前

    中文GEM-4D:面向机器人操作的几何增强视频世界模型

    ENGEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation

    GEM-4D提出几何基础视频世界模型,通过蒸馏预训练几何模型的密集4D对应监督注入生成主干,解决现有模型无法保持点级运动一致性问题,使生成视频具备物理基础,支持机器人等可靠动作执行。

  • arXiv cs.CV论文11 小时前

    中文不看而见:视觉-语言基准真的在测试视觉吗?

    ENSeeing without Looking: Do Vision-Language Benchmarks Really Test Vision?

    arXiv:2605.22903v1 指出,视觉语言模型(VLM)在幻觉基准上的高准确率常被误认为依赖视觉证据,但移除大量图像token后性能仅轻微下降。研究通过多粒度视觉退化分析,系统揭示了开源VLM对非视觉线索的过度依赖,警示基准分数并不等同于真正的视觉理解。

  • arXiv cs.CV论文11 小时前

    中文基于AI视频监控的自杀风险评估:地铁站预防的可解释框架

    ENSuicide Risk Assessment from AI-powered Video Surveillance: An Interpretable Framework for Prevention in Metro Stations

    该研究提出通过地铁监控视频联合分析乘客行为、空间上下文与时间动态,评估自杀风险,以支持早期干预。方法亮点在于融合人体运动感知与站台几何理解。实际意义:可提升高风险情境的自动识别能力,助力自杀预防。

  • arXiv cs.CV论文11 小时前

    中文VideoOdyssey:面向超长上下文与全模态视频理解的基准测试

    ENVideoOdyssey: A Benchmark for Ultra-Long-Context and Omni-Modal Video Understanding

    现有长视频理解基准测试仅评估短视频片段理解,无法衡量超长上下文推理的挑战。本文针对现实长视频理解所需连续跟踪、信息整合与记忆保持的核心瓶颈,提出新的评估框架。

3 / 10
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情
详情