中文RoboSurg-VQA：一种面向手术分割感知的多模态视觉问答基准

ENRoboSurg-VQA: A Multimodal Benchmark for Surgical Segmentation-Aware Visual Question Answering

arXiv cs.CV2026年5月25日

RoboSurg-VQA基准：面向机器人辅助微创手术，整合公开手术分割数据集，构建分割感知的视觉问答任务。旨在解决术中遮挡、烟雾、出血等退化视图下，医生对手术上下文、器械与解剖结构的语言类提问，实现超越精确遮罩的可靠视觉理解。

arXiv:2605.23068v1 Announce Type: new Abstract: Reliable visual understanding in robot-assisted and minimally invasive surgery (RMIS/MIS) demands more than accurate masks: in clinical practice, clinicians pose language-like questions about procedural context, visibility, artefacts, and the presence of anatomical structures and surgical instruments, often under degraded views caused by occlusion, smoke, bleeding, and specular highlights. We present \textbf{RoboSurg-VQA}, a segmentation-aware visual question answering (VQA) benchmark built by repurposing public surgical segmentation datasets und