机器之心专栏
机器之心编辑部
大模型想打开应用前景,要从数据集入手。
胸部X光片图像作为临床诊断最常用的手段之一,是计算机与医学结合的一个重要领域。其丰富的视觉和病例报告文本信息促进了vision-language在医学领域发展。医学VQA是其中的一个重要方向,近年来比较著名的ImageCLEF-VQA-Med,和VQA-RAD数据集包含了许多了胸部X光片问答对。
然而,尽管X胸片检查报告中包含大量临床信息,现有医学VQA任务的问题种类和数量有限,在临床方面的贡献也相对有限。例如,ImageCLEF-VQA-Med对于胸部X光片模态只有两种问题,“这张图片里是否有异常?”,以及“这张图片里最主要的异常是什么?”,VQA-RAD的问题种类虽然更丰富,但是却只含有张图片。
在今年的KDD上,来自德州大学阿灵顿分校,NIH以及日本理化学研究所,东京大学,国立癌症研究中心的研究人员和放射科医生,联合设计了一个服务临床诊断的大型VQA数据集,MIMIC-Diff-VQA。
论文