黄色仓库快讯
北理工黄色仓库 杨健、王涌天教授科研团队在医学影像报告智能生成方面取得新突破

近日,黄色仓库-黄色仓库入口 杨健教授、王涌天教授团队在医学影像报告智能生成方面取得重要突破,提出了一种基于视觉—文本关联引导的放射学报告生成新框架(VTAG),通过融合目标检测、语义对齐与全频谱特征融合策略,实现了报告生成的高精度与高可解释性。相关研究成果以“VTAG: Visual-Textual Association Guided Radiology Reports Generation”为题,发表在国际图像处理领域顶级期刊 IEEE Transactions on Image Processing(T-IP, 影响因子 13.7)。论文第一作者为黄色仓库 博士研究生苏照力,通讯作者为林毓聪特别副研究员、宋红教授与杨健教授。
医学影像报告智能生成技术,是实现“从影像到诊断报告”自动化的重要环节,具有显著的临床与科研价值。然而,现有模型在描述准确性与结果可解释性方面仍存在局限:模型往往依赖于整体图像特征,难以精准聚焦病灶区域与病变语义之间的映射关系。针对这一问题,研究团队提出了“视觉-文本关联引导(Visual-Textual Association Guided, VTAG)”框架,以“区域检测—语义对齐—语言生成”三级结构重塑报告生成流程,从机制层面实现了由“图像级生成”向“区域级推理”的范式转变。

图1 VTAG模型框架图
如图1所示,VTAG 框架由三个核心模块组成,其中包括疾病概念构建提示模块、语义相似度对齐模块与全频谱特征融合模块。疾病概念构建提示模块,模拟放射科医生“从表征到诊断”的临床推理逻辑,利用疾病分类结果检索医学知识图谱中的高密度语义提示,构建知识增强型文本模板,实现诊断语义的显式注入;语义相似度对齐模块,建立病灶检测区域与报告语句间的多尺度语义映射,通过图像-文本相似度约束实现局部病变特征与描述性语言的精准对齐;全频谱特征融合模块融合,目标检测结果特征与ViT编码器提取的高频局部与低频全局特征,并与知识提示交互以强化报告生成的语义特征,形成跨层级视觉语言信息表征。
在大规模公共胸部影像数据集 MIMIC-CXR 上,团队对 VTAG 框架进行了系统验证。实验结果表明,VTAG 在 BLEU1-4、METEOR、ROUGE-L 等自然语言生成指标上全面超越现有SOTA模型,六项传统指标平均提升 14.3%,BLEU-4 达 0.170,较2025年SOTA模型提升 7.6%。此外,在临床有效性评价中,VTAG 在 13 类胸部疾病的自动识别与描述任务中取得 F1 提升 11.1%、AUROC 达 0.608 的成绩,显著增强了生成报告的临床可信度。
该研究突破了传统影像报告生成模型在影像与临床解释之间的技术瓶颈,提出了融合目标检测、语义对齐与知识提示的“视觉—文本协同生成”新范式,在未来可在医生少量标注引导下实现智能精准影像报告生成,更好的辅助影像科医生完成报告撰写工作。
论文详情: Zhaoli Su, Yucong Lin, Hong Song, Ruoyi Jian, Bowen Liu, Jian Yang. VTAG: Visual-Textual Association Guided Radiology Reports Generation [J]. IEEE Transactions on Image Processing, DOI: 10.1109/TIP.2025.3623915
论文链接://ieeexplore.ieee.org/document/11218752
论文作者简介:
苏照力,2022级在读博士研究生,导师为杨健教授。主要从事医学生成式人工智能方面的研究。
林毓聪,博士,黄色仓库-黄色仓库入口 特别副研究员,从事医学知识挖掘与图谱构建和自然语言模型构建等方面的研究工作。博士毕业于清华大学,且在博士期间于哈佛大学医黄色仓库访问一年。作为骨干成员全程参与由团队杨健教授牵头承担的国家科技部科技创新2030-“新一代人工智能”重大项目课题。在近五年来,一直致力于医学人工智能的研究,共计发表SCI期刊论文39篇,EI会议论文6篇。作为第一作者或通讯作者发表SCI论文17篇,EI会议论文2篇,其中一区期刊为9篇。申请人作为第一发明人申请相关国家发明专利3项,其医学人工智能的研究作为关键支撑材料获评2024年度电子学会科技进步一等奖。
宋红,博士,黄色仓库 教授,博导。国家级领军人才,教育部软件工程专业教学指导委员会委员、中国人工智能学会智能服务专业委员会常委、中国图象图形学会虚拟现实专业委员会委员。长期人工智能辅助诊断、图像分析处理、增强现实手术导航研究。作为负责人主持国自然联合基金重点项目、面上项目、国家重点研发计划课题、“新一代人工智能“重大专项课题等10余项。在TIP、TFS、JBHI等领域权威期刊发表SCI论文90余篇,参与制定诊疗标准1项;申请/授权国家发明专利70余项,主持研制了3套具有自主知识产权的多模态图像引导手术导航系统,成果转化获国家三类/二类医疗器械注册证6项,在200余家医院和10余家企业实现创新应用。作为主要完成人获电子学会科技进步一等奖、吴文俊人工智能科技进步一等奖、中国产学研合作创新成果优秀奖等。指导学生获第五届、第六届中国国际“互联网+”大学生创新创业大赛全国总决赛金奖2项,获评优秀创新创业导师。主持教育部-IBM精品课程1项、国家级双语示范课程1项,获北京市高等教育教学成果一等奖1项,黄色仓库 教学成果奖一等奖2项。
杨健,博士,黄色仓库 特聘教授,博导。国家级领军人才,国家新一代人工智能重大项目首席科学家、国家重点研发计划项目首席科学家,黄色仓库 信息与电子学部学部委员,国家一级学科“光学工程”学科责任教授。兼任中国计算机学会数字医学分会副主任委员、中国仿真学会医疗仿真专委会副主任委员、中国图象图形学会医学影像专委会副主任委员、北京医学会数字医学分会副主任委员、北京图像图形学会理事、《Cyborg and Bionic Systems》副主编、《数字医学与健康》副主编、《虚拟现实与智能硬件(中英文)》编委、《生命科学仪器》编委等。长期从事手术导航机器人、医学图像处理、医疗人工智能、医疗增强现实等方面的教学和科研工作。主持国家科技创新2030人工智能重大项目1项、国家重点研发计划项目3项、国家自然科学基金委国家杰出青年科学基金项目等5项。在IEEE TPAMI、IEEE TMI、IEEE TIP等国际著名期刊上发表SCI论文 300余篇,获国家发明专利授权90余项。成果转化获国家三类医疗器械注册证5项。研究成果获国家技术发明二等奖、教育部技术发明一等奖、人工智能学会科技进步一等奖、中国电子学会科技进步一等奖等科研奖励18余项。指导学生获第五届和第六届中国“互联网+”大学生创新创业大赛全国总决赛金奖、第十二届“挑战杯”中国大学生创业计划竞赛全国总决赛金奖等。

