跨级别语义对齐用于影像学报告生成：联合、对齐和细化 (Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation) - 专知论文

会员服务 ·

0

报告生成 · 模态 · 跨模态 · 报告 · 精化 ·

2023 年 4 月 5 日

Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation

翻译：跨级别语义对齐用于影像学报告生成：联合、对齐和细化

Yaowei Li,Bang Yang,Xuxin Cheng,Zhihong Zhu,Hongxiang Li,Yuexian Zou

from arxiv, Try to solve the problem that Google Scholar does not display the all authors

Automatic radiology report generation has attracted enormous research interest due to its practical value in reducing the workload of radiologists. However, simultaneously establishing global correspondences between the image (e.g., Chest X-ray) and its related report and local alignments between image patches and keywords remains challenging. To this end, we propose an Unify, Align and then Refine (UAR) approach to learn multi-level cross-modal alignments and introduce three novel modules: Latent Space Unifier (LSU), Cross-modal Representation Aligner (CRA) and Text-to-Image Refiner (TIR). Specifically, LSU unifies multimodal data into discrete tokens, making it flexible to learn common knowledge among modalities with a shared network. The modality-agnostic CRA learns discriminative features via a set of orthonormal basis and a dual-gate mechanism first and then globally aligns visual and textual representations under a triplet contrastive loss. TIR boosts token-level local alignment via calibrating text-to-image attention with a learnable mask. Additionally, we design a two-stage training procedure to make UAR gradually grasp cross-modal alignments at different levels, which imitates radiologists' workflow: writing sentence by sentence first and then checking word by word. Extensive experiments and analyses on IU-Xray and MIMIC-CXR benchmark datasets demonstrate the superiority of our UAR against varied state-of-the-art methods.

翻译：自动化的影像学报告生成已经成为研究热点，因为它在减轻放射科医生工作负担方面具有实际价值。然而，同时建立图像(如胸部X射线)及其相关报告的全局对应关系和图像补丁与关键词之间的本地对齐仍然具有挑战性。为此，我们提出了一种联合、对齐和细化(UAR)方法，来学习跨模态的多级别对齐，并引入了三个新模块：潜空间整合器(LSU)、跨模态表征对齐器(CRA)和文本到图像精化器(TIR)。具体来说，LSU将多模态数据统一成离散的标记，通过共享网络线性学习模态之间的共同知识。不依赖于模态的CRA首先通过一组正交基和双门机制学习判别特征，然后在三元对比损失函数的影响下对全局进行视觉和文本表示对齐。TIR通过可学习蒙版校准文本到图像的注意力来加强标记级别的本地对齐。此外，我们设计了一个两阶段的训练过程，使UAR逐渐掌握不同级别的跨模态对齐，模仿放射科医生的工作流程：先一句一句地写，然后逐字核对。IU-Xray和MIMIC-CXR基准数据集上的大量实验和分析表明，我们的UAR相对于各种最先进的方法具有优势。

0

相关内容

报告生成

【CVPR2023】面向自监督视觉表示学习的混合自编码器

【CVPR2023】面向自监督视觉表示学习的混合自编码器

专知会员服务

25+阅读 · 2023年4月3日

【CVPR2023】基于动态图增强对比学习的胸部X光报告生成

【CVPR2023】基于动态图增强对比学习的胸部X光报告生成

专知会员服务

21+阅读 · 2023年3月23日

【AAAI2023】对比掩码自动编码器的自监督视频哈希

【AAAI2023】对比掩码自动编码器的自监督视频哈希

专知会员服务

15+阅读 · 2022年11月25日

【AAAI2022】基于渐进式增强学习的人脸伪造图像检测

【AAAI2022】基于渐进式增强学习的人脸伪造图像检测

专知会员服务

22+阅读 · 2022年1月19日

【AAAI2022】对偶对比学习在人脸伪造检测中的应用

【AAAI2022】对偶对比学习在人脸伪造检测中的应用

专知会员服务

23+阅读 · 2022年1月9日

【ECCV2020】EfficientFCN：语义分割中的整体引导解码器

【ECCV2020】EfficientFCN：语义分割中的整体引导解码器

专知会员服务

17+阅读 · 2020年8月23日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

专知

19+阅读 · 2018年6月1日

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

专知

17+阅读 · 2018年4月11日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【推荐】NiftyNet：面向医学图像分析和图像引导治疗的开源CNN平台（附代码）

【推荐】NiftyNet：面向医学图像分析和图像引导治疗的开源CNN平台（附代码）

机器学习研究会

12+阅读 · 2018年1月27日

深度学习医学图像分析文献集

深度学习医学图像分析文献集

机器学习研究会

19+阅读 · 2017年10月13日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

抑癌基因HOXD10及其启动子甲基化调控前列腺癌的作用及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非小细胞肺癌中黄连素干预TF/FVIIa通路抑制转移的作用研究

国家自然科学基金

0+阅读 · 2014年12月31日

ZEB2基因3’UTR区SNPs与非小细胞肺癌放射敏感性的相关性及机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

蛙皮素样肽t-BBN介导的核壳型金磁性纳米粒对乳腺癌的CT和MRI靶向成像研究

国家自然科学基金

0+阅读 · 2013年12月31日

神经内分泌肿瘤特异性多功能纳米分子探针NIRF-CCPM-Octreotide的研究

国家自然科学基金

0+阅读 · 2013年12月31日

miR-377与胃癌复发转移预后的关系及其机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

抑癌基因ECRG4在肾癌中的表达调控及功能研究

国家自然科学基金

0+阅读 · 2012年12月31日

MiR-195调控Dll4/Notch信号转导通路抗结直肠癌分子机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

无创医学影像指导下的siRNA基因干扰和酶解前药癌症协同疗法

国家自然科学基金

1+阅读 · 2009年12月31日

Thinking Twice: Clinical-Inspired Thyroid Ultrasound Lesion Detection Based on Feature Feedback

Arxiv

0+阅读 · 2023年5月24日

MIANet: Aggregating Unbiased Instance and General Information for Few-Shot Semantic Segmentation

Arxiv

0+阅读 · 2023年5月23日

Exploring Train and Test-Time Augmentations for Audio-Language Learning

Arxiv

0+阅读 · 2023年5月23日

Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching

Arxiv

0+阅读 · 2023年5月22日

SIDAR: Synthetic Image Dataset for Alignment & Restoration

Arxiv

0+阅读 · 2023年5月19日

MaGIC: Multi-modality Guided Image Completion

Arxiv

0+阅读 · 2023年5月19日

DSFNet: Dual Space Fusion Network for Occlusion-Robust 3D Dense Face Alignment

Arxiv

0+阅读 · 2023年5月19日

Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning

Arxiv

13+阅读 · 2021年4月7日

Deep Image Retrieval: A Survey

Arxiv

16+阅读 · 2021年1月27日

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Arxiv

10+阅读 · 2020年3月31日

VIP会员

文章信息

相关主题

相关VIP内容

【CVPR2023】面向自监督视觉表示学习的混合自编码器

【CVPR2023】面向自监督视觉表示学习的混合自编码器

专知会员服务

25+阅读 · 2023年4月3日

【CVPR2023】基于动态图增强对比学习的胸部X光报告生成

【CVPR2023】基于动态图增强对比学习的胸部X光报告生成

专知会员服务

21+阅读 · 2023年3月23日

【AAAI2023】对比掩码自动编码器的自监督视频哈希

【AAAI2023】对比掩码自动编码器的自监督视频哈希

专知会员服务

15+阅读 · 2022年11月25日

【AAAI2022】基于渐进式增强学习的人脸伪造图像检测

【AAAI2022】基于渐进式增强学习的人脸伪造图像检测

专知会员服务

22+阅读 · 2022年1月19日

【AAAI2022】对偶对比学习在人脸伪造检测中的应用

【AAAI2022】对偶对比学习在人脸伪造检测中的应用

专知会员服务

23+阅读 · 2022年1月9日

【ECCV2020】EfficientFCN：语义分割中的整体引导解码器

【ECCV2020】EfficientFCN：语义分割中的整体引导解码器

专知会员服务

17+阅读 · 2020年8月23日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

[ICML2025]当模型知识遇见扩散模型：扩散辅助的无数据图像合成及域与类别对齐

95页《深度研究DeepResearch的综合综述：系统、方法与应用》

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

何恺明CVPR最新讲座PPT上线《走向端到端生成建模》46页ppt

相关资讯

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

专知

19+阅读 · 2018年6月1日

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

专知

17+阅读 · 2018年4月11日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【推荐】NiftyNet：面向医学图像分析和图像引导治疗的开源CNN平台（附代码）

【推荐】NiftyNet：面向医学图像分析和图像引导治疗的开源CNN平台（附代码）

机器学习研究会

12+阅读 · 2018年1月27日

深度学习医学图像分析文献集

深度学习医学图像分析文献集

机器学习研究会

19+阅读 · 2017年10月13日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

相关论文

Thinking Twice: Clinical-Inspired Thyroid Ultrasound Lesion Detection Based on Feature Feedback

Arxiv

0+阅读 · 2023年5月24日

MIANet: Aggregating Unbiased Instance and General Information for Few-Shot Semantic Segmentation

Arxiv

0+阅读 · 2023年5月23日

Exploring Train and Test-Time Augmentations for Audio-Language Learning

Arxiv

0+阅读 · 2023年5月23日

Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching

Arxiv

0+阅读 · 2023年5月22日

SIDAR: Synthetic Image Dataset for Alignment & Restoration

Arxiv

0+阅读 · 2023年5月19日

MaGIC: Multi-modality Guided Image Completion

Arxiv

0+阅读 · 2023年5月19日

DSFNet: Dual Space Fusion Network for Occlusion-Robust 3D Dense Face Alignment

Arxiv

0+阅读 · 2023年5月19日

Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning

Arxiv

13+阅读 · 2021年4月7日

Deep Image Retrieval: A Survey

Arxiv

16+阅读 · 2021年1月27日

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Arxiv

10+阅读 · 2020年3月31日

相关基金

抑癌基因HOXD10及其启动子甲基化调控前列腺癌的作用及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非小细胞肺癌中黄连素干预TF/FVIIa通路抑制转移的作用研究

国家自然科学基金

0+阅读 · 2014年12月31日

ZEB2基因3’UTR区SNPs与非小细胞肺癌放射敏感性的相关性及机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

蛙皮素样肽t-BBN介导的核壳型金磁性纳米粒对乳腺癌的CT和MRI靶向成像研究

国家自然科学基金

0+阅读 · 2013年12月31日

神经内分泌肿瘤特异性多功能纳米分子探针NIRF-CCPM-Octreotide的研究

国家自然科学基金

0+阅读 · 2013年12月31日

miR-377与胃癌复发转移预后的关系及其机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

抑癌基因ECRG4在肾癌中的表达调控及功能研究

国家自然科学基金

0+阅读 · 2012年12月31日

MiR-195调控Dll4/Notch信号转导通路抗结直肠癌分子机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

无创医学影像指导下的siRNA基因干扰和酶解前药癌症协同疗法

国家自然科学基金

1+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员