검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Dual Self-Guided Attention with Sparse Question Networks for Visual Question Answering 시각적 질문 응답을 위한 희소 질문 네트워크를 사용한 이중 자기 유도 주의

Xiang SHEN, Dezhi HAN, Chin-Chen CHANG, Liang ZONG

  • 조회수

    0

  • 이것을 인용

요약 :

VQA(시각적 질문 응답)는 시각과 텍스트의 동시 처리가 필요한 다중 작업 연구입니다. VQA 모델에 대한 최근 연구에서는 Co-Attention 메커니즘을 사용하여 컨텍스트와 이미지 사이에 모델을 구축합니다. 그러나 질문의 ​​특징과 이미지 영역의 모델링으로 인해 모델에서 관련 없는 정보가 강제로 계산되어 성능에 영향을 미칩니다. 본 논문에서는 이 문제를 해결하기 위해 희소 질문 네트워크(DSSQN)를 사용한 새로운 이중 자기 유도 주의를 제안합니다. 목표는 질문과 이미지 모두에 대한 내부 종속성을 모델링할 때 관련 없는 정보가 모델에 계산되는 것을 방지하는 것입니다. 동시에 희소 질문 기능과 이미지 기능 간의 거친 상호 작용을 극복합니다. 먼저, 인코더의 SQSA(Sparse Question Self-Attention) 유닛은 가장 높은 가중치를 갖는 특징을 계산합니다. 질문 단어의 self-attention 학습에서 더 큰 가중치의 질문 특징이 유보됩니다. 둘째, 희소 질문 특징은 이미지 특징에 초점을 맞춰 세분화된 이미지 특징을 얻고, 관련 없는 정보가 모델에 계산되는 것을 방지하는 데 활용됩니다. DSGA(Dual Self-Guided Attention) 장치는 질문과 이미지 간의 모달 상호 작용을 개선하도록 설계되었습니다. 셋째, 매개변수 δ의 희소 질문 self-attention을 최적화하여 이러한 질문 관련 개체 영역을 선택합니다. VQA 2.0 벤치마크 데이터 세트를 사용한 실험에서는 DSSQN이 최첨단 방법보다 성능이 우수하다는 것을 보여줍니다. 예를 들어, 우리가 제안한 모델의 정확도는 테스트 개발테스트 표준 각각 71.03%, 71.37%이다. 또한 시각화 결과를 통해 우리 모델이 다른 고급 모델보다 중요한 기능에 더 많은 주의를 기울일 수 있음을 보여줍니다. 동시에 인공지능(AI) 분야에서 VQA의 발전도 촉진할 수 있기를 바랍니다.

발행
IEICE TRANSACTIONS on Information Vol.E105-D No.4 pp.785-796
발행일
2022/04/01
공개일
2022/01/06
온라인 ISSN
1745-1361
DOI
10.1587/transinf.2021EDP7189
원고의 종류
PAPER
범주
자연 언어 처리

작성자

Xiang SHEN
  Shanghai Maritime University
Dezhi HAN
  Shanghai Maritime University
Chin-Chen CHANG
  Feng Chia University
Liang ZONG
  Shaoyang University

키워드