검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Vision-Text Time Series Correlation for Visual-to-Language Story Generation 시각-언어 스토리 생성을 위한 비전-텍스트 시계열 상관관계

Rizal Setya PERDANA, Yoshiteru ISHIDA

  • 조회수

    0

  • 이것을 인용

요약 :

시각적 스토리텔링으로 알려진 시각적 데이터 표현에서 텍스트 스토리의 자동 생성은 이미지-텍스트 문제의 최근 발전입니다. 단일 이미지를 입력으로 사용하는 대신 시각적 스토리텔링은 일련의 이미지 배열을 일관된 문장으로 처리합니다. 이야기에는 문자 그대로의 대상에 대한 설명뿐만 아니라 비시각적 개념도 포함됩니다. 이전 접근 방식이 외부 지식을 적용한 반면, 우리의 접근 방식은 비시각적 개념을 시각적 양식과 텍스트 양식 간의 의미적 상관 관계로 간주하는 것이었습니다. 따라서 이 논문에서는 두 양식 간의 표준 상관 분석을 기반으로 새로운 기능 표현을 제시합니다. 어텐션 메커니즘은 표준 인코더-디코더 모델이 아닌 이미지-텍스트 문제의 기본 아키텍처로 채택됩니다. 제안된 end-to-end 아키텍처인 CAAM(Canonical Correlation Attention Mechanism)은 교차 모달 상관관계를 최대화하여 시계열 상관관계를 추출합니다. 자동 메트릭 측면에서 아키텍처의 효율성을 입증하기 위해 VIST 데이터 세트(http://visionand언어.net/VIST/dataset.html)에 대한 광범위한 실험이 수행되었으며, 추가 실험에서는 양식 융합 전략의 영향이 나타났습니다.

발행
IEICE TRANSACTIONS on Information Vol.E104-D No.6 pp.828-839
발행일
2021/06/01
공개일
2021/03/08
온라인 ISSN
1745-1361
DOI
10.1587/transinf.2020EDP7131
원고의 종류
PAPER
범주
인공지능, 데이터마이닝

작성자

Rizal Setya PERDANA
  Toyohashi University of Technology,Universitas Brawijaya
Yoshiteru ISHIDA
  Toyohashi University of Technology

키워드