검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Contextualized Language Generation on Visual-to-Language Storytelling 시각-언어 스토리텔링의 상황화된 언어 생성

Rizal Setya PERDANA, Yoshiteru ISHIDA

  • 조회수

    0

  • 이것을 인용

요약 :

본 연구에서는 시각적 표현을 통해 기계가 상황을 인식하는 자연어를 생성하기 위한 공식을 제시합니다. 이미지 시퀀스 입력이 주어지면 시각적 스토리텔링 작업(VST)은 일관되고 객체 중심적이며 상황에 맞는 문장 스토리를 생성하는 것을 목표로 합니다. 이 영역의 이전 연구에서는 시간적 다중 모드 데이터에서 작동하는 아키텍처를 모델링하는 데 문제가 있었으며, 이로 인해 낮은 어휘 다양성, 단조로운 문장 및 부정확한 문맥과 같은 낮은 품질의 출력이 발생했습니다. 본 연구에서는 추가적인 개선 사항, 즉 시각적-시간적 특징을 추출하고 그럴듯한 스토리를 생성하도록 최적화된 교차 모달 맥락화 주의라고 불리는 엔드투엔드 아키텍처를 소개합니다. 시각적 개체 및 비시각적 개념 기능은 컨볼루셔널 기능 맵에서 인코딩되며 개체 감지 기능은 언어 기능과 결합됩니다. 사전 훈련된 언어 생성 모델의 가중치를 통합하여 언어 생성 디코딩에 세 가지 시나리오가 정의됩니다. 제안된 모델이 자동 측정 및 수동 인간 평가 측면에서 다른 모델보다 우수한지 확인하기 위해 광범위한 실험이 수행되었습니다.

발행
IEICE TRANSACTIONS on Information Vol.E105-D No.5 pp.873-886
발행일
2022/05/01
공개일
2022/01/17
온라인 ISSN
1745-1361
DOI
10.1587/transinf.2021KBP0002
원고의 종류
Special Section PAPER (Special Section on Knowledge-Based Software Engineering)
범주

작성자

Rizal Setya PERDANA
  Toyohashi University of Technology,Universitas Brawijaya
Yoshiteru ISHIDA
  Toyohashi University of Technology

키워드