검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Siamese Attention-Based LSTM for Speech Emotion Recognition 음성 감정 인식을 위한 Siamese Attention 기반 LSTM

Tashpolat NIZAMIDIN, Li ZHAO, Ruiyu LIANG, Yue XIE, Askar HAMDULLA

  • 조회수

    0

  • 이것을 인용

요약 :

인간-컴퓨터 상호작용 분야에서 인기 있는 주제 중 하나인 음성 감정 인식(SER)은 화자의 발화에서 감정적 경향을 분류하는 것을 목표로 합니다. 기존의 딥러닝 방법과 많은 양의 훈련 데이터를 활용하면 매우 정확한 성능 결과를 얻을 수 있습니다. 안타깝게도 보편적으로 적용할 수 있는 이렇게 거대한 감정 음성 데이터베이스를 구축하는 것은 시간이 많이 걸리고 어려운 작업입니다. 그러나 본 논문에서 논의하는 SNN(Siamese Neural Network)은 샘플 부족의 영향을 완화하고 충분한 반복을 제공하는 쌍별 학습을 통해 제한된 양의 학습 데이터만으로 매우 정확한 결과를 얻을 수 있습니다. 충분한 SER 훈련을 얻기 위해 본 연구에서는 Siamese Attention 기반 장기 단기 기억 네트워크를 사용하는 새로운 방법을 제안합니다. 이 프레임워크에서 우리는 동일한 가중치를 공유하는 두 개의 주의 기반 장기 단기 기억 네트워크를 설계했으며, 발화 수준의 감정적 특징보다는 프레임 수준의 음향적 감정적 특징을 Siamese 네트워크에 입력했습니다. 제안된 솔루션은 EMODB, ABC, UYGSEDB corpora에서 평가되었으며, 기존 딥러닝 방법에 비해 SER 결과가 크게 향상되었음을 보여주었습니다.

발행
IEICE TRANSACTIONS on Fundamentals Vol.E103-A No.7 pp.937-941
발행일
2020/07/01
공개일
온라인 ISSN
1745-1337
DOI
10.1587/transfun.2019EAL2156
원고의 종류
LETTER
범주
엔지니어링 음향

작성자

Tashpolat NIZAMIDIN
  Southeast University
Li ZHAO
  Southeast University
Ruiyu LIANG
  Nanjing Institute of Technology
Yue XIE
  Southeast University
Askar HAMDULLA
  Xinjiang University

키워드