검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Speaker Recognition by Combining MFCC and Phase Information in Noisy Conditions 시끄러운 환경에서 MFCC와 위상 정보를 결합하여 화자 인식

Longbiao WANG, Kazue MINAMI, Kazumasa YAMAMOTO, Seiichi NAKAGAWA

  • 조회수

    0

  • 이것을 인용

요약 :

본 논문에서는 잡음이 있는 조건에서 화자 인식을 위한 위상의 효율성을 조사하고 위상 정보를 멜주파수 켑스트럴 계수(MFCC)와 결합합니다. 현재까지 대부분의 화자 인식 방법은 시끄러운 환경에서도 MFCC를 기반으로 합니다. 성도 정보를 주로 캡처하는 MFCC의 경우 시간 영역 음성 프레임의 푸리에 변환 크기만 사용되며 위상 정보는 무시되었습니다. 위상 정보에는 풍부한 음성 소스 정보가 포함되어 있으므로 위상 정보와 MFCC의 높은 보완성이 기대됩니다. 또한 일부 연구에서는 위상 기반 기능이 잡음에 강하다고 보고했습니다. 이전 연구에서는 입력 음성의 클리핑 위치에 따른 위상 변화 변화를 정규화하는 위상 정보 추출 방법이 제안되었으며, 위상 정보와 MFCC의 조합 성능은 MFCC보다 현저히 우수했다. 본 논문에서는 잡음이 있는 상황에서 화자를 식별하기 위해 제안된 위상 정보의 견고성을 평가합니다. 낮은 에너지/신호 대 잡음(SN)을 사용하여 프레임을 건너뛰는 방법인 스펙트럼 차감과 잡음이 있는 음성 훈련 모델을 사용하여 잡음이 있는 조건에서 위상 정보 및 MFCC의 효과를 분석합니다. NTT 데이터베이스와 고정/비고정 소음이 추가된 JNAS(일본 신문 기사 문장) 데이터베이스를 사용하여 제안된 방법을 평가했습니다. MFCC는 깨끗한 음성에 대한 위상 정보보다 성능이 뛰어났습니다. 반면, 시끄러운 음성에 대한 위상 정보의 열화는 MFCC보다 훨씬 적었습니다. 깔끔한 음성 훈련 모델을 통해 많은 경우에 위상 정보의 개별 결과가 MFCC의 결과보다 훨씬 뛰어났습니다. 신뢰할 수 없는 프레임(에너지/SN이 낮은 프레임)을 삭제함으로써 화자 식별 성능이 크게 향상되었습니다. 위상 정보를 MFCC와 통합함으로써 표준 MFCC 기반 방식에 비해 화자 식별 오류 감소율은 약 30~60%였다.

발행
IEICE TRANSACTIONS on Information Vol.E93-D No.9 pp.2397-2406
발행일
2010/09/01
공개일
온라인 ISSN
1745-1361
DOI
10.1587/transinf.E93.D.2397
원고의 종류
Special Section PAPER (Special Section on Processing Natural Speech Variability for Improved Verbal Human-Computer Interaction)
범주
화자 인식

작성자

키워드