검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Language Recognition Based on Acoustic Diversified Phone Recognizers and Phonotactic Feature Fusion 음향다양화된 전화 인식기와 음성특징 융합을 기반으로 한 언어 인식

Yan DENG, Wei-Qiang ZHANG, Yan-Min QIAN, Jia LIU

  • 조회수

    0

  • 이것을 인용

요약 :

언어 인식을 위한 전형적인 음성 체계 중 하나는 병렬 전화 인식과 그에 따른 벡터 공간 모델링(PPRVSM)입니다. 이 시스템에서는 다양한 전화 인식기가 병렬로 적용되고 점수 수준에서 융합됩니다. 각 전화 인식기는 알려진 언어에 대해 훈련되었으며, 이는 효과적인 융합을 위해 보완적인 정보를 추출하는 것으로 가정됩니다. 그러나 이 방법은 단어 또는 전화 수준의 전사가 필요한 많은 양의 훈련 샘플로 인해 제한됩니다. 또한 기능이나 모델 수준의 융합은 점수 수준보다 더 많은 정보를 유지하므로 점수 융합은 최적의 방법이 아닙니다. 본 논문에서는 병렬 전화 인식기(PPR)를 구축하고 융합하는 새로운 전략을 제시합니다. 이는 여러 음향 다각화된 전화 인식기를 훈련하고 기능 수준에서 융합함으로써 달성됩니다. 전화 인식기는 동일한 음성 데이터로 훈련되지만 다른 음향 특징과 모델 훈련 기술을 사용합니다. 음향 특성에는 MFCC(Mel-Frequency Cepstral Coefficient)와 PLP(Perceptual Linear Prediction)가 모두 사용됩니다. 또한, 보완적인 음향 정보를 추출하기 위해 새로운 시간-주파수 켑스트럼(TFC) 기능이 제안되었습니다. 모델 훈련을 위해 우리는 보완적인 음향 모델을 훈련하기 위해 최대 우도 및 기능 최소 전화 오류 방법의 사용을 조사합니다. 본 연구에서는 PPRVSM 시스템을 구축하기 위해 간단한 선형 융합 방법을 사용하여 음향 다각화된 전화 인식기의 음성 특징을 융합합니다. 융합 인자 최적화를 위해 새로운 LROW(로지스틱 회귀 최적화 가중치) 접근 방식이 도입되었습니다. 실험 결과는 특징 수준의 융합이 점수 수준의 융합보다 더 효과적이라는 것을 보여줍니다. 그리고 제안된 시스템은 기존의 PPRVSM과 경쟁력이 있다. 마지막으로 추가 개선을 위해 두 시스템을 결합합니다. 본 문서에 보고된 최고 성능의 시스템은 폐쇄형 데이터베이스에 대해 NIST 1.24 LRE 4.98초, 14.96초 및 2007초 평가 데이터베이스에서 각각 30%, 10% 및 3%의 EER(동일 오류율)을 달성했습니다. 테스트 조건을 설정합니다.

발행
IEICE TRANSACTIONS on Information Vol.E94-D No.3 pp.679-689
발행일
2011/03/01
공개일
온라인 ISSN
1745-1361
DOI
10.1587/transinf.E94.D.679
원고의 종류
PAPER
범주
언어 및 청각

작성자

키워드