검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Vector Quantization of Speech Spectrum Based on the VQ-VAE Embedding Space Learning by GAN Technique GAN 기법을 이용한 VQ-VAE 임베딩 공간 학습 기반 음성 스펙트럼의 벡터 양자화

Tanasan SRIKOTR, Kazunori MANO

  • 조회수

    0

  • 이것을 인용

요약 :

스펙트럼 엔벨로프 매개변수는 보코더 품질에 있어 중요한 음성 매개변수입니다. 최근 VQ-VAE(Vector Quantized Variational AutoEncoder)는 딥러닝 모델을 기반으로 하는 최첨단 엔드투엔드 양자화 방법입니다. 본 논문에서는 VQ-VAE-EMGAN이라는 스펙트럼 포락선 매개변수를 양자화하기 위한 생성적 적대 신경망(Generative Adversarial Network)을 사용하여 VQ-VAE의 임베딩 공간 학습을 개선하는 새로운 기술을 제안했습니다. 실험에서는 16kHz 음성 파형에서 추출된 WORLD 보코더의 스펙트럼 포락선 매개변수에 대한 양자화기를 설계했습니다. 결과에서 볼 수 있듯이 제안하는 기법은 기존 VQ-VAE에 비해 0.5개의 타겟 비트 연산에 대해 평균적으로 LSD(Log Spectral Distortion)를 0.17dB 정도 감소시키고 PESQ를 XNUMX 정도 증가시키는 것으로 나타났다.

발행
IEICE TRANSACTIONS on Fundamentals Vol.E105-A No.4 pp.647-654
발행일
2022/04/01
공개일
2021/09/30
온라인 ISSN
1745-1337
DOI
10.1587/transfun.2021SMP0018
원고의 종류
Special Section PAPER (Special Section on Smart Multimedia & Communication Systems)
범주
음성 및 청각, 디지털 신호 처리

작성자

Tanasan SRIKOTR
  Shibaura Institute of Technology
Kazunori MANO
  Shibaura Institute of Technology

키워드