검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

A CNN-Based Multi-Scale Pooling Strategy for Acoustic Scene Classification 음향 장면 분류를 위한 CNN 기반 다중 규모 풀링 전략

Rong HUANG, Yue XIE

  • 조회수

    0

  • 이것을 인용

요약 :

음향 장면 분류(ASC)는 인공 지능 분류 작업 영역 내의 기본 영역입니다. ASC 기반 작업은 일반적으로 Log-Mel 스펙트로그램을 음향 특징 수집을 위한 입력으로 활용하는 CNN(컨벌루션 신경망) 기반 모델을 사용합니다. 본 논문에서는 ASC를 위한 CNN 기반 다중 규모 풀링(MSP) 전략을 설계했습니다. Log-Mel 스펙트로그램은 4개의 주파수 축 세그먼트로 분할된 CNN에 대한 입력으로 활용됩니다. 또한, 우리는 서로 다른 주파수 범위에서 입력을 얻기 위해 4개의 CNN 채널을 고안했습니다. 다양한 주파수 대역의 출력에서 ​​추출된 상위 수준 특징은 여러 수준의 주파수 피라미드 평균 풀링 레이어를 통해 통합됩니다. 그 후, 다양한 장면을 분류하기 위해 소프트맥스 분류기가 사용됩니다. 우리의 연구는 우리가 설계한 모델을 구현하면 두 개의 음향 데이터 세트를 테스트한 결과 모델 성능이 크게 향상된다는 사실을 보여줍니다.

발행
IEICE TRANSACTIONS on Information Vol.E107-D No.1 pp.153-156
발행일
2024/01/01
공개일
2023/10/17
온라인 ISSN
1745-1361
DOI
10.1587/transinf.2023EDL8048
원고의 종류
LETTER
범주
언어 및 청각

작성자

Rong HUANG
  Nanjing University of Posts and Telecommunications
Yue XIE
  Nanjing Institute of Technology

키워드