검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Research on Lightweight Acoustic Scene Perception Method Based on Drunkard Methodology 주정뱅이 방법론을 기반으로 한 경량 음향 장면 인식 방법에 관한 연구

Wenkai LIU, Lin ZHANG, Menglong WU, Xichang CAI, Hongxia DONG

  • 조회수

    0

  • 이것을 인용

요약 :

ASC(Acoustic Scene Classification)의 목표는 주변 환경에 대한 인간의 분석을 시뮬레이션하고 신속하게 정확한 결정을 내리는 것입니다. 실제 시나리오의 오디오 신호에서 유용한 정보를 추출하는 것은 어려운 일이며 특히 상대적으로 동질적인 배경을 가진 환경에서는 음향 장면 분류에서 차선의 성능으로 이어질 수 있습니다. 이 문제를 해결하기 위해 우리는 실생활에서 "술고래"의 냉정한 과정과 일반 사람들의 행동을 지도하는 과정을 모델링하고 "술고래 방법론"이라는 고정밀 경량 모델 구현 방법론을 구축합니다. 핵심 아이디어는 세 부분으로 구성됩니다. (1) 술고래와 일반 사람들 사이의 서로 다른 정보 인식 메커니즘을 기반으로 특수 기능 변환 모듈을 설계하여 점차 정신을 차리는 과정과 기능 인식 능력의 변화를 시뮬레이션합니다. (2) 일반 모델의 인식 처리 프로세스와 일치하는 경량의 "drunken" 모델을 연구합니다. 이 모델은 다중 스케일 클래스 잔차 블록 구조를 사용하고 다양한 스케일에서 추출된 정보를 융합하여 더 미세한 특징 표현을 얻을 수 있습니다. (3) "술 취한" 모델에 기존 모델의 안내 및 융합 모듈을 도입하여 정신 차리기 프로세스의 속도를 높이고 반복적인 최적화 및 정확도 향상을 달성합니다. DCASE2022 Task1의 공식 데이터세트에 대한 평가 결과는 우리의 기준 시스템이 40.4K 매개변수와 2.284M MAC(곱셈-누산 연산) 조건에서 442.67% 정확도와 19.40 손실을 달성했음을 보여줍니다. Drunkard 메커니즘을 채택한 후 정확도는 45.2%로 향상되었으며 0.634K 매개변수 및 551.89M MAC 조건에서 손실은 23.6만큼 감소했습니다.

발행
IEICE TRANSACTIONS on Information Vol.E107-D No.1 pp.83-92
발행일
2024/01/01
공개일
2023/10/23
온라인 ISSN
1745-1361
DOI
10.1587/transinf.2023EDP7107
원고의 종류
PAPER
범주
인공지능, 데이터마이닝

작성자

Wenkai LIU
  North China University of Technology
Lin ZHANG
  North China University of Technology
Menglong WU
  North China University of Technology
Xichang CAI
  North China University of Technology
Hongxia DONG
  North China University of Technology

키워드