1. 서론
범죄를 예방하고 억제하기 위해 곳곳에 보안 카메라가 설치되어 있습니다. 단, 개인정보 보호나 밝기 요구사항으로 인해 설치 위치가 제한됩니다. 이러한 단점을 해결하기 위해 소리를 활용한 보안 시스템이 제안되었습니다. 비명 감지 시스템은 이상 상황을 즉각적으로 감지할 수 있어 범죄 예방 및 억제에 매우 효과적이다[1]-[6]. 또한, 녹음된 비명소리는 재판이나 수사에서 증거로 활용될 수도 있다[7].
본 논문에서는 비명을 여성이 두려움을 표현하기 위해 내는 소리로 정의한다. 그 이유는 여성이 일반적으로 남성보다 자기 방어력이 약하고 비명을 지르는 경향이 더 높기 때문입니다. 비명 감지 시스템은 어디에서나 사용할 수 있다는 장점이 있지만, 소음의 영향을 받아 그 목적을 충분히 달성하지 못할 수 있습니다. 또한, 녹음된 비명소리가 소음에 의해 품질이 저하되면 증거로서의 타당성을 잃게 됩니다. 따라서 증거가치를 보존하기 위해 시끄러운 비명소리에 대한 소음저감 방법에 대한 비교실험을 실시하였다. 그 결과 Wave-U-Net은 Speech Enhancement Generative Adversarial Network [8]와 같은 다른 방법에 비해 가장 많은 잡음을 감소시키는 것으로 확인되었습니다. 그러나 Wave-U-Net은 비명과 유사한 잡음 성분을 강조하여 정확도가 떨어진다는 사실도 발견했습니다[9].
소리 이벤트 감지와 같은 오디오 감시 시스템이 연구되었지만 비명 감지 시스템을 전문적으로 다룬 연구는 거의 없습니다. 비명 탐지의 특징으로 MFCC(Mel-Frequency Cepstral Coefficient), 대역 제한 스펙트럼 엔트로피(Band-Limited Spectral Entropy)[2], 시간 영역 특성과 주파수 영역 특성을 통합한 Combo-SAD[3] 등이 제안되었습니다. 널리 사용되는 분류기에는 GMM(Gaussian Mixed Model)과 SVM(Support Vector Machine)이 있으며, SNR(Signal-to-Noise Ratio) 및 입력 오디오 샘플의 상황에 따라 SVM 매개변수를 조정하는 방법도 제안되었습니다[4 ]. 또한 딥러닝을 활용한 여러 가지 방법도 제안되었다[5]-[6]. 본 논문에서는 Wave-U-Net을 통해 강화된 비명을 활용하여 비명 탐지의 정확도를 향상시킬 수 있는지 여부를 조사한다. 따라서 본 논문에서는 기존의 비명탐지에서 널리 사용되는 MFCC와 GMM을 특징과 분류자로 사용한다. 비명 향상과 비명 감지 모두에 딥러닝을 사용하면 계산 비용이 증가하므로 이 백서에서는 논의하지 않습니다.
섹션 2에서는 Wave-U-Net과 강화된 비명에 대해 설명합니다. Wave-U-Net을 사용한 비명 탐지 프레임워크는 Sect. 3, 평가 결과는 Sec.에 제시되어 있다. 4. 마지막으로 Sec.에 핵심 내용을 요약하였다. 5.
2. 비명 강화를 위한 Wave-U-Net
2.1 웨이브-U-넷 [10]
Wave-U-Net 아키텍처는 시간 영역 신호를 직접 처리할 수 있는 일반 u-net의 9차원 버전입니다. Wave-U-Net은 음악과 보컬을 분리하는 데 사용됩니다. 우리는 또한 비명과 소음을 분리하는 데 매우 효과적이라는 것을 발견했습니다[XNUMX].
그림 1은 Wave-U-Net의 아키텍처를 보여줍니다. 그것은 포함 \(L\) 다운샘플링 블록은 각각 1차원 컨볼루션 및 데시메이션 레이어, 하나의 하단 컨볼루션 레이어, \(L\) 업샘플링 블록은 각각 1차원 컨볼루션 및 보간 레이어로 구성됩니다. 입력 신호는 시끄러운 비명이며, 출력 신호는 깨끗한 비명과 소음입니다.
다운샘플링 블록은 시간 분해능을 줄이면서 여러 가지 더 높은 수준의 특징을 추출합니다. 이러한 기능은 동일한 레벨 업샘플링 블록에서 계산된 로컬 고해상도 기능과 연결됩니다. 결과는 예측을 위해 다중 규모 특성으로 연결됩니다. 각 다운샘플링 블록의 데시메이션 레이어는 이전 블록의 시간 분해능의 절반으로 작동합니다. 다운샘플링 블록의 1차원 컨볼루션 레이어는 다음과 같습니다. \(F*l\) 크기의 필터 \(f_d\)어디로 \(l\) 다운샘플링 블록의 순서를 나타냅니다.
각 업샘플링 블록은 시간 방향으로 이중 업샘플링을 실행한 다음 동일한 규모의 다운샘플링 블록의 특징을 연결한 다음 1차원 컨볼루션을 실행합니다. 각 보간 레이어에는 쌍선형 보간이 사용됩니다. 업샘플링 블록의 1차원 컨볼루션 레이어는 다음과 같습니다. \(F*l\) 크기의 필터 \(f_u\).
이 블록의 각 컨볼루션 레이어 뒤에는 다음과 같은 누출 정류 선형 유닛 활성화가 이어집니다. \(\alpha=0.3\), tanh는 네트워크의 마지막 컨볼루션 계층에서 사용됩니다.
2.2 Wave-U-Net으로 강화된 Scream
그림 2는 Wave-U-Net을 사용하여 깨끗한 비명, 시끄러운 비명, 향상된 비명의 스펙트로그램을 보여줍니다. 이 스펙트로그램에서 비명 구간은 0.25초에서 1.25초 사이입니다. Wave-U-Net은 노이즈를 대폭 제거하고 고조파 성분을 남기는 데 성공했습니다. 그러나 그림 0(c)의 비명소리 구간(0.1~1.3초, 1.5~2초)에서는 비명소리와 동일한 주파수 성분이 강화되었다. 또한, 비명 구간에서 깨끗한 비명의 스펙트로그램과 강조된 비명의 스펙트로그램이 다르다. 따라서 Wave-U-Net의 출력을 비명검출에 사용하게 되면 비절규 구간에서 오검출이 자주 발생할 수 있다.
3. 소음에 강한 비명 감지
3.1 Wave-U-Net을 이용한 비명 탐지 프레임워크
제안된 비명 탐지 프레임워크는 그림 3과 같다. 이 프레임워크의 하이라이트는 2.2장에서 설명한 문제를 해결하기 위해 매개변수 추정 프로세스에도 Wave-U-Net이 적용된다는 점이다. 3. 그림 XNUMX의 특징 추출 단계에서는 다음 절에서 설명할 MFCC가 추출된다.
여기서는 그림 3(a)의 매개변수 추정 과정을 설명합니다. \(\boldsymbol V_t^S\) and \(\boldsymbol V_t^N\) 는 각각 비명과 소음의 MFCC이며, \(t\) 프레임 번호입니다. 매개변수 추정 단계에서 MFCC는 GMM을 사용하여 모델링됩니다(\(\lambda^{\rm S}\) and \(\lambda^{\rm N}\)).
그림 3(b)에 나타난 검출과정에서, \(\boldsymbol V_t^{\rm in}\) 입력 신호에서 파생되며 각 GMM에 대한 로그 우도가 계산됩니다.\(LL_t^{\rm S}\) and \(LL_t^{\rm N}\)).
\[\begin{eqnarray*} &&\!\!\!\!\! LL_t^{\rm S}=\log p(\boldsymbol{V_t^{\rm in}}|\lambda^{\rm S}) \tag{1} \\ &&\!\!\!\!\! LL_t^{\rm N}=\log p(\boldsymbol{V_t^{\rm in}}|\lambda^{\rm N}) \tag{2} \end{eqnarray*}\] |
차이가 있을 때(\(LL_t^{\rm S}\) - \(LL_t^{\rm N}\))가 임계값(\(Th\)), 입력 신호는 비명으로 판단됩니다. 최적의 값 \(Th\) 감지되지 않은 비명과 잘못 감지된 소음이 얼마나 많이 허용될 수 있는지에 따라 달라집니다. 이 시스템이 사용되는 환경을 예측할 수 있다면 다음을 결정하는 것이 바람직합니다. \(Th\) 훈련에 사용되는 환경 소음과 비명으로부터 실험적으로. 반면, 예측할 수 없는 경우에는 결정이 필요합니다. \(Th\) 훈련에 사용된 소음과 비명으로부터 실험적으로.
3.2 Mel-주파수 켑스트럼 계수
운율 특성인 기본 주파수와 로그 에너지는 잡음으로 인해 크게 열화되므로 운율 특성 대신 음소 특성으로 MFCC를 사용합니다.
인간의 청력 특성을 고려한 켑스트럴 계수인 MFCC는 성도를 나타내는 특징 벡터로 사용됩니다. 또한 음성 인식, 화자 인식 및 기타 관련 작업에도 널리 사용됩니다. 그만큼 \(l^{\rm th}\) MFCC(\(C_t [l]\))는 다음 방정식을 사용하여 계산됩니다.
\[\begin{eqnarray*} &&\!\!\!\!\! \!\!\! C_t[l] = \sqrt{\frac{1}{M}}\sum_{m=0}^{M-1}\log\left(X_t^{\rm mel}[m]\right)\cos \left(\frac{(2m+1)\pi l}{M}\right) \tag{3} \\ &&\!\!\!\!\! X_t^{\rm mel}[m] = \sum_{k=0}^{K-1}B_{m,k}|X_t[k]|^2 \tag{4} \end{eqnarray*}\] |
이 어플리케이션에는 XNUMXµm 및 XNUMXµm 파장에서 최대 XNUMXW의 평균 출력을 제공하는 \(B_{m,k}\) 는 ETSI 표준 프런트엔드[11]에 사용되는 mel-filterbank 매트릭스입니다. \(m\) and \(k\) 각각 필터 뱅크 번호와 주파수 빈입니다. \(X_t[k]\) 스펙트럼이고, \(M\) 필터 뱅크의 수입니다. 의 가치 \(l\) 로 취해진 다 \(1\leq l \leq 12\).
4. 실험
4.1 설정
우리는 [40]에 설명된 비명 데이터베이스에 있는 2명의 비명을 사용했습니다. 총 비명 횟수는 705회, 총 지속 시간은 1400초였습니다. 스크림은 각각 20명씩 두 세트로 나누어 웨이브-유-넷과 스크림 GMM 훈련용, 테스트용으로 각각 구성됐다. 비명의 횟수는 훈련용 438회, 시험용 267회였다. 비명의 주성분이 16kHz 이하에 존재하는 것으로 나타났기 때문에 데이터를 8kHz로 다운샘플링했습니다[2].
일본전자산업진흥회(JEIDA) 소음 데이터베이스에서 12가지 유형의 소음 데이터('역', '공장', '교차로', '기차', '컴퓨터실', '에어컨')를 선택했습니다[454,240]. 알려진 소음과 알려지지 않은 소음의 성능을 비교하기 위해 '역', '공장', '교차로'를 알려진 소음 세트로 지정하고, '기차', '컴퓨터실', '에어컨'을 미지의 소음 세트로 지정했습니다. 소음 세트. 알려진 노이즈 세트는 Wave-U-Net 및 노이즈 GMM 훈련에 사용되었습니다. 노이즈 프레임 수는 훈련용으로 451,842개, 테스트용으로 0개였습니다. SNR = XNUMXdB인 테스트 세트의 비명에 테스트용 시끄러운 비명을 중첩했습니다.
Wave-U-Net 모델은 Adam 최적화 프로그램을 사용하여 무작위로 샘플링된 오디오 발췌에 대해 훈련되었습니다(학습률=0.0001, 붕괴율). \(\beta_1\)=0.9 및 \(\beta_2\)=0.999) 배치 크기는 16입니다. 이전 연구[10]에 따르면 네트워크 계층 크기는 12였으며 \(F=24\) 크기의 다운샘플링 블록 필터가 포함된 각 레이어에 대한 추가 필터 \(f_d=15\) 크기의 블록 필터를 업샘플링 \(f_u=5\).
특징 추출은 Table 1의 분석 조건으로 수행되었으며, GMM의 혼합물 수는 32로 고정되었다. 모든 GMM의 초기값은 k-means 방법으로 결정되었다. 기존 방식에서는 Wave-U-Net을 사용하여 비명을 강조하지 않았습니다. 제안된 방법과 기존 방법을 성능 측정으로 평가하였다. \(FAR_{\rm min}\).
\[\begin{eqnarray*} &&\!\!\!\!\!\!\!\!\!\!\!\! \mathit{FAR}[\%] \!=\! \frac{\text{Num. of misdetected noise frames}}{\text{Number of evaluated noise frames}} \times\!\!100\!\! \tag{5} \\ &&\!\!\!\!\!\!\!\!\!\!\!\! \mathit{FRR}[\%] \!=\! \left(1\!-\! \frac{\text{Number of detected screams}}{\text{Number of evaluated screams}}\right) \!\times\!100 \tag{6} \\ &&\!\!\!\!\! \mathit{FAR}_{\min} = \min\ \mathit{FAR}, \ \ \ \text{subject to}\ \ \mathit{FRR} = 0 \tag{7} \end{eqnarray*}\] |
여기 FAR and FRR 허위 수락률과 허위 거부율을 각각 나타냅니다. 비명 감지 시스템의 목적을 고려하면 모든 비명을 감지하는 것이 필요하다. 그러므로, \(\mathit{FAR}_{\min}\) 평가에 사용되었습니다. 실험에서는 다음 네 가지 방법을 비교합니다.
- 방법 1: 매개변수 추정이나 검출에 Wave-U-Net을 적용하지 않는다(기존 방법).
- 방법 2: Wave-U-Net을 탐지에 적용하지만 매개변수 추정에는 적용하지 않습니다.
- 방법 3: 비명 GMM의 검출 및 매개변수 추정에 Wave-U-Net을 적용하지만 잡음 GMM의 매개변수 추정에는 적용하지 않습니다.
- 방법 4: Wave-U-Net을 매개변수 추정 및 검출에 적용한다(제안 방법).
4.2 결과 및 논의
실험 결과를 Table 2에 나타내었다. 기존 방법인 방법 1과 비교하여 방법 2가 비명을 더 정확하게 검출하여 강조된 비명을 검출하는데 효과적인 것으로 나타났다. 다음으로는 방법 2와 방법 3 중에서 방법 3이 약간 더 정확했습니다. 이로부터 깨끗한 비명과 강화된 비명은 주파수 특성이 다르기 때문에 비명 GMM의 매개변수를 추정할 때에도 Wave-U-Net을 적용해야 한다고 할 수 있다. 마지막으로 제안한 방법인 방법 4는 가장 시끄러운 환경에서 기존 방법에 비해 평균 약 2.1%의 개선 효과를 나타내어 가장 효과적이었다. 따라서 Wave-U-Net을 이용한 비명 탐지에서는 GMM의 매개변수를 추정하는 경우에도 Wave-U-Net을 적용함으로써 최적의 탐지를 얻을 수 있다.
GMM을 판별자로 사용하는 경우 탐지 성능은 초기 값과 판별 임계값에 따라 달라집니다(\(Th\)). 특히, \(Th\) 사용조건에 따라 다르므로 신중히 결정하시기 바랍니다. 계산 비용이 증가하지만 향후에는 딥러닝을 활용한 임계값 독립적 판별자를 고려할 필요가 있습니다.
5. 결론
본 논문에서는 Wave-U-Net을 이용한 강화된 비명을 이용한 잡음에 강한 비명 검출 방법을 제안하였다. 강화된 비명은 고조파 성분이 저하되기 때문에 깨끗한 비명과 다른 주파수 특성을 나타냅니다. 따라서 비명 GMM을 훈련시키기 위해 의도적으로 깨끗한 비명에 Wave-U-Net을 적용했습니다. 비명 탐지 실험 결과, \(\mathit{FAR}_{\min}\) 기존 방식에 비해 2.1%를 줄일 수 있다. 향후에는 Wave-U-Net의 네트워크 구조를 단순화하고 모바일 애플리케이션을 개발하는 것을 목표로 하고 있습니다.
감사의
이 작업은 JSPS KAKENHI 보조금 번호 19K04935에 의해 지원되었습니다.
참고문헌
[1] J.T. Geiger and K. Helwani, “Improving event detection for audio surveillance using Gabor filterbank features,” European Signal Processing Conference (EUSIPCO), pp.719-723, 2015.
CrossRef
[2] N. Hayasaka, A. Kawamura, and N. Sasaoka, “Noise-robust scream detection using band-limited spectral entropy,” AEU-International Journal of Electronics and Communications, vol.76, pp.117-124, 2017.
CrossRef
[3] M.K. Nandwana, A. Ziaei, and J.H.L. Hansen, “Robust unsupervised detection of human screams in noisy acoustic environments,” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.161-165, 2016.
CrossRef
[4] A. Sharma and S. Kaul, “Two-stage supervised learning-based method to detect screams and cries in urban environments,” IEEE/ACM Trans. Audio, Speech, Language Process., vol.24, no.2, pp.290-299, 2015.
CrossRef
[5] P. Laffitte, D. Sodoyer, C. Tatkeu, and L. Girin, “Deep neural networks for automatic detection of screams and shouted speech in subway trains,” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.6460-6464, 2016.
CrossRef
[6] T. Fukumori, “Deep spectral-cepstral fusion for shouted and normal speech classification,” Interspeech 2021, pp.4174-4178, Sept. 2021.
CrossRef
[7] R.C. Maher, Principles of Forensic Audio Analysis, Chapter 6, Springer, Switzerland, 2018.
CrossRef
[8] S. Pascual, A. Bonafonte, and J. Serrá, “SEGAN: Speech enhancement generative adversarial network,” arXiv:1703.09452, 2017.
CrossRef
[9] R. Kasai, N. Hayasaka, T. Futagami, and Y. Miyanaga, “Scream enhancement using Wave-U-Net,” International Workshop on Smart Info-Media Systems in Asia (SISA), pp.5-8, Sept. 2021.
CrossRef
[10] D. Stoller, S. Ewert, and S. Dixon, “Wave-U-Net: A multi-scale neural network for end-to-end audio source separation,” Proc. 19th Int'l Society for Music Information Retrieval Conference (ISMIR), Sept. 2018.
[11] Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms, European Telecommunications Standards Institute 201 108 V1.1.3, Sept. 2003.
[12] JEIDA Noise Database (ELRA-SD37), http://universal.elra.info/product_info.php?cPath=37_39&products_id=53
URL