검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Sample Selection Approach with Number of False Predictions for Learning with Noisy Labels 시끄러운 레이블을 사용한 학습에 대한 잘못된 예측 수를 사용한 샘플 선택 접근 방식

Yuichiro NOMURA, Takio KURITA

  • 조회수

    0

  • 이것을 인용

요약 :

최근 몇 년 동안 심층 신경망(DNN)은 다양한 연구 분야와 응용 분야에 큰 영향을 미쳤습니다. DNN의 한 가지 단점은 훈련을 위해 엄청난 양의 데이터 세트가 필요하다는 것입니다. 전문가에게 데이터 라벨링을 요청하는 것은 매우 비용이 많이 들기 때문에 웹 크롤링과 같은 비전문가의 데이터 수집 방법이 많이 제안되었습니다. 그러나 비전문가가 만든 데이터 세트에는 손상된 레이블이 포함되어 있는 경우가 많으며 이러한 데이터 세트에 대해 훈련된 DNN은 신뢰할 수 없습니다. DNN에는 엄청난 수의 매개변수가 있으므로 잡음이 많은 레이블에 과적합되는 경향이 있어 일반화 성능이 저하됩니다. 이 문제를 LNL(Learning with Noisy Labels)이라고 합니다. 최근 연구에 따르면 DNN은 단순한 패턴을 먼저 학습하기 때문에 잡음이 있는 레이블에 과적합되기 전에 학습 초기 단계의 잡음이 있는 레이블에 강력합니다. 따라서 DNN은 학습 초기 단계에서 잡음이 있는 레이블이 있는 샘플에 대해 실제 레이블을 출력하는 경향이 있으며, 잡음이 있는 레이블이 있는 샘플의 잘못된 예측 수가 깨끗한 레이블이 있는 샘플보다 높습니다. 이러한 관찰을 바탕으로 우리는 잘못된 예측 수를 사용하여 LNL에 대한 새로운 샘플 선택 접근 방식을 제안합니다. 우리의 방법은 훈련 중 잘못된 예측 기록을 주기적으로 수집하고 최근 기록에서 잘못된 예측 수가 적은 샘플을 선택합니다. 그런 다음 우리의 방법은 업데이트된 데이터 세트를 사용하여 샘플 선택과 DNN 모델 교육을 반복적으로 수행합니다. 모델은 더 깨끗한 샘플로 훈련되고 샘플 선택에 대해 더 정확한 잘못된 예측을 기록하므로 모델의 일반화 성능이 점차 향상됩니다. 우리는 합성적으로 생성된 노이즈 레이블을 사용하여 CIFAR-10 및 CIFAR-100이라는 두 가지 벤치마크 데이터 세트에 대한 방법을 평가했으며, 얻은 결과는 최첨단 접근 방식보다 우수하거나 비교되었습니다.

발행
IEICE TRANSACTIONS on Information Vol.E105-D No.10 pp.1759-1768
발행일
2022/10/01
공개일
2022/07/21
온라인 ISSN
1745-1361
DOI
10.1587/transinf.2022EDP7033
원고의 종류
PAPER
범주
이미지 인식, 컴퓨터 비전

작성자

Yuichiro NOMURA
  Hiroshima University
Takio KURITA
  Hiroshima University

키워드