검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Incremental Estimation of Natural Policy Gradient with Relative Importance Weighting 상대적 중요도 가중치를 이용한 자연 정책 기울기의 증분 추정

Ryo IWAKI, Hiroki YOKOYAMA, Minoru ASADA

  • 조회수

    0

  • 이것을 인용

요약 :

단계 크기는 학습 알고리즘, 특히 NPG(자연 정책 기울기) 방법에서 근본적으로 중요한 매개변수입니다. 증분 NPG 추정에서 스텝 크기의 상한을 도출하고, 도출된 상한을 구현하기 위한 적응형 스텝 크기를 제안합니다. 제안된 적응형 단계 크기는 업데이트된 매개변수가 목표를 초과하지 않도록 보장하며, 이는 상대적 중요도에 따라 학습 샘플에 가중치를 부여하여 달성됩니다. 또한 증분 학습에는 적합하지 않지만 단계 크기에 대해 엄격한 상한 및 하한을 제공합니다. 우리는 클래식 벤치마크를 사용하여 제안된 단계 크기의 유용성을 확인합니다. 우리가 아는 한, 이는 NPG 추정을 위한 최초의 적응형 단계 크기 방법입니다.

발행
IEICE TRANSACTIONS on Information Vol.E101-D No.9 pp.2346-2355
발행일
2018/09/01
공개일
2018/06/01
온라인 ISSN
1745-1361
DOI
10.1587/transinf.2017EDP7363
원고의 종류
PAPER
범주
인공지능, 데이터마이닝

작성자

Ryo IWAKI
  Osaka University
Hiroki YOKOYAMA
  Tamagawa University
Minoru ASADA
  Osaka University

키워드