우수한 기술이 국내외 사회 전반에 활용될 수 있는 다양한 기회를 만들어내겠습니다
기술공개분포적 강화학습에서의 섭동 기반 탐색 방법 및 장치
대표 발명자이정우
출원 번호2022-0123744
등록 번호10-2567929
출원일2022-09-28
등록일2023-08-11
* 대표 청구항
[청구항1] 분포적 강화학습에서의 섭동 기반 탐색 장치가 수행하는 방법으로서, 트랜지션(transition)과 탐색 조건 및 초기값이 포함된 탐색 정보를 입력받는 단계와, 보상분포를 나타내는 확률변수에 대해 기댓값을 대체할 리스크 측도(risk measure)가 반영된 기댓값을 얻기 위한 요소인 섭동을 상기 탐색 정보의 모호집합으로부터 샘플링하는 단계와, 상기 샘플링된 섭동에 기반하여 상기 탐색 정보로부터 상기 리스크 측도를 계산하는 단계와, 상기 계산된 리스크 측도를 기반으로 하였을 때의 기댓값을 가장 최대로 만드는 행동을 설정한 후 이를 타켓으로 하여 벨만 업데이트를 진행하는 단계와, 상기 벨만 업데이트가 진행된 결과를 탐색 결과로서 출력하는 단계를 포함하는 분포적 강화학습에서의 섭동 기반 탐색 방법.
* 요약
일 실시예에 따른 분포적 강화학습에서의 섭동 기반 탐색 장치가 수행하는 방법은, 트랜지션과 탐색 조건 및 초기값이 포함된 탐색 정보를 입력받는 단계와, 보상분포를 나타내는 확률변수에 대해 기댓값을 대체할 리스크 측도가 반영된 기댓값을 얻기 위한 요소인 섭동을 상기 탐색 정보의 모호집합으로부터 샘플링하는 단계와, 상기 샘플링된 섭동에 기반하여 상기 탐색 정보로부터 상기 리스크 측도를 계산하는 단계와, 상기 계산된 리스크 측도를 기반으로 하였을 때의 기댓값을 가장 최대로 만드는 행동을 설정한 후 이를 타켓으로 하여 벨만 업데이트를 진행하는 단계와, 상기 벨만 업데이트가 진행된 결과를 탐색 결과로서 출력하는 단계를 포함한다.
관심목록에 추가되었습니다.
관심설정이 해제되었습니다.