우수한 기술이 국내외 사회 전반에 활용될 수 있는 다양한 기회를 만들어내겠습니다

기술공개
기술공개
SNU_TIP 기술마케팅 기술공개 파트너쉽
특허 네비게이션
기술이전 소개 특허 네비게이션 기술홍보

특허 네비게이션

정보/통신 > 소프트웨어 > 머신러닝

분포적 강화학습에서의 섭동 기반 탐색 방법 및 장치

  • 대표 발명자이정우

  • 출원 번호2022-0123744

    등록 번호10-2567929

  • 출원일2022-09-28

    등록일2023-08-11

* 대표 청구항

[청구항1] 분포적 강화학습에서의 섭동 기반 탐색 장치가 수행하는 방법으로서, 트랜지션(transition)과 탐색 조건 및 초기값이 포함된 탐색 정보를 입력받는 단계와, 보상분포를 나타내는 확률변수에 대해 기댓값을 대체할 리스크 측도(risk measure)가 반영된 기댓값을 얻기 위한 요소인 섭동을 상기 탐색 정보의 모호집합으로부터 샘플링하는 단계와, 상기 샘플링된 섭동에 기반하여 상기 탐색 정보로부터 상기 리스크 측도를 계산하는 단계와, 상기 계산된 리스크 측도를 기반으로 하였을 때의 기댓값을 가장 최대로 만드는 행동을 설정한 후 이를 타켓으로 하여 벨만 업데이트를 진행하는 단계와, 상기 벨만 업데이트가 진행된 결과를 탐색 결과로서 출력하는 단계를 포함하는 분포적 강화학습에서의 섭동 기반 탐색 방법.

* 요약

일 실시예에 따른 분포적 강화학습에서의 섭동 기반 탐색 장치가 수행하는 방법은, 트랜지션과 탐색 조건 및 초기값이 포함된 탐색 정보를 입력받는 단계와, 보상분포를 나타내는 확률변수에 대해 기댓값을 대체할 리스크 측도가 반영된 기댓값을 얻기 위한 요소인 섭동을 상기 탐색 정보의 모호집합으로부터 샘플링하는 단계와, 상기 샘플링된 섭동에 기반하여 상기 탐색 정보로부터 상기 리스크 측도를 계산하는 단계와, 상기 계산된 리스크 측도를 기반으로 하였을 때의 기댓값을 가장 최대로 만드는 행동을 설정한 후 이를 타켓으로 하여 벨만 업데이트를 진행하는 단계와, 상기 벨만 업데이트가 진행된 결과를 탐색 결과로서 출력하는 단계를 포함한다.