강화학습

00심층강화학습을사용하여,시뮬레이션모델모델에서동적으로생성된데터로신경망신경망신경망신경망복잡한시켜서동작동작학습학습하는복잡한동작구현할수이를위해레이블지정이되었거나되지않은,미리정의된훈련이터셋이필요하지않습니다。제어제어상호작용중인을나타내는시뮬레이션모델모델만있으면

马铃薯®과s金宝appimulink.®다음을수행할수있습니다。

  • 간단한제어시스템,자율시스템및로봇예제를사용하여강화강화학습시작하기
  • 약간의코드변경만만널리사용되는되는여러강화학습알고리즘을빠르게전환,평가하고,비교하기
  • 심층신경망을사용하여이미지,비디오및센서데이터를를바탕으로복잡한강화학습정의정의
  • 로컬코어또는클라우드를사용하여여러이션을을병렬로실행하여정책을더빨리시키기
  • 임베디드임베디드기기에강화강화학습배포배포

강화학습에이전트

강화학습이전트는입력상태에서출력으로매핑을수행하는정책이정책의업데이트를를하는하는알고리즘으로구성구성구성를하는알고리즘구성구성구성담당담당하는알고리즘으로구성구성구성하는하는알고리즘으로구성구성구성구성하는하는알고리즘알고리즘으로구성구성널리사용되는되는알고리즘예로深Q-network,演员评论家,深度确定性政策梯度를를수있습니다。알고리즘은환경의해가극대극대되도록정책을업데업데업데업데업데업데업데。

정책은심층신경망,다항식및룩업테이블로표현표현할수그런다음내장사용자지정지정이전트를matlab객체또는simulink金宝app블록으로구현수있습니다있습니다있습니다。

자세히알아보기

matlab및si金宝appmulink에서의환경모델링

에이전트는주변환경과작용하므로강화학습알고리즘사용하여하여훈련시키는것은동적과정과정이많로훈련을하려면비용하드웨어하드웨어로비용비용로비용로비용로로의비용에이많위험할수있습니다。따라서강화학습에서는시뮬레이션을통해데이터를생성하는의가상모델이선호선호。

matlab과s金宝appimulink에서시스템역학역학이영향을받는방식,그리고수행된동작적합도를가하는보상을하는환경모델을할수환경환경을빌드수있습니다환경모델빌드수있습니다。이러한모델은연속또는이산일수수,여러정확도수준으로시스템표현할수있습니다。시뮬레이션을을병렬실행하여훈련속도를높일수도수도훈련훈련속도를높일수도경우경우따라시스템의기존matlab및simul金宝appink모델을약간수정하여강화학습용으로으로으로할할있습니다있습니다。

자세히알아보기

예제및참조활용분야

도립도립진자균형,그리드 - 월드문제탐색,购物车시스템시스템조정과같은문제위한컨트롤러를구현하여학습을시작하십시오하십시오시작시작시작시작

자세히알아보기