主要内容

马铃薯草강화학습환경만들기

작업작업완료하도록에이전트를훈련시키는강화학습에서환경이에는이에이에이에이에이전트이전트에에에전트하는작용시스템(즉,월드)을을합니다。제어시스템응용사례에서는이외부시스템을보통플랜트라고합니다。

다음 그림에 표시된 것처럼 환경은 다음을 수행합니다.

  1. 에이전트로부터행동을수신합니다。

  2. 행동행동에대한응답응답으로값을반환반환

  3. 행동이작업을완료하는데영향을미치는지측정하는보상을생성합니다합니다합니다。

환경환경모델을만들만들때다음을정의해야합니다

  • 에이전트가환경과상호작용하기사용하는하는행동및관측값값값

  • 에이전트가성공을측정하기위해사용하는보상신호。자세한내용은定义奖励信号항목을참조하십시오。

  • 환경초기조건과동적동작。

행동및관측값신호

환경 객체를 만들 때는 에이전트가 환경과 상호 작용하기 위해 사용하는 행동 및 관측값 신호를 지정해야 합니다.이산및및연속행동과관측값공간을둘다수수수자세한내용은rlnumericspec.항목과rlfinitesetspec.항목을각각참조하십시오。

행동과 관측값으로 선택하는 신호는 응용 사례에 따라 다릅니다.예를들어,제어제어응용사례의오차신호의적분(때로때로미분)이유용한관측값인경우가많습니다또한,기준추종응용사례경우경우기준신호를관측으로두는것이이유용。

관측값신호를정의할는모든환경상태(또는또는추정값)가관측값벡터를포함하는지확인하십시오하십시오확인하십시오。이렇게확인하는것이좋은이유는,아이전트가흔히내부기억또는상태환경상태를적으로재생성못를적으로하지못수수때문입니다못수있기때문입니다못있기있기때문입니다。

예를들어,흔들리는진자의이미지관측관측은은위치정보를있지만그것만으로는진자진자의판단하기하기에에에하기하기에에에에이경우관측값벡터의가요소로서진자속도를측정하거나추정수있습니다。

미리정의된马铃薯草환경

加固学习工具箱™는행동,관측값,보상,동특성이이미정의정의되어있는몇몇지미리정의matlab®환경을제공합니다。이러한환경을사용하여하여다음을수행할수수

  • 강화학습개념을학습합니다。

  • 加固学习工具箱특징에익숙해집니다。

  • 자신자신강화학습에이전트를를테스트。

자세한내용은加载预定义网格世界环境항목과负载预定义控制系统环境항목을참조하십시오。

使用方法马铃薯草환경

자신의 응용 사례에 맞게 다음 유형의 사용자 지정 MATLAB 환경을 만들 수 있습니다.

  • 지정된크기,보상,장애물이있는그리드그리드

  • 사용자지정함수를사용하여하여지정한동특성을갖춘갖춘

  • 템플릿템플릿환경객체를를만들고수정하여지정한

사용자지정환경객체를후,미리미리정의된환경에서와동일한방식으로으로에전트훈련시킬수수한훈련시킬수수에이전트훈련훈련에에대한내용내용내용火车加固学习代理항목을참조하십시오。

用户그리드월드

원하는 사용자 지정 보상, 상태 천이, 장애물 구성으로 임의 크기의 사용자 지정 그리드 월드를 만들 수 있습니다.照片사용자지정지정그리드월드환경을다음다음수행수행만들려면다음다음을수행

  1. creategridworld.함수를사용하여그리드월드모델을만듭니다。예를들어,10개의행과9개의열로이루어진GW.라는그리드월드를만들어보겠습니다。

    gw = creategridworld(10,9);
  2. 모델모델의속성을을수정그리드월드를구성합니다예를들어,종료상태를위치[7,9]로지정합니다。

    gw.terminalstates =“[7,9]”;
  3. 그리드그리드월드는마르코프결정(MDP)환경환경포함되어야합니다。아이전트가그리드월드모델과상호작용하기사용하는이그리드그리드에대한mdp환경을만듭니다。

    ent = rlmdpenv(gw);

사용자용자지정그리드월드에대한자세한내용은创建自定义网格世界环境항목을참조하십시오。

用户사용자용자지정함수지정

단순한환경의경우rlfunctionenv.객체를만들고자신만의사용자지정재설정함수와스텝함수를 지정하여 사용자 지정 환경 객체를 정의할 수 있습니다.

  • 각 훈련 에피소드 시작 시, 에이전트는 재설정 함수를 호출하여 환경 초기 조건을 설정합니다.〖图库“

  • 스텝함수는환경의동특성,즉현재상태와에이전트행동행동에대한함수로서로서상태상태변화변화대한를정의정의각 훈련 시간 스텝에서 모델의 상태는 스텝 함수를 사용하여 업데이트됩니다.

자세한내용은사용자지정지정함수사용용matlab환경환경항목을참조하십시오。

템플릿템플릿환경을만들고수정하기

복잡한 환경의 경우 템플릿 환경을 만들고 수정하여 사용자 지정 환경을 정의할 수 있습니다.使用方法사용자

  1. rlcreateenvtemplate.함수를사용하여환경템플릿클래스를만듭니다。

  2. 템플릿 환경을 수정하여 환경 속성, 필요한 환경 함수, 선택적 환경 함수를 지정합니다.

  3. 验证环境를사용하여사용자지정환경을합니다。

자세한내용은从模板创建自定义MATLAB环境항목을참조하십시오。

참고항목

||

관련항목