信赖域策略优化代理-MATLAB&Simulink-MathWorks日本金宝app<GydF4y2Ba/title> <link href="//www.tatmou.com/jp/includes_content/responsive/css/bootstrap/bootstrap.min.css" rel="stylesheet" type="text/css"> <link href="//www.tatmou.com/jp/includes_content/responsive/css/site6.css?202109" rel="stylesheet" type="text/css"> <link href="//www.tatmou.com/jp/includes_content/responsive/css/site6_lg.css?202109" rel="stylesheet" media="screen and (min-width: 1200px)"> <link href="//www.tatmou.com/jp/includes_content/responsive/css/site6_md.css?202109" rel="stylesheet" media="screen and (min-width: 992px) and (max-width: 1199px)"> <link href="//www.tatmou.com/jp/includes_content/responsive/css/site6_sm+xs.css?202109" rel="stylesheet" media="screen and (max-width: 991px)"> <link href="//www.tatmou.com/jp/includes_content/responsive/css/site6_sm.css?202109" rel="stylesheet" media="screen and (min-width: 768px) and (max-width: 991px)"> <link href="//www.tatmou.com/jp/includes_content/responsive/css/site6_xs.css?202109" rel="stylesheet" media="screen and (max-width: 767px)"> <link href="//www.tatmou.com/jp/includes_content/responsive/css/site6_offcanvas_v2.css?202109" rel="stylesheet" type="text/css"> <link href="//www.tatmou.com/jp/includes_content/responsive/css/site7_crux.css?202109" rel="stylesheet" type="text/css"> <link href="//www.tatmou.com/jp/includes_content/responsive/css/localized/site6_ja_JP.css" rel="stylesheet" type="text/css"> <link href="//www.tatmou.com/jp/includes_content/releases/R2021b/css/doc_center.css?202109" rel="stylesheet" type="text/css"> <link href="//www.tatmou.com/jp/includes_content/releases/R2021b/css/doc_center_print.css?202109" rel="stylesheet" type="text/css" media="print"> <link href="//www.tatmou.com/jp/includes_content/releases/R2021b/css/doc_center_ja_JP.css?202109" rel="stylesheet" type="text/css"> <style> .examples_short_list a.btn {display: none;} </style> <style> .typeahead_container.typeahead_type_grouped { margin-left:0; } @media (min-width:768px) { #suggestions { margin-left:-100px } } </style> </head> <body id="responsive_offcanvas"> <a class="skip_link sr-only" href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#content_container">跳转到内容<GydF4y2Ba/a>  <div class="header visible-xs visible-sm" id="header_mobile" translate="no"> <nav class="navbar navbar-default" role="navigation"> <div class="navbar-header"> <div class="container-fluid"> <div class="row"> <div class="col-xs-3"> <button type="button" class="navbar-toggle topnav_toggle" data-toggle="collapse" data-target="#topnav_collapse"><span class="sr-only">切换主导航<GydF4y2Ba/span><span class="icon-menu"></span></button> </div> <div class="col-xs-6"> <div class="text-center"> <a href="//www.tatmou.com/jp/?s_tid=gn_logo" class="svg_link navbar-brand"><img src="//www.tatmou.com/jp/images/responsive/global/pic-header-mathworks-logo.svg" class="mw_logo" alt="迈斯沃克GydF4y2Ba"></a> </div> </div> <div class="col-xs-3"> <div class="matrix_affordance_container_mobile" id="matrix_affordance_container_mobile"></div> </div> </div> </div> </div> <div class="container-fluid"> <div class="row visible-xs visible-sm"> <div class="col-xs-12"> <div class="navbar-collapse collapse" id="topnav_collapse"> <ul class="nav navbar-nav" id="topnav"> <li class="topnav_products "><a href="//www.tatmou.com/jp/products.html?s_tid=gn_ps">製品<GydF4y2Ba/a></li> <li class="topnav_solutions "><a href="//www.tatmou.com/jp/solutions.html?s_tid=gn_sol">ソリューション<GydF4y2Ba/a></li> <li class="topnav_academia "><a href="//www.tatmou.com/jp/academia.html?s_tid=gn_acad">アカデミア<GydF4y2Ba/a></li> <li class="topnav_support "><a href="//www.tatmou.com/jp/support.html?s_tid=gn_supp">サポート<GydF4y2Ba/a></li> <li class="topnav_community "><a href="//www.tatmou.com/jp/matlabcentral/?s_tid=gn_mlc">コミュニティ<GydF4y2Ba/a></li> <li class="topnav_events "><a href="//www.tatmou.com/jp/company/events.html?s_tid=gn_ev">イベント<GydF4y2Ba/a></li> <li class="headernav_store"><a href="//www.tatmou.com/jp/products/get-matlab.html?s_tid=gn_getml">MATLABを入手する<GydF4y2Ba/a></li> </ul> </div> <div class="navbar-collapse collapse" id="matrix_collapse"> <div class="matrix_menu_container_mobile" id="matrix_menu_container_mobile"></div> </div> </div> </div> </div> </nav> </div>   <div class="header hidden-xs hidden-sm" id="header_desktop" translate="no"> <nav class="navbar navbar-default" role="navigation"> <div class="container-fluid"> <div class="row"> <div class="col-md-9"> <div class="navbar-header"> <div class="logo_container hidden-xs hidden-sm"> <a href="//www.tatmou.com/jp/?s_tid=gn_logo" class="svg_link pull-left"><img src="//www.tatmou.com/jp/images/responsive/global/pic-header-mathworks-logo.svg" class="mw_logo" alt="迈斯沃克GydF4y2Ba"></a> </div> <div class="navbar-collapse collapse hidden-xs hidden-sm"> <ul class="nav navbar-nav" id="topnav"> <li class="topnav_products "><a href="//www.tatmou.com/jp/products.html?s_tid=gn_ps">製品<GydF4y2Ba/a></li> <li class="topnav_solutions "><a href="//www.tatmou.com/jp/solutions.html?s_tid=gn_sol">ソリューション<GydF4y2Ba/a></li> <li class="topnav_academia "><a href="//www.tatmou.com/jp/academia.html?s_tid=gn_acad">アカデミア<GydF4y2Ba/a></li> <li class="topnav_support "><a href="//www.tatmou.com/jp/support.html?s_tid=gn_supp">サポート<GydF4y2Ba/a></li> <li class="topnav_community "><a href="//www.tatmou.com/jp/matlabcentral/?s_tid=gn_mlc">コミュニティ<GydF4y2Ba/a></li> <li class="topnav_events "><a href="//www.tatmou.com/jp/company/events.html?s_tid=gn_ev">イベント<GydF4y2Ba/a></li> </ul> </div> </div> </div> <div class="col-md-3"> <div class="collapse navbar-collapse" id="headernav_collapse"> <ul class="nav navbar-nav navbar-right" id="headernav"> <li class="headernav_store"><a href="//www.tatmou.com/jp/products/get-matlab.html?s_tid=gn_getml" class="btn btn_color_blue companion_btn btn-xs">MATLABを入手する<GydF4y2Ba/a></li> </ul> </div> </div> </div> </div> </nav> </div>    <div class="section_header level_3"> <div class="container-fluid"> <div class="row" id="mobile_search_row"> <div class="col-sm-6 col-md-7 has_horizontal_local_nav" id="section_header_title"> <div class="section_header_content"> <div class="section_header_title"> <p class="h1"><a xmlns="http://www.w3.org/1999/xhtml" href="//www.tatmou.com/jp/jp/help/index.html" class="coming_from_product">文档<GydF4y2Ba/a><a xmlns="http://www.w3.org/1999/xhtml" href="//www.tatmou.com/jp/jp/help/index.html" class="not_coming_from_product"><span class="doc_section_title">帮助中心<GydF4y2Ba/span><span class="archived_doc_section_title">文档<GydF4y2Ba/span></a></p> </div> </div> </div> <div class="col-xs-12 col-sm-6 col-md-5" id="mobile_search"> <div class="search_nested_content_container"> <div id="search_scope_support" class="collapse in"> <form id="docsearch_form" action="/support/search.html" method="get" accept-charset="utf-8" data-release="R2021b" data-language="ja_JP"> <div class="input-group"> <label class="sr-only">サポートを検索する<GydF4y2Ba/label> <input id="docsearch" class="form-control conjoined_search" type="search" name="q" placeholder="サポートを検索する" autocomplete="off"> <div class="input-group-btn"> <button type="button" class="btn btn_search_adjacent dropdown-toggle" data-toggle="dropdown"><span class="caret"></span><span class="search_scope_label">サポート<GydF4y2Ba/span></button> <ul class="dropdown-menu list-unstyled dropdown-menu-right" role="menu"> <li data-toggle="collapse" data-target="#search_scope_site" class="support_search_scope_trigger"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#">迈斯沃克<GydF4y2Ba/a></li> </ul> <button type="submit" name="submitsearch" id="support_submitsearch" class="btn icon-search btn_search_adjacent btn_search icon_16"></button> </div> </div> </form> </div> <div id="search_scope_site" class="collapse"> <form name="search" id="site_search" class="site_search" action="/search/site_search.html" method="get"> <div class="input-group"> <label class="sr-only">数学作品の网状物サイトを検索<GydF4y2Ba/label> <input type="hidden" name="c[]" value="全港GydF4y2Ba"> <input type="search" name="q" id="query" class="form-control conjoined_search" placeholder="MathWorks の Web サイトを検索" autocomplete="off" \=""> <div class="input-group-btn"> <button type="button" class="btn btn_search_adjacent dropdown-toggle" data-toggle="dropdown"><span class="caret"></span><span class="search_scope_label">迈斯沃克<GydF4y2Ba/span></button> <ul class="dropdown-menu list-unstyled dropdown-menu-right" role="menu"> <li data-toggle="collapse" data-target="#search_scope_support" class="site_search_scope_trigger"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#">サポート<GydF4y2Ba/a></li> </ul> <button type="submit" id="searchbutton" class="btn icon-search btn_search_adjacent btn_search icon_16"></button> </div> </div> </form> </div> </div> <button class="btn icon-remove btn_search pull-right icon_32 visible-xs" data-toggle="collapse" href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#mobile_search" aria-expanded="false" aria-controls="mobile_search"><span class="sr-only">近距离移动搜索<GydF4y2Ba/span></button> </div> <div class="visible-xs" id="search_actuator"> <button class="btn icon-search btn_search pull-right icon_16" data-toggle="collapse" href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#mobile_search" aria-expanded="false" aria-controls="mobile_search"><span class="sr-only">开放式移动搜索<GydF4y2Ba/span></button> </div> </div> </div> </div>   <div class="row-offcanvas row-offcanvas-left"> <div class="sidebar-offcanvas" id="sidebar"> <nav class="offcanvas_nav" role="navigation"> <div class="offcanvas_actuator" data-toggle="offcanvas" data-target="#sidebar" id="nav_toggle"> <button type="button" class="btn"><span class="sr-only">非画布导航菜单切换<GydF4y2Ba/span><span class="icon-menu"></span></button> <span class="offcanvas_actuator_label" id="translation_icon-menu" tabindex="-1" aria-hidden="true"></span>  </div> <div class="nav_list_wrapper" id="nav_list_wrapper"> <nav class="offcanvas_nav" role="navigation"> <ul xmlns="http://www.w3.org/1999/xhtml" class="nav_breadcrumb" id="ul_left_nav_ancestors"> <li itemscope itemtype="http://www.data-vocabulary.org/Breadcrumb" itemprop="breadcrumb"><a href="//www.tatmou.com/jp/jp/help/index.html?s_tid=CRUX_lftnav" itemprop="url"><span itemprop="title">文档主页<GydF4y2Ba/span></a></li> </ul> <ul xmlns="http://www.w3.org/1999/xhtml" class="nav_disambiguation"> <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/index.html?s_tid=CRUX_lftnav">强化学习工具箱<GydF4y2Ba/a></li> <li itemscope itemtype="http://www.data-vocabulary.org/Breadcrumb" itemprop="breadcrumb"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/agents.html?s_tid=CRUX_lftnav" itemprop="url"><span itemprop="title">代理人<GydF4y2Ba/span></a></li> </ul> <ul xmlns="http://www.w3.org/1999/xhtml" class="nav_scrollspy nav"> <li class="nav_scrollspy_function"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#responsive_offcanvas">信任域策略优化代理<GydF4y2Ba/a></li> <li class="nav_scrollspy_title" id="SSPY810-section">在这一页上<GydF4y2Ba/li>  <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#mw_88ec47b2-c762-4331-a7a8-859fe53ae4db" class="intrnllnk">演员和评论家的职能<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#mw_6772dc4b-6a03-4bc7-854c-f75c79a4e343" class="intrnllnk">代理创建<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#mw_20fc804d-9a63-4182-8815-2bbb948cd25b" class="intrnllnk">信赖域策略优化<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#mw_f866ef43-84cf-4734-9695-e1ef2b84358b" class="intrnllnk">训练算法<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#mw_08976d74-a72a-4a71-bf33-fa749d857618" class="intrnllnk">熵损失<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#References" class="intrnllnk">工具书类<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#d123e9763" class="intrnllnk">另见<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#d123e9772" class="intrnllnk">相关话题<GydF4y2Ba/a></li> </ul> </nav> </div> </nav> </div>   <div class="offcanvas_content_container"> <div class="sticky_header_container"> <div class="horizontal_nav"> <div class="horizontal_nav_container"> <div class="offcanvas_horizontal_nav"> <div class="container-fluid"> <div class="row"> <div class="col-sm-12 col-md-7 col-lg-8 hidden-xs"> <nav class="navbar navbar-default" role="navigation" id="subnav"> <div> <ul class="nav navbar-nav crux_browse"> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_documentation" class="crux_resource active"><a class="not_coming_from_product">文档<GydF4y2Ba/a><a class="coming_from_product">全部的<GydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_example" class="crux_resource"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/examples.html?category=agents&s_tid=CRUX_topnav">例子<GydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_function" class="crux_resource"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/referencelist.html?type=function&category=agents&s_tid=CRUX_topnav">功能<GydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_block" class="crux_resource"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/referencelist.html?type=block&category=agents&s_tid=CRUX_topnav">阻碍<GydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_app" class="crux_resource"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/referencelist.html?type=app&category=agents&s_tid=CRUX_topnav">应用程序<GydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_videos" class="supplemental_crux_resource"><a href="//www.tatmou.com/jp/support/search.html?fq[]=asset_type_name:video%20category:reinforcement-learning/agents&s_tid=CRUX_topnav" class="not_coming_from_product">视频<GydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_answers" class="supplemental_crux_resource"><a href="//www.tatmou.com/jp/support/search.html?fq[]=asset_type_name:answer%20category:reinforcement-learning/agents&s_tid=CRUX_topnav" class="not_coming_from_product">答案<GydF4y2Ba/a></li> </ul> </div> </nav> </div> <div class="col-md-5 col-lg-4 hidden-xs hidden-sm"> <div class="cta_box"> <ul class="list-inline"> <li class="cta_item cta_item_general hidden-sm hidden-xs "><a href="//www.tatmou.com/jp/campaigns/products/trials.html?prodcode=RL&s_iid=doc_trial_RL_tb" class="icon-download">評価版<GydF4y2Ba/a></li> <li class="hidden-lg hidden-md "><a href="//www.tatmou.com/jp/campaigns/products/trials.html?prodcode=RL&s_iid=doc_trial_RL_tb" class="btn btn_color_blue btn-block"><span class="icon-download"></span>評価版<GydF4y2Ba/a></li> <li class="cta_item cta_item_general hidden-sm hidden-xs "><a href="//www.tatmou.com/jp/support/web_downloads_bounce.html?s_cid=1008_degr_docdn_270055" class="icon-download">製品の更新<GydF4y2Ba/a></li> <li class="hidden-lg hidden-md "><a href="//www.tatmou.com/jp/support/web_downloads_bounce.html?s_cid=1008_degr_docdn_270055" class="btn btn_color_blue btn-block"><span class="icon-download"></span>製品の更新<GydF4y2Ba/a></li> </ul> </div> </div>  <div class="visible-xs"> <div class="container-fluid"> <div class="row"> <div class="col-xs-9"> <div class="mobile_crux_nav_trigger">  <div class="btn-group"> <button type="button" class="btn btn-default dropdown-toggle" data-toggle="dropdown" aria-haspopup="true" aria-expanded="false">リソース<sGydF4y2Bapan class="icon-arrow-down icon_16"></span></button> <ul class="dropdown-menu"> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_documentation" class="crux_resource active"><a class="not_coming_from_product">文档<GydF4y2Ba/a><a class="coming_from_product">全部的<GydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_example" class="crux_resource"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/examples.html?category=agents&s_tid=CRUX_topnav">例子<GydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_function" class="crux_resource"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/referencelist.html?type=function&category=agents&s_tid=CRUX_topnav">功能<GydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_block" class="crux_resource"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/referencelist.html?type=block&category=agents&s_tid=CRUX_topnav">阻碍<GydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_app" class="crux_resource"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/referencelist.html?type=app&category=agents&s_tid=CRUX_topnav">应用程序<GydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_videos" class="supplemental_crux_resource"><a href="//www.tatmou.com/jp/support/search.html?fq[]=asset_type_name:video%20category:reinforcement-learning/agents&s_tid=CRUX_topnav" class="not_coming_from_product">视频<GydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_answers" class="supplemental_crux_resource"><a href="//www.tatmou.com/jp/support/search.html?fq[]=asset_type_name:answer%20category:reinforcement-learning/agents&s_tid=CRUX_topnav" class="not_coming_from_product">答案<GydF4y2Ba/a></li> </ul> </div>  </div> </div> <div class="col-xs-3"> <div class="translate_placeholder"></div> </div> </div> </div> </div>  </div> </div> </div> </div> </div> </div> <div class="content_container" id="content_container" tabindex="-1"> <div class="container-fluid"> <div class="row"> <div class="col-xs-12"> <div id="offcanvas_focus_actuator" tabindex="0" class="visible-xs"> <span class="sr-only">主要内容<GydF4y2Ba/span> </div> <section xmlns="http://www.w3.org/1999/xhtml" id="doc_center_content" itemprop="content" lang="en" data-language="en"> <div id="pgtype-topic"> <section itemprop="content"> <h2 class="title r2021b" itemprop="title content" id="mw_1a4c87d3-83c6-4278-8032-812995702b2f">信任域策略优化代理<GydF4y2Ba/h2> <p>信赖域策略优化（TRPO）是一种无模型、在线、基于策略、策略梯度强化学习算法。TRPO通过环境交互在采样数据和通过解决约束优化问题更新策略参数之间进行交替。在优化过程中，旧策略和新策略之间的KL差异被用作约束。因此，与标准策略梯度方法相比，该算法通过将更新后的策略保持在接近当前策略的信任区域内，防止了性能的显著下降<A..HREf="https://jp.mathworks.com/jp/help/reinforcement-learning/ug/trpo-agents.html" class="intrnllnk">[1]<GydF4y2Ba/a>.<GydF4y2Ba/p> <p>PPO是TRPO的简化版本。TRPO在计算上比PPO更昂贵，但如果环境动力学是确定性的，且观测数量较低，TRPO往往比PPO更稳健。有关PPO代理的更多信息，请参阅<A..HREf="https://jp.mathworks.com/jp/help/reinforcement-learning/ug/ppo-agents.html" class="a">策略优化代理<GydF4y2Ba/a>.<GydF4y2Ba/p> <p>有关不同类型的强化学习代理的更多信息，请参阅<A..HREf="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/create-agents-for-reinforcement-learning.html" class="a">强化学习代理<GydF4y2Ba/a>.<GydF4y2Ba/p> <p>TRPO代理可以在具有以下观察和行动空间的环境中进行培训。<GydF4y2Ba/p> <div class="table-responsive"> <table class="table table-condensed"> <colgroup> <col class="tcol1" width="50%"> <col class="tcol2" width="50%"> </colgroup> <thead> <tr> <th>观测空间<GydF4y2Ba/th> <th>动作空间<GydF4y2Ba/th> </tr> </thead> <tbody> <tr> <td>离散的还是连续的<GydF4y2Ba/td> <td>离散的还是连续的<GydF4y2Ba/td> </tr> </tbody> </table> </div> <p>TRPO代理使用以下参与者和评论家表示。<GydF4y2Ba/p> <div class="table-responsive"> <table class="table table-condensed"> <colgroup> <col class="tcol1" width="50%"> <col class="tcol2" width="50%"> </colgroup> <thead> <tr> <th>批评家<GydF4y2Ba/th> <th>演员<GydF4y2Ba/th> </tr> </thead> <tbody> <tr> <td><p>价值函数批评家<EMCLA.ss="varname">v<GydF4y2Ba/em>(<EMCLA.ss="varname">s<GydF4y2Ba/em>)，您可以使用<A..HREf="https://jp.mathworks.com/jp/help/reinforcement-learning/ref/rlvaluerepresentation.html"><code class="object">rlValueRepresentation<GydF4y2Ba/code></a></p></td> <td><p>随机政策参与者<EMCLA.ss="varname">π<GydF4y2Ba/em>(<EMCLA.ss="varname">s<GydF4y2Ba/em>)，您可以使用<A..HREf="https://jp.mathworks.com/jp/help/reinforcement-learning/ref/rlstochasticactorrepresentation.html"><code class="object">随机表示<GydF4y2Ba/code></a></p></td> </tr> </tbody> </table> </div> <p>培训期间，TRPO代理：<GydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p>估计在动作空间中采取每个动作的概率，并根据概率分布随机选择动作。<GydF4y2Ba/p></li> <li><p>使用当前策略与环境进行多个步骤的交互，然后使用小批量在多个时间段内更新参与者和评论家属性。<GydF4y2Ba/p></li> </ul> </div> <p>如果<CoDECLA.ss="property">利用决定论剥削<GydF4y2Ba/code>选择权<A..HREf="//www.tatmou.com/jp/jp/help/reinforcement-learning/ref/rltrpoagentoptions.html"><code class="function">RLTRP代理<GydF4y2Ba/code></a>设置为<CoDECLA.ss="literal">符合事实的<GydF4y2Ba/code>具有最大可能性的动作通常用于<A..HREf="https://jp.mathworks.com/jp/help/reinforcement-learning/ref/rl.env.abstractenv.sim.html"><code class="function">模拟<GydF4y2Ba/code></a>和<A..HREf="https://jp.mathworks.com/jp/help/reinforcement-learning/ref/rl.agent.rldqnagent.generatepolicyfunction.html"><code class="function">生成策略函数<GydF4y2Ba/code></a>. 因此，模拟代理和生成的策略的行为具有确定性。<GydF4y2Ba/p> <section itemprop="content"> <h3 class="title" id="mw_88ec47b2-c762-4331-a7a8-859fe53ae4db">演员和评论家的职能<GydF4y2Ba/h3> <p>为了估计策略和值函数，TRPO代理维护两个函数近似器。<GydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p>演员<EMCLA.ss="varname">π<GydF4y2Ba/em>(<EMCLA.ss="varname">s<GydF4y2Ba/em>|<EMCLA.ss="varname">θ<GydF4y2Ba/em>)-演员，带参数<EMCLA.ss="varname">θ<GydF4y2Ba/em>，进行观察<EMCLA.ss="varname">s<GydF4y2Ba/em>并返回：<GydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p>处于状态时在动作空间中执行每个动作的概率<EMCLA.ss="varname">s<GydF4y2Ba/em>（对于离散作用空间）<GydF4y2Ba/p></li> <li><p>每个动作的高斯概率分布的平均值和标准偏差（对于连续动作空间）<GydF4y2Ba/p></li> </ul> </div></li> <li><p>批评家<EMCLA.ss="varname">v<GydF4y2Ba/em>(<EMCLA.ss="varname">s<GydF4y2Ba/em>)-批评家，带参数<EMCLA.ss="varname">ϕ<GydF4y2Ba/em>，进行观察<EMCLA.ss="varname">s<GydF4y2Ba/em>并返回贴现长期报酬的相应期望值。<GydF4y2Ba/p></li> </ul> </div> <p>训练完成后，训练后的最优策略存储在actor中<EMCLA.ss="varname">π<GydF4y2Ba/em>(<EMCLA.ss="varname">s<GydF4y2Ba/em>).<GydF4y2Ba/p> <p>有关为函数近似创建参与者和批评者的更多信息，请参见<A..HREf="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/create-policy-and-value-function-representations.html" class="a">创建策略和值函数表示<GydF4y2Ba/a>.<GydF4y2Ba/p> </section> <section itemprop="content"> <h3 class="title" id="mw_6772dc4b-6a03-4bc7-854c-f75c79a4e343">代理创建<GydF4y2Ba/h3> <p>您可以根据环境中的观察和操作规范，创建具有默认参与者和评论家表示的TRPO代理。为此，请执行以下步骤。<GydF4y2Ba/p> <div class="orderedlist"> <ol style="list-style: decimal;"> <li><p>为您的环境创建观察规范。如果您已经有环境接口对象，则可以使用获取这些规范<A..HREf="https://jp.mathworks.com/jp/help/reinforcement-learning/ref/getobservationinfo.html"><code class="function">获取观测信息<GydF4y2Ba/code></a>.<GydF4y2Ba/p></li> <li><p>为您的环境创建操作规范。如果您已经有一个环境接口对象，则可以使用<A..HREf="https://jp.mathworks.com/jp/help/reinforcement-learning/ref/getactioninfo.html"><code class="function">getActionInfo<GydF4y2Ba/code></a>.<GydF4y2Ba/p></li> <li><p>如果需要，指定每个可学习层中的神经元数量<A..HREf="https://jp.mathworks.com/jp/help/reinforcement-learning/ref/rlagentinitializationoptions.html"><code class="object">rlagentinizationoptions<GydF4y2Ba/code></a>.<GydF4y2Ba/p></li> <li><p>使用<A..HREf="//www.tatmou.com/jp/jp/help/reinforcement-learning/ref/rltrpoagentoptions.html"><code class="function">RLTRP代理<GydF4y2Ba/code></a>对象<GydF4y2Ba/p></li> <li><p>使用<A..HREf="//www.tatmou.com/jp/jp/help/reinforcement-learning/ref/rltrpoagent.html"><code class="function">rltrpo试剂<GydF4y2Ba/code></a>对象<GydF4y2Ba/p></li> </ol> </div> <p>或者，您可以创建演员和评论家表示，并使用这些表示来创建代理。在这种情况下，请确保参与者和批评家表示的输入和输出维度与环境的相应操作和观察规范相匹配。<GydF4y2Ba/p> <div class="orderedlist"> <ol style="list-style: decimal;"> <li><p>使用<A..HREf="https://jp.mathworks.com/jp/help/reinforcement-learning/ref/rlstochasticactorrepresentation.html"><code class="function">随机表示<GydF4y2Ba/code></a>对象<GydF4y2Ba/p></li> <li><p>使用<A..HREf="https://jp.mathworks.com/jp/help/reinforcement-learning/ref/rlvaluerepresentation.html"><code class="function">rlValueRepresentation<GydF4y2Ba/code></a>对象<GydF4y2Ba/p></li> <li><p>如果需要，请使用<A..HREf="//www.tatmou.com/jp/jp/help/reinforcement-learning/ref/rltrpoagentoptions.html"><code class="function">RLTRP代理<GydF4y2Ba/code></a>对象<GydF4y2Ba/p></li> <li><p>使用<A..HREf="//www.tatmou.com/jp/jp/help/reinforcement-learning/ref/rltrpoagent.html"><code class="function">rltrpo试剂<GydF4y2Ba/code></a>作用<GydF4y2Ba/p></li> </ol> </div> <p>TRPO代理不支持使用递归深层神经网络金宝app作为函数逼近器的参与者和批评者。TRPO代理也不支持使用<CoDECLA.ss="object">二次层<GydF4y2Ba/code>.<GydF4y2Ba/p> <p>有关为函数近似创建参与者和批评者的更多信息，请参见<A..HREf="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/create-policy-and-value-function-representations.html" class="a">创建策略和值函数表示<GydF4y2Ba/a>.<GydF4y2Ba/p> </section> <section itemprop="content"> <h3 class="title" id="mw_20fc804d-9a63-4182-8815-2bbb948cd25b">信赖域策略优化<GydF4y2Ba/h3> <p>信赖域策略优化找到使下列参与者损失函数最小化的参与者参数。<GydF4y2Ba/p> <div id="d123e9058" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-20px" display="block"> <mrow> <msub> <mi> L<GydF4y2Ba/mi> <mrow> <mi> A.<GydF4y2Ba/mi> <mi> C<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> <mi> o<GydF4y2Ba/mi> <mi> R<GydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> <mo> )<GydF4y2Ba/mo> </mrow> <mo> =<GydF4y2Ba/mo> <mo> −<GydF4y2Ba/mo> <mfrac> <mn> 1.<GydF4y2Ba/mn> <mi> M<GydF4y2Ba/mi> </mfrac> <mstyle displaystyle="true"> <munderover> <mo> ∑<GydF4y2Ba/mo> <mrow> <mi> 我<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> <mi> M<GydF4y2Ba/mi> </munderover> <mrow> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <mfrac> <mrow> <msub> <mi> π<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mo> |<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> <mrow> <msub> <mi> π<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mo> |<GydF4y2Ba/mo> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mfrac> <msub> <mi> D<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mo> +<GydF4y2Ba/mo> <mi> W<GydF4y2Ba/mi> <msub> <mi> ℋ<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <mi> θ<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mstyle> </mrow> </math></p> </div> </div> <p>在这里：<GydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p><em class="varname">M<GydF4y2Ba/em>是最小批量大小。<GydF4y2Ba/p></li> <li><p><em class="varname">D<sUB>我<GydF4y2Ba/sub></em>是一种优势功能。<GydF4y2Ba/p></li> <li><p><em class="varname">π<sUB>我<GydF4y2Ba/sub></em>(<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>|<EMCLA.ss="varname">θ<GydF4y2Ba/em>)是采取行动的可能性<EMCLA.ss="varname">A.<sUB>我<GydF4y2Ba/sub></em>遵循现行政策。该值是概率（离散作用）或概率密度函数（连续作用）的特定值。<GydF4y2Ba/p></li> <li><p><em class="varname">π<sUB>我<GydF4y2Ba/sub></em>(<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>|<EMCLA.ss="varname">θ<sUB>古老的<GydF4y2Ba/sub></em>)是采取行动的可能性<EMCLA.ss="varname">A.<sUB>我<GydF4y2Ba/sub></em>遵循旧政策。<GydF4y2Ba/p></li> <li><p><em class="varname">W<GydF4y2Ba/em><em class="varname">ℋ<sUB>我<GydF4y2Ba/sub></em>(<EMCLA.ss="varname">θ<GydF4y2Ba/em>,<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>)是熵损失项，其中<EMCLA.ss="varname">W<GydF4y2Ba/em>是熵损失和重量<EMCLA.ss="varname">ℋ<sUB>我<GydF4y2Ba/sub></em>(<EMCLA.ss="varname">θ<GydF4y2Ba/em>,<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>)是熵。有关详细信息，请参阅<A..HREf="https://jp.mathworks.com/jp/help/reinforcement-learning/ug/trpo-agents.html" class="intrnllnk">熵损失<GydF4y2Ba/a>.<GydF4y2Ba/p></li> </ul> </div> <p>这种最小化受到以下约束。<GydF4y2Ba/p> <div id="d123e9137" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-20px" display="block"> <mrow> <mfrac> <mn> 1.<GydF4y2Ba/mn> <mi> M<GydF4y2Ba/mi> </mfrac> <mstyle displaystyle="true"> <munderover> <mo> ∑<GydF4y2Ba/mo> <mrow> <mi> 我<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> <mi> M<GydF4y2Ba/mi> </munderover> <mrow> <msub> <mi> D<GydF4y2Ba/mi> <mrow> <mi> K<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> <mo> ,<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mstyle> <mo> ≤<GydF4y2Ba/mo> <mi> δ<GydF4y2Ba/mi> </mrow> </math></p> </div> </div> <p>在这里：<GydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p><em class="varname">D<sUB>吉隆坡<GydF4y2Ba/sub></em>(<EMCLA.ss="varname">θ<sUB>古老的<GydF4y2Ba/sub></em>,<EMCLA.ss="varname">θ<GydF4y2Ba/em>,<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>)库尔贝克-莱布尔（KL）与旧政策之间是否存在分歧<EMCLA.ss="varname">π<GydF4y2Ba/em>(<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>|<EMCLA.ss="varname">θ<sUB>古老的<GydF4y2Ba/sub></em>)和现行政策<EMCLA.ss="varname">π<GydF4y2Ba/em>(<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>|<EMCLA.ss="varname">θ<GydF4y2Ba/em>).<EMCLA.ss="varname">D<sUB>吉隆坡<GydF4y2Ba/sub></em>衡量新旧政策的概率分布差异程度。<EMCLA.ss="varname">D<sUB>吉隆坡<GydF4y2Ba/sub></em>如果两个分布相同，则为零。<GydF4y2Ba/p></li> <li><p><em class="varname">δ<GydF4y2Ba/em>限制是多少<EMCLA.ss="varname">D<sUB>吉隆坡<GydF4y2Ba/sub></em>并控制新政策与旧政策的偏离程度。<GydF4y2Ba/p></li> </ul> </div> <p>对于具有离散作用空间的代理，<EMCLA.ss="varname">D<sUB>吉隆坡<GydF4y2Ba/sub></em>计算如下，其中<EMCLA.ss="varname">P<GydF4y2Ba/em>是操作数。<GydF4y2Ba/p> <div id="d123e9202" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-20px" display="block"> <mrow> <msub> <mi> D<GydF4y2Ba/mi> <mrow> <mi> K<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> <mo> ,<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> <mo> =<GydF4y2Ba/mo> <mstyle displaystyle="true"> <munderover> <mo> ∑<GydF4y2Ba/mo> <mrow> <mi> K<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> <mi> P<GydF4y2Ba/mi> </munderover> <mrow> <msub> <mi> π<GydF4y2Ba/mi> <mi> K<GydF4y2Ba/mi> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mo> |<GydF4y2Ba/mo> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mstyle> <mi> 自然对数<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <mfrac> <mrow> <msub> <mi> π<GydF4y2Ba/mi> <mi> K<GydF4y2Ba/mi> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mo> |<GydF4y2Ba/mo> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> <mrow> <msub> <mi> π<GydF4y2Ba/mi> <mi> K<GydF4y2Ba/mi> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mo> |<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mfrac> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </math></p> </div> </div> <p>对于具有连续动作空间的代理，<EMCLA.ss="varname">D<sUB>吉隆坡<GydF4y2Ba/sub></em>计算如下。<GydF4y2Ba/p> <div id="d123e9213" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-27px" display="block"> <mrow> <msub> <mi> D<GydF4y2Ba/mi> <mrow> <mi> K<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> <mo> ,<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> <mo> =<GydF4y2Ba/mo> <mfrac> <mn> 1.<GydF4y2Ba/mn> <mi> P<GydF4y2Ba/mi> </mfrac> <mstyle displaystyle="true"> <munderover> <mo> ∑<GydF4y2Ba/mo> <mrow> <mi> K<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> <mi> P<GydF4y2Ba/mi> </munderover> <mrow> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <mi> 自然对数<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> σ<GydF4y2Ba/mi> <mrow> <mi> θ<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <mi> K<GydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> <mo> −<GydF4y2Ba/mo> <mi> 自然对数<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> σ<GydF4y2Ba/mi> <mrow> <mi> θ<GydF4y2Ba/mi> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <mi> K<GydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> <mo> +<GydF4y2Ba/mo> <mfrac> <mrow> <msubsup> <mi> σ<GydF4y2Ba/mi> <mrow> <mi> θ<GydF4y2Ba/mi> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <mi> K<GydF4y2Ba/mi> </mrow> <mn> 2.<GydF4y2Ba/mn> </msubsup> <mo> +<GydF4y2Ba/mo> <msup> <mrow> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> μ<GydF4y2Ba/mi> <mrow> <mi> θ<GydF4y2Ba/mi> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <mi> K<GydF4y2Ba/mi> </mrow> </msub> <mo> −<GydF4y2Ba/mo> <msub> <mi> μ<GydF4y2Ba/mi> <mrow> <mi> θ<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <mi> K<GydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> <mn> 2.<GydF4y2Ba/mn> </msup> </mrow> <mrow> <mn> 2.<GydF4y2Ba/mn> <msubsup> <mi> σ<GydF4y2Ba/mi> <mrow> <mi> θ<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <mi> K<GydF4y2Ba/mi> </mrow> <mn> 2.<GydF4y2Ba/mn> </msubsup> </mrow> </mfrac> <mo> −<GydF4y2Ba/mo> <mn> 0.5<GydF4y2Ba/mn> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mstyle> </mrow> </math></p> </div> </div> <p>在这里：<GydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p><em class="varname">μ<sUB>θ、 k<GydF4y2Ba/sub></em>和<EMCLA.ss="varname">σ<sUB>θ、 k<GydF4y2Ba/sub></em>是平均值和标准偏差<EMCLA.ss="varname">K<GydF4y2Ba/em>当前参与者策略的第次操作输出<EMCLA.ss="varname">π<GydF4y2Ba/em>(<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>|<EMCLA.ss="varname">θ<GydF4y2Ba/em>).<GydF4y2Ba/p></li> <li><p><em class="varname">μ<sUB>θold，k<GydF4y2Ba/sub></em>和<EMCLA.ss="varname">σ<sUB>θold，k<GydF4y2Ba/sub></em>是平均值和标准偏差<EMCLA.ss="varname">K<GydF4y2Ba/em>旧政策的行动产出<EMCLA.ss="varname">π<GydF4y2Ba/em>(<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>|<EMCLA.ss="varname">θ<sUB>古老的<GydF4y2Ba/sub></em>).<GydF4y2Ba/p></li> </ul> </div> <p>为了近似此优化问题，TRPO代理使用的线性近似值为<EMCLA.ss="varname">L<sUB>演员<GydF4y2Ba/sub></em>(<EMCLA.ss="varname">θ<GydF4y2Ba/em>)和的二次近似<EMCLA.ss="varname">D<sUB>吉隆坡<GydF4y2Ba/sub></em>(<EMCLA.ss="varname">θ<sUB>古老的<GydF4y2Ba/sub></em>,<EMCLA.ss="varname">θ<GydF4y2Ba/em>,<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>).近似值通过采用泰勒级数展开进行计算<EMCLA.ss="varname">θ<GydF4y2Ba/em>.<GydF4y2Ba/p> <div id="d123e9286" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-57px" display="block"> <mtable columnalign="left"> <mtr> <mtd> <munder> <mrow> <mi> 闵<GydF4y2Ba/mi> </mrow> <mi> θ<GydF4y2Ba/mi> </munder> <msub> <mi> L<GydF4y2Ba/mi> <mrow> <mi> A.<GydF4y2Ba/mi> <mi> C<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> <mi> o<GydF4y2Ba/mi> <mi> R<GydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> <mo> )<GydF4y2Ba/mo> </mrow> <mo> ≈<GydF4y2Ba/mo> <msub> <mrow> <mrow> <mi> G<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <mi> θ<GydF4y2Ba/mi> <mo> −<GydF4y2Ba/mo> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> <mo> =<GydF4y2Ba/mo> <msub> <mo> ∇<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> </msub> <msub> <mi> L<GydF4y2Ba/mi> <mrow> <mi> A.<GydF4y2Ba/mi> <mi> C<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> <mi> o<GydF4y2Ba/mi> <mi> R<GydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> <mo> |<GydF4y2Ba/mo> </mrow> <mrow> <mi> θ<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> </mrow> </msub> <mo> ⋅<GydF4y2Ba/mo> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <mi> θ<GydF4y2Ba/mi> <mo> −<GydF4y2Ba/mo> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mi> s<GydF4y2Ba/mi> <mi> U<GydF4y2Ba/mi> <mi> B<GydF4y2Ba/mi> <mi> J<GydF4y2Ba/mi> <mi> E<GydF4y2Ba/mi> <mi> C<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> <mtext> </mtext> <mi> T<GydF4y2Ba/mi> <mi> o<GydF4y2Ba/mi> <mtext> </mtext> <mfrac> <mn> 1.<GydF4y2Ba/mn> <mn> 2.<GydF4y2Ba/mn> </mfrac> <msup> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> <mo> −<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> <mi> T<GydF4y2Ba/mi> </msup> <mi> H<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> <mo> −<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> <mo> ≤<GydF4y2Ba/mo> <mi> δ<GydF4y2Ba/mi> </mtd> </mtr> <mtr> <mtd> <mi> W<GydF4y2Ba/mi> <mi> H<GydF4y2Ba/mi> <mi> E<GydF4y2Ba/mi> <mi> R<GydF4y2Ba/mi> <mi> E<GydF4y2Ba/mi> <mtext> </mtext> <mi> H<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <msubsup> <mo> ∇<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> <mn> 2.<GydF4y2Ba/mn> </msubsup> <msub> <mrow> <mrow> <mfrac> <mn> 1.<GydF4y2Ba/mn> <mi> M<GydF4y2Ba/mi> </mfrac> <mstyle displaystyle="true"> <msubsup> <mo> ∑<GydF4y2Ba/mo> <mrow> <mi> 我<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> <mi> M<GydF4y2Ba/mi> </msubsup> <mrow> <msub> <mi> D<GydF4y2Ba/mi> <mrow> <mi> K<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> <mo> ,<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mstyle> </mrow> <mo> |<GydF4y2Ba/mo> </mrow> <mrow> <mi> θ<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> </mrow> </msub> </mtd> </mtr> </mtable> </math></p> </div> </div> <p>该近似优化问题的解析解如下所示。<GydF4y2Ba/p> <div id="d123e9291" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-17px" display="block"> <mrow> <mi> θ<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> <mo> +<GydF4y2Ba/mo> <mi> α<GydF4y2Ba/mi> <msqrt> <mrow> <mfrac> <mrow> <mn> 2.<GydF4y2Ba/mn> <mi> δ<GydF4y2Ba/mi> </mrow> <mrow> <msup> <mi> x<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> </msup> <msup> <mi> H<GydF4y2Ba/mi> <mrow> <mo> −<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> </msup> <mi> x<GydF4y2Ba/mi> </mrow> </mfrac> </mrow> </msqrt> <mi> x<GydF4y2Ba/mi> </mrow> </math></p> </div> </div> <p>在这里<EMCLA.ss="varname">x<GydF4y2Ba/em>=<EMCLA.ss="varname">H<GydF4y2Ba/em><sup>-1<GydF4y2Ba/sup><em class="varname">G<GydF4y2Ba/em>和<EMCLA.ss="varname">α<GydF4y2Ba/em>是确保策略改进并满足约束的系数。<GydF4y2Ba/p> </section> <section itemprop="content"> <h3 class="title" id="mw_f866ef43-84cf-4734-9695-e1ef2b84358b">训练算法<GydF4y2Ba/h3> <p>TRPO代理使用以下训练算法。要配置训练算法，请使用<CoDECLA.ss="function">RLTRP代理<GydF4y2Ba/code>对象<GydF4y2Ba/p> <div class="orderedlist"> <ol style="list-style: decimal;"> <li><p>初始化参与者<EMCLA.ss="varname">π<GydF4y2Ba/em>(<EMCLA.ss="varname">s<GydF4y2Ba/em>)具有随机参数值<EMCLA.ss="varname">θ<GydF4y2Ba/em>.<GydF4y2Ba/p></li> <li><p>初始化批评家<EMCLA.ss="varname">v<GydF4y2Ba/em>(<EMCLA.ss="varname">s<GydF4y2Ba/em>)具有随机参数值<EMCLA.ss="varname">ϕ<GydF4y2Ba/em>.<GydF4y2Ba/p></li> <li><p>生成<EMCLA.ss="varname">N<GydF4y2Ba/em>通过遵循当前政策获得经验。经验顺序为<GydF4y2Ba/p> <div id="d123e9335" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-7px" display="block"> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mrow> <mi> T<GydF4y2Ba/mi> <mi> s<GydF4y2Ba/mi> </mrow> </msub> <mo> ,<GydF4y2Ba/mo> <msub> <mi> A.<GydF4y2Ba/mi> <mrow> <mi> T<GydF4y2Ba/mi> <mi> s<GydF4y2Ba/mi> </mrow> </msub> <mo> ,<GydF4y2Ba/mo> <msub> <mi> R<GydF4y2Ba/mi> <mrow> <mi> T<GydF4y2Ba/mi> <mi> s<GydF4y2Ba/mi> <mo> +<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> </msub> <mo> ,<GydF4y2Ba/mo> <msub> <mi> s<GydF4y2Ba/mi> <mrow> <mi> T<GydF4y2Ba/mi> <mi> s<GydF4y2Ba/mi> <mo> +<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> </msub> <mo> ,<GydF4y2Ba/mo> <mo> …<GydF4y2Ba/mo> <mo> ,<GydF4y2Ba/mo> <msub> <mi> s<GydF4y2Ba/mi> <mrow> <mi> T<GydF4y2Ba/mi> <mi> s<GydF4y2Ba/mi> <mo> +<GydF4y2Ba/mo> <mi> N<GydF4y2Ba/mi> <mo> −<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> </msub> <mo> ,<GydF4y2Ba/mo> <msub> <mi> A.<GydF4y2Ba/mi> <mrow> <mi> T<GydF4y2Ba/mi> <mi> s<GydF4y2Ba/mi> <mo> +<GydF4y2Ba/mo> <mi> N<GydF4y2Ba/mi> <mo> −<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> </msub> <mo> ,<GydF4y2Ba/mo> <msub> <mi> R<GydF4y2Ba/mi> <mrow> <mi> T<GydF4y2Ba/mi> <mi> s<GydF4y2Ba/mi> <mo> +<GydF4y2Ba/mo> <mi> N<GydF4y2Ba/mi> </mrow> </msub> <mo> ,<GydF4y2Ba/mo> <msub> <mi> s<GydF4y2Ba/mi> <mrow> <mi> T<GydF4y2Ba/mi> <mi> s<GydF4y2Ba/mi> <mo> +<GydF4y2Ba/mo> <mi> N<GydF4y2Ba/mi> </mrow> </msub> </mrow> </math></p> </div> </div><p>在这里<EMCLA.ss="varname">s<sUB>T<GydF4y2Ba/sub></em>是一种状态观察,，<EMCLA.ss="varname">A.<sUB>T<GydF4y2Ba/sub></em>是该州采取的行动，<EMCLA.ss="varname">s<sUB>t+1<GydF4y2Ba/sub></em>是下一个州，和<EMCLA.ss="varname">R<sUB>t+1<GydF4y2Ba/sub></em>搬家是否获得奖励<EMCLA.ss="varname">s<sUB>T<GydF4y2Ba/sub></em>到<EMCLA.ss="varname">s<sUB>t+1<GydF4y2Ba/sub></em>.<GydF4y2Ba/p><p>处于状态时<EMCLA.ss="varname">s<sUB>T<GydF4y2Ba/sub></em>，代理使用<EMCLA.ss="varname">π<GydF4y2Ba/em>(<EMCLA.ss="varname">s<sUB>T<GydF4y2Ba/sub></em>)并随机选择动作<EMCLA.ss="varname">A.<sUB>T<GydF4y2Ba/sub></em>基于概率分布。<GydF4y2Ba/p><p><em class="varname">ts<GydF4y2Ba/em>是当前数据集的开始时间步长<EMCLA.ss="varname">N<GydF4y2Ba/em>经验。在训练开始时，<EMCLA.ss="varname">ts<GydF4y2Ba/em>= 1. 对于随后的每一组<EMCLA.ss="varname">N<GydF4y2Ba/em>在同一训练集中的经历，<EMCLA.ss="varname">ts<GydF4y2Ba/em>←<EMCLA.ss="varname">ts<GydF4y2Ba/em>+<EMCLA.ss="varname">N<GydF4y2Ba/em>.<GydF4y2Ba/p><p>对于每个不包含终端状态的体验序列，<EMCLA.ss="varname">N<GydF4y2Ba/em>等于<CoDECLA.ss="literal">经验视野<GydF4y2Ba/code>期权价值。否则，<EMCLA.ss="varname">N<GydF4y2Ba/em>少于<CoDECLA.ss="literal">经验视野<GydF4y2Ba/code>和<EMCLA.ss="varname">s<sUB>N<GydF4y2Ba/sub></em>是终端状态。<GydF4y2Ba/p></li> <li><p>对于每个情节步骤<EMCLA.ss="varname">T<GydF4y2Ba/em>=<EMCLA.ss="varname">ts<GydF4y2Ba/em>+1,<EMCLA.ss="varname">ts<GydF4y2Ba/em>+2, …,<EMCLA.ss="varname">ts<GydF4y2Ba/em>+<EMCLA.ss="varname">N<GydF4y2Ba/em>，使用<CoDECLA.ss="literal">优势估计法<GydF4y2Ba/code>选项<GydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p><strong class="emphasis bold">有限视界<GydF4y2Ba/strong>(<CoDECLA.ss="literal">AdvantageEstimateMethod=“有限地平线”<GydF4y2Ba/code>)-计算回报<EMCLA.ss="varname">G<sUB>T<GydF4y2Ba/sub></em>，这是该步骤的奖励与折扣后的未来奖励之和<A..HREf="https://jp.mathworks.com/jp/help/reinforcement-learning/ug/trpo-agents.html" class="intrnllnk">[2]<GydF4y2Ba/a>.<GydF4y2Ba/p> <div id="d123e9442" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-20px" display="block"> <mrow> <msub> <mi> G<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> </msub> <mo> =<GydF4y2Ba/mo> <mstyle displaystyle="true"> <munderover> <mo> ∑<GydF4y2Ba/mo> <mrow> <mi> K<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <mi> T<GydF4y2Ba/mi> </mrow> <mrow> <mi> T<GydF4y2Ba/mi> <mi> s<GydF4y2Ba/mi> <mo> +<GydF4y2Ba/mo> <mi> N<GydF4y2Ba/mi> </mrow> </munderover> <mrow> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msup> <mi> γ<GydF4y2Ba/mi> <mrow> <mi> K<GydF4y2Ba/mi> <mo> −<GydF4y2Ba/mo> <mi> T<GydF4y2Ba/mi> </mrow> </msup> <msub> <mi> R<GydF4y2Ba/mi> <mi> K<GydF4y2Ba/mi> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mstyle> <mo> +<GydF4y2Ba/mo> <mi> B<GydF4y2Ba/mi> <msup> <mi> γ<GydF4y2Ba/mi> <mrow> <mi> N<GydF4y2Ba/mi> <mo> −<GydF4y2Ba/mo> <mi> T<GydF4y2Ba/mi> <mo> +<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> </msup> <mi> v<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mrow> <mi> T<GydF4y2Ba/mi> <mi> s<GydF4y2Ba/mi> <mo> +<GydF4y2Ba/mo> <mi> N<GydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> |<GydF4y2Ba/mo> <mi> ϕ<GydF4y2Ba/mi> </mrow> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </math></p> </div> </div><p>在这里<EMCLA.ss="varname">B<GydF4y2Ba/em>是<CoDECLA.ss="literal">0<GydF4y2Ba/code>如果<EMCLA.ss="varname">s<sUB>ts+N<GydF4y2Ba/sub></em>是一个终端状态，并且<CoDECLA.ss="literal">1.<GydF4y2Ba/code>否则也就是说，如果<EMCLA.ss="varname">s<sUB>ts+N<GydF4y2Ba/sub></em>不是终端状态，贴现未来奖励包括贴现状态值函数，使用批评家网络计算<EMCLA.ss="varname">v<GydF4y2Ba/em>.<GydF4y2Ba/p><p>计算优势函数<EMCLA.ss="varname">D<sUB>T<GydF4y2Ba/sub></em>.<GydF4y2Ba/p> <div id="d123e9471" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-9px" display="block"> <mrow> <msub> <mi> D<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> </msub> <mo> =<GydF4y2Ba/mo> <msub> <mi> G<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> </msub> <mo> −<GydF4y2Ba/mo> <mi> v<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> </msub> <mrow> <mo> |<GydF4y2Ba/mo> <mi> ϕ<GydF4y2Ba/mi> </mrow> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </math></p> </div> </div></li> <li><p><strong class="emphasis bold">广义优势估计量<GydF4y2Ba/strong>(<CoDECLA.ss="literal">AdvantageeEstimateMethod=“gae”<GydF4y2Ba/code>)-计算优势函数<EMCLA.ss="varname">D<sUB>T<GydF4y2Ba/sub></em>，它是时间差误差的贴现和<A..HREf="https://jp.mathworks.com/jp/help/reinforcement-learning/ug/trpo-agents.html" class="intrnllnk">[3]<GydF4y2Ba/a>.<GydF4y2Ba/p> <div id="d123e9488" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-32px" display="block"> <mtable> <mtr> <mtd> <msub> <mi> D<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> </msub> <mo> =<GydF4y2Ba/mo> <mstyle displaystyle="true"> <munderover> <mo> ∑<GydF4y2Ba/mo> <mrow> <mi> K<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <mi> T<GydF4y2Ba/mi> </mrow> <mrow> <mi> T<GydF4y2Ba/mi> <mi> s<GydF4y2Ba/mi> <mo> +<GydF4y2Ba/mo> <mi> N<GydF4y2Ba/mi> <mo> −<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> </munderover> <mrow> <msup> <mrow> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <mi> γ<GydF4y2Ba/mi> <mi> λ<GydF4y2Ba/mi> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> <mrow> <mi> K<GydF4y2Ba/mi> <mo> −<GydF4y2Ba/mo> <mi> T<GydF4y2Ba/mi> </mrow> </msup> <msub> <mi> δ<GydF4y2Ba/mi> <mi> K<GydF4y2Ba/mi> </msub> </mrow> </mstyle> </mtd> </mtr> <mtr> <mtd> <msub> <mi> δ<GydF4y2Ba/mi> <mi> K<GydF4y2Ba/mi> </msub> <mo> =<GydF4y2Ba/mo> <msub> <mi> R<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> </msub> <mo> +<GydF4y2Ba/mo> <mi> B<GydF4y2Ba/mi> <mi> γ<GydF4y2Ba/mi> <mi> v<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> </msub> <mrow> <mo> |<GydF4y2Ba/mo> <mi> ϕ<GydF4y2Ba/mi> </mrow> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mtd> </mtr> </mtable> </math></p> </div> </div><p>在这里<EMCLA.ss="varname">B<GydF4y2Ba/em>是<CoDECLA.ss="literal">0<GydF4y2Ba/code>如果<EMCLA.ss="varname">s<sUB>ts+N<GydF4y2Ba/sub></em>是一个终端状态，并且<CoDECLA.ss="literal">1.<GydF4y2Ba/code>否则<EMCLA.ss="varname">λ<GydF4y2Ba/em>是使用<CoDECLA.ss="literal">GAEFactor<GydF4y2Ba/code>选项<GydF4y2Ba/p><p>计算回报<EMCLA.ss="varname">G<sUB>T<GydF4y2Ba/sub></em>.<GydF4y2Ba/p> <div id="d123e9515" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-9px" display="block"> <mrow> <msub> <mi> G<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> </msub> <mo> =<GydF4y2Ba/mo> <msub> <mi> D<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> </msub> <mo> +<GydF4y2Ba/mo> <mi> v<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> </msub> <mrow> <mo> |<GydF4y2Ba/mo> <mi> ϕ<GydF4y2Ba/mi> </mrow> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </math></p> </div> </div></li> </ul> </div><p>指定折扣系数的步骤<EMCLA.ss="varname">γ<GydF4y2Ba/em>对于这两种方法，请使用<CoDECLA.ss="literal">折扣因素<GydF4y2Ba/code>选项<GydF4y2Ba/p></li> <li><p>从过去的小批量经验中学习<EMCLA.ss="varname">K<GydF4y2Ba/em>年代。指定<EMCLA.ss="varname">K<GydF4y2Ba/em>，使用<CoDECLA.ss="literal">努梅波奇<GydF4y2Ba/code>选项对于每个学习阶段：<GydF4y2Ba/p> <div class="orderedlist"> <ol style="list-style: lower-alpha;"> <li><p>对大小为的随机小批量数据集进行采样<EMCLA.ss="varname">M<GydF4y2Ba/em>从当前的一组经验中。要指定<EMCLA.ss="varname">M<GydF4y2Ba/em>，使用<CoDECLA.ss="literal">小批量<GydF4y2Ba/code>选项小批量数据集的每个元素都包含当前体验以及相应的返回和优势函数值。<GydF4y2Ba/p></li> <li><p>通过最小化损失来更新临界参数<EMCLA.ss="varname">L<sUB>批评家<GydF4y2Ba/sub></em>在所有采样的小批量数据中。<GydF4y2Ba/p> <div id="d123e9551" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-20px" display="block"> <mrow> <msub> <mi> L<GydF4y2Ba/mi> <mrow> <mi> C<GydF4y2Ba/mi> <mi> R<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> <mi> C<GydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mi> ϕ<GydF4y2Ba/mi> <mo> )<GydF4y2Ba/mo> </mrow> <mo> =<GydF4y2Ba/mo> <mfrac> <mn> 1.<GydF4y2Ba/mn> <mi> M<GydF4y2Ba/mi> </mfrac> <mstyle displaystyle="true"> <munderover> <mo> ∑<GydF4y2Ba/mo> <mrow> <mi> 我<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> <mi> M<GydF4y2Ba/mi> </munderover> <mrow> <msup> <mrow> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> G<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mo> −<GydF4y2Ba/mo> <mi> v<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mrow> <mo> |<GydF4y2Ba/mo> <mi> ϕ<GydF4y2Ba/mi> </mrow> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> <mn> 2.<GydF4y2Ba/mn> </msup> </mrow> </mstyle> </mrow> </math></p> </div> </div></li> <li><p>将优势值标准化<EMCLA.ss="varname">D<sUB>我<GydF4y2Ba/sub></em>基于最近未规范化的优势值。<GydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p>如果<CoDECLA.ss="literal">标准化优势法<GydF4y2Ba/code>选择是<CoDECLA.ss="literal">“没有”<GydF4y2Ba/code>，不要规范化优势值。<GydF4y2Ba/p> <div id="d123e9570" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-7px" display="block"> <mrow> <msub> <mover accent="true"> <mi> D<GydF4y2Ba/mi> <mo> ^<GydF4y2Ba/mo> </mover> <mi> 我<GydF4y2Ba/mi> </msub> <mo> ←<GydF4y2Ba/mo> <msub> <mi> D<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> </mrow> </math></p> </div> </div></li> <li><p>如果<CoDECLA.ss="literal">标准化优势法<GydF4y2Ba/code>选择是<CoDECLA.ss="literal">“当前”<GydF4y2Ba/code>，根据当前小批量中未标准化的优势值标准化优势值。<GydF4y2Ba/p> <div id="d123e9581" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-19px" display="block"> <mrow> <msub> <mover accent="true"> <mi> D<GydF4y2Ba/mi> <mo> ^<GydF4y2Ba/mo> </mover> <mi> 我<GydF4y2Ba/mi> </msub> <mo> ←<GydF4y2Ba/mo> <mfrac> <mrow> <msub> <mi> D<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mo> −<GydF4y2Ba/mo> <mi> M<GydF4y2Ba/mi> <mi> E<GydF4y2Ba/mi> <mi> A.<GydF4y2Ba/mi> <mi> N<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> D<GydF4y2Ba/mi> <mn> 1.<GydF4y2Ba/mn> </msub> <mo> ,<GydF4y2Ba/mo> <msub> <mi> D<GydF4y2Ba/mi> <mn> 2.<GydF4y2Ba/mn> </msub> <mo> ,<GydF4y2Ba/mo> <mo> …<GydF4y2Ba/mo> <mo> ,<GydF4y2Ba/mo> <msub> <mi> D<GydF4y2Ba/mi> <mi> M<GydF4y2Ba/mi> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> <mrow> <mi> s<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> D<GydF4y2Ba/mi> <mn> 1.<GydF4y2Ba/mn> </msub> <mo> ,<GydF4y2Ba/mo> <msub> <mi> D<GydF4y2Ba/mi> <mn> 2.<GydF4y2Ba/mn> </msub> <mo> ,<GydF4y2Ba/mo> <mo> …<GydF4y2Ba/mo> <mo> ,<GydF4y2Ba/mo> <msub> <mi> D<GydF4y2Ba/mi> <mi> M<GydF4y2Ba/mi> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mfrac> </mrow> </math></p> </div> </div></li> <li><p>如果<CoDECLA.ss="literal">标准化优势法<GydF4y2Ba/code>选择是<CoDECLA.ss="literal">“移动”<GydF4y2Ba/code>，根据未标准化的优势对优势值进行标准化<EMCLA.ss="varname">N<GydF4y2Ba/em>最近的优势，包括当前优势值。指定窗口大小的步骤<EMCLA.ss="varname">N<GydF4y2Ba/em>，使用<CoDECLA.ss="literal">得天独厚<GydF4y2Ba/code>选项<GydF4y2Ba/p> <div id="d123e9598" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-19px" display="block"> <mrow> <msub> <mover accent="true"> <mi> D<GydF4y2Ba/mi> <mo> ^<GydF4y2Ba/mo> </mover> <mi> 我<GydF4y2Ba/mi> </msub> <mo> ←<GydF4y2Ba/mo> <mfrac> <mrow> <msub> <mi> D<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mo> −<GydF4y2Ba/mo> <mi> M<GydF4y2Ba/mi> <mi> E<GydF4y2Ba/mi> <mi> A.<GydF4y2Ba/mi> <mi> N<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> D<GydF4y2Ba/mi> <mn> 1.<GydF4y2Ba/mn> </msub> <mo> ,<GydF4y2Ba/mo> <msub> <mi> D<GydF4y2Ba/mi> <mn> 2.<GydF4y2Ba/mn> </msub> <mo> ,<GydF4y2Ba/mo> <mo> …<GydF4y2Ba/mo> <mo> ,<GydF4y2Ba/mo> <msub> <mi> D<GydF4y2Ba/mi> <mi> N<GydF4y2Ba/mi> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> <mrow> <mi> s<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> D<GydF4y2Ba/mi> <mn> 1.<GydF4y2Ba/mn> </msub> <mo> ,<GydF4y2Ba/mo> <msub> <mi> D<GydF4y2Ba/mi> <mn> 2.<GydF4y2Ba/mn> </msub> <mo> ,<GydF4y2Ba/mo> <mo> …<GydF4y2Ba/mo> <mo> ,<GydF4y2Ba/mo> <msub> <mi> D<GydF4y2Ba/mi> <mi> N<GydF4y2Ba/mi> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mfrac> </mrow> </math></p> </div> </div></li> </ul> </div></li> <li><p>通过求解约束优化问题更新参与者参数。<GydF4y2Ba/p> <div class="orderedlist"> <ol style="list-style: lower-roman;"> <li><p>计算策略梯度。<GydF4y2Ba/p> <div id="d123e9607" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-20px" display="block"> <mrow> <mi> G<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <msub> <mo> ∇<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> </msub> <msub> <mi> L<GydF4y2Ba/mi> <mrow> <mi> A.<GydF4y2Ba/mi> <mi> C<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> <mi> o<GydF4y2Ba/mi> <mi> R<GydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> <mo> )<GydF4y2Ba/mo> </mrow> <mo> =<GydF4y2Ba/mo> <msub> <mo> ∇<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> </msub> <mo> −<GydF4y2Ba/mo> <mfrac> <mn> 1.<GydF4y2Ba/mn> <mi> M<GydF4y2Ba/mi> </mfrac> <mstyle displaystyle="true"> <munderover> <mo> ∑<GydF4y2Ba/mo> <mrow> <mi> 我<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> <mi> M<GydF4y2Ba/mi> </munderover> <mrow> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <mfrac> <mrow> <msub> <mi> π<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mo> |<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> <mrow> <msub> <mi> π<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mo> |<GydF4y2Ba/mo> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mfrac> <msub> <mover accent="true"> <mi> D<GydF4y2Ba/mi> <mo> ^<GydF4y2Ba/mo> </mover> <mi> 我<GydF4y2Ba/mi> </msub> <mo> +<GydF4y2Ba/mo> <mi> W<GydF4y2Ba/mi> <msub> <mi> ℋ<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <mi> θ<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mstyle> </mrow> </math></p> </div> </div></li> <li><p>应用共轭梯度（CG）法找到以下方程的近似解，其中<EMCLA.ss="varname">H<GydF4y2Ba/em>是吉隆坡新旧政策分歧的根源。<GydF4y2Ba/p> <div id="d123e9616" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-7px" display="block"> <mrow> <mi> x<GydF4y2Ba/mi> <mo> ≈<GydF4y2Ba/mo> <msup> <mi> H<GydF4y2Ba/mi> <mrow> <mo> −<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> </msup> <mi> G<GydF4y2Ba/mi> </mrow> </math></p> </div> </div><p>要配置CG算法的终止条件，请使用<CoDECLA.ss="literal">NumiteirationsConjugategradient<GydF4y2Ba/code>和<CoDECLA.ss="literal">共轭辐射耐受性<GydF4y2Ba/code>选项。要稳定CG算法的数值计算，请使用<CoDECLA.ss="literal">共轭辐射阻尼<GydF4y2Ba/code>选项<GydF4y2Ba/p></li> <li><p>使用直线搜索算法，找到最大的<EMCLA.ss="varname">α<GydF4y2Ba/em>它满足以下约束。<GydF4y2Ba/p> <div id="d123e9633" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-73px" display="block"> <mtable columnalign="left"> <mtr> <mtd> <mi> θ<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> <mo> +<GydF4y2Ba/mo> <mi> α<GydF4y2Ba/mi> <msqrt> <mrow> <mfrac> <mrow> <mn> 2.<GydF4y2Ba/mn> <mi> δ<GydF4y2Ba/mi> </mrow> <mrow> <msup> <mi> x<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> </msup> <msup> <mi> H<GydF4y2Ba/mi> <mrow> <mo> −<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> </msup> <mi> x<GydF4y2Ba/mi> </mrow> </mfrac> </mrow> </msqrt> <mi> x<GydF4y2Ba/mi> </mtd> </mtr> <mtr> <mtd> <msub> <mi> L<GydF4y2Ba/mi> <mrow> <mi> A.<GydF4y2Ba/mi> <mi> C<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> <mi> o<GydF4y2Ba/mi> <mi> R<GydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> <mo> )<GydF4y2Ba/mo> </mrow> <mo> −<GydF4y2Ba/mo> <msub> <mi> L<GydF4y2Ba/mi> <mrow> <mi> A.<GydF4y2Ba/mi> <mi> C<GydF4y2Ba/mi> <mi> T<GydF4y2Ba/mi> <mi> o<GydF4y2Ba/mi> <mi> R<GydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> <mo> <<GydF4y2Ba/mo> <mn> 0<GydF4y2Ba/mn> </mtd> </mtr> <mtr> <mtd> <mfrac> <mn> 1.<GydF4y2Ba/mn> <mi> M<GydF4y2Ba/mi> </mfrac> <mstyle displaystyle="true"> <munderover> <mo> ∑<GydF4y2Ba/mo> <mrow> <mi> 我<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> <mi> M<GydF4y2Ba/mi> </munderover> <mrow> <msub> <mi> D<GydF4y2Ba/mi> <mrow> <mi> K<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> θ<GydF4y2Ba/mi> <mrow> <mi> o<GydF4y2Ba/mi> <mi> L<GydF4y2Ba/mi> <mi> D<GydF4y2Ba/mi> </mrow> </msub> <mo> ,<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mstyle> <mo> ≤<GydF4y2Ba/mo> <mi> δ<GydF4y2Ba/mi> </mtd> </mtr> <mtr> <mtd> <mi> α<GydF4y2Ba/mi> <mo> ∈<GydF4y2Ba/mo> <mrow> <mo> {<GydF4y2Ba/mo> <mrow> <mn> 1.<GydF4y2Ba/mn> <mo> ,<GydF4y2Ba/mo> <mfrac> <mn> 1.<GydF4y2Ba/mn> <mn> 2.<GydF4y2Ba/mn> </mfrac> <mo> ,<GydF4y2Ba/mo> <mfrac> <mn> 1.<GydF4y2Ba/mn> <mrow> <msup> <mn> 2.<GydF4y2Ba/mn> <mn> 2.<GydF4y2Ba/mn> </msup> </mrow> </mfrac> <mo> ,<GydF4y2Ba/mo> <mo> …<GydF4y2Ba/mo> <mo> ,<GydF4y2Ba/mo> <mfrac> <mn> 1.<GydF4y2Ba/mn> <mrow> <msup> <mn> 2.<GydF4y2Ba/mn> <mrow> <mi> N<GydF4y2Ba/mi> <mo> −<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> </msup> </mrow> </mfrac> </mrow> <mo> }<GydF4y2Ba/mo> </mrow> </mtd> </mtr> </mtable> </math></p> </div> </div><p>在这里<EMCLA.ss="varname">δ<GydF4y2Ba/em>是KL发散极限，使用<CoDECLA.ss="literal">克伦西林酒店<GydF4y2Ba/code>选项<EMCLA.ss="varname">N<GydF4y2Ba/em>是使用<CoDECLA.ss="literal">NumiterionSlineSearch<GydF4y2Ba/code>选项<GydF4y2Ba/p></li> <li><p>如果有效值为<EMCLA.ss="varname">α<GydF4y2Ba/em>存在时，将参与者网络的参数更新为<EMCLA.ss="varname">θ<GydF4y2Ba/em>。如果有效值为<EMCLA.ss="varname">α<GydF4y2Ba/em>不存在，请不要更新参与者参数。<GydF4y2Ba/p></li> </ol> </div></li> </ol> </div></li> <li><p>重复步骤3至步骤5，直到训练情节达到结束状态。<GydF4y2Ba/p></li> </ol> </div> </section> <section itemprop="content"> <h3 class="title" id="mw_08976d74-a72a-4a71-bf33-fa749d857618">熵损失<GydF4y2Ba/h3> <p>为了促进agent探索，可以添加熵损失项<EMCLA.ss="varname">W<GydF4y2Ba/em><em class="varname">ℋ<sUB>我<GydF4y2Ba/sub></em>(<EMCLA.ss="varname">θ<GydF4y2Ba/em>,<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>)到演员损失函数，其中<EMCLA.ss="varname">W<GydF4y2Ba/em>是熵损失和重量<EMCLA.ss="varname">ℋ<sUB>我<GydF4y2Ba/sub></em>(<EMCLA.ss="varname">θ<GydF4y2Ba/em>,<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>)是熵。<GydF4y2Ba/p> <p>当代理更不确定下一步要采取的行动时，熵值更高。因此，最大化熵损失项（最小化负熵损失）会增加代理的不确定性，从而鼓励探索。为了促进额外的探索，这可以帮助代理摆脱局部最优，您可以指定更大的熵损失权重。<GydF4y2Ba/p> <p>对于离散动作空间，代理使用以下熵值。在这种情况下，参与者输出采取每个可能的离散动作的概率。<GydF4y2Ba/p> <div id="d123e9689" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-20px" display="block"> <mrow> <msub> <mi> ℋ<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <mi> θ<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> <mo> =<GydF4y2Ba/mo> <mo> −<GydF4y2Ba/mo> <mstyle displaystyle="true"> <munderover> <mo> ∑<GydF4y2Ba/mo> <mrow> <mi> K<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> <mi> P<GydF4y2Ba/mi> </munderover> <mrow> <msub> <mi> π<GydF4y2Ba/mi> <mi> K<GydF4y2Ba/mi> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mo> |<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> <mi> 自然对数<GydF4y2Ba/mi> <msub> <mi> π<GydF4y2Ba/mi> <mi> K<GydF4y2Ba/mi> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mo> |<GydF4y2Ba/mo> <mi> θ<GydF4y2Ba/mi> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mstyle> </mrow> </math></p> </div> </div> <p>在这里：<GydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p><em class="varname">P<GydF4y2Ba/em>是可能的离散操作数。<GydF4y2Ba/p></li> <li><p><em class="varname">π<sUB>K<GydF4y2Ba/sub></em>(<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>|<EMCLA.ss="varname">θ<GydF4y2Ba/em>)是采取行动的可能性<EMCLA.ss="varname">A.<sUB>K<GydF4y2Ba/sub></em>处于状态时<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>遵循现行政策。<GydF4y2Ba/p></li> </ul> </div> <p>对于连续动作空间，代理使用以下熵值。在这种情况下，参与者输出每个连续动作的高斯分布的平均值和标准偏差。<GydF4y2Ba/p> <div id="d123e9720" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-20px" display="block"> <mrow> <msub> <mi> ℋ<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <mi> θ<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <msub> <mi> s<GydF4y2Ba/mi> <mi> 我<GydF4y2Ba/mi> </msub> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> <mo> =<GydF4y2Ba/mo> <mfrac> <mn> 1.<GydF4y2Ba/mn> <mn> 2.<GydF4y2Ba/mn> </mfrac> <mstyle displaystyle="true"> <munderover> <mo> ∑<GydF4y2Ba/mo> <mrow> <mi> K<GydF4y2Ba/mi> <mo> =<GydF4y2Ba/mo> <mn> 1.<GydF4y2Ba/mn> </mrow> <mi> C<GydF4y2Ba/mi> </munderover> <mrow> <mi> 自然对数<GydF4y2Ba/mi> <mrow> <mo> (<GydF4y2Ba/mo> <mrow> <mn> 2.<GydF4y2Ba/mn> <mi> π<GydF4y2Ba/mi> <mo> ⋅<GydF4y2Ba/mo> <mi> E<GydF4y2Ba/mi> <mo> ⋅<GydF4y2Ba/mo> <msubsup> <mi> σ<GydF4y2Ba/mi> <mrow> <mi> K<GydF4y2Ba/mi> <mo> ,<GydF4y2Ba/mo> <mi> 我<GydF4y2Ba/mi> </mrow> <mn> 2.<GydF4y2Ba/mn> </msubsup> </mrow> <mo> )<GydF4y2Ba/mo> </mrow> </mrow> </mstyle> </mrow> </math></p> </div> </div> <p>在这里：<GydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p><em class="varname">C<GydF4y2Ba/em>是参与者输出的连续动作数。<GydF4y2Ba/p></li> <li><p><em class="varname">σ<sUB>k、我<GydF4y2Ba/sub></em>是行动的标准偏差<EMCLA.ss="varname">K<GydF4y2Ba/em>处于状态时<EMCLA.ss="varname">s<sUB>我<GydF4y2Ba/sub></em>遵循现行政策。<GydF4y2Ba/p></li> </ul> </div> </section> <div class="bibliography"> <h2 id="References">工具书类<GydF4y2Ba/h2> <div id="mw_70555a83-3f00-4a0e-8bf5-237eb1a6b250" class="bibliomixed"> <p>[1] 舒尔曼、约翰、谢尔盖·莱文、彼得·阿比尔、迈克尔·乔丹和菲利普·莫里茨。“信任区域策略优化。”<EMCLA.ss="citetitle">第32届机器学习国际会议记录<GydF4y2Ba/em>，第1889-1897页。2015<GydF4y2Ba/p> </div> <div id="mw_78ac5f1c-bf97-49aa-becd-511116074449" class="bibliomixed"> <p>[2] Mnih、Volodymyr、AdriáPuigdomènech Badia、Mehdi Mirza、Alex Graves、Timothy P.Lillicrap、Tim Harley、David Silver和Koray Kavukcuoglu。“深度强化学习的异步方法。”<EMCLA.ss="citetitle">ArXiv:1602.01783[Cs]<GydF4y2Ba/em>，2016年2月4日。<A..HREf="https://arxiv.org/abs/1602.01783" target="_blank">https://arxiv.org/abs/1602.01783<GydF4y2Ba/a>.<GydF4y2Ba/p> </div> <div id="mw_4c616bfa-7233-46c5-8f67-447d3f024621" class="bibliomixed"> <p>[3] 舒尔曼、约翰、菲利普·莫里茨、谢尔盖·莱文、迈克尔·乔丹和彼得·阿比尔。“使用广义优势估计的高维连续控制。”<EMCLA.ss="citetitle">ArXiv:1506.02438[Cs]<GydF4y2Ba/em>，2018年10月20日。<A..HREf="https://arxiv.org/abs/1506.02438" target="_blank">https://arxiv.org/abs/1506.02438<GydF4y2Ba/a>.<GydF4y2Ba/p> </div> </div> <h2 id="d123e9763">另见<GydF4y2Ba/h2> <p><span itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso"><a itemprop="url" href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ref/rltrpoagent.html"><span itemprop="name"><code class="function">rltrpo试剂<GydF4y2Ba/code></span></a></span>|<sGydF4y2Bapan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso"><a itemprop="url" href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ref/rltrpoagentoptions.html"><span itemprop="name"><code class="function">RLTRP代理<GydF4y2Ba/code></span></a></span></p> <h2 id="d123e9772">相关话题<GydF4y2Ba/h2> <ul> <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/create-agents-for-reinforcement-learning.html" class="a">强化学习代理<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/create-policy-and-value-function-representations.html" class="a">创建策略和值函数表示<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/train-reinforcement-learning-agents.html" class="a">培训强化学习代理<GydF4y2Ba/a></li> </ul> </section> </div> <div class="clearfix"></div> <div align="center" class="feedbackblock"> <iframe id="doc_survey"></iframe> </div> </section> <div class="modal fade" id="matlab-command-dialog" tabindex="-1" role="dialog" aria-labelledby="matlabCommandDialogLabel" aria-hidden="true"> <div class="modal-dialog"> <div class="modal-content"> <div class="modal-header"> <button type="button" class="close" data-dismiss="modal" aria-label="Close"><span aria-hidden="true">×<GydF4y2Ba/span></button> <h2 class="modal-title">MATLABコマンド<GydF4y2Ba/h2> </div> <div class="modal-body" id="dialog-body"> <p>次の MATLABコマンドに対応するリンクがクリックされました。<GydF4y2Ba/p> <pre id="dialog-matlab-command"></pre> <p>コマンドを MATLABコマンドウィンドウに入力して実行してください。网状物ブラウザーは MATLABコマンドをサポートしていません。<GydF4y2Ba/p> </div> <div class="modal-footer"> <button type="button" class="btn btn_secondary" data-dismiss="modal">閉じる<GydF4y2Ba/button> </div> </div> </div> </div> <div id="location_content" style="display:none;"></div> <div class="modal fade" id="country-unselected" tabindex="-1" role="dialog" aria-labelledby="country-unselected-title" translate="no"> <div id="country-select-container"> <div class="modal-dialog modal-lg"> <div class="modal-content"> <div class="modal-header"> <button type="button" class="close" data-dismiss="modal" aria-label="Close"><span aria-hidden="true">×<GydF4y2Ba/span></button> <img alt="迈斯沃克GydF4y2Ba" src="//www.tatmou.com/jp/images/responsive/global/pic-header-mathworks-logo2.svg" style="width:167px; height:auto;"> </div> <div class="modal-body"> <div class="row add_margin_40"> <div class="col-xs-12"> <h1 class="icon-globe icon_color_secondary" id="country-unselected-title">选择一个网站<GydF4y2Ba/h1> <p>选择一个网站以获取翻译后的内容（如果可用），并查看本地活动和优惠。根据您的位置，我们建议您选择：<sTRoNGydF4y2Bag class="recommended-country"></strong>.<GydF4y2Ba/p> <a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#" id="recommended_domain_button" class="btn btn_color_blue containsResourceName resourceClass-button">选择<sGydF4y2Bapan class="recommended-country"></span>网站<GydF4y2Ba/a> </div> </div> <p>您还可以从以下列表中选择网站：<GydF4y2Ba/p> <div class="alert alert-warning" id="china_performance_alert" style="display:none;"> <span class="alert_icon icon-alert-warning"></span> <h2>如何获得最佳的站点性能<GydF4y2Ba/h2> <p>选择中国站点（中文或英文）以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。<GydF4y2Ba/p> </div> <div class="row add_margin_30"> <div class="col-sm-4 col-md-3"> <h3 class="add_bottom_rule">美洲<GydF4y2Ba/h3> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/la" class="domain_selector_link" data-country-code="LA" data-subdomain="la" data-lang="es" data-default-lang="true" data-selected-text="América Latina" data-recommended-text="América Latina" data-do-not-rewrite="true">拉丁美洲美洲<GydF4y2Ba/a>（西班牙人）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/jp/" class="domain_selector_link" data-country-code="CA" data-subdomain="www" data-lang="en" data-do-not-rewrite="true">加拿大<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/jp/" class="domain_selector_link" data-country-code="US" data-subdomain="www" data-lang="en" data-default-lang="true" data-selected-text="United States" data-recommended-text="United States" data-do-not-rewrite="true">美国<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> </ul> </div> <div class="col-sm-4 col-md-6"> <h3 class="add_bottom_rule">欧洲<GydF4y2Ba/h3> <div class="row"> <div class="col-xs-6 col-sm-12 col-md-6"> <ul class="list-unstyled add_margin_0_sm"> <li><a href="//www.tatmou.com/nl" class="domain_selector_link" data-country-code="BE" data-subdomain="nl" data-lang="en" data-do-not-rewrite="true">比利时<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/se" class="domain_selector_link" data-country-code="DK" data-subdomain="se" data-lang="en" data-do-not-rewrite="true">丹麦<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/de" class="domain_selector_link" data-country-code="DE" data-subdomain="de" data-lang="de" data-default-lang="true" data-selected-text="Deutschland" data-recommended-text="Deutschland" data-do-not-rewrite="true">德国<GydF4y2Ba/a>（德国）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/es" class="domain_selector_link" data-country-code="ES" data-subdomain="es" data-lang="es" data-default-lang="true" data-selected-text="España" data-recommended-text="España" data-do-not-rewrite="true">埃斯帕尼亚<GydF4y2Ba/a>（西班牙人）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/se" class="domain_selector_link" data-country-code="FI" data-subdomain="se" data-lang="en" data-do-not-rewrite="true">芬兰<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/fr" class="domain_selector_link" data-country-code="FR" data-subdomain="fr" data-lang="fr" data-default-lang="true" data-selected-text="France" data-recommended-text="France" data-do-not-rewrite="true">法国<GydF4y2Ba/a>（法兰西）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/uk" class="domain_selector_link" data-country-code="IE" data-subdomain="uk" data-lang="en" data-do-not-rewrite="true">爱尔兰<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/it" class="domain_selector_link" data-country-code="IT" data-subdomain="it" data-lang="it" data-default-lang="true" data-selected-text="Italia" data-recommended-text="Italia" data-do-not-rewrite="true">意大利<GydF4y2Ba/a>（意大利语）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/nl" class="domain_selector_link" data-country-code="LU" data-subdomain="nl" data-lang="en" data-do-not-rewrite="true">卢森堡<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> </ul> </div> <div class="col-xs-6 col-sm-12 col-md-6"> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/nl" class="domain_selector_link" data-country-code="NL" data-subdomain="nl" data-lang="en" data-default-lang="true" data-selected-text="Benelux" data-recommended-text="Netherlands" data-do-not-rewrite="true">荷兰<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/se" class="domain_selector_link" data-country-code="NO" data-subdomain="se" data-lang="en" data-do-not-rewrite="true">挪威<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/de" class="domain_selector_link" data-country-code="AT" data-subdomain="de" data-lang="de" data-do-not-rewrite="true">Österreich<GydF4y2Ba/a>（德国）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/jp/" class="domain_selector_link" data-country-code="PT" data-subdomain="www" data-lang="en" data-do-not-rewrite="true">葡萄牙<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/se" class="domain_selector_link" data-country-code="Sweden" data-subdomain="se" data-lang="en" data-default-lang="true" data-selected-text="Nordic" data-recommended-text="Sweden" data-do-not-rewrite="true">瑞典<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> <li>瑞士<ULCLA.ss="list-unstyled add_indent_20"> <li><a href="//www.tatmou.com/ch" class="domain_selector_link" data-country-code="CH" data-subdomain="ch" data-lang="de" data-selected-text="Schweiz" data-recommended-text="Schweiz" data-do-not-rewrite="true">德国<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/ch" id="swiss_english" class="domain_selector_link" data-country-code="CH" data-subdomain="ch" data-lang="en" data-default-lang="true" data-selected-text="Switzerland" data-recommended-text="Switzerland" data-do-not-rewrite="true">英语<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/ch" class="domain_selector_link" data-country-code="CH" data-subdomain="ch" data-lang="fr" data-selected-text="Suisse" data-recommended-text="Suisse" data-do-not-rewrite="true">法国<GydF4y2Ba/a></li> </ul></li> <li><a href="//www.tatmou.com/uk" class="domain_selector_link" data-country-code="GB" data-subdomain="uk" data-lang="en" data-default-lang="true" data-selected-text="United Kingdom" data-recommended-text="United Kingdom" data-do-not-rewrite="true">大不列颠联合王国<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> </ul> </div> </div> </div> <div class="col-sm-4 col-md-3"> <h3 class="add_bottom_rule">亚太地区<GydF4y2Ba/h3> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/au" class="domain_selector_link" data-country-code="AU" data-subdomain="au" data-lang="en" data-default-lang="true" data-selected-text="Australia" data-recommended-text="Australia" data-do-not-rewrite="true">澳大利亚<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/in" class="domain_selector_link" data-country-code="IN" data-subdomain="in" data-lang="en" data-default-lang="true" data-selected-text="India" data-recommended-text="India" data-do-not-rewrite="true">印度<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> <li><a href="//www.tatmou.com/au" class="domain_selector_link" data-country-code="NZ" data-subdomain="au" data-lang="en" data-do-not-rewrite="true">新西兰<GydF4y2Ba/a>（英文）<GydF4y2Ba/li> <li>中国<ULCLA.ss="list-unstyled add_indent_20"> <li><a href="https://ww2.mathworks.cn" class="domain_selector_link" data-country-code="CN" data-subdomain="ww2" data-lang="zh" data-default-lang="true" data-selected-text="中国" data-recommended-text="中国" data-do-not-rewrite="true">简体中文<GydF4y2Ba/a></li> <li><a href="https://ww2.mathworks.cn" class="domain_selector_link" data-country-code="CN" data-subdomain="ww2" data-lang="en" data-default-lang="true" data-selected-text="China" data-recommended-text="China" data-do-not-rewrite="true">英语<GydF4y2Ba/a></li> </ul></li> <li><a href="//www.tatmou.com/jp/" class="domain_selector_link" data-country-code="JP" data-subdomain="jp" data-lang="ja" data-default-lang="true" data-selected-text="日本" data-recommended-text="日本" data-do-not-rewrite="true">日本<GydF4y2Ba/a>(日本語)<GydF4y2Ba/li> <li><a href="//www.tatmou.com/kr" class="domain_selector_link" data-country-code="KR" data-subdomain="kr" data-lang="ko" data-default-lang="true" data-selected-text="한국" data-recommended-text="한국" data-do-not-rewrite="true">한국<GydF4y2Ba/a>(한국어)<GydF4y2Ba/li> </ul> </div> </div> <p class="text-center"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#" class="worldwide_link">联系当地办事处<GydF4y2Ba/a></p> </div> </div> </div> </div> </div> </div> </div> </div> </div>  <div class="cta_container_mobile visible-sm visible-xs"> <div class="container-fluid"> <div class="row"> <div class="col-xs-12"> <div class="cta_box"> <ul class="list-inline"> <li class="cta_item cta_item_general hidden-sm hidden-xs "><a href="//www.tatmou.com/jp/campaigns/products/trials.html?prodcode=RL&s_iid=doc_trial_RL_tb" class="icon-download">評価版<GydF4y2Ba/a></li> <li class="hidden-lg hidden-md "><a href="//www.tatmou.com/jp/campaigns/products/trials.html?prodcode=RL&s_iid=doc_trial_RL_tb" class="btn btn_color_blue btn-block"><span class="icon-download"></span>評価版<GydF4y2Ba/a></li> <li class="cta_item cta_item_general hidden-sm hidden-xs "><a href="//www.tatmou.com/jp/support/web_downloads_bounce.html?s_cid=1008_degr_docdn_270055" class="icon-download">製品の更新<GydF4y2Ba/a></li> <li class="hidden-lg hidden-md "><a href="//www.tatmou.com/jp/support/web_downloads_bounce.html?s_cid=1008_degr_docdn_270055" class="btn btn_color_blue btn-block"><span class="icon-download"></span>製品の更新<GydF4y2Ba/a></li> </ul> </div> </div> </div> </div> </div>   <div class="body_trail_container"> <div class="container-fluid"> <div class="row"> <div class="col-xs-12"> <div class="row"> <div class="col-xs-12 col-sm-4"> <h2><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/index.html?s_tid=doc_ftr">强化学习工具箱文档<GydF4y2Ba/a></h2> <ul class="list-unstyled hidden-xs"> <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/examples.html?s_tid=doc_ftr">例子<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/referencelist.html?type=function&s_tid=doc_ftr">功能和其他参考<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/release-notes.html?s_tid=doc_ftr">发行说明<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/jp/help/pdf_doc/reinforcement-learning/index.html?s_tid=doc_ftr">PDF文档<GydF4y2Ba/a></li> </ul> </div> <div class="col-xs-12 col-sm-4"> <h2><a href="//www.tatmou.com/jp/support.html?s_tid=doc_ftr">金宝app</a></h2> <ul class="list-unstyled hidden-xs"> <li><a href="//www.tatmou.com/jp/matlabcentral/answers/index?s_tid=doc_ftr">MATLAB答案<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/help/install/?s_tid=doc_ftr">安装帮助<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/support/bugreports/?s_tid=doc_ftr">错误报告<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/support/requirements/product-requirements-platform-availability-list.html?s_tid=doc_ftr">产品要求<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/downloads/?s_tid=doc_ftr">常用软件下载<GydF4y2Ba/a></li> </ul> </div> <div class="col-xs-12 col-sm-4"> <div class="panel panel_color_transparent panel_color_fill"> <div class="panel-body"> <div class="thumbnail add_margin_5"> <a href="//www.tatmou.com/jp/campaigns/offers/reinforcement-learning-with-matlab-ebook.html?s_iid=doc_eb_RL_footer"><img class="fluid_image" alt="基于MATLAB和Simulink的强化学习金宝appGydF4y2Ba" src="//www.tatmou.com/jp/content/dam/mathworks/mathworks-dot-com/images/responsive/supporting/campaigns/products/reinforcement-learning-ebook-offer-thumbnail.jpg"></a> </div> <h4><a href="//www.tatmou.com/jp/campaigns/offers/reinforcement-learning-with-matlab-ebook.html?s_iid=doc_eb_RL_footer">基于MATLAB和Simulink的强化学习金宝app<GydF4y2Ba/a></h4> <a class="icon-download" href="//www.tatmou.com/jp/campaigns/offers/reinforcement-learning-with-matlab-ebook.html?s_iid=doc_eb_RL_footer">下载电子书<GydF4y2Ba/a> </div> </div> </div> </div> </div> </div> </div> </div>  <footer id="footer" class="bs-footer">  <div class="container-fluid"> <div class="fat_footer_container"> <div class="fat_footer"> <div class="execmatlabweb">  <div class="row"> <div class="col-xs-12 col-md-12 col-lg-3 add_margin_20"> <p class="h4 add_margin_0"><span translate="no">迈斯沃克<GydF4y2Ba/span></p> <p><em>加快工程和科学的步伐<GydF4y2Ba/em></p> <p class="hidden-xs">迈斯沃克はエンジニアや研究者向け数値解析ソフトウェアのリーディングカンパニーです。<GydF4y2Ba/p> <p class="hidden-xs"><a href="//www.tatmou.com/jp/discovery.html?s_tid=all_disc_mw_ff">ディスカバー...<GydF4y2Ba/a></p> </div> <div class="col-xs-12 col-md-12 col-lg-9"> <div class="row"> <div class="col-xs-12 col-sm-2"> <p class="ff_section_title"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#fatfooter_products" role="button" data-toggle="collapse" aria-expanded="false" aria-controls="fatfooter_products">製品を見る<sGydF4y2Bapan class="caret"></span></a></p> <div class="collapse" id="fatfooter_products"> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/jp/products/matlab.html?s_tid=hp_ff_p_matlab">MATLAB<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/products/simulink.html?s_tid=hp_ff_p_simulink">金宝app</a></li> <li><a href="//www.tatmou.com/jp/products/matlab/student.html?s_tid=hp_ff_p_student">学生向けソフトウェア<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/hardware-support/home.html?s_tid=hp_ff_p_hwsupport">ハードウェアサポート<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/matlabcentral/fileexchange/?s_tid=hp_ff_p_fx">文件交换<GydF4y2Ba/a></li> </ul> </div> </div> <div class="col-xs-12 col-sm-2"> <p class="ff_section_title"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#fatfooter_buy" role="button" data-toggle="collapse" aria-expanded="false" aria-controls="fatfooter_buy">試す、購入する<sGydF4y2Bapan class="caret"></span></a></p> <div class="collapse" id="fatfooter_buy"> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/jp/downloads/web_downloads/?s_iid=hp_ff_t_downloads">ダウンロード<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/campaigns/products/trials.html?s_iid=hp_ff_p_trial">評価版ソフトウェア<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/company/aboutus/contact_us/contact_sales.html?s_iid=hp_ff_t_sales">営業へのお問い合わせ<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/pricing-licensing.html?s_iid=hp_ff_t_pricing">価格とライセンス<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/store/?s_tid=hp_ff_t_buy">迈斯沃克ストア<GydF4y2Ba/a></li> </ul> </div> </div> <div class="col-xs-12 col-sm-2"> <p class="ff_section_title"><a role="button" data-toggle="collapse" href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#fatfooter_use" aria-expanded="false" aria-controls="fatfooter_use">使い方を学ぶ<sGydF4y2Bapan class="caret"></span></a></p> <div class="collapse" id="fatfooter_use"> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/jp/help/?s_tid=hp_ff_l_doc">ドキュメンテーション<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/support/learn-with-matlab-tutorials.html?s_tid=hp_ff_l_tutorials">チュートリアル<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/help/examples.html?s_tid=hp_ff_l_examples">MATLAB示例<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/videos.html?s_tid=hp_ff_l_videos">ビデオ・网状物セミナー<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/services/training.html?s_tid=hp_ff_l_training">トレーニング<GydF4y2Ba/a></li> </ul> </div> </div> <div class="clearfix" id="offcanvas_clearfix" style="display:none"></div> <div class="col-xs-12 col-sm-2"> <p class="ff_section_title"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#fatfooter_support" role="button" data-toggle="collapse" aria-expanded="false" aria-controls="fatfooter_support">サポートを受ける<sGydF4y2Bapan class="caret"></span></a></p> <div class="collapse" id="fatfooter_support"> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/jp/help/install/?s_tid=hp_ff_s_install">インストールのヘルプ<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/matlabcentral/answers/index?s_tid=hp_ff_s_answers">MATLAB答案<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/services/consulting.html?s_tid=hp_ff_s_consulting">技術コンサルティング<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/licensecenter/?s_tid=hp_ff_s_license">ライセンスセンター<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/support/contact_us.html?s_tid=hp_ff_s_support">サポートへのお問い合わせ<GydF4y2Ba/a></li> </ul> </div> </div> <div class="col-xs-12 col-sm-2"> <p class="ff_section_title"><a role="button" data-toggle="collapse" href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#fatfooter_about" aria-expanded="false" aria-controls="fatfooter_about">数学作品について<sGydF4y2Bapan class="caret"></span></a></p> <div class="collapse" id="fatfooter_about"> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/jp/company/jobs/opportunities.html?s_tid=hp_ff_a_careers">採用情報<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/company/newsroom.html?s_tid=hp_ff_a_newsroom">ニュースルーム<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/company/aboutus/soc_mission.html?s_tid=hp_ff_a_socialmission">社会貢献<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/company/aboutus/contact_us/contact_sales.html?s_tid=hp_ff_a_sales">営業へのお問い合わせ<GydF4y2Ba/a></li> <li><a href="//www.tatmou.com/jp/company.html?s_tid=hp_ff_a_company">数学作品について<GydF4y2Ba/a></li> </ul> </div> </div> </div> </div> </div> </div> </div> </div> </div>  <div class="container-fluid"> <div class="footer" translate="no"> <div class="row"> <div class="col-xs-12 col-md-9"> <ul class="countrynav" id="countrynav"> <li class="footernav_country"><a href="//www.tatmou.com/jp/jp/help/reinforcement-learning/ug/#" data-toggle="modal" data-target="#country-unselected"><span class="icon-globe icon_color_quinary icon_16"></span>日本<GydF4y2Ba/a></li> </ul> <div class="clearfix"></div> <ul class="footernav"> <li class="footernav_patents"><a href="//www.tatmou.com/jp/company/aboutus/policies_statements/trust-center.html?s_tid=gf_tc">トラストセンター<GydF4y2Ba/a></li> <li class="footernav_trademarks"><a href="//www.tatmou.com/jp/company/aboutus/policies_statements/trademarks.html?s_tid=gf_trd">商標<GydF4y2Ba/a></li> <li class="footernav_privacy"><a href="//www.tatmou.com/jp/company/aboutus/policies_statements.html?s_tid=gf_priv">プライバシーポリシー<GydF4y2Ba/a></li> <li class="footernav_piracy"><a href="//www.tatmou.com/jp/company/aboutus/policies_statements/piracy.html?s_tid=gf_pir">違法コピー防止<GydF4y2Ba/a></li> <li class="footernav_status"><a href="//www.tatmou.com/status/?s_tid=gf_application">アプリケーションステータス<GydF4y2Ba/a></li> </ul> <div class="clearfix"></div> <div class="clearfix"></div> <p class="copyright" translate="no">©1994-2021 MathWorks公司。<GydF4y2Ba/p> </div> <div class="clearfix visible-sm add_margin_10"></div> <div class="col-xs-12 col-md-3"> <div class="social_media"> <ul class="social_media_icons"> <li><a href="https://www.facebook.com/MATLABJapan" target="_blank" rel="nofollow noopener noreferrer" class="svg_link"><img src="//www.tatmou.com/jp/images/responsive/global/ico-facebook.svg" alt="脸谱网GydF4y2Ba" class="ico_facebook"></a></li> <li><a href="https://twitter.com/MATLAB_Japan" target="_blank" rel="nofollow noopener noreferrer" class="svg_link"><img src="//www.tatmou.com/jp/images/responsive/global/ico-twitter.svg" alt="啁啾GydF4y2Ba" class="ico_twitter"></a></li> <li><a href="https://www.instagram.com/matlab/" class="svg_link" target="_blank" rel="nofollow noopener noreferrer"><img class="ico_instagram" alt="一款图片分享应用GydF4y2Ba" src="//www.tatmou.com/jp/etc.clientlibs/mathworks/clientlibs/customer-ui/templates/common/resources/images/ico-instagram.svg"></a></li> <li><a href="https://www.youtube.com/c/MATLABJapan" class="svg_link" target="_blank" rel="nofollow noopener noreferrer"><img class="ico_youtube" alt="YouTubeGydF4y2Ba" src="//www.tatmou.com/jp/images/responsive/global/ico-youtube.svg"></a></li> <li><a href="https://www.linkedin.com/company/the-mathworks_2" target="_blank" rel="nofollow noopener noreferrer" class="svg_link"><img src="//www.tatmou.com/jp/images/responsive/global/ico-linkedin.svg" alt="LinkedInGydF4y2Ba" class="ico_linkedin"></a></li> <li><a href="//www.tatmou.com/jp/company/rss.html" class="svg_link"><img src="//www.tatmou.com/jp/images/responsive/global/ico-rss.svg" alt="RSSGydF4y2Ba" class="ico_rss"></a></li> </ul> <div class="clearfix"></div> <p><em>MATLABを語ろう<GydF4y2Ba/em></p> </div> </div> </div> </div> <div id="cookie-banner-text" style="display:none;"></div> </div> </footer> </div> </div>  </body> </html>