信任区域策略优化(TRPO)代理- MATLAB和Simulink - MathWorks América拉丁金宝app<gydF4y2Ba/title> <link rel="stylesheet" href="//www.tatmou.com/la/etc.clientlibs/mathworks/clientlibs/customer-ui/templates/common.min.20230203154539868.css" type="text/css"> <link rel="stylesheet" href="//www.tatmou.com/la/etc.clientlibs/mathworks/clientlibs/customer-ui/templates/common/footer.min.20230203154539868.css" type="text/css"> <link href="//www.tatmou.com/la/includes_content/responsive/css/site6_offcanvas_v2.css?202303" rel="stylesheet" type="text/css"> <link href="//www.tatmou.com/la/includes_content/responsive/css/site7_crux.css?202303" rel="stylesheet" type="text/css"> <link href="//www.tatmou.com/la/includes_content/responsive/css/localized/site6_es.css" rel="stylesheet" type="text/css"> <link href="//www.tatmou.com/la/includes_content/releases/R2023a/css/doc_center.css?202303" rel="stylesheet" type="text/css"> <link href="//www.tatmou.com/la/includes_content/releases/R2023a/css/doc_center_print.css?202303" rel="stylesheet" type="text/css" media="print"> <link href="//www.tatmou.com/la/includes_content/releases/R2023a/css/doc_center_es.css?202303" rel="stylesheet" type="text/css"> <style> .examples_short_list a.btn {display: none;} </style> <style> .typeahead_container.typeahead_type_grouped { margin-left:0; } @media (min-width:768px) { #suggestions { margin-left:-100px } } </style> </head> <body id="responsive_offcanvas"> <a class="skip_link sr-only" href="//www.tatmou.com/la/help/reinforcement-learning/ug/#skip_link_anchor">跳到内容<gydF4y2Ba/a>  <div class="header visible-xs visible-sm" id="header_mobile" translate="no"> <nav class="navbar navbar-default" role="navigation"> <div class="navbar-header"> <div class="container-fluid"> <div class="row"> <div class="col-xs-3"> <button type="button" class="navbar-toggle topnav_toggle" data-toggle="collapse" data-target="#topnav_collapse"><span class="sr-only">主导航<gydF4y2Ba/span><span class="icon-menu"></span></button> </div> <div class="col-xs-6"> <div class="text-center"> <a href="//www.tatmou.com/la/?s_tid=gn_logo" class="svg_link navbar-brand"><img src="//www.tatmou.com/la/images/responsive/global/pic-header-mathworks-logo.svg" class="mw_logo" alt="MathWorksgydF4y2Ba"></a> </div> </div> <div class="col-xs-3"> <div class="matrix_affordance_container_mobile" id="matrix_affordance_container_mobile"></div> </div> </div> </div> </div> <div class="container-fluid"> <div class="row visible-xs visible-sm"> <div class="col-xs-12"> <div class="navbar-collapse collapse" id="topnav_collapse"> <ul class="nav navbar-nav topnav" id="topnav_mobile"> <li class="topnav_products "><a href="//www.tatmou.com/la/products.html?s_tid=gn_ps">或含<gydF4y2Ba/a></li> <li class="topnav_solutions "><a href="//www.tatmou.com/la/solutions.html?s_tid=gn_sol">Soluciones<gydF4y2Ba/a></li> <li class="topnav_academia "><a href="//www.tatmou.com/la/academia.html?s_tid=gn_acad">Educacion<gydF4y2Ba/a></li> <li class="topnav_support "><a href="//www.tatmou.com/la/help/?s_tid=gn_supp">Soporte<gydF4y2Ba/a></li> <li class="topnav_community "><a href="//www.tatmou.com/la/matlabcentral/?s_tid=gn_mlc">Comunidad<gydF4y2Ba/a></li> <li class="topnav_events "><a href="//www.tatmou.com/la/company/events.html?s_tid=gn_ev">Eventos<gydF4y2Ba/a></li> <li class="headernav_store"><a href="//www.tatmou.com/login/embedded-login/landing.html?cid=getmatlab&s_tid=gn_getml">Consiga MATLAB<gydF4y2Ba/a></li> </ul> </div> <div class="navbar-collapse collapse" id="matrix_collapse"> <div class="matrix_menu_container_mobile" id="matrix_menu_container_mobile"></div> </div> </div> </div> </div> </nav> </div>   <div class="header hidden-xs hidden-sm" id="header_desktop" translate="no"> <nav class="navbar navbar-default" role="navigation"> <div class="container-fluid"> <div class="row"> <div class="col-md-9"> <div class="navbar-header"> <div class="logo_container hidden-xs hidden-sm"> <a href="//www.tatmou.com/la/?s_tid=gn_logo" class="svg_link pull-left"><img src="//www.tatmou.com/la/images/responsive/global/pic-header-mathworks-logo.svg" class="mw_logo" alt="MathWorksgydF4y2Ba"></a> </div> <div class="navbar-collapse collapse hidden-xs hidden-sm"> <ul class="nav navbar-nav topnav" id="topnav_desktop"> <li class="topnav_products "><a href="//www.tatmou.com/la/products.html?s_tid=gn_ps">或含<gydF4y2Ba/a></li> <li class="topnav_solutions "><a href="//www.tatmou.com/la/solutions.html?s_tid=gn_sol">Soluciones<gydF4y2Ba/a></li> <li class="topnav_academia "><a href="//www.tatmou.com/la/academia.html?s_tid=gn_acad">Educacion<gydF4y2Ba/a></li> <li class="topnav_support "><a href="//www.tatmou.com/la/help/?s_tid=gn_supp">Soporte<gydF4y2Ba/a></li> <li class="topnav_community "><a href="//www.tatmou.com/la/matlabcentral/?s_tid=gn_mlc">Comunidad<gydF4y2Ba/a></li> <li class="topnav_events "><a href="//www.tatmou.com/la/company/events.html?s_tid=gn_ev">Eventos<gydF4y2Ba/a></li> </ul> </div> </div> </div> <div class="col-md-3"> <div class="collapse navbar-collapse" id="headernav_collapse"> <ul class="nav navbar-nav navbar-right" id="headernav"> <li class="headernav_store"><a href="//www.tatmou.com/login/embedded-login/landing.html?cid=getmatlab&s_tid=gn_getml" class="btn btn_color_blue companion_btn btn-xs">Consiga MATLAB<gydF4y2Ba/a></li> </ul> </div> </div> </div> </div> </nav> </div>    <div class="section_header level_3"> <div class="container-fluid"> <div class="row" id="mobile_search_row"> <div class="col-sm-6 col-md-7 has_horizontal_local_nav" id="section_header_title"> <div class="section_header_content"> <div class="section_header_title"> <p class="h1"><a xmlns="http://www.w3.org/1999/xhtml" href="//www.tatmou.com/la/help/index.html" class="coming_from_product">帮助中心<gydF4y2Ba/a><a xmlns="http://www.w3.org/1999/xhtml" href="//www.tatmou.com/la/help/index.html" class="not_coming_from_product">帮助中心<gydF4y2Ba/a></p> </div> </div> </div> <div class="col-xs-12 col-sm-6 col-md-5" id="mobile_search"> <div class="search_nested_content_container"> <div id="search_scope_support" class="collapse in"> <form id="docsearch_form" action="/support/search.html" method="get" accept-charset="utf-8" data-release="R2023a" data-language="es"> <div class="input-group"> <label class="sr-only">巴士在阿尤达中心<gydF4y2Ba/label> <input id="suggestion" type="hidden" name="suggestion" value=""> <span role="status" aria-live="polite" class="ui-helper-hidden-accessible"></span> <input id="docsearch" class="form-control conjoined_search" type="search" name="q" placeholder="Buscar en Centro de ayuda" autocomplete="off"> <div class="input-group-btn"> <button type="button" class="btn btn_search_adjacent dropdown-toggle" data-toggle="dropdown"><span class="caret"></span><span class="search_scope_label">阿尤达中心<gydF4y2Ba/span></button> <ul class="dropdown-menu list-unstyled dropdown-menu-right" role="menu"> <li data-toggle="collapse" data-target="#search_scope_site" class="support_search_scope_trigger"><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#">MathWorks<gydF4y2Ba/a></li> </ul> <button type="submit" name="submitsearch" id="support_submitsearch" class="btn icon-search btn_search_adjacent btn_search icon_16"></button> </div> </div> </form> </div> <div id="search_scope_site" class="collapse"> <form name="search" id="site_search" class="site_search" action="/search/site_search.html" method="get"> <div class="input-group"> <label class="sr-only">搜索MathWorks.com<gydF4y2Ba/label> <input type="hidden" name="c[]" value="entire_sitegydF4y2Ba"> <input type="search" name="q" id="query" class="form-control conjoined_search" placeholder="Search MathWorks.com" autocomplete="off"> <div class="input-group-btn"> <button type="button" class="btn btn_search_adjacent dropdown-toggle" data-toggle="dropdown"><span class="caret"></span><span class="search_scope_label">MathWorks<gydF4y2Ba/span></button> <ul class="dropdown-menu list-unstyled dropdown-menu-right" role="menu"> <li data-toggle="collapse" data-target="#search_scope_support" class="site_search_scope_trigger"><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#">阿尤达中心<gydF4y2Ba/a></li> </ul> <button type="submit" id="searchbutton" class="btn icon-search btn_search_adjacent btn_search icon_16"></button> </div> </div> </form> </div> </div> <button class="btn icon-remove btn_search pull-right icon_32 visible-xs" data-toggle="collapse" href="//www.tatmou.com/la/help/reinforcement-learning/ug/#mobile_search" aria-expanded="false" aria-controls="mobile_search"><span class="sr-only">关闭移动搜索<gydF4y2Ba/span></button> </div> <div class="visible-xs" id="search_actuator"> <button class="btn icon-search btn_search pull-right icon_16" data-toggle="collapse" href="//www.tatmou.com/la/help/reinforcement-learning/ug/#mobile_search" aria-expanded="false" aria-controls="mobile_search"><span class="sr-only">开放移动搜索<gydF4y2Ba/span></button> </div> </div> </div> </div>   <div class="row-offcanvas row-offcanvas-left"> <div class="sidebar-offcanvas" id="sidebar"> <nav class="offcanvas_nav" role="navigation"> <div class="offcanvas_actuator" data-toggle="offcanvas" data-target="#sidebar" id="nav_toggle"> <button type="button" class="btn"><span class="icon-menu"><span class="sr-only">画布外导航菜单切换<gydF4y2Ba/span></span></button> <span class="offcanvas_actuator_label" id="translation_icon-menu" tabindex="-1" aria-hidden="true"></span>  </div> <div class="nav_list_wrapper" id="nav_list_wrapper"> <nav class="offcanvas_nav" role="navigation"> <ul xmlns="http://www.w3.org/1999/xhtml" class="nav_breadcrumb" id="ul_left_nav_ancestors"> <li itemscope itemtype="http://www.data-vocabulary.org/Breadcrumb" itemprop="breadcrumb"><a href="//www.tatmou.com/la/help/index.html?s_tid=CRUX_lftnav" itemprop="url"><span itemprop="title">文档家里<gydF4y2Ba/span></a></li> </ul> <ul xmlns="http://www.w3.org/1999/xhtml" class="nav_breadcrumb" id="ul_left_nav_productgroups"> <li itemscope itemtype="http://www.data-vocabulary.org/Breadcrumb" itemprop="breadcrumb"><a href="//www.tatmou.com/la/help/overview/control-systems.html?s_tid=hc_product_group_bc" itemprop="url"><span itemprop="title">控制系统<gydF4y2Ba/span></a></li> </ul> <ul xmlns="http://www.w3.org/1999/xhtml" class="nav_disambiguation"> <li><a href="//www.tatmou.com/la/help/reinforcement-learning/index.html?s_tid=CRUX_lftnav">强化学习工具箱<gydF4y2Ba/a></li> <li itemscope itemtype="http://www.data-vocabulary.org/Breadcrumb" itemprop="breadcrumb"><a href="//www.tatmou.com/la/help/reinforcement-learning/agents.html?s_tid=CRUX_lftnav" itemprop="url"><span itemprop="title">代理<gydF4y2Ba/span></a></li> </ul> <ul xmlns="http://www.w3.org/1999/xhtml" class="nav_scrollspy nav"> <li class="nav_scrollspy_function"><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#responsive_offcanvas">信任区域策略优化(TRPO)代理<gydF4y2Ba/a></li> <li class="nav_scrollspy_title" id="SSPY810-section">在本页<gydF4y2Ba/li>  <li><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#mw_1bb9bfaa-a52e-475b-8130-1b9b25b17d2f" class="intrnllnk">演员和评论家函数逼近器<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#mw_6772dc4b-6a03-4bc7-854c-f75c79a4e343" class="intrnllnk">代理创建<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#mw_20fc804d-9a63-4182-8815-2bbb948cd25b" class="intrnllnk">信任区域策略优化<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#mw_f866ef43-84cf-4734-9695-e1ef2b84358b" class="intrnllnk">训练算法<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#mw_08976d74-a72a-4a71-bf33-fa749d857618" class="intrnllnk">熵损失<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#References" class="intrnllnk">参考文献<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#d124e11168" class="intrnllnk">另请参阅<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#d124e11180" class="intrnllnk">相关的例子<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#d124e11185" class="intrnllnk">更多关于<gydF4y2Ba/a></li> </ul> </nav> </div> </nav> </div>   <div class="offcanvas_content_container"> <div class="sticky_header_container"> <div class="horizontal_nav"> <div class="horizontal_nav_container"> <div class="offcanvas_horizontal_nav"> <div class="container-fluid"> <div class="row"> <div class="col-sm-12 col-md-7 col-lg-8 hidden-xs"> <nav class="navbar navbar-default" role="navigation" id="subnav"> <div> <ul class="nav navbar-nav crux_browse"> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_documentation" class="crux_resource active">文档<gydF4y2Ba/li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_example" class="crux_resource"><a href="//www.tatmou.com/la/help/reinforcement-learning/examples.html?category=agents&s_tid=CRUX_topnav">例子<gydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_function" class="crux_resource"><a href="//www.tatmou.com/la/help/reinforcement-learning/referencelist.html?type=function&category=agents&s_tid=CRUX_topnav">功能<gydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_block" class="crux_resource"><a href="//www.tatmou.com/la/help/reinforcement-learning/referencelist.html?type=block&category=agents&s_tid=CRUX_topnav">块<gydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_app" class="crux_resource"><a href="//www.tatmou.com/la/help/reinforcement-learning/referencelist.html?type=app&category=agents&s_tid=CRUX_topnav">应用程序<gydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_videos" class="supplemental_crux_resource"><a href="//www.tatmou.com/la/support/search.html?fq[]=asset_type_name:video%20category:reinforcement-learning/agents&s_tid=CRUX_topnav" class="not_coming_from_product">视频<gydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_answers" class="supplemental_crux_resource"><a href="//www.tatmou.com/la/support/search.html?fq[]=asset_type_name:answer%20category:reinforcement-learning/agents&s_tid=CRUX_topnav" class="not_coming_from_product">答案<gydF4y2Ba/a></li> </ul> </div> </nav> </div> <div class="col-md-5 col-lg-4 hidden-xs hidden-sm"> <div class="cta_box"> <ul class="list-inline"> <li class="cta_item cta_item_general hidden-sm hidden-xs "><a href="//www.tatmou.com/la/campaigns/products/trials.html?prodcode=RL&s_iid=doc_trial_RL_tb" class="icon-download">试用<gydF4y2Ba/a></li> <li class="hidden-lg hidden-md "><a href="//www.tatmou.com/la/campaigns/products/trials.html?prodcode=RL&s_iid=doc_trial_RL_tb" class="btn btn_color_blue btn-block"><span class="icon-download"></span>试用<gydF4y2Ba/a></li> <li class="cta_item cta_item_general hidden-sm hidden-xs "><a href="//www.tatmou.com/la/support/web_downloads_bounce.html?s_cid=1008_degr_docdn_270055" class="icon-download">实现产品<gydF4y2Ba/a></li> <li class="hidden-lg hidden-md "><a href="//www.tatmou.com/la/support/web_downloads_bounce.html?s_cid=1008_degr_docdn_270055" class="btn btn_color_blue btn-block"><span class="icon-download"></span>实现产品<gydF4y2Ba/a></li> </ul> </div> </div>  <div class="visible-xs"> <div class="container-fluid"> <div class="row"> <div class="col-xs-9"> <div class="mobile_crux_nav_trigger">  <div class="btn-group"> <button type="button" class="btn btn-default dropdown-toggle" data-toggle="dropdown" aria-haspopup="true" aria-expanded="false">recurso项目附加<年代pan class="icon-arrow-down icon_16"></span></button> <ul class="dropdown-menu"> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_documentation" class="crux_resource active">文档<gydF4y2Ba/li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_example" class="crux_resource"><a href="//www.tatmou.com/la/help/reinforcement-learning/examples.html?category=agents&s_tid=CRUX_topnav">例子<gydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_function" class="crux_resource"><a href="//www.tatmou.com/la/help/reinforcement-learning/referencelist.html?type=function&category=agents&s_tid=CRUX_topnav">功能<gydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_block" class="crux_resource"><a href="//www.tatmou.com/la/help/reinforcement-learning/referencelist.html?type=block&category=agents&s_tid=CRUX_topnav">块<gydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_app" class="crux_resource"><a href="//www.tatmou.com/la/help/reinforcement-learning/referencelist.html?type=app&category=agents&s_tid=CRUX_topnav">应用程序<gydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_videos" class="supplemental_crux_resource"><a href="//www.tatmou.com/la/support/search.html?fq[]=asset_type_name:video%20category:reinforcement-learning/agents&s_tid=CRUX_topnav" class="not_coming_from_product">视频<gydF4y2Ba/a></li> <li xmlns="http://www.w3.org/1999/xhtml" id="crux_nav_answers" class="supplemental_crux_resource"><a href="//www.tatmou.com/la/support/search.html?fq[]=asset_type_name:answer%20category:reinforcement-learning/agents&s_tid=CRUX_topnav" class="not_coming_from_product">答案<gydF4y2Ba/a></li> </ul> </div>  </div> </div> <div class="col-xs-3"> <div class="translate_placeholder"></div> </div> </div> </div> </div>  </div> </div> </div> </div> </div> </div> <div class="content_container" id="content_container"> <div class="container-fluid"> <div class="row"> <div class="col-xs-12"> <div id="offcanvas_focus_actuator" tabindex="0" class="visible-xs"> <span class="sr-only">主要内容<gydF4y2Ba/span> </div> <main id="skip_link_anchor" tabindex="-1"> <div xmlns="http://www.w3.org/1999/xhtml" id="product_info_alert"></div> <section xmlns="http://www.w3.org/1999/xhtml" id="doc_center_content" itemprop="content" lang="en" data-language="en"> <div id="pgtype-topic"> <section itemprop="content"> <h2 class="title r2023a" itemprop="title content" id="mw_1a4c87d3-83c6-4278-8032-812995702b2f">信任区域策略优化(TRPO)代理<gydF4y2Ba/h2> <span id="rl_app_trpo_agent" class="anchor_target"></span> <p>Trust Region Policy Optimization (TRPO)是一种无模型、在线、策略上、策略梯度强化学习算法。TRPO在通过环境交互采样数据和通过解决约束优化问题更新策略参数之间进行交替。在优化过程中，利用新策略与旧策略之间的KL-divergence作为约束。因此，与标准策略梯度方法相比，该算法通过将更新的策略保持在接近当前策略的信任区域内，从而防止了显著的性能下降<一个href="//www.tatmou.com/la/help/reinforcement-learning/ug/trpo-agents.html" class="intrnllnk">[1]<gydF4y2Ba/a>．<gydF4y2Ba/p> <div class="alert alert-info"> <span class="alert_icon icon-alert-info-reverse"></span> <p class="alert_heading"><strong>请注意<gydF4y2Ba/strong></p> <p>TRPO代理不支持循环网络。金宝app<gydF4y2Ba/p> </div> <p>PPO是TRPO的简化版。TRPO比PPO计算成本更高，但如果环境动态是确定的且观测数量较低，TRPO往往比PPO更稳健。有关PPO代理的更多信息，请参见<一个href="//www.tatmou.com/la/help/reinforcement-learning/ug/ppo-agents.html" class="a">近端策略优化(PPO)代理<gydF4y2Ba/a>．<gydF4y2Ba/p> <p>有关不同类型的强化学习代理的更多信息，请参见<一个href="//www.tatmou.com/la/help/reinforcement-learning/ug/create-agents-for-reinforcement-learning.html" class="a">强化学习代理<gydF4y2Ba/a>．<gydF4y2Ba/p> <p>TRPO代理可以在具有以下观察和行动空间的环境中进行训练。<gydF4y2Ba/p> <div class="table-responsive"> <table class="table table-condensed"> <colgroup> <col class="tcol1" width="50%"> <col class="tcol2" width="50%"> </colgroup> <thead> <tr> <th>观察太空<gydF4y2Ba/th> <th>行动空间<gydF4y2Ba/th> </tr> </thead> <tbody> <tr> <td>离散的还是连续的<gydF4y2Ba/td> <td>离散的还是连续的<gydF4y2Ba/td> </tr> </tbody> </table> </div> <p>TRPO代理人使用以下演员和评论家。<gydF4y2Ba/p> <div class="table-responsive"> <table class="table table-condensed"> <colgroup> <col class="tcol1" width="50%"> <col class="tcol2" width="50%"> </colgroup> <thead> <tr> <th>评论家<gydF4y2Ba/th> <th>演员<gydF4y2Ba/th> </tr> </thead> <tbody> <tr> <td><p>价值功能评论家<e米cl一个年代年代＝"varname">V<gydF4y2Ba/em>（<e米cl一个年代年代＝"varname">年代<gydF4y2Ba/em>)，您可以使用它来创建<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.function.rlvaluefunction.html"><code class="object">rlValueFunction<gydF4y2Ba/code></a></p></td> <td><p>随机政策行动者<e米cl一个年代年代＝"varname">π<gydF4y2Ba/em>（<e米cl一个年代年代＝"varname">年代<gydF4y2Ba/em>)，您可以使用它来创建<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.function.rldiscretecategoricalactor.html"><code class="object">rlDiscreteCategoricalActor<gydF4y2Ba/code></a>(对于离散动作空间)或<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.function.rlcontinuousgaussianactor.html"><code class="object">rlContinuousGaussianActor<gydF4y2Ba/code></a>(适用于连续动作空间)<gydF4y2Ba/p></td> </tr> </tbody> </table> </div> <p>培训期间，TRPO代理:<gydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p>估计在动作空间中采取每个动作的概率，并根据概率分布随机选择动作。<gydF4y2Ba/p></li> <li><p>使用当前策略与环境进行多个步骤的交互，然后使用小批在多个时期更新参与者和评论家属性。<gydF4y2Ba/p></li> </ul> </div> <p>如果<codecl一个年代年代＝"property">UseExplorationPolicy<gydF4y2Ba/code>选项设置为<codecl一个年代年代＝"literal">假<gydF4y2Ba/code>最大似然运算常用于<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.env.abstractenv.sim.html"><code class="function">sim卡<gydF4y2Ba/code></a>而且<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.policy.rlmaxqpolicy.generatepolicyfunction.html"><code class="function">generatePolicyFunction<gydF4y2Ba/code></a>．因此，模拟的代理和生成的策略的行为是确定的。<gydF4y2Ba/p> <p>如果<codecl一个年代年代＝"property">UseExplorationPolicy<gydF4y2Ba/code>设置为<codecl一个年代年代＝"literal">真正的<gydF4y2Ba/code>智能体通过抽样概率分布来选择行动。因此，策略是随机的，主体探索其观察空间。<gydF4y2Ba/p> <p>此选项仅影响模拟和部署;这不会影响训练。<gydF4y2Ba/p> <section itemprop="content"> <h3 class="title" id="mw_1bb9bfaa-a52e-475b-8130-1b9b25b17d2f">演员和评论家函数逼近器<gydF4y2Ba/h3> <p>为了估计策略函数和值函数，TRPO代理维护两个函数逼近器。<gydF4y2Ba/p> <div class="itemizedlist"> <span id="mw_685176cf-c411-47fd-89bb-7f6665195211" class="anchor_target"></span> <ul> <li><p>演员<e米cl一个年代年代＝"varname">π<gydF4y2Ba/em>（<e米cl一个年代年代＝"varname">一个<gydF4y2Ba/em>|<e米cl一个年代年代＝"varname">年代<gydF4y2Ba/em>；<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>-参与者，带参数<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>，输出采取每个动作的条件概率<e米cl一个年代年代＝"varname">一个<gydF4y2Ba/em>当处于状态时<e米cl一个年代年代＝"varname">年代<gydF4y2Ba/em>作为下列之一:<gydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p>离散行动空间-采取每个离散行动的概率。所有行动的概率之和是1。<gydF4y2Ba/p></li> <li><p>连续动作空间-每个连续动作的高斯概率分布的平均值和标准偏差。<gydF4y2Ba/p></li> </ul> </div></li> <li><p>评论家<e米cl一个年代年代＝"varname">V<gydF4y2Ba/em>（<e米cl一个年代年代＝"varname">年代<gydF4y2Ba/em>；<e米cl一个年代年代＝"varname">ϕ<gydF4y2Ba/em>——批评家，带着参数<e米cl一个年代年代＝"varname">ϕ<gydF4y2Ba/em>，进行观察<e米cl一个年代年代＝"varname">年代<gydF4y2Ba/em>并返回相应的折现长期回报的期望。<gydF4y2Ba/p></li> </ul> </div> <p>有关为函数近似创建actor和批评家的详细信息，请参见<一个href="//www.tatmou.com/la/help/reinforcement-learning/ug/create-policy-and-value-function-representations.html" class="a">创建策略和值函数<gydF4y2Ba/a>．<gydF4y2Ba/p> <p>在训练期间，代理调整参数值<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>．训练后，参数保持其调谐值，训练后的actor函数近似值存储在<e米cl一个年代年代＝"varname">π<gydF4y2Ba/em>（<e米cl一个年代年代＝"varname">一个<gydF4y2Ba/em>|<e米cl一个年代年代＝"varname">年代<gydF4y2Ba/em>)．<gydF4y2Ba/p> </section> <section itemprop="content"> <h3 class="title" id="mw_6772dc4b-6a03-4bc7-854c-f75c79a4e343">代理创建<gydF4y2Ba/h3> <p>您可以在MATLAB中创建和训练TRPO代理<年代up>®<gydF4y2Ba/sup>命令行或使用<年代trongcl一个年代年代＝"app">强化学习设计师<gydF4y2Ba/strong>使用. app创建代理的详细信息<年代trongcl一个年代年代＝"app">强化学习设计师<gydF4y2Ba/strong>,请参阅<一个href="//www.tatmou.com/la/help/reinforcement-learning/ug/create-agents-using-reinforcement-learning-designer.html" class="a">使用强化学习设计器创建代理<gydF4y2Ba/a>．<gydF4y2Ba/p> <p>在命令行上，您可以根据来自环境的观察和操作规范创建具有默认参与者和评论家的TRPO代理。为此，请执行以下步骤。<gydF4y2Ba/p> <div class="orderedlist"> <ol style="list-style: decimal;"> <li><p>为您的环境创建观察规范。如果已经有了环境接口对象，可以使用<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.env.abstractmdp.getobservationinfo.html"><code class="function">getObservationInfo<gydF4y2Ba/code></a>．<gydF4y2Ba/p></li> <li><p>为您的环境创建操作规范。如果已经有了环境接口对象，可以使用<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.env.abstractmdp.getactioninfo.html"><code class="function">getActionInfo<gydF4y2Ba/code></a>．<gydF4y2Ba/p></li> <li><p>如果需要，指定每个可学习层中的神经元数量。为此，使用创建代理初始化选项对象<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.option.rlagentinitializationoptions.html"><code class="object">rlAgentInitializationOptions<gydF4y2Ba/code></a>．<gydF4y2Ba/p></li> <li><p>属性指定代理选项<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.option.rltrpoagentoptions.html"><code class="object">rlTRPOAgentOptions<gydF4y2Ba/code></a>对象。<gydF4y2Ba/p></li> <li><p>类创建代理<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.agent.rltrpoagent.html"><code class="object">rlTRPOAgent<gydF4y2Ba/code></a>对象。<gydF4y2Ba/p></li> </ol> </div> <p>或者，您可以创建actor和critic，并使用这些对象来创建您的代理。在这种情况下，确保参与者和评论家的输入和输出维度与环境的相应操作和观察规范相匹配。<gydF4y2Ba/p> <div class="orderedlist"> <ol style="list-style: decimal;"> <li><p>使用以下命令创建角色<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.function.rldiscretecategoricalactor.html"><code class="object">rlDiscreteCategoricalActor<gydF4y2Ba/code></a>对象(用于离散操作空间)或<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.function.rlcontinuousgaussianactor.html"><code class="object">rlContinuousGaussianActor<gydF4y2Ba/code></a>对象(用于连续操作空格)。<gydF4y2Ba/p></li> <li><p>创建一个评论家使用<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.function.rlvaluefunction.html"><code class="object">rlValueFunction<gydF4y2Ba/code></a>对象。<gydF4y2Ba/p></li> <li><p>类型指定代理选项(如果需要)<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.option.rltrpoagentoptions.html"><code class="object">rlTRPOAgentOptions<gydF4y2Ba/code></a>对象。<gydF4y2Ba/p></li> <li><p>属性创建代理<一个href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.agent.rltrpoagent.html"><code class="object">rlTRPOAgent<gydF4y2Ba/code></a>函数。<gydF4y2Ba/p></li> </ol> </div> <p>TRPO代理不支持使用循环深度神经网络金宝app作为函数逼近器的参与者和评论家。TRPO代理也不支持使用的深度神经网络金宝app<codecl一个年代年代＝"object">quadraticLayer<gydF4y2Ba/code>．<gydF4y2Ba/p> <p>有关为函数近似创建actor和批评家的详细信息，请参见<一个href="//www.tatmou.com/la/help/reinforcement-learning/ug/create-policy-and-value-function-representations.html" class="a">创建策略和值函数<gydF4y2Ba/a>．<gydF4y2Ba/p> </section> <section itemprop="content"> <h3 class="title" id="mw_20fc804d-9a63-4182-8815-2bbb948cd25b">信任区域策略优化<gydF4y2Ba/h3> <p>信任区域策略优化找到使下列参与者损失函数最小的参与者参数。<gydF4y2Ba/p> <div id="d124e10429" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-21px" display="block"> <mrow> <msub> <mi> l<gydF4y2Ba/mi> <mrow> <mi> 一个<gydF4y2Ba/mi> <mi> c<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> <mi> o<gydF4y2Ba/mi> <mi> r<gydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> <mo> ）<gydF4y2Ba/mo> </mrow> <mo> ＝<gydF4y2Ba/mo> <mo> −<gydF4y2Ba/mo> <mfrac> <mn> 1<gydF4y2Ba/mn> <mi> 米<gydF4y2Ba/mi> </mfrac> <mstyle displaystyle="true"> <munderover> <mo> ∑<gydF4y2Ba/mo> <mrow> <mi> 我<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> <mi> 米<gydF4y2Ba/mi> </munderover> <mrow> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <mfrac> <mrow> <mi> π<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> 一个<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mrow> <mo> |<gydF4y2Ba/mo> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> </mrow> <mo> ；<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> <mrow> <mi> π<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> 一个<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mrow> <mo> |<gydF4y2Ba/mo> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> </mrow> <mo> ；<gydF4y2Ba/mo> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mfrac> <msub> <mi> D<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mo> +<gydF4y2Ba/mo> <mi> w<gydF4y2Ba/mi> <msub> <mi> ℋ<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <mi> θ<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mstyle> </mrow> </math></p> </div> </div> <p>在这里:<gydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p><em class="varname">米<gydF4y2Ba/em>是小批大小。<gydF4y2Ba/p></li> <li><p><em class="varname">D<年代ub>我<gydF4y2Ba/sub></em>是一个优势函数。<gydF4y2Ba/p></li> <li><p><em class="varname">π<年代ub>我<gydF4y2Ba/sub></em>（<e米cl一个年代年代＝"varname">一个<年代ub>我<gydF4y2Ba/sub></em>|<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>；<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>)是采取行动的概率<e米cl一个年代年代＝"varname">一个<年代ub>我<gydF4y2Ba/sub></em>遵循现行政策。该值是概率(离散动作)或概率密度函数(连续动作)的特定值。<gydF4y2Ba/p></li> <li><p><em class="varname">π<gydF4y2Ba/em>（<e米cl一个年代年代＝"varname">一个<年代ub>我<gydF4y2Ba/sub></em>|<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>；<e米cl一个年代年代＝"varname">θ<年代ub>老<gydF4y2Ba/sub></em>)是采取行动的概率<e米cl一个年代年代＝"varname">一个<年代ub>我<gydF4y2Ba/sub></em>遵循旧政策。<gydF4y2Ba/p></li> <li><p><em class="varname">w<gydF4y2Ba/em><em class="varname">ℋ<年代ub>我<gydF4y2Ba/sub></em>（<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>，<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>)为熵损失项，其中<e米cl一个年代年代＝"varname">w<gydF4y2Ba/em>熵是失重的吗<e米cl一个年代年代＝"varname">ℋ<年代ub>我<gydF4y2Ba/sub></em>（<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>，<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>)为熵。有关更多信息，请参见<一个href="//www.tatmou.com/la/help/reinforcement-learning/ug/trpo-agents.html" class="intrnllnk">熵损失<gydF4y2Ba/a>．<gydF4y2Ba/p></li> </ul> </div> <p>这种最小化受到以下约束。<gydF4y2Ba/p> <div id="d124e10514" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-20px" display="block"> <mrow> <mfrac> <mn> 1<gydF4y2Ba/mn> <mi> 米<gydF4y2Ba/mi> </mfrac> <mstyle displaystyle="true"> <munderover> <mo> ∑<gydF4y2Ba/mo> <mrow> <mi> 我<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> <mi> 米<gydF4y2Ba/mi> </munderover> <mrow> <msub> <mi> D<gydF4y2Ba/mi> <mrow> <mi> K<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> <mo> ，<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mstyle> <mo> ≤<gydF4y2Ba/mo> <mi> δ<gydF4y2Ba/mi> </mrow> </math></p> </div> </div> <p>在这里:<gydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p><em class="varname">D<年代ub>吉隆坡<gydF4y2Ba/sub></em>（<e米cl一个年代年代＝"varname">θ<年代ub>老<gydF4y2Ba/sub></em>，<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>，<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>)是旧政策之间的Kullback-Leibler (KL)分歧<e米cl一个年代年代＝"varname">π<gydF4y2Ba/em>（<e米cl一个年代年代＝"varname">一个<gydF4y2Ba/em>|<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>；<e米cl一个年代年代＝"varname">θ<年代ub>老<gydF4y2Ba/sub></em>)及现行政策<e米cl一个年代年代＝"varname">π<gydF4y2Ba/em>（<e米cl一个年代年代＝"varname">一个<gydF4y2Ba/em>|<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>；<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>)．<e米cl一个年代年代＝"varname">D<年代ub>吉隆坡<gydF4y2Ba/sub></em>度量新旧策略的概率分布有多大不同。<e米cl一个年代年代＝"varname">D<年代ub>吉隆坡<gydF4y2Ba/sub></em>当两个分布相同时为0。<gydF4y2Ba/p></li> <li><p><em class="varname">δ<gydF4y2Ba/em>的极限是<e米cl一个年代年代＝"varname">D<年代ub>吉隆坡<gydF4y2Ba/sub></em>并控制新策略与旧策略的偏差程度。<gydF4y2Ba/p></li> </ul> </div> <p>对于具有离散动作空间的智能体，<e米cl一个年代年代＝"varname">D<年代ub>吉隆坡<gydF4y2Ba/sub></em>计算如下，其中<e米cl一个年代年代＝"varname">P<gydF4y2Ba/em>是动作的数量。<gydF4y2Ba/p> <div id="d124e10584" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-21px" display="block"> <mrow> <msub> <mi> D<gydF4y2Ba/mi> <mrow> <mi> K<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> <mo> ，<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> <mo> ＝<gydF4y2Ba/mo> <mstyle displaystyle="true"> <munderover> <mo> ∑<gydF4y2Ba/mo> <mrow> <mi> k<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> <mi> P<gydF4y2Ba/mi> </munderover> <mrow> <mi> π<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> 一个<gydF4y2Ba/mi> <mi> k<gydF4y2Ba/mi> </msub> <mrow> <mo> |<gydF4y2Ba/mo> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mo> ；<gydF4y2Ba/mo> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> </mrow> </mrow> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mstyle> <mi> ln<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <mfrac> <mrow> <mi> π<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> 一个<gydF4y2Ba/mi> <mi> k<gydF4y2Ba/mi> </msub> <mrow> <mo> |<gydF4y2Ba/mo> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mo> ；<gydF4y2Ba/mo> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> </mrow> </mrow> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> <mrow> <mi> π<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> 一个<gydF4y2Ba/mi> <mi> k<gydF4y2Ba/mi> </msub> <mrow> <mo> |<gydF4y2Ba/mo> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mo> ；<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> </mrow> </mrow> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mfrac> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </math></p> </div> </div> <p>对于具有连续动作空间的agent，<e米cl一个年代年代＝"varname">D<年代ub>吉隆坡<gydF4y2Ba/sub></em>计算如下。<gydF4y2Ba/p> <div id="d124e10595" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-27px" display="block"> <mrow> <msub> <mi> D<gydF4y2Ba/mi> <mrow> <mi> K<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> <mo> ，<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> <mo> ＝<gydF4y2Ba/mo> <mfrac> <mn> 1<gydF4y2Ba/mn> <mi> P<gydF4y2Ba/mi> </mfrac> <mstyle displaystyle="true"> <munderover> <mo> ∑<gydF4y2Ba/mo> <mrow> <mi> k<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> <mi> P<gydF4y2Ba/mi> </munderover> <mrow> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <mi> ln<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> σ<gydF4y2Ba/mi> <mrow> <mi> θ<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <mi> k<gydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> <mo> −<gydF4y2Ba/mo> <mi> ln<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> σ<gydF4y2Ba/mi> <mrow> <mi> θ<gydF4y2Ba/mi> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <mi> k<gydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> <mo> +<gydF4y2Ba/mo> <mfrac> <mrow> <msubsup> <mi> σ<gydF4y2Ba/mi> <mrow> <mi> θ<gydF4y2Ba/mi> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <mi> k<gydF4y2Ba/mi> </mrow> <mn> 2<gydF4y2Ba/mn> </msubsup> <mo> +<gydF4y2Ba/mo> <msup> <mrow> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> μ<gydF4y2Ba/mi> <mrow> <mi> θ<gydF4y2Ba/mi> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <mi> k<gydF4y2Ba/mi> </mrow> </msub> <mo> −<gydF4y2Ba/mo> <msub> <mi> μ<gydF4y2Ba/mi> <mrow> <mi> θ<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <mi> k<gydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> <mn> 2<gydF4y2Ba/mn> </msup> </mrow> <mrow> <mn> 2<gydF4y2Ba/mn> <msubsup> <mi> σ<gydF4y2Ba/mi> <mrow> <mi> θ<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <mi> k<gydF4y2Ba/mi> </mrow> <mn> 2<gydF4y2Ba/mn> </msubsup> </mrow> </mfrac> <mo> −<gydF4y2Ba/mo> <mn> 0．5<gydF4y2Ba/mn> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mstyle> </mrow> </math></p> </div> </div> <p>在这里:<gydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p><em class="varname">μ<年代ub>θ,k<gydF4y2Ba/sub></em>而且<e米cl一个年代年代＝"varname">σ<年代ub>θ,k<gydF4y2Ba/sub></em>的均值和标准差是<e米cl一个年代年代＝"varname">k<gydF4y2Ba/em>当前角色策略输出的动作<e米cl一个年代年代＝"varname">π<gydF4y2Ba/em>（<e米cl一个年代年代＝"varname">一个<年代ub>k<gydF4y2Ba/sub></em>|<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>；<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>)．<gydF4y2Ba/p></li> <li><p><em class="varname">μ<年代ub>θ老k<gydF4y2Ba/sub></em>而且<e米cl一个年代年代＝"varname">σ<年代ub>θ老k<gydF4y2Ba/sub></em>的均值和标准差是<e米cl一个年代年代＝"varname">k<gydF4y2Ba/em>旧策略输出的动作<e米cl一个年代年代＝"varname">π<gydF4y2Ba/em>（<e米cl一个年代年代＝"varname">一个<年代ub>k<gydF4y2Ba/sub></em>|<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>；<e米cl一个年代年代＝"varname">θ<年代ub>老<gydF4y2Ba/sub></em>)．<gydF4y2Ba/p></li> </ul> </div> <p>为了近似这个优化问题，TRPO代理使用的线性近似<e米cl一个年代年代＝"varname">l<年代ub>演员<gydF4y2Ba/sub></em>（<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>的二次近似<e米cl一个年代年代＝"varname">D<年代ub>吉隆坡<gydF4y2Ba/sub></em>（<e米cl一个年代年代＝"varname">θ<年代ub>老<gydF4y2Ba/sub></em>，<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>，<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>)．近似是通过泰勒级数展开来计算的<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>．<gydF4y2Ba/p> <div id="d124e10678" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-57px" display="block"> <mtable columnalign="left"> <mtr> <mtd> <munder> <mrow> <mi> 最小值<gydF4y2Ba/mi> </mrow> <mi> θ<gydF4y2Ba/mi> </munder> <msub> <mi> l<gydF4y2Ba/mi> <mrow> <mi> 一个<gydF4y2Ba/mi> <mi> c<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> <mi> o<gydF4y2Ba/mi> <mi> r<gydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> <mo> ）<gydF4y2Ba/mo> </mrow> <mo> ≈<gydF4y2Ba/mo> <msub> <mrow> <mrow> <mi> g<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <mi> θ<gydF4y2Ba/mi> <mo> −<gydF4y2Ba/mo> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> <mo> ＝<gydF4y2Ba/mo> <msub> <mo> ∇<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> </msub> <msub> <mi> l<gydF4y2Ba/mi> <mrow> <mi> 一个<gydF4y2Ba/mi> <mi> c<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> <mi> o<gydF4y2Ba/mi> <mi> r<gydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> <mo> |<gydF4y2Ba/mo> </mrow> <mrow> <mi> θ<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> </mrow> </msub> <mo> ⋅<gydF4y2Ba/mo> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <mi> θ<gydF4y2Ba/mi> <mo> −<gydF4y2Ba/mo> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mi> 年代<gydF4y2Ba/mi> <mi> u<gydF4y2Ba/mi> <mi> b<gydF4y2Ba/mi> <mi> j<gydF4y2Ba/mi> <mi> e<gydF4y2Ba/mi> <mi> c<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> <mtext> </mtext> <mi> t<gydF4y2Ba/mi> <mi> o<gydF4y2Ba/mi> <mtext> </mtext> <mfrac> <mn> 1<gydF4y2Ba/mn> <mn> 2<gydF4y2Ba/mn> </mfrac> <msup> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> <mo> −<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> <mi> T<gydF4y2Ba/mi> </msup> <mi> H<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> <mo> −<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> <mo> ≤<gydF4y2Ba/mo> <mi> δ<gydF4y2Ba/mi> </mtd> </mtr> <mtr> <mtd> <mi> w<gydF4y2Ba/mi> <mi> h<gydF4y2Ba/mi> <mi> e<gydF4y2Ba/mi> <mi> r<gydF4y2Ba/mi> <mi> e<gydF4y2Ba/mi> <mtext> </mtext> <mi> H<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <msubsup> <mo> ∇<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> <mn> 2<gydF4y2Ba/mn> </msubsup> <msub> <mrow> <mrow> <mfrac> <mn> 1<gydF4y2Ba/mn> <mi> 米<gydF4y2Ba/mi> </mfrac> <mstyle displaystyle="true"> <msubsup> <mo> ∑<gydF4y2Ba/mo> <mrow> <mi> 我<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> <mi> 米<gydF4y2Ba/mi> </msubsup> <mrow> <msub> <mi> D<gydF4y2Ba/mi> <mrow> <mi> K<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> <mo> ，<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mstyle> </mrow> <mo> |<gydF4y2Ba/mo> </mrow> <mrow> <mi> θ<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> </mrow> </msub> </mtd> </mtr> </mtable> </math></p> </div> </div> <p>该近似优化问题的解析解如下。<gydF4y2Ba/p> <div id="d124e10683" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-17px" display="block"> <mrow> <mi> θ<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> <mo> +<gydF4y2Ba/mo> <mi> α<gydF4y2Ba/mi> <msqrt> <mrow> <mfrac> <mrow> <mn> 2<gydF4y2Ba/mn> <mi> δ<gydF4y2Ba/mi> </mrow> <mrow> <msup> <mi> x<gydF4y2Ba/mi> <mi> T<gydF4y2Ba/mi> </msup> <msup> <mi> H<gydF4y2Ba/mi> <mrow> <mo> −<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> </msup> <mi> x<gydF4y2Ba/mi> </mrow> </mfrac> </mrow> </msqrt> <mi> x<gydF4y2Ba/mi> </mrow> </math></p> </div> </div> <p>在这里,<e米cl一个年代年代＝"varname">x<gydF4y2Ba/em>＝<e米cl一个年代年代＝"varname">H<gydF4y2Ba/em><sup>－1<gydF4y2Ba/sup><em class="varname">g<gydF4y2Ba/em>而且<e米cl一个年代年代＝"varname">α<gydF4y2Ba/em>是保证策略改进并满足约束的系数。<gydF4y2Ba/p> </section> <section itemprop="content"> <h3 class="title" id="mw_f866ef43-84cf-4734-9695-e1ef2b84358b">训练算法<gydF4y2Ba/h3> <p>TRPO代理使用以下训练算法。若要配置训练算法，请使用<codecl一个年代年代＝"object">rlTRPOAgentOptions<gydF4y2Ba/code>对象。<gydF4y2Ba/p> <div class="orderedlist"> <ol style="list-style: decimal;"> <li><p>初始化actor<e米cl一个年代年代＝"varname">π<gydF4y2Ba/em>（<e米cl一个年代年代＝"varname">一个<gydF4y2Ba/em>|<e米cl一个年代年代＝"varname">年代<gydF4y2Ba/em>；<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>)，参数值随机<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>．<gydF4y2Ba/p></li> <li><p>初始化评论家<e米cl一个年代年代＝"varname">V<gydF4y2Ba/em>（<e米cl一个年代年代＝"varname">年代<gydF4y2Ba/em>；<e米cl一个年代年代＝"varname">ϕ<gydF4y2Ba/em>)，参数值随机<e米cl一个年代年代＝"varname">ϕ<gydF4y2Ba/em>．<gydF4y2Ba/p></li> <li><p>生成<e米cl一个年代年代＝"varname">N<gydF4y2Ba/em>遵循现行政策的经验。经验序列是<gydF4y2Ba/p> <div id="d124e10733" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-7px" display="block"> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mrow> <mi> t<gydF4y2Ba/mi> <mi> 年代<gydF4y2Ba/mi> </mrow> </msub> <mo> ，<gydF4y2Ba/mo> <msub> <mi> 一个<gydF4y2Ba/mi> <mrow> <mi> t<gydF4y2Ba/mi> <mi> 年代<gydF4y2Ba/mi> </mrow> </msub> <mo> ，<gydF4y2Ba/mo> <msub> <mi> R<gydF4y2Ba/mi> <mrow> <mi> t<gydF4y2Ba/mi> <mi> 年代<gydF4y2Ba/mi> <mo> +<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> </msub> <mo> ，<gydF4y2Ba/mo> <msub> <mi> 年代<gydF4y2Ba/mi> <mrow> <mi> t<gydF4y2Ba/mi> <mi> 年代<gydF4y2Ba/mi> <mo> +<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> </msub> <mo> ，<gydF4y2Ba/mo> <mo> .．.<gydF4y2Ba/mo> <mo> ，<gydF4y2Ba/mo> <msub> <mi> 年代<gydF4y2Ba/mi> <mrow> <mi> t<gydF4y2Ba/mi> <mi> 年代<gydF4y2Ba/mi> <mo> +<gydF4y2Ba/mo> <mi> N<gydF4y2Ba/mi> <mo> −<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> </msub> <mo> ，<gydF4y2Ba/mo> <msub> <mi> 一个<gydF4y2Ba/mi> <mrow> <mi> t<gydF4y2Ba/mi> <mi> 年代<gydF4y2Ba/mi> <mo> +<gydF4y2Ba/mo> <mi> N<gydF4y2Ba/mi> <mo> −<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> </msub> <mo> ，<gydF4y2Ba/mo> <msub> <mi> R<gydF4y2Ba/mi> <mrow> <mi> t<gydF4y2Ba/mi> <mi> 年代<gydF4y2Ba/mi> <mo> +<gydF4y2Ba/mo> <mi> N<gydF4y2Ba/mi> </mrow> </msub> <mo> ，<gydF4y2Ba/mo> <msub> <mi> 年代<gydF4y2Ba/mi> <mrow> <mi> t<gydF4y2Ba/mi> <mi> 年代<gydF4y2Ba/mi> <mo> +<gydF4y2Ba/mo> <mi> N<gydF4y2Ba/mi> </mrow> </msub> </mrow> </math></p> </div> </div><p>在这里,<e米cl一个年代年代＝"varname">年代<年代ub>t<gydF4y2Ba/sub></em>是一个状态观察，<e米cl一个年代年代＝"varname">一个<年代ub>t<gydF4y2Ba/sub></em>是在那个状态下采取的行动，<e米cl一个年代年代＝"varname">年代<年代ub>t + 1<gydF4y2Ba/sub></em>下一个状态，和<e米cl一个年代年代＝"varname">R<年代ub>t + 1<gydF4y2Ba/sub></em>从那里搬走的报酬收到了吗<e米cl一个年代年代＝"varname">年代<年代ub>t<gydF4y2Ba/sub></em>来<e米cl一个年代年代＝"varname">年代<年代ub>t + 1<gydF4y2Ba/sub></em>．<gydF4y2Ba/p><p>当处于状态时<e米cl一个年代年代＝"varname">年代<年代ub>t<gydF4y2Ba/sub></em>，智能体计算在动作空间中采取每个动作的概率<e米cl一个年代年代＝"varname">π<gydF4y2Ba/em>（<e米cl一个年代年代＝"varname">一个<gydF4y2Ba/em>|<e米cl一个年代年代＝"varname">年代<年代ub>t<gydF4y2Ba/sub></em>；<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>)并随机选择动作<e米cl一个年代年代＝"varname">一个<年代ub>t<gydF4y2Ba/sub></em>基于概率分布。<gydF4y2Ba/p><p><em class="varname">ts<gydF4y2Ba/em>起始时间步长是当前设置的吗<e米cl一个年代年代＝"varname">N<gydF4y2Ba/em>的经历。在训练一开始，<e米cl一个年代年代＝"varname">ts<gydF4y2Ba/em>= 1。对于每个后续的集合<e米cl一个年代年代＝"varname">N<gydF4y2Ba/em>在同一训练阶段的经历，<e米cl一个年代年代＝"varname">ts<gydF4y2Ba/em>←<e米cl一个年代年代＝"varname">ts<gydF4y2Ba/em>+<e米cl一个年代年代＝"varname">N<gydF4y2Ba/em>．<gydF4y2Ba/p><p>对于每个不包含终端状态的体验序列，<e米cl一个年代年代＝"varname">N<gydF4y2Ba/em>等于<codecl一个年代年代＝"property">ExperienceHorizon<gydF4y2Ba/code>选项值。否则,<e米cl一个年代年代＝"varname">N<gydF4y2Ba/em>小于<codecl一个年代年代＝"property">ExperienceHorizon<gydF4y2Ba/code>而且<e米cl一个年代年代＝"varname">年代<年代ub>N<gydF4y2Ba/sub></em>是终端状态。<gydF4y2Ba/p></li> <li><p>对于每个插曲步骤<e米cl一个年代年代＝"varname">t<gydF4y2Ba/em>＝<e米cl一个年代年代＝"varname">ts<gydF4y2Ba/em>+ 1,<e米cl一个年代年代＝"varname">ts<gydF4y2Ba/em>+ 2,…,<e米cl一个年代年代＝"varname">ts<gydF4y2Ba/em>+<e米cl一个年代年代＝"varname">N<gydF4y2Ba/em>的方法，计算收益和优势函数<codecl一个年代年代＝"property">AdvantageEstimateMethod<gydF4y2Ba/code>选择。<gydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p><strong class="emphasis bold">有限的地平线<gydF4y2Ba/strong>（<codecl一个年代年代＝"literal">advantageestimatemmethod = " limited -horizon"<gydF4y2Ba/code>) -计算回报<e米cl一个年代年代＝"varname">G<年代ub>t<gydF4y2Ba/sub></em>，这是该步骤的奖励和贴现后的未来奖励的总和<一个href="//www.tatmou.com/la/help/reinforcement-learning/ug/trpo-agents.html" class="intrnllnk">[２]<gydF4y2Ba/a>．<gydF4y2Ba/p> <div id="d124e10845" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-20px" display="block"> <mrow> <msub> <mi> G<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> </msub> <mo> ＝<gydF4y2Ba/mo> <mstyle displaystyle="true"> <munderover> <mo> ∑<gydF4y2Ba/mo> <mrow> <mi> k<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <mi> t<gydF4y2Ba/mi> </mrow> <mrow> <mi> t<gydF4y2Ba/mi> <mi> 年代<gydF4y2Ba/mi> <mo> +<gydF4y2Ba/mo> <mi> N<gydF4y2Ba/mi> </mrow> </munderover> <mrow> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msup> <mi> γ<gydF4y2Ba/mi> <mrow> <mi> k<gydF4y2Ba/mi> <mo> −<gydF4y2Ba/mo> <mi> t<gydF4y2Ba/mi> <mo> −<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> </msup> <msub> <mi> R<gydF4y2Ba/mi> <mi> k<gydF4y2Ba/mi> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mstyle> <mo> +<gydF4y2Ba/mo> <mi> b<gydF4y2Ba/mi> <msup> <mi> γ<gydF4y2Ba/mi> <mrow> <mi> t<gydF4y2Ba/mi> <mi> 年代<gydF4y2Ba/mi> <mo> +<gydF4y2Ba/mo> <mi> N<gydF4y2Ba/mi> <mo> −<gydF4y2Ba/mo> <mi> t<gydF4y2Ba/mi> </mrow> </msup> <mi> V<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mrow> <mi> t<gydF4y2Ba/mi> <mi> 年代<gydF4y2Ba/mi> <mo> +<gydF4y2Ba/mo> <mi> N<gydF4y2Ba/mi> </mrow> </msub> <mo> ；<gydF4y2Ba/mo> <mi> ϕ<gydF4y2Ba/mi> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </math></p> </div> </div><p>在这里,<e米cl一个年代年代＝"varname">b<gydF4y2Ba/em>是<codecl一个年代年代＝"literal">0<gydF4y2Ba/code>如果<e米cl一个年代年代＝"varname">年代<年代ub>t + N<gydF4y2Ba/sub></em>是终端状态和<codecl一个年代年代＝"literal">1<gydF4y2Ba/code>否则。也就是说，如果<e米cl一个年代年代＝"varname">年代<年代ub>t + N<gydF4y2Ba/sub></em>不是终端状态，未来的折现奖励包括折现状态值函数，用评论家网络计算<e米cl一个年代年代＝"varname">V<gydF4y2Ba/em>．<gydF4y2Ba/p><p>计算优势函数<e米cl一个年代年代＝"varname">D<年代ub>t<gydF4y2Ba/sub></em>．<gydF4y2Ba/p> <div id="d124e10874" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-8px" display="block"> <mrow> <msub> <mi> D<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> </msub> <mo> ＝<gydF4y2Ba/mo> <msub> <mi> G<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> </msub> <mo> −<gydF4y2Ba/mo> <mi> V<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> </msub> <mo> ；<gydF4y2Ba/mo> <mi> ϕ<gydF4y2Ba/mi> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </math></p> </div> </div></li> <li><p><strong class="emphasis bold">广义优势估计<gydF4y2Ba/strong>（<codecl一个年代年代＝"literal">advantageestimatemmethod = "gae"<gydF4y2Ba/code>) -计算优势函数<e米cl一个年代年代＝"varname">D<年代ub>t<gydF4y2Ba/sub></em>，为时间差误差的折后和<一个href="//www.tatmou.com/la/help/reinforcement-learning/ug/trpo-agents.html" class="intrnllnk">[3]<gydF4y2Ba/a>．<gydF4y2Ba/p> <div id="d124e10891" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-31px" display="block"> <mtable> <mtr> <mtd> <msub> <mi> D<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> </msub> <mo> ＝<gydF4y2Ba/mo> <mstyle displaystyle="true"> <munderover> <mo> ∑<gydF4y2Ba/mo> <mrow> <mi> k<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <mi> t<gydF4y2Ba/mi> </mrow> <mrow> <mi> t<gydF4y2Ba/mi> <mi> 年代<gydF4y2Ba/mi> <mo> +<gydF4y2Ba/mo> <mi> N<gydF4y2Ba/mi> <mo> −<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> </munderover> <mrow> <msup> <mrow> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <mi> γ<gydF4y2Ba/mi> <mi> λ<gydF4y2Ba/mi> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> <mrow> <mi> k<gydF4y2Ba/mi> <mo> −<gydF4y2Ba/mo> <mi> t<gydF4y2Ba/mi> </mrow> </msup> <msub> <mi> δ<gydF4y2Ba/mi> <mi> k<gydF4y2Ba/mi> </msub> </mrow> </mstyle> </mtd> </mtr> <mtr> <mtd> <msub> <mi> δ<gydF4y2Ba/mi> <mi> k<gydF4y2Ba/mi> </msub> <mo> ＝<gydF4y2Ba/mo> <msub> <mi> R<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> </msub> <mo> +<gydF4y2Ba/mo> <mi> b<gydF4y2Ba/mi> <mi> γ<gydF4y2Ba/mi> <mi> V<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> </msub> <mo> ；<gydF4y2Ba/mo> <mi> ϕ<gydF4y2Ba/mi> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mtd> </mtr> </mtable> </math></p> </div> </div><p>在这里,<e米cl一个年代年代＝"varname">b<gydF4y2Ba/em>是<codecl一个年代年代＝"literal">0<gydF4y2Ba/code>如果<e米cl一个年代年代＝"varname">年代<年代ub>t + N<gydF4y2Ba/sub></em>是终端状态和<codecl一个年代年代＝"literal">1<gydF4y2Ba/code>否则。<e米cl一个年代年代＝"varname">λ<gydF4y2Ba/em>平滑因子是否使用<codecl一个年代年代＝"property">GAEFactor<gydF4y2Ba/code>选择。<gydF4y2Ba/p><p>计算回报<e米cl一个年代年代＝"varname">G<年代ub>t<gydF4y2Ba/sub></em>．<gydF4y2Ba/p> <div id="d124e10918" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-8px" display="block"> <mrow> <msub> <mi> G<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> </msub> <mo> ＝<gydF4y2Ba/mo> <msub> <mi> D<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> </msub> <mo> +<gydF4y2Ba/mo> <mi> V<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> </msub> <mo> ；<gydF4y2Ba/mo> <mi> ϕ<gydF4y2Ba/mi> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </math></p> </div> </div></li> </ul> </div><p>指定贴现因子<e米cl一个年代年代＝"varname">γ<gydF4y2Ba/em>对于任何一种方法，都使用<codecl一个年代年代＝"property">DiscountFactor<gydF4y2Ba/code>选择。<gydF4y2Ba/p></li> <li><p>从小批量的经验中学习<e米cl一个年代年代＝"varname">K<gydF4y2Ba/em>时代的发展。指定<e米cl一个年代年代＝"varname">K<gydF4y2Ba/em>，使用<codecl一个年代年代＝"property">NumEpoch<gydF4y2Ba/code>选择。对于每个学习阶段:<gydF4y2Ba/p> <div class="orderedlist"> <ol style="list-style: lower-alpha;"> <li><p>随机抽取大小的小批量数据集进行抽样<e米cl一个年代年代＝"varname">米<gydF4y2Ba/em>从目前的经验来看。指定<e米cl一个年代年代＝"varname">米<gydF4y2Ba/em>，使用<codecl一个年代年代＝"property">MiniBatchSize<gydF4y2Ba/code>选择。小批量数据集的每个元素包含当前经验和相应的回报和优势函数值。<gydF4y2Ba/p></li> <li><p>通过最小化损失来更新关键参数<e米cl一个年代年代＝"varname">l<年代ub>评论家<gydF4y2Ba/sub></em>在所有采样的小批数据中。<gydF4y2Ba/p> <div id="d124e10954" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-20px" display="block"> <mrow> <msub> <mi> l<gydF4y2Ba/mi> <mrow> <mi> c<gydF4y2Ba/mi> <mi> r<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> <mi> c<gydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mi> ϕ<gydF4y2Ba/mi> <mo> ）<gydF4y2Ba/mo> </mrow> <mo> ＝<gydF4y2Ba/mo> <mfrac> <mn> 1<gydF4y2Ba/mn> <mrow> <mn> 2<gydF4y2Ba/mn> <mi> 米<gydF4y2Ba/mi> </mrow> </mfrac> <mstyle displaystyle="true"> <munderover> <mo> ∑<gydF4y2Ba/mo> <mrow> <mi> 我<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> <mi> 米<gydF4y2Ba/mi> </munderover> <mrow> <msup> <mrow> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> G<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mo> −<gydF4y2Ba/mo> <mi> V<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mo> ；<gydF4y2Ba/mo> <mi> ϕ<gydF4y2Ba/mi> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> <mn> 2<gydF4y2Ba/mn> </msup> </mrow> </mstyle> </mrow> </math></p> </div> </div></li> <li><p>标准化优势值<e米cl一个年代年代＝"varname">D<年代ub>我<gydF4y2Ba/sub></em>根据最近的非标准化优势值。<gydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p>如果<codecl一个年代年代＝"property">NormalizedAdvantageMethod<gydF4y2Ba/code>选择是<codecl一个年代年代＝"literal">“没有”<gydF4y2Ba/code>，不归一化优势值。<gydF4y2Ba/p> <div id="d124e10973" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-7px" display="block"> <mrow> <msub> <mover accent="true"> <mi> D<gydF4y2Ba/mi> <mo> ＾<gydF4y2Ba/mo> </mover> <mi> 我<gydF4y2Ba/mi> </msub> <mo> ←<gydF4y2Ba/mo> <msub> <mi> D<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> </math></p> </div> </div></li> <li><p>如果<codecl一个年代年代＝"property">NormalizedAdvantageMethod<gydF4y2Ba/code>选择是<codecl一个年代年代＝"literal">“当前”<gydF4y2Ba/code>，根据当前小批中未归一化的优势，对优势值进行归一化。<gydF4y2Ba/p> <div id="d124e10984" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-19px" display="block"> <mrow> <msub> <mover accent="true"> <mi> D<gydF4y2Ba/mi> <mo> ＾<gydF4y2Ba/mo> </mover> <mi> 我<gydF4y2Ba/mi> </msub> <mo> ←<gydF4y2Ba/mo> <mfrac> <mrow> <msub> <mi> D<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mo> −<gydF4y2Ba/mo> <mi> 米<gydF4y2Ba/mi> <mi> e<gydF4y2Ba/mi> <mi> 一个<gydF4y2Ba/mi> <mi> n<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> D<gydF4y2Ba/mi> <mn> 1<gydF4y2Ba/mn> </msub> <mo> ，<gydF4y2Ba/mo> <msub> <mi> D<gydF4y2Ba/mi> <mn> 2<gydF4y2Ba/mn> </msub> <mo> ，<gydF4y2Ba/mo> <mo> .．.<gydF4y2Ba/mo> <mo> ，<gydF4y2Ba/mo> <msub> <mi> D<gydF4y2Ba/mi> <mi> 米<gydF4y2Ba/mi> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> <mrow> <mi> 年代<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> D<gydF4y2Ba/mi> <mn> 1<gydF4y2Ba/mn> </msub> <mo> ，<gydF4y2Ba/mo> <msub> <mi> D<gydF4y2Ba/mi> <mn> 2<gydF4y2Ba/mn> </msub> <mo> ，<gydF4y2Ba/mo> <mo> .．.<gydF4y2Ba/mo> <mo> ，<gydF4y2Ba/mo> <msub> <mi> D<gydF4y2Ba/mi> <mi> 米<gydF4y2Ba/mi> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mfrac> </mrow> </math></p> </div> </div></li> <li><p>如果<codecl一个年代年代＝"property">NormalizedAdvantageMethod<gydF4y2Ba/code>选择是<codecl一个年代年代＝"literal">“移动”<gydF4y2Ba/code>，基于非归一化优势对优势值进行归一化<e米cl一个年代年代＝"varname">N<gydF4y2Ba/em>最近的优势，包括当前的优势值。指定窗口大小<e米cl一个年代年代＝"varname">N<gydF4y2Ba/em>，使用<codecl一个年代年代＝"property">AdvantageNormalizingWindow<gydF4y2Ba/code>选择。<gydF4y2Ba/p> <div id="d124e11001" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-19px" display="block"> <mrow> <msub> <mover accent="true"> <mi> D<gydF4y2Ba/mi> <mo> ＾<gydF4y2Ba/mo> </mover> <mi> 我<gydF4y2Ba/mi> </msub> <mo> ←<gydF4y2Ba/mo> <mfrac> <mrow> <msub> <mi> D<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mo> −<gydF4y2Ba/mo> <mi> 米<gydF4y2Ba/mi> <mi> e<gydF4y2Ba/mi> <mi> 一个<gydF4y2Ba/mi> <mi> n<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> D<gydF4y2Ba/mi> <mn> 1<gydF4y2Ba/mn> </msub> <mo> ，<gydF4y2Ba/mo> <msub> <mi> D<gydF4y2Ba/mi> <mn> 2<gydF4y2Ba/mn> </msub> <mo> ，<gydF4y2Ba/mo> <mo> .．.<gydF4y2Ba/mo> <mo> ，<gydF4y2Ba/mo> <msub> <mi> D<gydF4y2Ba/mi> <mi> N<gydF4y2Ba/mi> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> <mrow> <mi> 年代<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> D<gydF4y2Ba/mi> <mn> 1<gydF4y2Ba/mn> </msub> <mo> ，<gydF4y2Ba/mo> <msub> <mi> D<gydF4y2Ba/mi> <mn> 2<gydF4y2Ba/mn> </msub> <mo> ，<gydF4y2Ba/mo> <mo> .．.<gydF4y2Ba/mo> <mo> ，<gydF4y2Ba/mo> <msub> <mi> D<gydF4y2Ba/mi> <mi> N<gydF4y2Ba/mi> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mfrac> </mrow> </math></p> </div> </div></li> </ul> </div></li> <li><p>通过求解约束优化问题更新角色参数。<gydF4y2Ba/p> <div class="orderedlist"> <ol style="list-style: lower-roman;"> <li><p>计算策略梯度。<gydF4y2Ba/p> <div id="d124e11010" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-21px" display="block"> <mrow> <mi> g<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <msub> <mo> ∇<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> </msub> <msub> <mi> l<gydF4y2Ba/mi> <mrow> <mi> 一个<gydF4y2Ba/mi> <mi> c<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> <mi> o<gydF4y2Ba/mi> <mi> r<gydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> <mo> ）<gydF4y2Ba/mo> </mrow> <mo> ＝<gydF4y2Ba/mo> <msub> <mo> ∇<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> </msub> <mo> −<gydF4y2Ba/mo> <mfrac> <mn> 1<gydF4y2Ba/mn> <mi> 米<gydF4y2Ba/mi> </mfrac> <mstyle displaystyle="true"> <munderover> <mo> ∑<gydF4y2Ba/mo> <mrow> <mi> 我<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> <mi> 米<gydF4y2Ba/mi> </munderover> <mrow> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <mfrac> <mrow> <mi> π<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> 一个<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mrow> <mo> |<gydF4y2Ba/mo> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> </mrow> <mo> ；<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> <mrow> <mi> π<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> 一个<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mrow> <mo> |<gydF4y2Ba/mo> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> </mrow> <mo> ；<gydF4y2Ba/mo> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mfrac> <msub> <mover accent="true"> <mi> D<gydF4y2Ba/mi> <mo> ＾<gydF4y2Ba/mo> </mover> <mi> 我<gydF4y2Ba/mi> </msub> <mo> +<gydF4y2Ba/mo> <mi> w<gydF4y2Ba/mi> <msub> <mi> ℋ<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <mi> θ<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mstyle> </mrow> </math></p> </div> </div></li> <li><p>应用共轭梯度(CG)方法求出以下方程的近似解，其中<e米cl一个年代年代＝"varname">H<gydF4y2Ba/em>是kl的黑森，新旧政策的分歧。<gydF4y2Ba/p> <div id="d124e11019" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-7px" display="block"> <mrow> <mi> x<gydF4y2Ba/mi> <mo> ≈<gydF4y2Ba/mo> <msup> <mi> H<gydF4y2Ba/mi> <mrow> <mo> −<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> </msup> <mi> g<gydF4y2Ba/mi> </mrow> </math></p> </div> </div><p>若要配置CG算法的终止条件，请使用<codecl一个年代年代＝"property">NumIterationsConjugateGradient<gydF4y2Ba/code>而且<codecl一个年代年代＝"property">ConjugateGradientResidualTolerance<gydF4y2Ba/code>选项。要稳定CG算法的数值计算，请使用<codecl一个年代年代＝"property">ConjugateGradientDamping<gydF4y2Ba/code>选择。<gydF4y2Ba/p></li> <li><p>使用直线搜索算法，找到最大的<e米cl一个年代年代＝"varname">α<gydF4y2Ba/em>它满足以下约束条件。<gydF4y2Ba/p> <div id="d124e11036" class="mediaobject"> <div class="code_responsive"> <p class="listprogramlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-73px" display="block"> <mtable columnalign="left"> <mtr> <mtd> <mi> θ<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> <mo> +<gydF4y2Ba/mo> <mi> α<gydF4y2Ba/mi> <msqrt> <mrow> <mfrac> <mrow> <mn> 2<gydF4y2Ba/mn> <mi> δ<gydF4y2Ba/mi> </mrow> <mrow> <msup> <mi> x<gydF4y2Ba/mi> <mi> T<gydF4y2Ba/mi> </msup> <msup> <mi> H<gydF4y2Ba/mi> <mrow> <mo> −<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> </msup> <mi> x<gydF4y2Ba/mi> </mrow> </mfrac> </mrow> </msqrt> <mi> x<gydF4y2Ba/mi> </mtd> </mtr> <mtr> <mtd> <msub> <mi> l<gydF4y2Ba/mi> <mrow> <mi> 一个<gydF4y2Ba/mi> <mi> c<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> <mi> o<gydF4y2Ba/mi> <mi> r<gydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> <mo> ）<gydF4y2Ba/mo> </mrow> <mo> −<gydF4y2Ba/mo> <msub> <mi> l<gydF4y2Ba/mi> <mrow> <mi> 一个<gydF4y2Ba/mi> <mi> c<gydF4y2Ba/mi> <mi> t<gydF4y2Ba/mi> <mi> o<gydF4y2Ba/mi> <mi> r<gydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> <mo> <<gydF4y2Ba/mo> <mn> 0<gydF4y2Ba/mn> </mtd> </mtr> <mtr> <mtd> <mfrac> <mn> 1<gydF4y2Ba/mn> <mi> 米<gydF4y2Ba/mi> </mfrac> <mstyle displaystyle="true"> <munderover> <mo> ∑<gydF4y2Ba/mo> <mrow> <mi> 我<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> <mi> 米<gydF4y2Ba/mi> </munderover> <mrow> <msub> <mi> D<gydF4y2Ba/mi> <mrow> <mi> K<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> </mrow> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> θ<gydF4y2Ba/mi> <mrow> <mi> o<gydF4y2Ba/mi> <mi> l<gydF4y2Ba/mi> <mi> d<gydF4y2Ba/mi> </mrow> </msub> <mo> ，<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mstyle> <mo> ≤<gydF4y2Ba/mo> <mi> δ<gydF4y2Ba/mi> </mtd> </mtr> <mtr> <mtd> <mi> α<gydF4y2Ba/mi> <mo> ∈<gydF4y2Ba/mo> <mrow> <mo> ｛<gydF4y2Ba/mo> <mrow> <mn> 1<gydF4y2Ba/mn> <mo> ，<gydF4y2Ba/mo> <mfrac> <mn> 1<gydF4y2Ba/mn> <mn> 2<gydF4y2Ba/mn> </mfrac> <mo> ，<gydF4y2Ba/mo> <mfrac> <mn> 1<gydF4y2Ba/mn> <mrow> <msup> <mn> 2<gydF4y2Ba/mn> <mn> 2<gydF4y2Ba/mn> </msup> </mrow> </mfrac> <mo> ，<gydF4y2Ba/mo> <mo> .．.<gydF4y2Ba/mo> <mo> ，<gydF4y2Ba/mo> <mfrac> <mn> 1<gydF4y2Ba/mn> <mrow> <msup> <mn> 2<gydF4y2Ba/mn> <mrow> <mi> n<gydF4y2Ba/mi> <mo> −<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> </msup> </mrow> </mfrac> </mrow> <mo> ｝<gydF4y2Ba/mo> </mrow> </mtd> </mtr> </mtable> </math></p> </div> </div><p>在这里,<e米cl一个年代年代＝"varname">δ<gydF4y2Ba/em>是kl散度极限，您可以使用<codecl一个年代年代＝"property">KLDivergenceLimit<gydF4y2Ba/code>选择。<e米cl一个年代年代＝"varname">n<gydF4y2Ba/em>行的搜索迭代次数，您使用<codecl一个年代年代＝"property">NumIterationsLineSearch<gydF4y2Ba/code>选择。<gydF4y2Ba/p></li> <li><p>的有效值<e米cl一个年代年代＝"varname">α<gydF4y2Ba/em>存在时，将参与者网络的参数更新为<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>．的有效值<e米cl一个年代年代＝"varname">α<gydF4y2Ba/em>不存在，不更新参与者参数。<gydF4y2Ba/p></li> </ol> </div></li> </ol> </div></li> <li><p>重复步骤3到5，直到训练达到最终状态。<gydF4y2Ba/p></li> </ol> </div> </section> <section itemprop="content"> <h3 class="title" id="mw_08976d74-a72a-4a71-bf33-fa749d857618">熵损失<gydF4y2Ba/h3> <p>为了促进agent探索，可以添加熵损失项<e米cl一个年代年代＝"varname">w<gydF4y2Ba/em><em class="varname">ℋ<年代ub>我<gydF4y2Ba/sub></em>（<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>，<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>)到actor损失函数，其中<e米cl一个年代年代＝"varname">w<gydF4y2Ba/em>熵是失重的吗<e米cl一个年代年代＝"varname">ℋ<年代ub>我<gydF4y2Ba/sub></em>（<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>，<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>)为熵。<gydF4y2Ba/p> <p>当智能体对下一步采取何种行动更加不确定时，熵值就会更高。因此，最大化熵损失项(最小化负熵损失)会增加agent的不确定性，从而鼓励探索。为了促进额外的探索，这可以帮助代理走出局部最优，您可以指定更大的熵损失权重。<gydF4y2Ba/p> <p>对于离散动作空间，代理使用以下熵值。在这种情况下，参与者输出采取每个可能的离散操作的概率。<gydF4y2Ba/p> <div id="d124e11092" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-20px" display="block"> <mrow> <msub> <mi> ℋ<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <mi> θ<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> <mo> ＝<gydF4y2Ba/mo> <mo> −<gydF4y2Ba/mo> <mstyle displaystyle="true"> <munderover> <mo> ∑<gydF4y2Ba/mo> <mrow> <mi> k<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> <mi> P<gydF4y2Ba/mi> </munderover> <mrow> <mi> π<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> 一个<gydF4y2Ba/mi> <mi> k<gydF4y2Ba/mi> </msub> <mrow> <mo> |<gydF4y2Ba/mo> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> </mrow> <mo> ；<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> <mi> ln<gydF4y2Ba/mi> <mi> π<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <msub> <mi> 一个<gydF4y2Ba/mi> <mi> k<gydF4y2Ba/mi> </msub> <mrow> <mo> |<gydF4y2Ba/mo> <mrow> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> </mrow> <mo> ；<gydF4y2Ba/mo> <mi> θ<gydF4y2Ba/mi> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mstyle> </mrow> </math></p> </div> </div> <p>在这里:<gydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p><em class="varname">P<gydF4y2Ba/em>是可能的离散动作的数量。<gydF4y2Ba/p></li> <li><p><em class="varname">π<gydF4y2Ba/em>（<e米cl一个年代年代＝"varname">一个<年代ub>k<gydF4y2Ba/sub></em>|<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>；<e米cl一个年代年代＝"varname">θ<gydF4y2Ba/em>)是采取行动的概率<e米cl一个年代年代＝"varname">一个<年代ub>k<gydF4y2Ba/sub></em>当处于状态时<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>遵循现行政策。<gydF4y2Ba/p></li> </ul> </div> <p>对于连续的动作空间，代理使用以下熵值。在这种情况下，参与者输出每个连续动作的高斯分布的平均值和标准偏差。<gydF4y2Ba/p> <div id="d124e11125" class="mediaobject"> <div class="code_responsive"> <p class="programlistingindent"> <math xmlns="http://www.w3.org/1998/Math/MathML" altimg-valign="-20px" display="block"> <mrow> <msub> <mi> ℋ<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <mi> θ<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <msub> <mi> 年代<gydF4y2Ba/mi> <mi> 我<gydF4y2Ba/mi> </msub> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> <mo> ＝<gydF4y2Ba/mo> <mfrac> <mn> 1<gydF4y2Ba/mn> <mn> 2<gydF4y2Ba/mn> </mfrac> <mstyle displaystyle="true"> <munderover> <mo> ∑<gydF4y2Ba/mo> <mrow> <mi> k<gydF4y2Ba/mi> <mo> ＝<gydF4y2Ba/mo> <mn> 1<gydF4y2Ba/mn> </mrow> <mi> C<gydF4y2Ba/mi> </munderover> <mrow> <mi> ln<gydF4y2Ba/mi> <mrow> <mo> （<gydF4y2Ba/mo> <mrow> <mn> 2<gydF4y2Ba/mn> <mi> π<gydF4y2Ba/mi> <mo> ⋅<gydF4y2Ba/mo> <mi> e<gydF4y2Ba/mi> <mo> ⋅<gydF4y2Ba/mo> <msubsup> <mi> σ<gydF4y2Ba/mi> <mrow> <mi> k<gydF4y2Ba/mi> <mo> ，<gydF4y2Ba/mo> <mi> 我<gydF4y2Ba/mi> </mrow> <mn> 2<gydF4y2Ba/mn> </msubsup> </mrow> <mo> ）<gydF4y2Ba/mo> </mrow> </mrow> </mstyle> </mrow> </math></p> </div> </div> <p>在这里:<gydF4y2Ba/p> <div class="itemizedlist"> <ul> <li><p><em class="varname">C<gydF4y2Ba/em>是参与者输出的连续动作的数量。<gydF4y2Ba/p></li> <li><p><em class="varname">σ<年代ub>凯西,我<gydF4y2Ba/sub></em>是行动的标准偏差吗<e米cl一个年代年代＝"varname">k<gydF4y2Ba/em>当处于状态时<e米cl一个年代年代＝"varname">年代<年代ub>我<gydF4y2Ba/sub></em>遵循现行政策。<gydF4y2Ba/p></li> </ul> </div> </section> <div class="bibliography"> <h2 id="References">参考文献<gydF4y2Ba/h2> <div id="mw_70555a83-3f00-4a0e-8bf5-237eb1a6b250" class="bibliomixed"> <p>舒尔曼，约翰，谢尔盖·莱文，彼得·阿比尔，迈克尔·乔丹和菲利普·莫里茨。“信任区域策略优化”。<e米cl一个年代年代＝"citetitle">第32届国际机器学习会议论文集<gydF4y2Ba/em>， 1889-1897页。2015.<gydF4y2Ba/p> </div> <div id="mw_78ac5f1c-bf97-49aa-becd-511116074449" class="bibliomixed"> <p>[2] Mnih, Volodymyr, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver和Koray Kavukcuoglu。深度强化学习的异步方法<e米cl一个年代年代＝"citetitle">ArXiv: 1602.01783 (Cs)<gydF4y2Ba/em>2016年2月4日。<一个href="https://arxiv.org/abs/1602.01783" target="_blank">https://arxiv.org/abs/1602.01783<gydF4y2Ba/a>．<gydF4y2Ba/p> </div> <div id="mw_4c616bfa-7233-46c5-8f67-447d3f024621" class="bibliomixed"> <p>[3]舒尔曼，约翰，菲利普·莫里茨，谢尔盖·莱文，迈克尔·乔丹和彼得·阿贝尔。使用广义优势估计的高维连续控制<e米cl一个年代年代＝"citetitle">ArXiv: 1506.02438 (Cs)<gydF4y2Ba/em>2018年10月20日。<一个href="https://arxiv.org/abs/1506.02438" target="_blank">https://arxiv.org/abs/1506.02438<gydF4y2Ba/a>．<gydF4y2Ba/p> </div> </div> <h2 id="d124e11168">另请参阅<gydF4y2Ba/h2> <h3>对象<gydF4y2Ba/h3> <ul class="list-unstyled margined_10"> <li><span itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso"><a itemprop="url" href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.agent.rltrpoagent.html"><span itemprop="name"><code class="object">rlTRPOAgent<gydF4y2Ba/code></span></a></span>|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso"><a itemprop="url" href="//www.tatmou.com/la/help/reinforcement-learning/ref/rl.option.rltrpoagentoptions.html"><span itemprop="name"><code class="object">rlTRPOAgentOptions<gydF4y2Ba/code></span></a></span></li> </ul> <h2 id="d124e11180">相关的例子<gydF4y2Ba/h2> <ul> <li><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/train-reinforcement-learning-agents.html" class="a">训练强化学习代理<gydF4y2Ba/a></li> </ul> <h2 id="d124e11185">更多关于<gydF4y2Ba/h2> <ul> <li><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/create-agents-for-reinforcement-learning.html" class="a">强化学习代理<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/create-policy-and-value-function-representations.html" class="a">创建策略和值函数<gydF4y2Ba/a></li> </ul> </section> </div> <div class="clearfix"></div> <div align="center" class="feedbackblock" id="mw_docsurvey"> <link rel="stylesheet" href="//www.tatmou.com/la/help/docsurvey/release/index-css.css" type="text/css"> </div> </section> <div class="modal fade" id="matlab-command-dialog" tabindex="-1" role="dialog" aria-labelledby="matlabCommandDialogLabel" aria-hidden="true"> <div class="modal-dialog"> <div class="modal-content"> <div class="modal-header"> <button type="button" class="close" data-dismiss="modal" aria-label="Close"><span aria-hidden="true">×<gydF4y2Ba/span></button> <h2 class="modal-title">MATLAB突击队<gydF4y2Ba/h2> </div> <div class="modal-body" id="dialog-body"> <p>Ha hecho clic en unenlace que对应一个este commando de MATLAB:<gydF4y2Ba/p> <pre id="dialog-matlab-command"></pre> <p>弹射突击队introduciéndolo en la ventana de commandos de MATLAB。Los navegadores web no permission comandos de MATLAB。<gydF4y2Ba/p> </div> <div class="modal-footer"> <button type="button" class="btn btn_secondary" data-dismiss="modal">Cerrar<gydF4y2Ba/button> </div> </div> </div> </div> <div id="location_content" style="display:none;"></div> <div class="modal fade" id="country-unselected" tabindex="-1" role="dialog" aria-labelledby="country-unselected-title" translate="no"> <div id="country-select-container"> <div class="modal-dialog modal-lg"> <div class="modal-content"> <div class="modal-header"> <button type="button" class="close" data-dismiss="modal" aria-label="Close"><span aria-hidden="true">×<gydF4y2Ba/span></button> <img alt="MathWorksgydF4y2Ba" src="//www.tatmou.com/la/images/responsive/global/pic-header-mathworks-logo2.svg" style="width:167px; height:auto;"> </div> <div class="modal-body"> <div class="row add_margin_40"> <div class="col-xs-12"> <h1 class="icon-globe icon_color_secondary" id="country-unselected-title">选择网站<gydF4y2Ba/h1> <p>选择一个网站，在可用的地方获得翻译的内容，并查看当地的活动和优惠。根据您所在的位置，我们建议您选择:<年代trongcl一个年代年代＝"recommended-country"></strong>．<gydF4y2Ba/p> <div class="default-recommendation"> <a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#" id="recommended_domain_button" class="btn btn_color_blue containsResourceName resourceClass-button"><span class="recommended-country"></span></a> </div> <div class="ch-recommendation" style="display:none;"> <ul class="list-inline"> <li class="add_display_block_xs add_margin_10_xs"><a href="//www.tatmou.com/ch" class="recommendation-button btn btn_color_blue btn-md add_display_block_xs" data-subdomain="ch" data-lang="en" data-recommended-text="Switzerland" data-default-lang="true" data-do-not-rewrite="true" x-cq-linkchecker="skip">瑞士(英语)<gydF4y2Ba/a></li> <li class="add_display_block_xs add_margin_10_xs"><a href="//www.tatmou.com/ch" class="recommendation-button btn companion_btn btn-md add_display_block_xs" data-subdomain="ch" data-lang="de" data-recommended-text="Schweiz" data-do-not-rewrite="true" x-cq-linkchecker="skip">瑞士(德语)<gydF4y2Ba/a></li> <li class="add_display_block_xs"><a href="//www.tatmou.com/ch" class="recommendation-button btn companion_btn btn-md add_display_block_xs" data-subdomain="ch" data-lang="fr" data-recommended-text="Suisse" data-do-not-rewrite="true" x-cq-linkchecker="skip">瑞士(法语)<gydF4y2Ba/a></li> </ul> </div> <div class="zh-recommendation" style="display:none;"> <ul class="list-inline"> <li class="add_display_block_xs add_margin_10_xs"><a href="https://ww2.mathworks.cn" class="recommendation-button btn btn_color_blue btn-md add_display_block_xs" data-subdomain="ww2" data-lang="zh" data-recommended-text="中国" data-default-lang="true" data-do-not-rewrite="true" x-cq-linkchecker="skip">中国 (简体中文)<gydF4y2Ba/a></li> <li class="add_display_block_xs"><a href="https://ww2.mathworks.cn" class="recommendation-button btn companion_btn btn-md add_display_block_xs" data-subdomain="ww2" data-lang="en" data-recommended-text="China" data-do-not-rewrite="true" x-cq-linkchecker="skip">中国(英文)<gydF4y2Ba/a></li> </ul> </div> </div> </div> <p>您也可以从以下列表中选择一个网站:<gydF4y2Ba/p> <div class="alert alert-warning" id="china_performance_alert" style="display:none;"> <span class="alert_icon icon-alert-warning"></span> <h2>如何获得最佳的网站性能<gydF4y2Ba/h2> <p>选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。<gydF4y2Ba/p> </div> <div class="row add_margin_30"> <div class="col-sm-4 col-md-3"> <h3 class="add_bottom_rule">美洲<gydF4y2Ba/h3> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/la/" class="domain_selector_link" data-country-code="LA" data-subdomain="la" data-lang="es" data-default-lang="true" data-selected-text="América Latina" data-recommended-text="América Latina" data-do-not-rewrite="true">美国拉丁<gydF4y2Ba/a>(西班牙语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/la/" class="domain_selector_link" data-country-code="CA" data-subdomain="www" data-lang="en" data-do-not-rewrite="true">加拿大<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/la/" class="domain_selector_link" data-country-code="US" data-subdomain="www" data-lang="en" data-default-lang="true" data-selected-text="United States" data-recommended-text="United States" data-do-not-rewrite="true">美国<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> </ul> </div> <div class="col-sm-4 col-md-6"> <h3 class="add_bottom_rule">欧洲<gydF4y2Ba/h3> <div class="row"> <div class="col-xs-6 col-sm-12 col-md-6"> <ul class="list-unstyled add_margin_0_sm"> <li><a href="//www.tatmou.com/nl" class="domain_selector_link" data-country-code="BE" data-subdomain="nl" data-lang="en" data-do-not-rewrite="true">比利时<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/se" class="domain_selector_link" data-country-code="DK" data-subdomain="se" data-lang="en" data-do-not-rewrite="true">丹麦<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/de" class="domain_selector_link" data-country-code="DE" data-subdomain="de" data-lang="de" data-default-lang="true" data-selected-text="Deutschland" data-recommended-text="Deutschland" data-do-not-rewrite="true">德国<gydF4y2Ba/a>(德语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/es" class="domain_selector_link" data-country-code="ES" data-subdomain="es" data-lang="es" data-default-lang="true" data-selected-text="España" data-recommended-text="España" data-do-not-rewrite="true">西班牙<gydF4y2Ba/a>(西班牙语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/se" class="domain_selector_link" data-country-code="FI" data-subdomain="se" data-lang="en" data-do-not-rewrite="true">芬兰<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/fr" class="domain_selector_link" data-country-code="FR" data-subdomain="fr" data-lang="fr" data-default-lang="true" data-selected-text="France" data-recommended-text="France" data-do-not-rewrite="true">法国<gydF4y2Ba/a>(法语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/uk" class="domain_selector_link" data-country-code="IE" data-subdomain="uk" data-lang="en" data-do-not-rewrite="true">爱尔兰<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/it" class="domain_selector_link" data-country-code="IT" data-subdomain="it" data-lang="it" data-default-lang="true" data-selected-text="Italia" data-recommended-text="Italia" data-do-not-rewrite="true">意大利<gydF4y2Ba/a>(意大利语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/nl" class="domain_selector_link" data-country-code="LU" data-subdomain="nl" data-lang="en" data-do-not-rewrite="true">卢森堡<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> </ul> </div> <div class="col-xs-6 col-sm-12 col-md-6"> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/nl" class="domain_selector_link" data-country-code="NL" data-subdomain="nl" data-lang="en" data-default-lang="true" data-selected-text="Benelux" data-recommended-text="Netherlands" data-do-not-rewrite="true">荷兰<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/se" class="domain_selector_link" data-country-code="NO" data-subdomain="se" data-lang="en" data-do-not-rewrite="true">挪威<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/de" class="domain_selector_link" data-country-code="AT" data-subdomain="de" data-lang="de" data-do-not-rewrite="true">奥地利<gydF4y2Ba/a>(德语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/la/" class="domain_selector_link" data-country-code="PT" data-subdomain="www" data-lang="en" data-do-not-rewrite="true">葡萄牙<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/se" class="domain_selector_link" data-country-code="Sweden" data-subdomain="se" data-lang="en" data-default-lang="true" data-selected-text="Nordic" data-recommended-text="Sweden" data-do-not-rewrite="true">瑞典<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> <li>瑞士<ulcl一个年代年代＝"list-unstyled add_indent_20"> <li><a href="//www.tatmou.com/ch" class="domain_selector_link" data-country-code="CH" data-subdomain="ch" data-lang="de" data-selected-text="Schweiz" data-recommended-text="Schweiz" data-do-not-rewrite="true">多伊奇<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/ch" id="swiss_english" class="domain_selector_link" data-country-code="CH" data-subdomain="ch" data-lang="en" data-default-lang="true" data-selected-text="Switzerland" data-recommended-text="Switzerland" data-do-not-rewrite="true">英语<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/ch" class="domain_selector_link" data-country-code="CH" data-subdomain="ch" data-lang="fr" data-selected-text="Suisse" data-recommended-text="Suisse" data-do-not-rewrite="true">法语<gydF4y2Ba/a></li> </ul></li> <li><a href="//www.tatmou.com/uk" class="domain_selector_link" data-country-code="GB" data-subdomain="uk" data-lang="en" data-default-lang="true" data-selected-text="United Kingdom" data-recommended-text="United Kingdom" data-do-not-rewrite="true">联合王国<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> </ul> </div> </div> </div> <div class="col-sm-4 col-md-3"> <h3 class="add_bottom_rule">亚太地区<gydF4y2Ba/h3> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/au" class="domain_selector_link" data-country-code="AU" data-subdomain="au" data-lang="en" data-default-lang="true" data-selected-text="Australia" data-recommended-text="Australia" data-do-not-rewrite="true">澳大利亚<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/in" class="domain_selector_link" data-country-code="IN" data-subdomain="in" data-lang="en" data-default-lang="true" data-selected-text="India" data-recommended-text="India" data-do-not-rewrite="true">印度<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/au" class="domain_selector_link" data-country-code="NZ" data-subdomain="au" data-lang="en" data-do-not-rewrite="true">新西兰<gydF4y2Ba/a>(英语)<gydF4y2Ba/li> <li>中国<ulcl一个年代年代＝"list-unstyled add_indent_20"> <li><a href="https://ww2.mathworks.cn" class="domain_selector_link" data-country-code="CN" data-subdomain="ww2" data-lang="zh" data-default-lang="true" data-selected-text="中国" data-recommended-text="中国" data-do-not-rewrite="true">简体中文<gydF4y2Ba/a></li> <li><a href="https://ww2.mathworks.cn" class="domain_selector_link" data-country-code="CN" data-subdomain="ww2" data-lang="en" data-default-lang="true" data-selected-text="China" data-recommended-text="China" data-do-not-rewrite="true">英语<gydF4y2Ba/a></li> </ul></li> <li><a href="//www.tatmou.com/jp" class="domain_selector_link" data-country-code="JP" data-subdomain="jp" data-lang="ja" data-default-lang="true" data-selected-text="日本" data-recommended-text="日本" data-do-not-rewrite="true">日本<gydF4y2Ba/a>(日本語)<gydF4y2Ba/li> <li><a href="//www.tatmou.com/kr" class="domain_selector_link" data-country-code="KR" data-subdomain="kr" data-lang="ko" data-default-lang="true" data-selected-text="한국" data-recommended-text="한국" data-do-not-rewrite="true">한국<gydF4y2Ba/a>(한국어)<gydF4y2Ba/li> </ul> </div> </div> <p class="text-center"><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#" class="worldwide_link">联系当地办事处<gydF4y2Ba/a></p> </div> </div> </div> </div> </div> </main> </div> </div> </div> </div>  <div class="cta_container_mobile visible-sm visible-xs"> <div class="container-fluid"> <div class="row"> <div class="col-xs-12"> <div class="cta_box"> <ul class="list-inline"> <li class="cta_item cta_item_general hidden-sm hidden-xs "><a href="//www.tatmou.com/la/campaigns/products/trials.html?prodcode=RL&s_iid=doc_trial_RL_tb" class="icon-download">试用<gydF4y2Ba/a></li> <li class="hidden-lg hidden-md "><a href="//www.tatmou.com/la/campaigns/products/trials.html?prodcode=RL&s_iid=doc_trial_RL_tb" class="btn btn_color_blue btn-block"><span class="icon-download"></span>试用<gydF4y2Ba/a></li> <li class="cta_item cta_item_general hidden-sm hidden-xs "><a href="//www.tatmou.com/la/support/web_downloads_bounce.html?s_cid=1008_degr_docdn_270055" class="icon-download">实现产品<gydF4y2Ba/a></li> <li class="hidden-lg hidden-md "><a href="//www.tatmou.com/la/support/web_downloads_bounce.html?s_cid=1008_degr_docdn_270055" class="btn btn_color_blue btn-block"><span class="icon-download"></span>实现产品<gydF4y2Ba/a></li> </ul> </div> </div> </div> </div> </div>  <footer id="footer" class="bs-footer">  <div class="container-fluid"> <div class="fat_footer_container"> <div class="fat_footer"> <div class="execmatlabweb">  <div class="row"> <div class="col-xs-12 col-md-12 col-lg-3 add_margin_20"> <p class="h4 add_margin_0"><span translate="no">MathWorks<gydF4y2Ba/span></p> <p><em>加快工程和科学的步伐<gydF4y2Ba/em></p> <p class="hidden-xs">MathWorks es el líder en el desarrollo de software de cálculo matemático para ingenieros<gydF4y2Ba/p> <p class="hidden-xs"><a href="//www.tatmou.com/la/discovery.html?s_tid=all_disc_mw_ff">Descubra……<gydF4y2Ba/a></p> </div> <div class="col-xs-12 col-md-12 col-lg-9"> <div class="row"> <div class="col-xs-12 col-sm-2"> <p class="ff_section_title"><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#fatfooter_products" role="button" data-toggle="collapse" aria-expanded="false" aria-controls="fatfooter_products">Explorar或含<年代pan class="caret"></span></a></p> <div class="collapse" id="fatfooter_products"> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/la/products/matlab.html?s_tid=hp_ff_p_matlab">MATLAB<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/products/simulink.html?s_tid=hp_ff_p_simulink">金宝app</a></li> <li><a href="//www.tatmou.com/la/products/matlab/student.html?s_tid=hp_ff_p_student">软件准学生<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/hardware-support/home.html?s_tid=hp_ff_p_hwsupport">Soporte para硬件<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/matlabcentral/fileexchange/?s_tid=hp_ff_p_fx">文件交换<gydF4y2Ba/a></li> </ul> </div> </div> <div class="col-xs-12 col-sm-2"> <p class="ff_section_title"><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#fatfooter_buy" role="button" data-toggle="collapse" aria-expanded="false" aria-controls="fatfooter_buy">Probar o comprar<年代pan class="caret"></span></a></p> <div class="collapse" id="fatfooter_buy"> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/la/downloads/web_downloads/?s_iid=hp_ff_t_downloads">Descargas<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/campaigns/products/trials.html?s_iid=hp_ff_p_trial">普鲁巴软件<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/company/aboutus/contact_us/contact_sales.html?s_iid=hp_ff_t_sales">Comuníquese con ventas<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/pricing-licensing.html?s_iid=hp_ff_t_pricing">珍贵的许可证<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/store/?s_tid=hp_ff_t_buy">科莫comprar<gydF4y2Ba/a></li> </ul> </div> </div> <div class="col-xs-12 col-sm-2"> <p class="ff_section_title"><a role="button" data-toggle="collapse" href="//www.tatmou.com/la/help/reinforcement-learning/ug/#fatfooter_use" aria-expanded="false" aria-controls="fatfooter_use">一个实用工具<年代pan class="caret"></span></a></p> <div class="collapse" id="fatfooter_use"> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/la/help/?s_tid=hp_ff_l_doc">Documentacion<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/support/learn-with-matlab-tutorials.html?s_tid=hp_ff_l_tutorials">教程<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/help/examples.html?s_tid=hp_ff_l_examples">包括<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/videos.html?s_tid=hp_ff_l_videos">Vídeos y网络研讨会<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/learn/training.html?s_tid=hp_ff_l_training">Formacion<gydF4y2Ba/a></li> </ul> </div> </div> <div class="clearfix" id="offcanvas_clearfix" style="display:none"></div> <div class="col-xs-12 col-sm-2"> <p class="ff_section_title"><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#fatfooter_support" role="button" data-toggle="collapse" aria-expanded="false" aria-controls="fatfooter_support">Obtener soporte<年代pan class="caret"></span></a></p> <div class="collapse" id="fatfooter_support"> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/la/help/install/?s_tid=hp_ff_s_install">Ayuda para la instalación<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/matlabcentral/answers/index?s_tid=hp_ff_s_answers">Respuestas<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/services/consulting.html?s_tid=hp_ff_s_consulting">Consultoria<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/licensecenter/?s_tid=hp_ff_s_license">执照中心<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/support/contact_us.html?s_tid=hp_ff_s_support">联络人<gydF4y2Ba/a></li> </ul> </div> </div> <div class="col-xs-12 col-sm-2"> <p class="ff_section_title"><a role="button" data-toggle="collapse" href="//www.tatmou.com/la/help/reinforcement-learning/ug/#fatfooter_about" aria-expanded="false" aria-controls="fatfooter_about">Acerca de MathWorks<年代pan class="caret"></span></a></p> <div class="collapse" id="fatfooter_about"> <ul class="list-unstyled"> <li><a href="//www.tatmou.com/la/company/jobs/opportunities.html?s_tid=hp_ff_a_careers">Ofertas de empleo<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/company/newsroom.html?s_tid=hp_ff_a_newsroom">Sala de prensa<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/company/aboutus/soc_mission.html?s_tid=hp_ff_a_socialmission">Mision社会<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/company/customer-stories.html?s_tid=hp_ff_a_customerstories">卡索practicos<gydF4y2Ba/a></li> <li><a href="//www.tatmou.com/la/company.html?s_tid=hp_ff_a_company">Acerca de MathWorks<gydF4y2Ba/a></li> </ul> </div> </div> </div> </div> </div> </div> </div> </div> </div>  <div class="container-fluid"> <div class="footer" translate="no"> <div class="row"> <div class="col-xs-12 col-md-9"> <ul class="countrynav" id="countrynav"> <li class="footernav_country"><a href="//www.tatmou.com/la/help/reinforcement-learning/ug/#" data-toggle="modal" data-target="#country-unselected"><span class="icon-globe icon_color_quinary icon_16"></span>美国拉丁<gydF4y2Ba/a></li> </ul> <div class="clearfix"></div> <ul class="footernav"> <li class="footernav_patents"><a href="//www.tatmou.com/la/company/aboutus/policies_statements/trust-center.html?s_tid=gf_tc">联合中心<gydF4y2Ba/a></li> <li class="footernav_trademarks"><a href="//www.tatmou.com/la/company/aboutus/policies_statements/trademarks.html?s_tid=gf_trd">马卡报商业<gydF4y2Ba/a></li> <li class="footernav_privacy"><a href="//www.tatmou.com/la/company/aboutus/policies_statements.html?s_tid=gf_priv">Política de privacidad<gydF4y2Ba/a></li> <li class="footernav_piracy"><a href="//www.tatmou.com/la/company/aboutus/policies_statements/piracy.html?s_tid=gf_pir">Antipirateria<gydF4y2Ba/a></li> <li class="footernav_status"><a href="//www.tatmou.com/status/?s_tid=gf_application">带动下<gydF4y2Ba/a></li> </ul> <div class="clearfix"></div> <div class="clearfix"></div> <p class="copyright" translate="no">©1994-2023 The MathWorks, Inc.<gydF4y2Ba/p> </div> <div class="clearfix visible-sm add_margin_10"></div> <div class="col-xs-12 col-md-3"> <div class="social_media"> <ul class="social_media_icons"> <li><a href="https://www.facebook.com/MATLAB" target="_blank" rel="nofollow noopener noreferrer" class="svg_link"><img src="//www.tatmou.com/la/images/responsive/global/ico-facebook.svg" alt="脸谱网gydF4y2Ba" class="ico_facebook"></a></li> <li><a href="https://twitter.com/MATLAB" target="_blank" rel="nofollow noopener noreferrer" class="svg_link"><img src="//www.tatmou.com/la/images/responsive/global/ico-twitter.svg" alt="推特gydF4y2Ba" class="ico_twitter"></a></li> <li><a href="https://www.instagram.com/matlab/" class="svg_link" target="_blank" rel="nofollow noopener noreferrer"><img class="ico_instagram" alt="InstagramgydF4y2Ba" src="//www.tatmou.com/la/etc.clientlibs/mathworks/clientlibs/customer-ui/templates/common/resources/images/ico-instagram.svg"></a></li> <li><a href="https://www.youtube.com/user/MATLAB" class="svg_link" target="_blank" rel="nofollow noopener noreferrer"><img class="ico_youtube" alt="YouTubegydF4y2Ba" src="//www.tatmou.com/la/images/responsive/global/ico-youtube.svg"></a></li> <li><a href="https://www.linkedin.com/company/the-mathworks_2" target="_blank" rel="nofollow noopener noreferrer" class="svg_link"><img src="//www.tatmou.com/la/images/responsive/global/ico-linkedin.svg" alt="LinkedIngydF4y2Ba" class="ico_linkedin"></a></li> <li><a href="//www.tatmou.com/la/company/rss.html" class="svg_link"><img src="//www.tatmou.com/la/images/responsive/global/ico-rss.svg" alt="RSSgydF4y2Ba" class="ico_rss"></a></li> </ul> <div class="clearfix"></div> <p><em>Únase a la conversación<gydF4y2Ba/em></p> </div> </div> </div> </div> </div> </footer> </div> </div>   </body> </html>