强化学习

深层强化学习は机械学习の分野であり，ロボットや自律システムなどの复雑なシステムのためのコントローラーと意思决定システムを実装できます。深层强化学习では，シミュレーションモデルから动的に生成されたデータを使用して学习させることで，复雑な动作を学习できるディープニューラルネットワークを実装できます。ラベルがあるかないかにかかわらず，事前定义された学习データセットは必要ありません。対话および制御しようとしている环境を表すシミュレーションモデルのみ用意します。

MATLAB^®および的金宝appSimulink^®では，强化学习ベースのコントローラーを设计して配布するために，完全なワークフローをサポートしています。以下を行うことができます。

単纯な制御システム，自律システム，ロボット工学の例を使用して，强化学习を开始
わずかなコード変更のみで，泛用の强化学习アルゴリズムを素早く切り替え，评価，比较
ディープニューラルネットワークを使用し，画像データ，ビデオデータ，センサーデータに基づいて复雑な强化学习ポリシーを定义
ローカルコアまたはクラウドを使用し，复数のシミュレーションを并行して実行することで，さらに迅速にポリシーを学习
强化学习コントローラーを组み込みデバイスに配布

强化学习エージェント

强化学习エージェントは，入力状态から出力のアクションへのマッピングを実行するポリシーと，该当するポリシーの更新を担当するアルゴリズムで构成されます。アルゴリズムの一般的な例は，深Q网络，演员，评论家，深确定性政策梯度です。アルゴリズムでは，环境によって提供される长期的な报酬信号を最大化するようにポリシーを更新します。

ポリシーは，ディープニューラルネットワーク，多项式，ルックアップテーブルで表すことができます。次に，组み込みエージェントとカスタムエージェントをMATLABオブジェクトまたはSimul金宝appink的ブロックとして実装できます。

关连情报

MATLABにおける强化学习エージェントの定义- ドキュメンテーション
ディープニューラルネットワークを使用したMATLABでのポリシーの表现- ドキュメンテーション
金宝appSimulink中で水储罐システムを制御するためのDDPGエージェントの学习- 例
画像データを使用した倒立振子のための强化学习（5:04）- ビデオ

MATLABおよびSi金宝appmulink中での环境のモデル化

强化学习アルゴリズムを使用した学习は，エージェントが取り巻く环境と対话するための动的なプロセスといえます。ロボット工学や自律システムなどのアプリケーションの场合，実际のハードウェアを使用してこのような学习を実行するには，费用がかかる上に危険を伴います。このため，强化学习では，シミュレーションを通じてデータを生成する环境の仮想モデルが推奨されています。

MATLABおよびSi金宝appmulink中で环境のモデルを构筑して，システムダイナミクス，エージェントが実行するアクションによる影响，実行されたアクションの利点を评価する报酬を记述できます。これらのモデルは本质的に连続または离散しており，さまざまなレベルの忠実度でシステムを表すことができます。さらに，シミュレーションを并列化して学习を加速できます。场合によっては，最小限の修正によって，システムの既存のMATLABおよびSim金宝appulink的モデルを强化学习で再利用できる场合があります。

关连情报

例题およびリファレンスアプリケーション

倒立振子のバランス制御，迷路の探索，カートポールでのバランス制御などの问题に対応するため，コントローラーを実装することにより，强化学习を开始します。自律走行车向けに，车间距离制御装置（ACC）および车线维持支援用のシステムを设计することもできます。また，强化学习は，轨道计画などのロボット工学アプリケーションや，歩行などの动作指导にも使用できます。