Reinforcement Learning Toolbox

강화 학습을 사용하여 정책 설계 및 훈련

Reinforcement Learning Toolbox™는 DQN, PPO, SAC, DDPG를 포함한 강화 학습 알고리즘을 사용하여 정책을 훈련시킬 수 있는 앱, 함수 및 Simulink^®블록을 제공합니다. 이러한 정책을 사용하여 리소스 할당, 로보틱스, 자치 시스템과 같은 복잡한 응용 사례를 위한 제어기와 의사 결정 알고리즘을 구현할 수 있습니다.

툴박스를 사용하면 심층 신경망 또는 룩업 테이블을 사용하여 정책 및 가치 함수를 표현하고 MATLAB^®또는 Simulink에서 모델링된 환경과의 상호 작용을 통해 이러한 정책 및 가치 함수를 훈련할 수 있습니다. 툴박스에서 제공하는 단일 또는 다중 에이전트 강화 학습 알고리즘을 실행하거나 직접 알고리즘을 개발할 수 있습니다. 하이퍼파라미터 설정을 사용해 보고, 훈련 진행률을 모니터링하고, 훈련된 에이전트를 앱을 통해 대화형 방식으로 또는 프로그래밍 방식으로 시뮬레이션할 수 있습니다. 훈련 성능을 개선하기 위해 여러 CPU, GPU, 컴퓨터 클러스터, 클라우드에서 병렬로 시뮬레이션을 실행할 수 있습니다(Parallel Computing Toolbox™ 및MATLAB Parallel Server™사용).

ONNX™ 모델 형식을 통해 기존 정책을 TensorFlow™ Keras 및 PyTorch와 같은 딥러닝 프레임워크에서 가져올 수 있습니다(Deep Learning Toolbox™ 사용). 최적화된 C, C++, CUDA^®코드를 생성하여 마이크로컨트롤러 및 GPU에 훈련된 정책을 배포할 수 있습니다. 툴박스에는 시작하는 데 도움이 되는 참조 예제가 포함되어 있습니다.

Reinforcement Learning Toolbox

Reinforcement Learning Toolbox 시작하기

MATLAB 환경

Simulink 환경

에이전트

정책 및 가치 함수

훈련 및 검증

정책 배포