Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

Reinforcement Learning Toolbox

강화 학습을 사용하여 정책 설계 및 훈련

Reinforcement Learning Toolbox™는 DQN, PPO, SAC, DDPG를 포함한 강화 학습 알고리즘을 사용하여 정책을 훈련시킬 수 있는 앱, 함수 및 Simulink®블록을 제공합니다. 이러한 정책을 사용하여 리소스 할당, 로보틱스, 자치 시스템과 같은 복잡한 응용 사례를 위한 제어기와 의사 결정 알고리즘을 구현할 수 있습니다.

툴박스를 사용하면 심층 신경망 또는 룩업 테이블을 사용하여 정책 및 가치 함수를 표현하고 MATLAB®또는 Simulink에서 모델링된 환경과의 상호 작용을 통해 이러한 정책 및 가치 함수를 훈련할 수 있습니다. 툴박스에서 제공하는 단일 또는 다중 에이전트 강화 학습 알고리즘을 실행하거나 직접 알고리즘을 개발할 수 있습니다. 하이퍼파라미터 설정을 사용해 보고, 훈련 진행률을 모니터링하고, 훈련된 에이전트를 앱을 통해 대화형 방식으로 또는 프로그래밍 방식으로 시뮬레이션할 수 있습니다. 훈련 성능을 개선하기 위해 여러 CPU, GPU, 컴퓨터 클러스터, 클라우드에서 병렬로 시뮬레이션을 실행할 수 있습니다(Parallel Computing Toolbox™ 및MATLAB Parallel Server™사용).

ONNX™ 모델 형식을 통해 기존 정책을 TensorFlow™ Keras 및 PyTorch와 같은 딥러닝 프레임워크에서 가져올 수 있습니다(Deep Learning Toolbox™ 사용). 최적화된 C, C++, CUDA®코드를 생성하여 마이크로컨트롤러 및 GPU에 훈련된 정책을 배포할 수 있습니다. 툴박스에는 시작하는 데 도움이 되는 참조 예제가 포함되어 있습니다.

Reinforcement Learning Toolbox 시작하기

Reinforcement Learning Toolbox의 기본 사항 배우기

MATLAB 환경

MATLAB을 사용하여 강화 학습 환경 동특성 모델링하기

Simulink 환경

Simulink 모델을 사용하여 강화 학습 환경 동특성 모델링하기

에이전트

SARSA, DQN, DDPG, PPO와 같이 널리 쓰이는 알고리즘을 사용하여 강화 학습 에이전트를 만들고 구성하기

정책 및 가치 함수

심층 신경망이나 Q 테이블 같은 정책 및 가치 함수 표현 정의하기

훈련 및 검증

강화 학습 에이전트 훈련 및 시뮬레이션하기

정책 배포

코드 생성 및 훈련된 정책 배포