钢笔学习

Alex Roumi，Mathworks

该视频显示了一名自动交易员，能够决定何时对冲欧洲呼叫期权合同，以使用加强学习的交易成本与对冲风险之间进行权衡。

在本视频中，我将讨论如何构建一个自动化交易员，该交易员能够在存在交易成本的情况下，使用强化学习来决定何时对冲欧洲看涨期权合约。

将套期保值视为家庭保险，但在金融领域，我们使用套期保值来降低股票价格波动带来的风险。

每次步骤交易的库存量由来自Black-Scholes公式的三角洲计算。因此，如果呼叫选项适用于100股MLB股票，并且Delta是0.1，交易者需要短10股MLB。

在存在交易成本的现实场景中，在观察市场时，了解在期权有效期内何时进行套期保值变得至关重要，以便在交易成本和套期保值风险之间进行权衡。

让我们看看我们如何在对冲中施加强化学习。

代理人正在观察金融市场的输入，如股票价格、到期时间、期权价格和股票持有量，并采取是否对冲的行动。如果代理人对冲，则使用delta计算的新股票持有量为-51。因此，代理人出售了6支股票，产生了3美元的交易成本。如果代理人没有对冲，持有量保持不变。

一个时期后，股价达到99.40美元。该代理商遵守股价变更，期权价格的变更，支付交易成本的变化，以及与总利润和损失有关的奖励的变化。

在钢筋学习中，代理人将通过试验和错误学习，通过选择期间寿命期间对冲来最大化累积奖励。

RL设置由一个代理和一个环境组成。环境向代理发送一个状态，代理将采取一个动作作为响应。代理将根据其返回的奖励评估其最后一个动作。循环将继续进行，直到环境发送一个终端状态，如选项的成熟度，结束该事件。在每次事件结束后e代理人将学会采取行动，最大限度地提高累积报酬。

Matlab更容易设置环境并设计加强学习组件。

重置函数返回环境的初始状态。它在每个训练集的开头调用。

步骤函数指定基于代理所采用的操作的环境如何前进到下一个状态。

观察结果包括股票价格、到期时间和代理人持有的股票。

行动是对冲或不进行对冲。

观察、操作、复位和步进功能构成环境。

代理包括策略和加强学习算法。该策略是观察和行动之间的映射函数。它可以是通过指定层，激活功能和神经元设计的神经网络。

钢筋学习算法不断更新策略参数，并将找到最佳策略，最大化累积奖励。

我们培训代理商一小时，我们可以看到代理商已经学会了最大化累计奖励随着时间的推移。

因此，经过培训的代理商优于一个使用Delta套期保值的交易者以及另一个决定不对冲的另一个交易者。

我们模拟了一个随机股票路径，当所有时段都对冲时，损失为120美元。代理对冲了38个时段，12次未交易，损失为55美元。

谢谢你的观看。