强化金融学习

亚历克斯·Roumi MathWorks

这个视频展示了一个自动交易员，他能够决定什么时候对冲一个欧洲看涨期权合约，从而在交易成本和对冲风险之间进行权衡。

在这段视频中，我将讨论构建一个自动交易员，它能够在交易成本存在的情况下，使用强化学习来决定何时对冲欧式看涨期权合约。

把套期保值看作是家庭保险，但在金融领域，我们使用套期保值来减少股票价格波动带来的风险。

每一个时间步的股票交易量是用布莱克-斯科尔斯公式计算出来的。因此，如果看涨期权是100股MLB股票，而delta是0.1，交易员需要做空10股MLB股票。

在存在交易成本的真实场景中，在观察市场的同时，了解在期权的生命周期中何时进行对冲以在交易成本和对冲风险之间进行权衡变得至关重要。

让我们看看如何将强化学习应用于对冲。

代理人正在观察金融市场的输入，如股票价格、到期时间、期权价格和股票持有量，并采取是否对冲的行动。如果代理对冲，新持有的股票是-51使用德尔塔计算。因此，代理卖出了6只股票，交易成本为$3。如果代理人不进行对冲，所持股份将保持不变。

一段时间后，股票价格达到99.40美元。代理观察股票价格变化、期权价格变化、支付的交易费用以及与总损益相关的报酬所产生的总损益。

在强化学习中，代理将通过尝试和错误来学习，通过选择在期权有效期内何时进行套期保值来最大化累积收益。

RL设置由一个代理和一个环境组成。环境向代理发送一个状态，代理将采取相应的操作。代理将根据它返回的奖励来评估它的最后一个动作。这个循环一直持续下去，直到环境发送一个终端状态，比如选项的成熟度，从而结束该事件。在每一集之后，代理人将学会采取行动，使累积奖励最大化。

MATLAB简化了环境的设置和增强学习组件的设计。

reset函数返回环境的初始状态。它在每一集训练开始时被调用。

step函数指定环境如何根据代理采取的操作进展到下一个状态。

观察包括股票价格、到期时间和代理人持有的股票。

关键是要不要对冲。

观察、动作、复位和阶跃功能构成了环境。

该agent由一个策略和一个增强学习算法组成。策略是观察和行动之间的映射函数。它可以是一个指定层、激活函数和神经元的神经网络。

强化学习算法不断地更新策略参数，并找到一个使累积奖励最大化的最优策略。

我们训练这个代理一个小时，我们可以看到这个代理学会了最大化累积奖励。

结果，一个训练有素的经纪人比一个使用delta套期保值的交易员和一个决定不进行套期保值的交易员表现得更好。

我们模拟一个随机的股票路径，当所有的时间段都被对冲时，损失是120美元。经纪人对冲了38个时间段，12次没有交易，损失为55美元。

感谢收看。