亚历克斯·鲁米,马修斯
这段视频显示了一位自动交易员,他能够决定何时对冲欧洲看涨期权合约,从而使用强化学习在交易成本和对冲风险之间进行权衡。
在本视频中,我将讨论如何构建一个自动化交易员,该交易员能够在存在交易成本的情况下,使用强化学习来决定何时对冲欧洲看涨期权合约。
可以把套期保值看作是家庭保险,但在金融领域,我们用套期保值来降低股票价格波动带来的风险。
每个时间步骤的股票交易量使用布莱克-斯科尔斯公式的delta来计算。因此,如果看涨期权为100股MLB股票,delta为0.1,则需要做空10股MLB股票。
在存在交易成本的现实场景中,在观察市场时,了解在期权有效期内何时进行套期保值变得至关重要,以便在交易成本和套期保值风险之间进行权衡。
让我们看看如何将强化学习应用于套期保值。
代理人观察金融市场输入,如股票价格、到期时间、期权价格和股票持有量,并采取是否对冲的行动。如果代理对冲,则使用delta计算的新股持有量为-51。因此,代理卖出了6只股票,交易成本为3美元。如果代理行不进行套期保值,则持有量保持不变。
一段时间后,股价升至99.40美元。代理人观察由股票价格变化、期权价格变化、所支付的交易费用和与总盈亏相关的报酬。
在强化学习中,代理人将通过尝试和错误学习,通过选择在期权有效期内何时对冲来最大化累积回报。
RL设置由一个代理和一个环境组成。环境向代理发送一个状态,代理将采取相应的操作。代理将根据其返回的奖励评估其最后一次操作。循环一直进行,直到环境发送一个终端状态,比如说选项的成熟度,结束这一事件。在每一集之后,代理人将学会采取行动,最大限度地增加累积奖励。
MATLAB使环境的设置和强化学习组件的设计变得更加容易。
重置函数返回环境的初始状态。它在每一次训练开始时被调用。
step函数指定环境如何根据代理采取的操作进入下一个状态。
观察结果包括股票价格、到期时间和代理人持有的股票。
行动在于是否对冲。
观察、操作、复位和步进功能构成环境。
agent由策略和强化学习算法组成。策略是观察和行动之间的映射函数。它可以是通过指定层、激活函数和神经元设计的神经网络。
强化学习算法不断更新策略参数,并找出累积奖励最大化的最优策略。
我们对代理进行了一个小时的培训,我们可以看到代理已经学会了随着时间的推移最大化累积回报。
结果,一个训练有素的经纪人的表现超过了一个使用delta套期保值的交易员和另一个决定根本不套期保值的交易员。
我们模拟了一个随机的股票路径,当所有时段都对冲时,损失为120美元。该代理对冲了38期,12次未交易,损失为55美元。
感谢您的收看。
你也可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。