亚历克斯·Roumi MathWorks
这个视频展示了一个自动交易员,他能够决定什么时候对冲一个欧洲看涨期权合约,在交易成本和对冲风险之间进行权衡,使用强化学习。
在这个视频中,我将讨论如何建立一个自动交易员,在交易成本存在的情况下,使用强化学习来决定何时对冲欧洲看涨期权合约。
可以把套期保值看作是家庭保险,但在金融领域,我们使用套期保值来降低股票价格波动带来的风险。
在每个时间步长的股票交易量是使用delta从布莱克-斯科尔斯公式计算。因此,如果看涨期权为100股大联盟股票,且delta为0.1,交易员需要卖空10股大联盟股票。
在现实世界中,交易成本存在,在观察市场时,了解在期权有效期内何时对冲变得至关重要,从而在交易成本和对冲风险之间进行权衡。
让我们看看如何在套期保值中应用强化学习。
代理观察金融市场输入,如股票价格、到期时间、期权价格和股票持有量,并采取是否对冲的行动。如果代理对冲,新股票持有量为-51,使用delta计算。因此,代理卖出了6支股票,产生了3美元的交易成本。如果经纪人不进行对冲,持有的股份将保持不变。
一段时间后,股价升至99.40美元。代理人观察由股票价格变化、期权价格变化、支付的交易成本和与总盈亏相关的报酬所产生的总损益。
在强化学习中,agent通过尝试和错误的学习,在期权有效期内选择何时进行套期保值,从而使累积收益最大化。
RL设置由代理和环境组成。环境向代理发送一个状态,代理采取一个响应操作。agent将根据它返回的奖励来评估它的最后一个动作。循环将继续进行,直到环境发送一个终端状态(比如选项的成熟度),从而结束事件。在每一集之后,代理将学会采取行动来最大化累积回报。
MATLAB简化了环境的设置和强化学习组件的设计。
reset函数返回环境的初始状态。它在每一集训练的开始被调用。
step函数根据代理采取的操作指定环境如何推进到下一个状态。
观察结果包括股票价格、到期时间和代理人的股票持有量。
关键是要不要对冲。
观察、操作、重置和步骤功能构成环境。
该代理由策略和强化学习算法组成。政策是观察和行动之间的映射函数。它可以是通过指定层、激活函数和神经元来设计的神经网络。
强化学习算法不断更新策略参数,并找到累积回报最大化的最优策略。
我们训练了agent一个小时,我们可以看到agent已经学会了随着时间的推移,将累积回报最大化。
结果,一名受过训练的经纪人的表现超过了一名使用delta套期保值的交易员和另一名决定不进行套期保值的交易员。
我们模拟一个随机的股票路径,当所有时期都被对冲时,损失是120美元。该代理对冲了38个期限,没有交易12次,损失为55美元。
感谢收看。
您也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。