Alex Roumi,MathWorks
该视频显示了一名自动交易员,能够决定何时对冲欧洲呼叫期权合同,以使用加强学习的交易成本与对冲风险之间进行权衡。
在这段视频中,我将介绍如何建立一个自动交易员,该交易员能够在存在交易成本的情况下,通过强化学习来决定何时对冲欧洲看涨期权合约。
可以把套期保值看作是家庭保险,但在金融领域,我们使用套期保值来减少股票价格波动带来的风险。
每次步骤交易的库存量由来自Black-Scholes公式的三角洲计算。因此,如果呼叫选项适用于100股MLB股票,并且Delta是0.1,交易者需要短10股MLB。
在现实世界中存在交易成本的情况下,在观察市场时,了解在期权的生命周期中何时进行对冲,从而在交易成本和对冲风险之间进行权衡就变得至关重要。
让我们看看我们如何在对冲中施加强化学习。
代理人观察金融市场的输入,如股票价格、到期日、期权价格和股票持有量,并采取是否对冲的行动。如果代理进行对冲,新持有的股票是-51,使用delta计算。因此,代理人卖出了6只股票,产生了3美元的交易成本。如果经纪人不对冲,持有的股票就会保持不变。
一段时间后,该公司的股价跌至99.40美元。代理人观察股票价格的变化、期权价格的变化、所支付的交易费用以及与总损益相关的报酬所引起的总损益。
在钢筋学习中,代理人将通过试验和错误学习,通过选择期间寿命期间对冲来最大化累积奖励。
RL设置由一个代理和一个环境组成。环境将状态发送给代理,代理将采取响应操作。代理将根据返回的奖励评估其最后的行动。循环会一直进行,直到环境发送一个终端状态(比如选项的成熟度),从而结束整个事件。在每一集之后,代理人将学会采取行动最大化累积奖励。
Matlab更容易设置环境并设计加强学习组件。
重置函数返回环境的初始状态。它在每个训练集的开头调用。
步骤函数指定基于代理所采用的操作的环境如何前进到下一个状态。
观察结果包括股票价格、到期时间和代理人持有的股票。
行动是对冲或不进行对冲。
观察、动作、重置和台阶功能构成了环境。
代理包括策略和加强学习算法。该策略是观察和行动之间的映射函数。它可以是通过指定层,激活功能和神经元设计的神经网络。
钢筋学习算法不断更新策略参数,并将找到最佳策略,最大化累积奖励。
我们培训代理商一小时,我们可以看到代理商已经学会了最大化累计奖励随着时间的推移。
因此,经过培训的代理商优于一个使用Delta套期保值的交易者以及另一个决定不对冲的另一个交易者。
我们模拟一个随机的股票路径,当所有时期都被套期保值时,损失是120美元。该代理人对冲了38个期,12次未交易,损失为55美元。
谢谢你的观看。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。