推动量化创新的联系和理念

强化学习与无监督学习有何不同?

Share this article

机器学习和人工智能在定量交易中正变得无处不在。在基金或交易公司的日常运营中使用深度学习模型已不再只是一个概念。与已有的有监督和无监督学习算法相比,强化学习(RL)似乎是一个新生事物。然而,它拥有惊人的记录,在游戏空间(AlphaGo、OpenAI Five等)解决了一个又一个问题,逐渐走向了交易世界,越来越多的AI专家认为它是AGI(人工通用智能)的未来。本文是关于如何开发和部署强化学习交易算法以及deeprl在交易环境中的优势和挑战的众多文章之一。

这篇开篇文章将讨论强化学习与无监督学习的比较。我们的目标是用理论的方法来解释RL,在交易中使用外行的术语和例子。目标受众将是熟悉机器学习的实践者和量化研究人员,也将是没有计算机科学背景但了解市场、风险/回报和交易业务的交易员。对于想要系统地学习RL的实践者,我推荐DavidSilver在YouTube上的UCL课程,以及Sutton&Barto的书:强化学习。

深度强化学习解决的游戏

从根本上说,机器学习的任务是利用一个函数/模型来映射两个数据集之间的相关关系,这个函数/模型可以简单到一个变量的线性回归,也可以复杂到一个有数百万个参数的深层神经网络。在交易世界中,我们自然希望找到X数据集与Y目标之间的任何可推广关系,即未来价格运动,无论距离未来有多远。

For supervised and unsupervised learning approaches, the two datasets are prepared before we train the model, or in other words, they are static. Hence, no matter how complicated the relationship the model finds, it’s a static relationship in that it represents a preset dataset. Although we have significant knowledge and experience on training and validating un/supervised deep models, this static relationship is rarely the case in the financial world. Not to mention that training models like neural networks is a global optimisation process, meaning the data 10 years ago and yesterday will have equally importance for the “AI” model in the time series, even though what really matters is next month’s performance.

同时,RL与无监督学习的区别在于其学习模型的复杂性在动态数据集上训练以查找动态策略,而不是在静态数据集上训练以查找关系. 为了理解这是如何工作的,我们需要理解RL是如何被设计成环境中的一个基于代理的问题的。该模型由一个代理来表示,通过设计,该代理观察环境状态,通过动作与环境交互,并以奖励和状态转换的形式接收反馈(如果我们现在做这个动作,我们将在那里结束)。

Feedback

RL模型的训练数据X是agent以[观察/状态,动作]的形式遇到的经验,而目标数据Y是在这种情况下该动作的结果奖惩,以[奖励,下一个观察/状态]的形式出现。在一个更高的层面上,代理培训经验eriences to learn the best set of actions to interact with the environment, in order to get the most reward.

这种训练过程是动态的,在RL中称为策略学习,因为随着agent的训练,它会继续与环境交互并积累新的经验,反复强化好的行为并减少坏的行为,最终解决环境问题。因此,经过训练和验证的RL模型是针对特定环境,通过反复试验学习的动态策略规则手册。这意味着,在当今广泛使用的已经很复杂的神经网络模型之上,又增加了一层非线性,但如果做得好,结果是AlphaGo能够解决棋盘游戏Go,平均150步,游戏的总可能变化量超过宇宙中的原子数(10^360)。

在非监督学习中映射静态关系在认知任务中取得了显著的进展。图像识别(Imagenet竞争、iPhone人脸识别等)和语音/文本(Siri、Alexa等)识别是近年来我们突破的两大认知领域。RL正在突破的是战略规划、执行和学习的顺序决策领域一些以前对智慧生物来说也是独一无二的东西。

From cognition to strategic sequential actions

对于围棋来说,只要识别和记住无限多的棋盘阵型并不重要,除非玩家知道下一个筹码放在哪里,以及之后的数百个筹码最终赢得比赛。这对于交易也是一样的,知道过去并不重要,除非交易者能够安排他/她的交易以及按顺序分配适当的风险,最终实现正资产净值。事实上,这正是RL算法的完美设计,这是在通过无监督学习获得超人认知能力之后的下一步。

We have touched upon many underlying advantages of reinforcement learning that can apply to trading in this article.

首先,环境和代理库设计输出动态策略,而不是静态关系。在接下来的文章中,我们将讨论这在无监督/有监督学习中表现出鲁棒性,that will be instrumental in overcoming the no.1 enemy of deep learning:过度装配.

第二,市场sequential task design使训练有素的特工成为单身环境中的端到端参与者. 对于交易,我们可以设计环境,使其不仅按顺序安排和管理交易,还可以根据投资组合资产净值通过资本配置来权衡近期和未来的风险/回报。我们将在以后的文章中具体讨论在RL环境、代理操作和奖励设计中有哪些工具。

Third, and perhaps the most importantly, the reinforcement design and on-policy learning enables代理商要不断学习和适应不断变化的环境. 交易中最困难的任务不是找到一个有效的策略,而是当它停止工作时该怎么做,因为没有什么是永远有效的。利用深度神经网络,我们可以发现历史数据中的任何关系,并用传统的机器学习方法对其进行验证。然而,一旦部署和事情开始发生变化,我们留下了一个无法解释的黑匣子,这仍然是一门艺术,而不是科学训练。这也是为什么深度学习还不是主流的部分原因。RL的设计,解决了其中的一些缺点,但它远不是一个简单的解决方案,需要大量的艰苦工作和尝试和错误来实现。

In future articles, we will dive in to discuss specifics of these advantages, and the respective challenges.

Find out more about how reinforcement learning changed the game once Covid-19 struck in our latest eMagazine:

关闭横幅800 x 150 QM eMag Q3

Meet Marshall Chang atQuantMinds美洲this September:

Closing banners 800 x 150 QM Americas online

张马歇尔About the author

张马歇尔是A.I.Capital Management的创始人和首席信息官,这是一家定量交易公司,建立在深度强化学习对动量和市场中性交易策略的端到端应用的基础上。公司主要从事中高频外汇市场交易。

Share this article

即将举行的活动

QuantMinds国际

2021年12月6日至10日,巴塞罗那
Great quant minds don't think alike
Go to site