量化读书会4:构建人类可理解的交易系统

avatar
· 阅读量 1,724

Christoph Molnar博士在今年年初的时候出版了一本《Interpretable Machine Learning: A Guide for Making Black Box Models Explainable》,最近有时间拜读了一下,觉得有很多非常有启发的观点,对量化交易系统的设计也非常有参考性。

随着近些年机器学习技术的进步,人们做预测的方法,越来越从传统的人类总结规律设定规则,向计算机通过数据训练构建复杂的预测黑盒模型转变。复杂的黑盒模型确实证明了自己在很多场景下,预测能力远强于人类学习构建的规则模型,但是这种预测能力,一般是建立在统计或者说是平均意义上的,而黑盒在单次预测上的不可理解和不可控制,确是萦绕在每个预测者心头深深的恐惧。

试想一下,你使用机器学习模型,构建了一个股票市场的预测模型,使用了20几种数据来源构建的数百种预测因子或者特征。策略一直运行稳定,并且在行业里面表现优异。但突然有一笔交易,让你一年的利润瞬间蒸发,你将要怎么办?当你去寻找这笔交易为什么会出错的时候,你需要查看20几种数据来源推送的数万数据是否正确,然后再查看这些数据如何构成因子,如何进入你的模型,从而构成数万个不同的线性和非线性的权重。你如何去寻找错误,你又如何向你的投资人解释这个错误。

一切的问题来源,就是复杂、黑盒、不可理解、不可控。

量化读书会4:构建人类可理解的交易系统
构建一个黑盒模型

当然,机器学习模型在交易上出错,还没那么恐怖,毕竟钱可以再挣,但是如果是命呢?

量化读书会4:构建人类可理解的交易系统
《终结者:审判日》

作者在书中举了一个机器学习系统犯错的可怕例子。在未来,你的一切生活都将由机器学习算法决定。比如,你一直是一个省重点高中尖子班的第一名,班级前二十名都可以上清华北大,但是在高中毕业时,机器学习分配算法在评估了你的背景之后,将你奇怪地分配到了一所专科学校,并且没有任何解释,你根本不知道是哪里出了问题。甚至也许,对于机器学习算法而言,将你异常的分配到专科学校,本身就是正确的,因为从平均意义上,这样的分配可以提高算法整体的分类和预测能力,但是对你个人,这样的平均优化却是毁灭性的。当未来社会的一切都将由算法统治时,算法集权主义下,如果算法没有足够的可解释性,那将是人类新的反乌托邦式的黑暗年代。

但是反过来,为了避免复杂、黑盒、不可理解、不可控,我们不使用复杂的黑盒模型,是不是正确的呢?

1881年由于开平煤矿产量之大,运输成了难题。矿务局总办唐廷枢想要修一条铁路。此前,李鸿章向清廷奏请铺设铁路,与保守派已经争论了十几年。但是铁路修好了,清廷却不允许使用火车头,因为火车轨附近就是清政府位于遵化的清东陵,由于担心影响皇陵从而影响龙脉,最后这条铁路没有运行,出现了近代史最为荒唐的闹剧——马拉火车。
量化读书会4:构建人类可理解的交易系统
《让子弹飞》

有更省时省力,预测能力更好的方法不用,而固步自守,就如同马拉火车一样荒唐。《Interpretable Machine Learning》有趣的点就在于,提供了大量的解析黑盒模型的方法,从而在黑盒模型日趋复杂的同时,我们对黑盒的解释能力和控制能力可以也得到提升。虽不能魔高一尺道高一丈,但是做到魔道同升,那么黑盒的邪恶属性,就不会得不到控制,从而最终无法收场。

在量化交易行业,对于预测方法的争论,也依然在进行中。大部分的使用者,无论在构建因子时应用了多么大胆的黑盒模型,但为了可控,即使线性模型在构建中存在很多费时费力的问题,依然选择固守在最终预测要用线性模型的底线上。一小部分前沿的使用者,突破了这一底线,但是却因为一些不可解释的大幅回撤,而饱受攻击。从作者的观点来看,这些问题,正是来源于构建模型的水平过高,而解释模型的能力不足。

这几年,波动性、成交量、流动性成为了量化模型的主要背锅侠。在撰写策略周期报告的时候,一旦遇到策略表现不佳,往往拿出其中的一个因素来背锅。虽然这些因素确实有一些人类观察意义上的相关性,但是这种武断主观的归因方法,实际上却是非常反量化的。作为所谓的“数据工作者”,构建知识的深度,至少也应该是在某某训练方法构建的某某模型下,在低波动低成交的条件下,A类因子的预测能力在近期显著下降之类的吧。

能够更好的解释量化模型的表现,从而构建更深层次的知识,进而再一步推进模型的构建,应该是非常有价值的工作。

风险提示:本文所述仅代表作者个人观点,不代表 Followme 的官方立场。Followme 不对内容的准确性、完整性或可靠性作出任何保证,对于基于该内容所采取的任何行为,不承担任何责任,除非另有书面明确说明。

喜欢的话,赞赏支持一下
回复 0

暂无评论,立马抢沙发

  • tradingContest