量化读书会5：当我们谈论交易系统的可理解性时，我们想要的究竟是什么？...来自岑秋苑

14 Aug 2020, 22:38 · 阅读量 1,874

我们继续Christoph Molnar博士的《Interpretable Machine Learning: A Guide for Making Black Box Models Explainable》的下一部分内容。书中这部分没有特别有启发的观点，也没提供有足够获得感的工具和经验，只是在慢慢铺垫认知可理解性问题的基本框架和基本视角，属于承前启后的部分。也正因如此，读起来会有点无聊。

可理解性的定义

要研究可理解模型的问题，我们面临的第一个问题是如何定义可理解。这事并不容易，因为理解过程涉及人类的认知方式，所以很难量化，只能设定一些概念。

作者挑选了两个比较好的定义。一个是当模型做出一个决定时，你是否能够理解模型为何做出这样的决策。在交易上，最简单的是策略发出做多信号，你能理解是因为哪几个因素触发了策略做多。对于规则模型，这很容易，对于一些线性模型，也没那么难。但是当问题是针对一组交易，比如最近20组交易做的不太好，导致了策略业绩发生回撤，就变得很难了。研究近期的一组交易，找到一些影响因素，并且逻辑关系稳定，是非常不容易的事情。

作者选择的另一个定义，是你是否能够根据模型使用的数据输入，大致判断出模型预测的结果。这个定义对于交易来说，就更具挑战了。简单来说，就是你能够通过量化研究，把自己变成一个好的主观交易员。从我的观察来看，很少有人能做到。

当年华尔街华人交易员当中，曾经有江平博士这号人物，面对期权定价公式这种对人类来说有些黑盒的东西，在95年，可以通过口算，精确预测期权价格变化。要知道那个时候，搭载Win95的286电脑，就已经是最先进的了。计算机算个期权价格需要十几二十分钟，对比之下，江博士可以说就是个碾压级的“高频交易”算法了。很可惜，在未来二十几年中，人脑没什么进化，电脑却进化了不少。现在一微秒很多人都嫌慢了，口算期权价格这种天秀的技能也没谁有兴趣练了。

如何衡量和评价模型的可解释程度

在理解什么是模型的可理解性之后，下一步就是如何衡量和评价模型的可解释程度。

和定义描述的问题一样，可解释性，需要分析单个预测的可解释性和一组预测的可解释性。理解单个预测，往往比理解一组预测更简单一些。但是有些时候，随着模型复杂度的提升，单个预测的可解释性会快速下降，但是因为理解一组预测的方法对于简单模型和复杂模型的差别不大，反而理解一组预测的难度不会有太大变化。

对于交易，理解一组预测是非常难的。大部分描述这组预测的单一统计量，往往都不能很好的反应这组预测的全貌。常用的比如一组100次交易的平均利润、利润方差、胜率、盈亏比等等，往往并不够稳定。针对单一统计量进行分析认知，往往得不出任何好的结论；针对单一统计量进行优化，往往造成优化过度。

人类需要的解释方法

由于人类学习和认知的方式，和机器实际上是有区别的。如何构建对人类友好的模型解释方法，是非常重要的。

对比性和关注异常。人类对异常的敏感程度和好奇心，会比对正常的情况，强上许多。一个稳定赚钱的模型，人类不会好奇最近赚钱的因素，是不是和一年前赚钱的因素一样。一个一年前很赚钱，但是最近赚不到钱的模型，往往是更好的分析研究对象。而两个设计相似，输入相似，但是在相同时间内，一个赚钱，一个不赚钱的模型组，如果能找出影响其盈利性的因素，是人类更加感兴趣的。
选择性。人类和机器相比，更加擅长想象和演绎。和对一个模型平庸的整体描述相比，人类更喜欢对于某些局部的假设，这样人类可以根据假设，推理假设，继而做实验验证，从而得出新的信息。
社会性，符合人们的认知。一个量化投资工作，实际上涉及到不同的参与主体，比如策略研究者、研究管理者、基金经理、机构投资者、个人投资者等，他们对于模型的关注点和认知方式是有差异的。得出的结论应当至少有一部分是符合解释对象的认知的。好的研究方法可以满足不同人窥探复杂系统的需求。
可信性和泛用性。好的解释应当不针对某一特例，而是在不同模型间都是稳定和通用的。

第二部分我选取了一些觉得不错的部分，完整的内容还请阅读原著。之后作者会针对各种模型，给出很多细节的经验和分析工具，是我很喜欢的部分。

作者：岑秋苑，文章来源知乎，版权归原作者所有，如有侵权请联系本人删除。

风险提示：本文所述仅代表作者个人观点，不代表 Followme 的官方立场。Followme 不对内容的准确性、完整性或可靠性作出任何保证，对于基于该内容所采取的任何行为，不承担任何责任，除非另有书面明确说明。

喜欢的话，赞赏支持一下