当前位置:首页 > 财经 > 财富商机 > 利用公司公告时的市场反应构建股票收益预测模型

利用公司公告时的市场反应构建股票收益预测模型

文章来自:电子商务研究院
字体:
发布时间:2021-02-22 20:01:04
阅读:78

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

报告提要

研究目的

上市公司发布的盈利数据是重要的基本面信息,公告事件发生前后的市场反应体现了投资者对这些基本面信息的判断和预期差。这些市场反应信息主要包括股票交易数据和分析师点评报告两类,我们尝试使用这些信息设计因子,并利用这些因子构建模型,来预测公告事件发生后3个月的股票超额收益率。进一步,我们将模型的预测值,转化成日频因子,加入到常用的多因子模型中加以使用。

研究方法

首先采集公告事件信息,利用这些信息构建交易类市场反应因子和分析师类市场反应因子。然后采用滚动训练的方式,定期从过往五年数据中,选取发生过公告事件的股票,并构建回归模型,使用市场反应因子来回归事件发生后的股价变动,以获得事件模型。最后利用该事件模型的预测值来构建公告事件发生后、股票的每日预期收益曲线,并利用该曲线信息将事件模型预测结果、转化成日频因子。

除此之外,我们还设计了质量成长模型和分析师预测数据模型作为基准模型,将上面所获得的日频因子与基准模型相结合,评估整体模型在中证500指数增强上的应用效果,及日频因子对基准模型在增强策略上的提升效果。

测试结果

通过测试发现,利用公告事件发生前后信息所构建的模型,能够稳定预测公告事件发生后的股票超额收益率。其中,交易数据因子还呈现了一定的非线性选股特征,这些非线性选股特征可以被提升树模型所捕捉。

同时,将公告事件模型纳入到基准模型中,可以对中证500指数增强策略上起到明显的提升作用。在2010年至2020年的测试期内,加入公告事件模型后,中证500指数增强策略的年化单利超额收益从18%提升到了20%,信息比从3.13提升到了3.73。

另外,我们发现这三个基于基本面信息的模型,在中证500指数增强的表现上有一定的日历效应,整体模型在每年的7月底至年底的增强表现弱于其他时段,这对如何使用模型有一定的指导意义。

目录

利用公司公告时的市场反应构建股票收益预测模型

1

引言

上市公司发布盈利数据前后的市场反应,反映了人们对公司经营状况的预期和预期的变化,这些刻画市场反应的信息主要来源于两个方面:

对应股票的交易数据

分析师对数据的点评报告

《基于净利润断层的选股策略》是一篇利用市场反应信息选股的经典报告,它综合利用分析师对于利润超预期的点评和公告发布之后开盘跳空信息、构建了能够稳定超越基准的股票组合。但同时报告在对市场反应信息的使用上存在两个问题:

第一,报告使用过滤法构建股票组合,策略对股票池的覆盖率低,是一个单独的组合,只能作为0-1变量加入到预测体系中;

第二,策略的调仓时点固定,这与上市公司连续发布公告的行为不符。

《用树模型提取分析师预期数据中的非线性alpha信息》是一篇介绍股票收益率建模的报告,报告用分析师预期数据因子、通过构建股票收益率预测模型的方法,提取alpha信息,将因子转化成股票预期收益。

本报告将《树》报告中的建模方法推广到事件策略中,通过建模的方式解决《净》报告中存在的以上两个问题,具体做法为:

第一,使用股票在公告发布前后的交易状况和分析师对公告的点评,构建公告事件市场反应因子,然后使用这些因子、应用线性回归和提升树回归方法,来拟合公告发生后股票的区间超额收益率,以此来获得更加一般性的公司公告事件后股票超额收益率的预测值。这些预测值可以覆盖到全部股票;

第二,上面给出的股票收益预测仍旧是零散的,报告借鉴事件因子分析中的累积平均异常收益曲线这一概念,引入事件模型的预期收益曲线,然后利用预期收益曲线,将零散的收益预测整合成随时间连续变化的20天预期收益。该预期收益可以当因子使用。

报告设计了两类模型,一类模型使用股票交易因子构建模型,记为TRORM,另一类使用分析师报告因子构建模型,记为ARORM。两类模型均分别采用线性回归和提升树回归来建模。同时,为了确保模型所给的预测值和传统盈利质量成长模型、分析师预期因子模型以及量价模型保持低相关性,我们采用区间正交化的方法,对常用财务和量价因子做了去相关性处理。

报告之后的内容安排如下:

第二节简要介绍盈利质量成长因子模型和分析师预期数据因子模型两个模型,报告以它们作为基准模型;

第三节介绍所用到的两类公告后市场反应指标,并举例分析它们的统计特征、选股能力和相关的非线性特点;

第四节我们介绍公告事件市场反应模型的构建流程和方法;

第五节中,我们介绍事件模型的预期收益率曲线,和利用预期收益率曲线构建连续预期收益因子的方法;

最后,我们对模型进行实证分析,并利用基准模型和市场反应模型构建中证500指数增强组合,以验证模型的有效性。

2

基准模型

基准模型包括“盈利质量与成长因子”和“分析师数据因子”两个模型,我们采用每半年一次、每次回看三年数据的方法来训练这两个模型。本节我们简要介绍这两个模型所用到的因子和每期训练时的回归方法。

2.1 盈利质量与成长模型

模型使用的财务指标见下表,指标构建时优先使用预告数据或快报数据。训练前,我们对指标进行了行业内排序和中性化处理:

利用公司公告时的市场反应构建股票收益预测模型

我们采用线性回归来训练模型,每期训练的具体步骤如下:

1. 使用前向逐步回归方法选择因子;

2. 利用带限制条件的OLS回归方法计算因子线性系数,限制条件为所有线性系数必须非负。

2.2 分析师预测数据模型

模型使用的财务指标见下表。对于数值连续的指标,我们使用市场中位数填充缺失值;对于计数类指标,我们使用零值填充缺失值。所有指标均基于全市场排序,并做中性化处理。

利用公司公告时的市场反应构建股票收益预测模型

我们采用提升树回归来训练模型,每期训练的具体步骤如下:

1. 使用时间序列的3-fold交叉检验方法,确定提升树回归的最优超参数;

2. 使用最优超参数训练获得模型。

3

MROR因子简介和选股特征

在本节中,我们介绍模型中所使用的市场反应指标,并对这些指标的选股能力和特点进行简要的分析。

3.1 分析师报告类因子

分析师报告因子可以分为公告数据超分析师预期类因子和公告后分析师点评行为因子两类。

利用公司公告时的市场反应构建股票收益预测模型

这些因子都有经济含义,而且0-1类指标居多,都有较好的选股能力,下图是随机挑选的、经过60天平滑的因子在2007年至2020年之间多空收益的表现:

利用公司公告时的市场反应构建股票收益预测模型利用公司公告时的市场反应构建股票收益预测模型

3.2 交易类因子和选股能力分析

股票交易因子从时间节点的角度可以分为公告前和公告当天两类。下面三个表是因子的表达式以及表达式中变量和函数的含义:

利用公司公告时的市场反应构建股票收益预测模型利用公司公告时的市场反应构建股票收益预测模型利用公司公告时的市场反应构建股票收益预测模型

下面我们分析这些因子在选股方面的一些统计特征。

首先,容易看出oprs因子在公告当天的值就是《净》报告中提出的JOR因子。《净》报告实证发现JOR因子具有选股能力,具体性质如下:

具有一定的线性选股能力,跳空高开的股票未来一个季度的表现更好,反之表现更差;

和ROE或者ROE同比之间有正相关性,新发布的ROE或ROE同比高,则更容易跳空高开,反之则容易低开;

在剔除ROE和ROE同比的影响之后,JOR因子仍旧具有选股能力,也就是说JOR在公告事件后的选股能力并不是因为与ROE和ROE同比的相关性导致的,而是具有独立的选股信息。

另一方面,从量价因子的角度来看,oprs的移动平均值构成了我们常用的动量因子,动量因子也具有正向选股能力。因此,对任意一个量价指标,我们可以提出如下三个问题:

1. 公告事件发生时发生的量价指标,是否有选股能力?

2. 与财务指标是否有相关关系,若有相关性,那么交易指标是否具有独立选股能力?

3. 非公告事件的平时交易时间,指标是否有选股能力,和公告事件发生时的选股能力是否相同?

为此我们设计了如下三个统计量:

平时的信息系数:交易指标平时与之后60个交易日收益率的Pearson相关系数,该统计量衡量交易指标作为因子的长期选股能力;

公告时的信息系数:公告发生时交易指标与股票60个交易日后收益率的Pearson相关系数,该统计量衡量交易指标对于公告发生后股票长期收益的预测性;

公告时与盈利指标的相关性:公告发生时交易指标与ROE同比的Pearson相关系数,该统计量衡量了财务公告信息对于当日该交易指标的影响。

下表是TROR因子的三个统计量在2007年至2020年间的表现:

利用公司公告时的市场反应构建股票收益预测模型

从上面这个表中可以看出,

1. 除oprs相关指标之外,其他指标在公告事件发生时与ROE同比并没有很高的相关性;

2. 有些指标的平时信息系数为负,但是公告时的信息系数为正。例如:csregres;1],rltrn] 和divide;1]]。这说明在不同时段或事件下产生的量价数据对未来股票价格变动的影响是不同的。

3. 有些指标平时具有选股能力,但是在公告事件发生时,对应指标的选股能力大幅下降,例如negof]。

以上现象说明,公告事件发生时产生的交易数据对股票未来收益率的影响,与平时对股票未来收益率的影响是不同的。

其次,我们还发现指标在选股方面存在非线性现象。下面左图是2007年至2020年公告发生后三类股票未来60个交易日的累计平均超额收益曲线,这三类股票分别为:

公告时,oprs在1%到2%之间且cors的绝对值小于3%;

公告时,oprs在1%到2%之间且cors的涨幅大于3%;

公告时,oprs在1%到2%之间且cors的跌幅大于-3%。

从图中我们可以看出,第一类股票在未来60天有稳定的收益,而其他两类则并非如此,说明公告当天的cors对于oprs因子选股有辅助作用。而这种辅助作用并不能完全通过公告当天的negof]数据的选股能力所解释。

进一步的,我们将上面的第一类股票按照cors分为两组,并绘制它们的60日累计平均超额收益曲线,这两组分别为:

oprs在1%到2%之间且cors的涨幅在0%到3%之间的股票

oprs在1%到2%之间且cors的跌幅在-3%到-0%之间的股票

利用公司公告时的市场反应构建股票收益预测模型

从图中我们可以看出:

在公告后的头5天,公告当日cors为正的股票会下跌,而为负的股票会上涨,这是常见的反转效应

但在5天之后,公告当日cors为正的股票平均超额收益的累计涨幅的增长速度要明显快于cors为负的股票,且5天到60天的平均累计涨幅要更高。说明公告当天日内涨幅为正,表明股票未来表现更好。

从以上的讨论中可以看出,TROR因子在公告事件发生时的选股能力和平时的选股能力有所不同,同时存在明显的非线性特征。

4

MROR模型

我们利用第3节介绍的因子设计TRORM和ARORM两个模型。根据两类因子的设计逻辑,这两个模型的预测周期不相同,其中,TRORM模型的预测周期为事件发生后以第二个交易日为起始的股票超额收益,而ARORM模型的预测周期为事件发生后第六个交易日为起始的股票超额收益,头五个交易日为搜集分析师点评报告的时间段。

下面介绍模型的训练流程、采样逻辑和训练方法。

4.1 训练流程

我们以发生公告事件后股票60个交易日的超额收益率为预测目标,采用滚动训练的方法构建模型,训练日为每年的5月底和11月底,每次训练时从训练日之前的5年数据区间中采集样本。下图是滚动训练的示意图:

利用公司公告时的市场反应构建股票收益预测模型

4.2 训练数据采样方法

假设T日为公告日:

1. TROR模型

模型以公告当天T日的量价指标和公告前5天的量价指标作为自变量,以股票T日到T+61日之间、经风险模型调整后的股票残差收益率为因变量,构建回归模型,模型的预测值即为股票在发布公告之后T日起、60个交易日的预期残差收益率。

公告日、自变量和因变量的时间关系如下图:

利用公司公告时的市场反应构建股票收益预测模型

2. AROR模型

模型以公告日起5个交易日内的分析师数据和公告之前的分析师数据构建自变量,以股票T+6日到T+66日之间、经风险模型调整后的股票残差收益率为因变量,构建回归模型,模型的预测值即为股票在发布公告之后T+6日起、60个交易日的预期残差收益率。

公告日、自变量和因变量的时间关系如下图:

利用公司公告时的市场反应构建股票收益预测模型

4.3 采样示例

我们举例阐释模型的采样方法。以训练日为2020年11月30日的模型为例,平安银行于2020年4月20日18时发布一季度财务报告,公告日为2020年4月21日,从公告日起66个交易日均未超过2020年11月30日,因此该样本属于该模型的训练样本。那么,下面两图分别展示TROR模型和AROR模型对于该事件的数据采样方法:

利用公司公告时的市场反应构建股票收益预测模型利用公司公告时的市场反应构建股票收益预测模型

4.4 单期回归方法

根据第3节的因子分析结果,部分因子在选股方面存在非线性效应,所以我们分别尝试使用线性回归和提升树回归两种方法来拟合数据。

对于线性回归,我们用带限制的最小二乘法来估计因子的线性系数。限制条件为所有因子的线性系数非负。

对于提升树回归,我们使用基于python的light gbm包作为拟合工具,采用5-fold交叉验证的方法来估计超参数,同时使用light gbm的early-stop机制来确定树的个数,超参数空间设定为:

树的深度:3层、5层;

学习率:0.05、0.1;

树的个数:200

在获得最优超参数之后,再用最优超参数在当期训练集样本上拟合、获得提升树模型。

4.5 降低与常见因子之间的相关性

MROR因子与很多常用因子有相关性,例如AROR因子与质量成长因子和分析师数据因子有相关性,TROR因子与波动率换手率等有相关性。因此,为了降低MROR模型与这些常见因子之间的相关性,在建模的时候,我们有选择性的对于模型预测值做了区间正交化处理,具体来说:

1. 对于AROR模型,我们利用区间正交化的技术方法,降低模型预测值与季度ROE、季度ROE同比、90天分析师覆盖率之间的相关性;

2. 对于TROR模型,我们利用区间正交化的技术方法,降低模型预测值与季度ROE、季度ROE同比、中性化换手率的20天移动平均值、中性化换手率的20天标准差和20天特质波动率之间的相关性。

关于区间正交化的技术细节,请参见《树》报告的第5.3节。

5

将事件模型预测值因子化的方法

多因子模型是一种全天候模型,它在任意时刻、对于任意股票都能根据因子值给出收益预测;而MROR模型是一种事件模型,它只对有公告事件发生的股票给出收益预测,因此将MROR模型的预测值直接应用到股票组合构建时,并不像多因子模型那么方便直接。例如,在《净》报告中,采用了固定时点回看固定时间段的方式,来选择股票以构建持仓组合。

本节我们介绍一种将事件模型的预测值因子化的方法,这种方法依赖于事件模型预测值的预期收益率曲线这一概念,这个概念是事件因子的累计平均异常收益率曲线的一种直接的推广。

5.1 预期收益率曲线

利用公司公告时的市场反应构建股票收益预测模型

传统多因子框架并没有突出预测周期的概念,而是默认以一个固定的投资周期来构建投资体系,例如月线或者周线,这是一种单周期预测的思路。而预期收益曲线这一概念,突出了收益预测随周期的变化,是一种多周期预测的思路。实际上,多周期预测与很多实际投资问题有关,我们举例如下:

1. 与快慢因子的整合问题有关

不同因子在不同收益率周期上的预测能力是不同的,例如:财务因子的短周期预测能力不高,但预测性衰减很慢、预测周期可达半年以上;而量价因子的短周期预测能力很强,但预测性衰减很快、预测周期通常在两周以内。投资者须根据投资周期来适合的整合快慢因子。

2. 与将事件因子整合进多因子体系的问题有关

在事件异象分析中,我们通常使用累计平均异常收益曲线作为事件前后存在异象的统计验证依据。对于发现有异象的事件因子,投资者需思考如何将CAAR曲线整合到多因子体系之中。

3. 与获取预期收益和避免交易成本构成的投资决策问题有关

通常预测体系对于最短投资周期的预测性最强,那么假如没有交易成本,直接在最短周期上进行预测和交易、可以最大化投资效益。但是由于交易成本的存在,按日交易并不合算,投资者在交易过程中,需根据股票不同周期的预期收益情况来决定是否延迟交易,此处预期收益率曲线是重要的参考依据。

可以看出,问题2中所描述的问题与本报告面临的问题相似,在后面两个小节中,我们给出一种解决此类问题的通用方法。

本节后面的内容安排如下:

1. 介绍MROR模型的股票预期收益曲线的估计方法;

2. 介绍将事件模型的股票预期收益曲线,转化成任意时刻、给定周期的预期收益的方法。

5.2 MROR模型的预期收益率曲线

利用公司公告时的市场反应构建股票收益预测模型

这里,条件1确保预期收益曲线是一条凹的曲线且在120天内斜率为正,条件2确保曲线的第一个点是正值,即第一天的预期收益为正,条件3确保曲线的60天预期收益与样本的60天平均收益一致。注意,这些限制条件的设定方法并不是唯一的。

下图是以提升树模型为回归方法、TROR模型在2020-11-30日这个建模日的平均前向beta曲线和预期前向beta曲线:

利用公司公告时的市场反应构建股票收益预测模型利用公司公告时的市场反应构建股票收益预测模型

5.3 转化成任意时刻给定周期预期收益的方法

我们以20个交易日这一周期为例进行介绍。根据股票公告事件发生后的预期收益曲线,我们可以推导出股票每天的、未来20天的预期收益,方法如下:

利用公司公告时的市场反应构建股票收益预测模型

6

实证结果

我们从多空选股能力、模型预测值之间相关性和中证500增强三个维度来分析MROR模型的表现。

6.1 MROR模型的多空策略表现

我们利用5.3节中所得到的由MROR模型确定的、股票20天预期超额收益率来构建多空组合,测试周期为2010年至2020年,下面是四个模型的多空组合净值序列的累计图:

利用公司公告时的市场反应构建股票收益预测模型

从图中可以看出,线性回归和提升树回归在从AROR因子中提取alpha信息的效果基本相当,提升树回归的表现略好;而对于TROR模型来说,提升树回归的效果明显更好,这与3.3中所描述的潜在的非线性现象一致。

6.2 相关性分析

下表是四个MROR模型及两个基准模型之间历史截面平均相关性:

利用公司公告时的市场反应构建股票收益预测模型

从表中可以看出,基准模型和MROR模型之间的相关性较低,同时TROR模型和AROR模型之间相关性也较低。

6.3 在中证500指数增强中的应用

下面我们分析基准模型和MROR模型在中证500指数增强中的效果。

首先,在模型权重配比上,我们采用最简单的权重分配方案如下:

1. 质量与成长模型和分析师预期因子模型的权重均设定为1.0;

2. TROR_LGB、TROR_OLS、AROR_LGB和AROR_OLS的权重设定为0.5。

然后,在组合构建上,我们保持行业中性和市值因子中性,所持股票的超额权重不得高于1%,通过调整组合风险系数,将持股数量控制在120-150之间;

最后,在交易层面,我们以周度换仓,并控制年度平均换手率在5倍以内。

结算方面,我们使用调仓日的vwap价格结算,且每只股票的成交量不得高于当日总成交量的10%。以双边千5估计交易成本。

下图是单独使用基准模型和同时使用基准模型与MROR模型的回测效果,回测周期为2010年3月至2020年底。左图为两个策略的日单利超额收益累计图,右图为左图两条曲线之差:

利用公司公告时的市场反应构建股票收益预测模型

下表为同时使用基准模型和MROR模型的增强组合分年度测试统计值:

利用公司公告时的市场反应构建股票收益预测模型

首先,从上面图中可以看出,MROR模型可以提升模型的整体增强效果。将单利平均年化超额收益从18%提升至20%,将信息比从3.13提升至3.73;

其次,从2019年起,MROR模型对策略的提升效果减弱。这两年恰好是成长风格非常好、动量效应强且分析师预测数据效果很好的年份。

再次,从全部模型增强效果来看,组合的单利超额收益在市场整体下跌的年份表现要弱于其他年份。一定程度上可以理解为在市场下跌的阶段,投资者对上市公司的盈利状况并不敏感;

最后,全部模型的单利累计超额收益出现过多次走平的迹象,走平的时间段有很明显的日历效应,见下图:

利用公司公告时的市场反应构建股票收益预测模型

此处区间预期超额收益的计算方法为2010年至2020年策略日平均超额收益乘以区间天数。从表中可以看出,模型通常是从某年的7月份开始失效,直到年底或者下一年初,这一点上有着很强的日历效应。考虑到无论基准模型还是MROR模型,都是基于上市公司基本面的模型,且很多因子都是与季度利润相关的因子,所以可以解释这种现象发生的原因,是因为从7月份开始、基本面数据逐步进入了信息的空白阶段而导致的。换句话说,从7月份开始,市场逐步对上市公司当年的经营状况有所预期,之后两个季度的经营状况在没有重大变化的情况下,并不会对市场的整体预期产生较大的影响。因此,市场在这一时间段对基本面信息并不敏感。这对我们如何使用模型有着一定的指导作用。

7

总结

本报告从上市公司财务公告事件出发,利用财务公告前后的股票交易情况和分析师点评内容,构建了股票收益率预测模型,策略可作为多因子模型中质量成长模型和分析师预期数据模型的补充,经测试在中证500指数增强策略中可以提高策略整体的年化超额收益和信息比。同时,报告给出了事件框架下,利用建模的方式进行股票收益预测、并将预测结果转化成股票截面因子的方法,该方法具有一定的普适性。

风险提示

模型基于历史数据,模型失效风险,因子失效风险,市场环境变动风险

相关报告

《基于净利润断层的选股策略》2020-04-13

《用树模型提取分析师预期数据中的非线性alpha信息》 2020-11-25

天风金工专题报告一览

多因子选股系列报告

扫二维码,3分钟极速开户>>利用公司公告时的市场反应构建股票收益预测模型海量资讯、精准解读,尽在本站财经APP