如何二值化预测国债利率涨跌?

本文来自格隆汇专栏:国君固收覃汉 作者:覃汉、唐元懋

二值化利率预测的日度准确度和稳定性高于我们之前研究中的其他择时方式。同时,该方法的周度模型,能够更好的捕捉利率下行的机会。

核心观点:

部分投资者只关注债券利率的涨跌方向。我们的研究中考虑将利率的涨跌二值化并采用Logistic模型进行处理。同时我们选择变量分箱处理因变量,这是一种特征工程的方法,旨在增强变量的可解释性与预测能力。该方法将现实情况简化,剔除了原始利率曲线以及其他解释变量中包含的噪声信息。

WOE分箱最重要的步骤就是切分点的选取。而因为经济数据变幻莫测,为了降低人力分箱的庞大工作量,我们采取以决策树为基础的自动化分箱方法。同时根据IV值的大小对变量进行筛选在使用前,分别对自变量与因变量进行差分处理,为了符合现实逻辑,对于差分后的自变量我们又进行了一阶滞后,再与因变量对应。为了保证模型的预测效果以及贴近现实条件,我们采用固定起点的滚动一步方法建立Logistic模型并进行预测。

结果显示,二值化利率预测的日度准确度和稳定性高于我们之前研究中的其他择时方式。同时,该方法的周度模型,能够更好的捕捉利率下行的机会。

正文

利率择时中,有些时候我们会关注未来债券利率的具体数值,我们前期研究报告对此已经有涉及。但更多情况下,投资者往往只关注债券利率的涨跌方向。相较于直接预测利率曲线,对利率涨跌二值化也可以帮助模型在学习过程中剔除利率曲线本身包含的很多“噪声”、简化模型的学习目标。

在本文中,我们将Logistic回归与WOE自变量分箱方法应用于利率涨跌预测问题,得到了不错的效果。


1

利率择时中的二值化原理:

Logistic回归与自变量分箱


我们的研究中考虑将利率的涨跌二值化并采用Logistic模型进行处理。在机器学习算法中,预测二值变量的模型多种多样,其中Logistic回归使用最广。相较于随机森林、Xgboost等其他可用于二值变量的模型,Logistic回归具有可解释性高、模型稳健、训练简单等优点,因此在业界Logistic回归深受青睐。

Logistic模型是针对利率波动或者说模型因变量部分进行处理。而对于自变量我们一样可以进行一定的简化,与因变量进行配套。

在此,我们选择变量分箱,这是一种特征工程的方法,旨在增强变量的可解释性与预测能力。在风控领域,Logistic回归常常与WOE自变量分箱方法结合使用预测用户未来是否违约。变量分箱存在诸多优点,首先变量分箱可以起到“滤波”的效果,消除异常值的影响极大增强模型的稳健性,降低过拟合的风险;其次分箱将连续变量转化为离散变量,变量的取值由WOE替代变成了更少的取值,便于模型快速拟合与迭代;最后,分箱可以为Logistic模型引入非线性,提升模型的表现能力。

这一转化方法需要重点关注分箱切分点的选择将影响后续分类模型的表现:分箱太多会使变量过于稀疏,不同分类内样本数量差别很大,最终降低预测效果;分箱太少则会使不同质的样本被强行分于一类,造成模型辨识度降低。因此,分箱的界点往往需要该领域内专家的经验进行调整。


2

变量池的构建和模块分类


2.1.WOE分箱的核心思想

具体使用时,我们将引入风控领域的WOE分箱方法,即Weight of Evidence证据权重,WOE分箱是根据界点对变量进行切分后,简单的将箱内值转化为对应WOE值的方法。其计算公式如下:

其中BadiBadT、Goodi、GoodT分别代表第i个分箱内的 “坏人”数、总“坏人”数、第i个分箱内的“好人”数与总“好人”数。其中“坏人”与“好人”分别代表Logistic回归中研究者自己定义的0、1事件。此公式可理解为“每个分箱内的坏好比(Odds)相对于总体的坏好比之间的差异”。

WOE分箱最重要的步骤就是切分点的选取。而因为经济数据变幻莫测,为了降低人力分箱的庞大工作量,我们采取以决策树为基础的自动化分箱方法。基于树的分箱方法借鉴了决策树在树生成的过程中进行特征选择(最优分裂点)的目标函数来完成变量分箱过程,可以理解为单变量的决策树模型。

简而言之,即是对数据中的每一个变量X针对目标(利率涨跌)Y,拟合一个浅层的决策树,此时该决策树的节点规则即为变量的切分点。而影响决策树结构的一个重要超参数即是“叶子节点内所需包含的最小样本比例”,在本文中我们根据经验设定该值为0.1。

2.2.IV值的核心思想

IV全称Information Value中文名为信息量,其计算公式如下:

简单理解,IV值即为单变量所有WOE取值的加权平均,其常用于衡量分箱后变量对于目标的“区分度”。

因此,我们可根据IV值的大小对变量进行筛选,舍弃IV值偏小的变量简化模型。其值与区分度的对应关系如下表1所示:


3

模型搭建


3.1.变量池的构建方法和模块的分类

我们将10年期国债到期收益率作为被解释变量。解释变量则主要从生产、需求、交运、CPI、PPI、资金预期、利差图谱、市场情绪、机构行为、技术分析十个维度出发,筛选了54个宏观经济指标。变量的具体选择见表2。

这10个维度的数据,既有日频也有周频,我们考虑对日频数据通过取均值进行降频,对周频数据通过插值进行增频。可以得到两组不同频率的数据(日频、周频),这样我们在后面的研究中,可以通过切换数据频率分别预测未来日度和周度的利率涨跌。

3.2.变量预处理 

我们选取2020年1月13日至2023年4月28日的利率以及经济指标作为原始数据。并以9.5:0.5的比例分割训练集与测试集,其中训练集时间区间为2020年1月13日至2023年3月1日,测试集时间区间为2023年3月3日至2023年4月28日。

之后,我们分别对自变量与因变量进行差分处理,为了符合现实逻辑,对于差分后的自变量我们又进行了一阶滞后,再与因变量对应。举例说明,即2020年1月15日对于2020年1月14日的利率变化对应2020年1月14日对于2020年1月13日的指标变化(如果是周频数据则取周度差分)。具体过程如下图1所示:

3.3.变量筛选方法:IV值排序法

根据前文所述,IV值的大小可以衡量变量对于目标的区分能力,因此为了保持模型的简洁性,我们针对3.1节建立的总变量池计算其中每个变量的IV值并进行排序,选出IV值最大的前六个变量进入Logistic模型。具体流程如下图2所示:

3.4.Logistic回归模型的预测

为了保证模型的预测效果以及贴近现实条件,我们采用固定起点的滚动一步方法建立Logistic模型并进行预测。如图3所示,预测完下一日利率涨跌后,当新一日数据出现时则更新实际值至当日,再进行下一日预测。

需要特别说明的是,虽然此预测方法每天都要拟合新的Logistic回归模型,但因为已对变量进行分箱处理,故模型拟合速度极快,并不会耗费很多时间,这是大大优于传统以连续利率作为因变量的研究的。


4

模型预测效果与优势


因本方法采取滚动预测的方式,需按周期进行新的WOE分箱、拟合新的Logistic模型,故传统的Logistic模型评价指标AUC值、WOE分箱评价指标KS值等并不适用于本方法。故我们采取“准确率”、作为评价标准,其计算公式如下:

TP、TN、FP、FN分别代表“真阳”、“真阴”、“假阳”、“假阴”,其中“阳性事件”与“阴性事件”分别代表利率的上涨和下跌。同时针对Logistic回归我们按照经验选取阈值等于0.5。

分别按照日度以及周度预测进行实验,均取得较好的效果,日度和周度的模型准确率分别为57.14%及55.88%,具体的结果如表2所示。

由表3结果可以看出,在日度预测中,模型预测为涨占真实情况为涨的比例是66.67%,而模型预测为跌占真实情况为跌的比例是51.85%,在周度预测中,模型预测为涨占真实情况为涨的比例是46.67%,模型预测为跌占真实情况为跌的比例是63.16% ,f1值分别为0.5833与0.5357。

可以看出,二值化利率预测的日度准确度、稳定性和计算速度高于我们之前研究中的其他择时方式。同时,该方法的周度模型,能够更好的捕捉利率下行的机会。其原因在于该方法的优势主要在于以下三点:

第一,针对短期利率交易主要跟踪单日涨跌的需求,将现实情况简化,对利率与其他解释变量进行差分处理,剔除了原始利率曲线以及其他解释变量中包含的噪声信息,并采取了在二分类问题上具有优异表现的Logistic模型;

第二,为了最大化准确率,以与二分类问题直接相关的IV值为标准筛选变量;

第三,采用了滚动的预测的方法,既符合现实逻辑,也让模型能时刻捕捉经济世界中的最新变化,而尽可能杜绝了因预测长期利率走向带来的失真现象。

注:本文来自国泰君安证券于2023你那5月24日发布的《如何二值化预测国债利率涨跌| 债市量化研究系列》;报告分析师:覃汉、唐元懋

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论