新闻联播带你飞:新闻联播情绪指标的构建和运用

新闻联播带你飞:新闻联播情绪指标的构建和运用 
作者:夏潇阳



历史总是惊人的相似,我们通过测算每天新闻联播出现的热词在历史上出现时,未来大盘的表现来构建新闻联播情绪指标,对以此对市场进行择时判断。

新闻联播是一个典型的小数据,从去年到今年,我们越来越感受到新闻联播中蕴含了不少投资机会,也经常听人说:“跟着新闻联播炒股有肉吃”。

新闻联播每天晚上 20 点左右会在其官网披露每日新闻联播节目的全部内容,官方会披露每篇文章的热词,我们只需要对其披露的热词进行简单的抓取分析和分类整理。

历史总是惊人的相似,我们希望判断,每天新闻联播出现的热词在历史上出现时,未来大盘的表现。

对于每日新闻联播的第 i 个热词,只要该热词不是首次出现,我们把在该日之前出现同样的热词时,下一个交易日沪深 300 指数的表现定义为P,并计算Ranki=mean(Pi)。每日新闻联播情绪指标 S=mean(Ranki)。

由于新闻联播情绪指标波动剧烈,我们使用新闻联播情绪指标 30 日均线对沪深 300 指数择时:新闻联播情绪指标 30 日均线从高点回落 1.0,指标看空;新闻联播情绪指标 30 日均线从低点回升 0.5,指标看多。

我们在信号发出后下个交易日开盘时开仓,开仓后,某日收盘时亏损 5%以上即止损。截止 2015/05/31,模型大赚 5 次,小赚 4 次 ,持平 5 次,小亏 4次,大亏(止损)4 次。

一、新闻联播背后的秘密


 

在介绍新闻联播数据源之前,我们首先介绍一下大数据与小数据的区别:

大数据的一大特点是专有数据源,数据供应商往往运用这些独特的专有数据源,结合其它指标,构建策略指数,并通过与基金公司合作发产品的形式呈现给投资者。典型的案例包括:百度与广发基金、新浪与南方基金以及阿里与博时基金。

而小数据的一大特点是公开数据源,我们通过网络文本挖掘的方法抓取这些公开数据,并依此构建投资策略。小数据虽然是公开数据,但往往数据指向性强,逻辑清晰,适合构建量化模型。


新闻联播就是一个典型的小数据,从去年到今年,我们越来越感受到新闻联播中蕴含了不少投资机会,也经常听人说:“跟着新闻联播炒股有肉吃”。例如,今年的 4 月 21 日晚上,新闻联播播出了《广东 天津福建自贸试验区今天挂牌》的新闻,次日,福建自贸区龙头象屿股份平开高走,上涨 9.45%。


 

不过这样的案例有一定的巧合成分,而且一天的行情较难捕捉,我们再举一个时间长一点的例子:新闻联播从今年 4 月 9 日开始持续宣传“一带一路”,并于 4 月 19 日暂停宣传。而“一带一路”概念的龙头股——中国南车和中国北车从 4 月 9 日起打开涨停启动一轮翻倍行情,并从 4 月 20 日起开始调整,调整幅度超过 25%。


 

不过,这样的案例依然存在巧合的成分,且后续新闻联播也零星地宣传过“一带一路”,但中国南车和中国北车在停牌前也没有明显的反弹。此外,如何在 4 月 9 日新闻联播第一天宣传“一带一路”的时候就判断这样的宣传有一定持续性,也是一个难点。

通过前面两个案例,我们可以感受到,新闻联播中蕴含了不少个股和板块的投资机会,但这样的投资机会很难捕捉,更难以量化。因此,从量化的角度,我们退而求其次,试图构建一个新闻联播情绪指标。

二、新闻联播数据的采集

新闻联播每天晚上 20 点左右会在其官网披露每日新闻联播节目的全部内容,其网址格式为:http://cctv.cntv.cn/lm/xinwenlianbo/yyyymmdd.shtml,其中 yyyymmdd 为 8 位日
期格式。



 

我们对新闻联播的每一条新闻进行读取分析,如当日出现“新闻联播完整版视频”,我们须进行剔除。

接着,我们对每篇文章抓取相应的热词,新闻联播官方会披露每篇文章的热词,我们只需要对其披露的热词进行简单的抓取分析和分类整理。


 

我们剔除明显无关的热词,如视频、点播、央视网、新闻联播、联播快讯等。剔除后,热度前 40 名的热词如下:


 

三、新闻联播情绪指标

历史总是惊人的相似,我们希望判断,每天新闻联播出现的热词在历史上出现时,未来大盘的表现。这里,“未来大盘的表现”蕴含了三层含义:

1. 未来:我们相信,新闻联播如果对市场有影响,最直接的影响应该是一个交易日。因此我们考察下一个交易日大盘的表现;

2. 大盘:我们相信,新闻联播应该和大盘类指数相关性更密切一些,我们测算出来的结果也验证了这一点。因此,我们选择沪深 300 指数作为考察目标;

3. 表现:我们认为,收益率不是刻画大盘表现的最好方式。举个例子:假如有两个交易日,大盘的收益率分别为 0.3%和 0.2%,不能认为第一天大盘的收益率是第二天的 1.5 倍,事实上两者都处于走平的范围。因此,我们将沪深 300 指数一天的表现定义为 P,我们假设沪深 300 指数收益率为 R,定义参数 a=1.5%和 b=0.5%:

a) R<=-a 时,P=0,天数占比约为 9.73%
b) -a<R<=-b 时,P=25,天数占比约为 21.39%
c) -b<R<b 时,P=50,天数占比约为 38.50%
d) b<=R<a 时,P=75,天数占比约为 18.18%
e) R>=a 时,P=100,天数占比约为 12.19%



 

对于每日新闻联播的第 i 个热词,只要该热词不是首次出现,我们把在该日之前出现同样的热词时,下一个交易日沪深 300 指数的表现定义为P,并计算 Ranki=mean(Pi)。每日新闻联播情绪指标 S=mean(Ranki)。

由于新闻联播情绪指标波动剧烈,我们对其取 30 日均线,新闻联播情绪指标及其30日均线的走势如下:


 

我们使用新闻联播情绪指标30 日均线对沪深 300 指数择时:新闻联播情绪指标 30 日均线从高点回落 1.0,指标看空;新闻联播情绪指标 30日均线从低点回升 0.5,指标看多。


 

我们在信号发出后下个交易日开盘时开仓,开仓后,某日收盘时亏损 5%以上即止损。截止 2015/05/31,模型大赚 5 次,小赚 4 次 ,持平 5 次,小亏 4 次,大亏(止损)4次。


 
 

风险提示

本文中所引入的假设以及基于假设所构建的模型,均是对所要研究问题的主要矛盾以及矛盾主要方面的一种抽象,因此模型以及基于模型所得出的相关结论并不能完全准确的刻画现实环境与预测未来。(来自招商证券)
*声明:文章为作者独立观点,不代表格隆汇立场

相关阅读

评论