专业正规安全的配资公司炒股平台门户网
关键词不能为空

股票配资

导航

「伦敦期货行情」如何看伦敦期货

未知
admin

【交易技术前沿】舆情指数与期货行情关联性分析

?

《交易技术前沿》总第三十五期文章(2019年8月)

林瑞涵 / 大连商品交易所 飞创公司 创新实验室 linruihan@dce.com.cn

刘一宁 / 大连商品交易所 飞创公司 创新实验室 liuyining@dce.com.cn

摘要:随着网络的快速发展,互联网逐渐取代传统媒体,成为期货投资者获取信息、感知市场环境变化的主要途径。而各大搜索引擎公司推出的舆情指数产品能够及时的反应人们对不同概念的关注程度。分析网络舆情与期货行情的关系有助于市场管理者及时掌握期货价格变动原因,有效进行市场监管。本文针对期货市场提出了一种基于舆情指数的行情趋势分析模型。模型采用基于TF-IDF的舆情关键字提取方法,通过计算不同舆情指数与行情的关联关系构建舆情指数特征,并采用特定机器学习算法分析相关品种的行情趋势与舆情指数的关联关系。实验中,本文使用百度舆情指数,以国内大豆期货品种为例,分析2018年1月至6月的国内黄大豆1号主力合约次日结算价涨跌情况,结果表明模型得出的次日行情分析结果与实际行情的吻合度达88.6%。

关键字:舆情指数 期货 行情 百度指数 趋势分析

展开剩余93%

一、概述

随着国内期货市场规模的不断扩大,价格分析作为经济决策和风险管理的重要手段,得到市场管理者与市场参与者的广泛关注。传统的分析方法将历史行情与现时行情进行拟合来判断未来行情的发展趋势。这种方法认为现时行情的发展趋势将与历史上类似行情的发展过程相吻合。然而,行情的发展并非历史的简单重复,对期货市场而言,不同时期的市场环境各不相同,判断行情趋势需要考虑多种环境因素对行情发展的影响。增强多种市场环境因素的综合分析能力,能够帮助市场管理者及时掌握市场环境变化情况,提高市场监管能力。

近年,随着网络的快速发展,互联网逐渐取代传统媒体,成为期货投资者获取信息、感知市场环境变化的主要途径。搜索引擎作为查询信息的主要手段,被人们广泛用于检索各自关注的关键信息。基于搜索引擎数据制定的舆情指数,能够很好的反映一定时期人们对不同概念的关注程度。例如,2004年世界最大的搜索引擎公司,谷歌公司推出谷歌趋势(Google Trends)产品,其提供了对某一关键词在特定时间段内通过Google搜索引擎被查询的频率。随后百度、搜狗、360等国内搜索引擎公司也相继推出了功能相类似的搜索指数产品。由于投资者对特定市场的舆情关注程度往往与市场行情有关,许多研究者开始关注舆情指数对预测市场行情趋势所发挥的作用。T. Preis等[1]研究发现利用谷歌趋势可以对金融市场的交易行为进行量化。Hamid等[2]利用谷歌趋势预测股票行情的走势。洪涛[3]利用百度指数对住房价格的预期与实际价格的波动进行了分析。孟祥兰等[4]通过百度指数分析投资者的情绪对市场行情走势的影响。

然而,当前的舆情指数产品主要依赖特定关键字查询相关指数,对期货市场来说,单一品种涉及的上下游商品种类繁多,供需关系复杂,只依靠简单的关键字检索,很难获得与市场行情相关度高的舆情指数。为此,如何获取舆情指数所需的关键字组合,以及对多个舆情指数的进行整合,成为亟待解决的问题。

为解决上述问题,本文针对期货市场提出了基于舆情指数的行情趋势分析模型。模型采用基于TF-IDF的舆情关键字提取方法,根据不同舆情指数与行情的关联关系,定义舆情指数特征,并采用特定机器学习算法对相关品种行情趋势与舆情进行关联分析。实验中,本文以百度指数[5]为舆情指数来源,以国内大豆期货品种为例,对2018年1月至6月大连商品交易所黄大豆1号主力合约进行分析。实验结果表明,本文模型得到的次日行情趋势分析结果与实际行情具有较高吻合度。

二、模型定义

(一) 舆情关键词提取

本文采用了TF-IDF关键字提取方法[6],对大量互联网文本数据进行分析,提取与特定品种关联性较高的关键字,并以此关键字为基础,采集舆情指数信息。实验中,本文使用了新浪财经、中国证券网、全景网、国际金融报、和讯网、中国粮油网、期货日报、金融界、新华网等70家金融期货相关网站采集的期货类新闻为处理对象,提取黄大豆1号合约相关的关键字信息。TF-IDF计算方法如下 :

词频(Term Frequency,TF):

TF表示关键词w在文档Di中出现的频率。其中,Ni为关键词w的在文档Di出现次数,|Di|为文档Di中所有词的数量。

逆文档频率(Inverse Document Frequency,IDF):

IDF反映关键词的在不同文本中的分布程度,如果一个词在越多的文本中出现,则IDF值越低;反之,则IDF值越高。其中,ND为文档总数,I(w,Di)表示文档Di是否包含关键词,若包含则为1,若不包含则为0。

则,关键词w的TF-IDF值为:

在实际使用中,本文首先根据期货品种名称对文本集中的品种相关文章进行筛选,在经过筛选的文章中,计算各词语的TF-IDF值,选取TF-IDF值最高的50个词作为舆情指数的查询关键词。

(二) 舆情指数特征

品种的不同舆情关键字获得的舆情指数与行情趋势的关系各不相同。例如,对黄大豆1号而言,直观地看,关键词“大豆”和“豆粕”与豆一行情的关联度显然高于“农业”和“经济”等关键词。但是,大多数关键词与行情趋势的关系很难人为界定,因此,需要定义一种方法来确定每个关键词在行情分析中发挥的作用。

本文采用皮尔森相关系数判断关单个键字与行情的一致性。皮尔森相关系数是用来反映两个变量线性相关程度的统计量7。具体计算如下:

其中,皮尔森相关系数r的值为样本点集合X与Y的协方差和标准差的商。考虑到各关键词舆情指数波动与行情变化可能存在先后关系,本文采用滑动窗口方式考察关键字舆情指数与行情变化的先后关系。具体方法是,本文将关键词w的T日舆情指数与T+NTw日行情分别计算皮尔森相关系数,得到关键词w舆情指数与延迟〖NT〗_w天的行情相关度,其中,NTw为大于等于1的值。实验中,本文选取NTw∈[1,10],并对每个关键词取得相关性最高的延迟天数的舆情指数作为下一步机器学习算法的特征值。

(三) 机器学习模型

本文最终目标是根据相关舆情指数,分析品种未来价格趋势的变化。根据单个关键字所取得的舆情指数虽然能够在短期内与行情保持较高相关性,然而因为影响品种价格的因素并非唯一,单个关键字的舆情指数波动很难与行情保持长期一致。为此,本文提出采用机器学习方法融合多个关键词的舆情指数用于分析行情变化趋势。

在上一节中,本文介绍了计算关键词的相关系数和选取舆情指数的时间偏移量的方法。在使用机器学习算法时,本文选取K个与品种行情相关度最高的关键词舆情指数组成每日舆情指数特征值向量,本文的优化目标是通过机器学习算法确定不同特征值权重,最终使得价格分析误差最小:

其中,m为样本个数,MSE为分析值与实际值的均方误差,最小化MSE可获得各个舆情指数的权重值。

实验中,本文使用经典的机器学习算法对模型参数进行求解,其中包括线性回归NT[8-9]、SVR[10-11]、Boosting[12]和随机森林[13]算法。

三、实证分析

(一) 数据来源

(1) 百度指数

国内的百度搜索引擎可谓家喻户晓,如图1所示,截止2018年7月,百度搜索引擎在全网、PC端及移动端均占据70%以上的市场份额,在国内搜索引擎市场占据了绝对的覆盖率与权威性,因此本文利用百度公司推出的百度指数产品作为分析研究关键词搜索量的数据源。

图1 中国搜索引擎市场份额

百度指数提供3种维度的搜索量数据,分别是全网搜索量、PC端搜索量、移动端搜索量。不同关键词在PC端和移动端搜索量比例不尽相同,本文只针对全网搜索量进行分析研究。在百度指数研究过程中发现,在新年、国庆等长假期间及前后,百度指数的日内搜索量会大幅降低,并且呈现年度周期性变化,这与长假期间人们减少对手机和电脑的依赖这一客观情况相符合。本文通过网络爬虫从百度指数中采集2018.01.19-2018.06.21自然日的日内搜索量。

(2) 行情数据

国内大豆期货于2003年在大连商品交易所(简称DCE)挂牌上市,分为黄大豆1号和黄大豆2号(品种代号a、b),其中a品种代表非转基因大豆、b品种代表转基因大豆。我国主要生产非转基因大豆,而转基因大豆更多依赖进口。本文主要分析研究国内短期大豆期货价格的趋势,因此选择黄大豆1号作为本文的研究对象,时间区间选择了2018.01.19-2018.06.21的100个交易日黄大豆1号主力合约结算价数据。

(3) 数据预处理

百度指数统计的时间区间是所有自然日,而行情数据的时间区间是所有交易日。在将百度指数数据与行情数据导入模型前需要将自然日与交易日进行时间对齐。自然日是交易日与节假日的合集,如果直接剔除自然日中的节假日部分会将节假日期间网络搜索量对行情的影响一并剔除,这样做显然降低了模型的整体准确度。通过观察百度指数发现,大部分关键词对应的百度指数周末搜索量小于交易日搜索量,而在一些特殊的周末,搜索量的剧增也会体现在下一交易日的行情中,因此本文的时间对齐方式使用周末及节假日搜索量与前一交易日搜索量进行比较并取较大者作为前一交易日的搜索量数据。

不同关键词对应的百度指数搜索量可能有数量级之间的差别,一些热门关键词的日均搜索量可以达到10000+,而一些行业内关键词的日均搜索量只有100+。这种数量级之间差别会影响模型的稳定性与准确性。为了提高模型的稳定性,在数据进入模型前需要对搜索量数据与行情数据进行归一化处理,即对原始数据进行线性变换,即对于任意x∈X,经归一化变换得:

实验中,本文分别对各个关键字的百度舆情指数及交易时间区间内的行情数据进行归一化变换。

(二) 关键词提取

从70家金融期货相关网站采集了96273篇新闻,其中大豆相关新闻1248篇。对这些新闻文章进行分词处理,并利用TF-IDF方式提取出大豆相关的关键词。

表1 大豆类文章词频前40名

表2 金融类文章词频前40名

表3 TF-IDF结合筛选后前40关键词

结合宏观因素及百度指数所提供的关键词的日内平均搜索量(日搜索量>500),最终选择了22个关键词:大豆、黄大豆、大豆期货、大豆价格、期权、转基因、饲料、豆油、豆粕、蛋白质、玉米、玉米价格、水稻、高粱、棕榈油、中粮、农村、农民、美国、巴西、阿根廷、关税。

(三) 关键词滑动区间计算

通过滑动窗口计算关键词与行情间的皮尔森相关系数,表4中列出了关键词、延迟天数、相关系数最大绝对值及相关性方向。

表4 关键词滑动区间统计结果

关键词 延迟天数 相关系数 相关性方向
大豆 2 0.6403 正向
黄大豆 2 0.4515 正向
大豆期货 2 0.2566 正向
大豆价格 2 0.8059 正向
期权 9 0.5483 正向
转基因 1 -0.1715 负向
饲料 10 0.471 正向
豆油 9 0.4014 正向
豆粕 4 0.5883 正向
蛋白质 1 0.5625 正向
玉米 1 0.3048 正向
玉米价格 10 0.3241 正向
水稻 1 0.5956 正向
高粱 10 0.4514 正向
棕榈油 1 0.4184 正向
中粮 1 0.1288 正向
农村 7 0.1731 正向
农民 1 0.4454 正向
美国 1 0.5344 正向
巴西 1 -0.0974 负向
阿根廷 1 -0.11 负向
关税 9 0.4897 正向

从表4中发现,关键词的百度指数与行情间的相关性各不相同,相关性较强的关键词对行情分析更有帮助。实验中,对22个关键词按照相关系数绝对值降序排列,分别取相关系数的前20个、前15个、前10个、前5个和前1个5组舆情指数组合进行实验。

(四) 行情分析效果

表5 各模型MSE结果

算法 MSE(前20) MSE(前15) MSE(前10) MSE(前5) MSE(前1)
线性回归 0.2387 0.0261 0.0292 0.0236 0.0171
SVR 0.0477 0.0393 0.0367 0.0276 0.0195
Boosting 0.0272 0.0288 0.0274 0.031 0.0343
随机森林 0.0312 0.0341 0.0321 0.0314 0.0277

本文采用五折交叉验证法,对各机器学习模型进行训练,训练使用的数据为2018.01.19至2018.06.21期间百度指数与黄大豆1号行情,对不同组的训练数据分别进行线性回归、SVR、Boosting、随机森林进行模型训练,并统计了测试集的平均MSE。如表5所示,实验结果表明,除SVR算法之外,其它算法结果随舆情指数特征向量的变化不大,其中线性回归和Boosting算法MSE较小;SVR算法结果随舆情指数特征长度不断缩小,说明当特征向量较大时,SVR算法分辨有用特征的能力较弱。

图2 机器学习算法趋势分析准确度

本文同时检验了模型利用舆情指数判断行情趋势的能力。本文使用T日的舆情指数数据对T+1日的行情结算价相比T日结算价涨跌进行判断,如果T+1日结算价大于T日结算价,则为上涨,否则为下跌。实验结果如图2所示,采用Boosting算法对行情分析判断的准确率最高,最高判断准确率达88.6%。值得注意的是,随着使用的舆情指数个数的增长,Boosting算法的准确率不断提高,然而当舆情指数个数增长超过15时,算法的准确率达到稳定。原因之一是尽管本文使用了20%的测试数据,但是因为样本数量有限,算法每分析正确一个样本要求准确率提升较为明显;更多的是由于Boosting算法整合多个弱分类器,能够较好的分辨舆情指数中的有用特征与干扰,当增加的舆情指数相关性与品种相关性较低时,对模型的影响十分有限。

四、研究结论

舆情信息作为期货市场投资者决策的重要依据,能够对其投资行为产生直接的影响。网络舆情指数作为搜索引擎公司基于大数据统计发布的量化指标,反映了一段时期内互联网用户对特定概念的关注程度。理解舆情指数与期货行情之间的联系,有助于监管部门针对重大舆情事件及时采取措施,防范系统性风险的发生。

本文针对期货市场提出了基于舆情指数的价格分析模型。首先,采用基于TF-IDF的舆情关键字提取方法提取期货类新闻关键词;其次,以提取的关键词为基础,借助搜索引擎提供的舆情指数构建针对单一期货品种的舆情指数特征;最后,本文采用多种经典机器学习模型结合舆情指数特征对期货行情趋势进行分析。实验结果表明,使用舆情指数对大豆1号T+1交易日的结算价进行分析判断,分析吻合度达88.6%。

参考文献

[1] T. Preis, H.S. Moat, H. Eugene Stanley, Quantifying trading behavior in financial markets using Google Trends, SCci. Rep. 3 (2013) 1684, doi:10.1038/srep01684.

[2] A. Hamid, M. Heiden.Forecasting volatility with empirical similarity and Google Trends, J. Econ. Behav. Org. 117 (2015) 62–81.

[3] 洪涛,厉伟. 基于网络搜索数据的住房价格预期与实际价格波动分析. 统计与信息论坛,2015(11):49 - 53

[4] 孟祥兰,胡杨洋,孟雪井. 基于文本挖掘和百度指数的投资者情绪指数研究. 宏观经济研究,2016(01):144 – 153

[5] 李敏,陈尚义,林仕鼎. 百度的大数据实践. 金融电子,2013(06):35 – 36

[6] 黄承慧,印鉴,侯昉. 一种结合词项语义信息和TF-IDF方法的文本相似度量方法. 计算机学报,2011(05)

[7] 梁吉业,冯晨娇,宋鹏. 大数据相关分析综述. 计算机学报,2015(09):1 – 18

[8] 代亮,许宏科,陈婷,钱超,梁殿鹏. 基于MapReduce的多元线性回归预测模型. 计算机应用,2014(07):1862 – 1866

[9] 汪奇生,杨德宏,杨建文. 基于总体最小二乘的线性回归迭代算法. 大地测量与地球动力学,2013(12):112 – 120

[10] 孙轶轩,邵春福,计寻,朱亮. 基于ARIMA与信息粒化SVR组合模型的交通事故时序预测. 清华大学学报,2014(03):348 – 353

[11] 黄磊,舒杰,姜桂秀,张继元. 基于多维时间序列局部支持向量回归的微网光伏发电预测. 电力系统自动化,2014(03):19 – 24

[12] 董乐红,耿国华,高原. Boosting算法综述. 计算机应用与软件,2006(08)

[13] 王奕森,夏树涛. 集成学习之随机森林算法综述. 信息通信技术,2018(02):49 - 55

?

免责声明

如何看伦敦期货

以伦敦铜为例方法如下:1.进入新浪财经官网(http://finance.sina.com.cn/),选择期货频道。2.在查询栏选择 国际—LME伦敦金属交易所—LME铜,点击查询即可。

伦敦有色金属24小时期货行情

计算方法应具有高度的适应性,能对不断变化的股市行情作出相应的调整或修正,使股票指数或平均数有较好的敏感性。量,也并不像此前人们所以为的那样匮乏。

伦敦锌期货行情24小时都有报价是怎么回事

伦敦锌和黄金,原油,白银一样,是全球都在交易的品种,交易市场是随着时间全球轮转的,中国市场停盘的时候美国人正是早上上班了,美国人开始成为主力

英国伦敦期货实时行情几点停盘

你说伦敦金属交易所的期货行情?夏令时是北京时间2点收盘,冬令时3点

伦敦期货交易所交易时间

我看上这20分了,交易时间是伦敦时间,不是北京时间

如何看期货行情?

期货在现货市场上买进或卖出一定数量现货商品同时,行情怎么看在期货市场上卖出或买进与现货品种相同、数量相当、但方向相反的期货商品,以一个市场的盈利来弥补另一个市场的亏损,达到规避价格风险的目的交易方式。期货交易之所以能够保值,是因为某一特定商品的期现货价格同时受共同的经济因素的影响和制约,两者的价格变动方向一般是一致的,由于有交割机制的存在,在临近期货合约交割期,期现货价格具有趋同性。

伦敦 金价格和期货 黄 金 价格为什么不一样?

因为报价不同,伦敦金是美元/盎司,期货黄金是元/克。而且存在汇率的差异

哪里可以查伦敦铜期货实时行情

同花顺

什么是伦敦白银,它和纸白银、期货有什么区别 ?

现货白银,又称国际现货白银或者伦敦银,是一种是利用资金杠杆原理进行的一种合约式买卖。它不像我们通常所说的一手交钱一手交货,而是要求在交易成交后1~2个工作日内完成交割手续,但有些投资者并不在交易后进行白银的实际交割,而只是到期平仓以赚取差价利润。 区别在于: 1、交易制度。现货白银、期货是保证金交易制度,购买现货白银合约的时候,只需要花费少量的保证金就可以操作;纸白银则是全额支付; 2、交易类型。从交易规则来看,现货白银适合短线操作,纸白银适合中线操作,期货合中长线操作; 3、报价单位。现货白银报价单位是美元/盎司,纸白银报价单位是元/克,期货报价单位是元/千克、吨; 4、投资风险。现货白银、期货是资金杠杆原理,以小博大,资金放大很多倍,虽然有利于获利,但是投资者承担的风险也就增加;纸白银则是等价值的买卖,不容易爆仓; 5、市场环境。现货白银依托着国际现货白银报价,完全按照白银市场发展规律,没有庄家背后操控的可能;纸白银是国内银行根据国际白银报价调整价格,有偏差,不够透明、期货价格是指期货市场上通过公开竞价方式形成的期货合约标的物的价格。

那里可以看伦敦铝期货行情

是不是看盘软件上看到的,这个样子的?
相关阅读

伦敦期货行情

猜您喜欢

更多与伦敦期货行情相关文章