金融高频数据挖掘——揭开永恒的市场波动的神秘面纱


金融高频数据挖掘

——揭开永恒的市场波动的神秘面纱

 

马金龙1,2马非特2

(1 中国科学院广州地球化学研究所  广州  510640;

2 长沙非线性特别动力工作室  长沙  410013)

 

  要:金融高频数据是金融市场内秉特性的表征。本文基于复杂系统理论和非线性动力学原理,通过对金融交易市场高频数据进行空间重构、数据挖掘和数值分析获得非线性特别动力因子——金融孤子,发现其价格波动规律,建立与市场相适应的前瞻性的演化博弈模型,进而提出金融孤子的(非欧几何)构造新概念。经实盘交易股票G广控和期货燃油实践,实现了在价格波动演化过程中的可重复性实验,达到了验证金融孤子理论及模型正确性的目的,进而揭开永恒的市场波动的神秘面纱。

关键词:金融高频数据;数据挖掘;金融市场;价格波动;金融孤子

 

1  引言

科学数据是自然界客观事物特性的表征。现代科学领域的数据都开始以越来越精细的时间刻度来收集,在频率上向可微分方向发展,在数量上正以指数级增长。自上世纪90年代以来,随着现代计算机科技手段在金融交易中的广泛使用,交易系统可以实时地提供市场参与者的交易数据,包括股票、汇兑、期货及其金融衍生品等,并且全部交易过程被实时的逐笔交易或逐秒记录(中国证券市场交易系统具备每分钟出10个数据的能力)和储存下来,这样就形成了金融高频数据(financial high frequency data),即达到可微程度,而且金融高频数据具有海量性,如分钟数据,在十年内可以达到1 000 000数量级 [1]

目前国内外高频数据研究主要是从统计物理学和数理统计学这两个途径展开的。金融物理学家基于非线性动力学(混沌、分形)原理取得了以下认识,在金融时间数据中建立了确定性混沌动力学系统,金融市场价格的多变是多种因素非线性相互作用导致的,具有混沌、分形的特性,提出了分形市场假说、偏离高斯分布的列维分布和渐近幂率以及标度性等,揭示了金融市场现象中的普适性、规律[2]-[4]。数学家和经济家基于线性的、完全理性的均衡范式,建立了如自回归条件异方差(ARCH)类模型、自回归条件持续性(ACD)模型等[5,6],但假设这个系统是可计系统,相当于热力学第二类永动机[7]在实际上无助于发现运动的机制。尽管这些模型从不同角度和层面考虑了金融高频数据的基本要素和主要特征,揭示了一些异常的市场微观现象但仍处于描述和分析的基础层面。

投机(投资)者的梦想和追求的目标是,能否有效跟踪和把握金融市场交易价格波动的趋势,特别是如何避免大幅的价格波动(暴涨或暴跌)带来的金融风险,实现“低买高卖”,并能持续稳定地增进自己的福利。实现这个目标的主要问题是金融风险管理,即对非线性金融市场价格大幅波动的定量分析和评估。非线性问题究竟有多难?金融市场的混沌特性注定了市场参与者进行的只是一种纯粹随机的“公平赌博”吗?显然,这个非线性难关是需要金融工程界来回答和解决的现实问题。

本文基于复杂系统理论,应用非线性动力学(混沌、分形、孤子)原理,采用问题导向研究方法(数据→模型→概念→实践),让数据说话,并不事先假设数据的模型,而是通过对金融交易市场高频数据进行空间重构、数据挖掘和数值分析获得非线性特别动力因子——金融孤子[8],发现其价格波动规律,建立与市场相适应的前瞻性的演化博弈模型,进而提出金融孤子的(非欧几何)构造新概念,经实盘交易股票G广控和期货燃油实践,实现价格波动演化过程中的可重复性实验,同时达到验证金融孤子理论及模型正确性的目的。

金融高频数据-建模-波动演化过程的重复再现性

信息社会中,面临浩渺无际的金融高频数据, 如何才能不被信息的汪洋大海所淹没, 并将数据转换成有用的知识,大多数数据挖掘工具目前仍无法提供必备的功能来“有效”支持海量数据的探索,人类期望着有一些能从数据汪洋中提取各种知识的理论和技术。

社会科学经济系统的金融市场交易系统提供的各种高频数据与物理学研究体系在时空结构上具有相当程度的严格对称性,不仅可反应出系统的演化过程和行为特征,包括所有的非线性效应,而且能够有效地描述参与者的行动过程,这些交易活动就是群体的高阶逻辑思考过程(信息)的反映[8]同时,为应用数学和物理学方法研究金融市场提供了切入途径,为开展金融市场复杂介质结构及其动力学响应奠定了前所未有的技术基础。事实上,金融高频数据为验证或推翻任何相关理论提供了手段和直接证据,并已成为科学发现和新理论创建的源泉。

建模基本思想是:各类市场参与者及其策略结构共同构成了开放的市场生态环境,且在混沌的市场状况下不断调整彼此关系及局部的非线性相互作用,而自发地涌现出的系统总体性状、结构与动力学行为。支配金融市场体系的相互作用力又是相对稳定的——交易体系的供大于求和供不应求产生一个指向该体系均衡价格方向的驱动力。因此,正确地解决金融交易市场是个力学应用问题:金融市场的涨落的物理本质是在某一区域的构成介质(市场参与者和策略结构)发生失稳,并伴随有应变能的加速释放(价格波动、暴涨、暴跌)。从力学角度,金融市场的涨落的孕育过程实质上是市场中参与者和策略结构发生相互作用,导致失稳的演化过程,即发生对称破缺过程,这个过程是一个力学过程。但是,解决金融市场预测有关的力学问题与工程中的力学问题有许多不同之处,通常力学问题的解决需要知道:本构关系、边界条件、初始条件以及某些物理量的变化历史。但是,金融市场的涨落的孕育过程中它们却是未知的或者不完全知道的。我们知道的只是市场中某些物理量的变化。根据这一思路我们提出了一个定量地表征金融市场涨落的孕育过程的动力因子——金融孤子。对现代金融市场交易数据(包括历史的和实时的所有盘面数据),如价格、成交量、时间区间等,进行多种特定的相空间重构和时间序列处理,在重构的高维空间中,构造非线性算子(因其追随价格波动的特性,此处被称为非线性特别动力因子,即金融孤子),并以连续数据不断支持着建模,实际上这是一种演化博弈模型。将无规则可寻的锯齿状价格波动映射成较光滑的函数曲线,运用鞅方法和不动点理论,以动力因子处理连续时间的市场价格波动(即所谓布朗运动),随机逼近股票、期货价格波动的相应低或高点,结合资金头寸管理的动态规划,最优化建仓、出货时机,最终实现在市场博弈中通过学习进化争当少数获胜者。

金融市场是一个演化着的复杂系统,每时每刻都进行信息(data)、能量(多空力量)与物质(信用、资金)的转换的属性。因此,该系统可以看成是由能量流、物质流、信息流所构成,这种结构是动态的,它要靠消化能量、信息和物质来维持,可以说是更高层次的自然现象。而每一个事件的涨落(波动)从孕育到发生,就是能量、信息和物质三要素的相互变化、协调和统一的结果,其演化过程的一种表示形式就是价格波动。作为一个事物,金融市场在运动形式上表现出的波动性是永恒不变的,而波动是可以重复再现的。且波动过程中存在一个守恒量——孤波(孤子),这是复杂系统体系下,相互作用之中的涌现(emergence)。作为非线性动力学三个主体(混沌、分形及孤子)之一,孤子具有宏观的波动-粒子两重性。由于现代金融市场具有典型的非线性动力学属性,显然,对其价格进行描述只能是一个非线性方程组,而非线性科学研究表明,孤波正是非线性方程的解。可积系统的孤波是非线性方程的行波解。又由于孤子有保持能量、动量不变而运动过一个宏观距离的特性,从而使它能把所吸收的能量和信息无损耗地传递下去,因此,金融市场中存在着一种新的物质与能量——孤子。不管金融市场怎么变化,只要找到孤子,并应用鞅方法和不动点理论,就可对价格波动进行有效跟踪。由此,可以应用与自然科学研究同样的方法和标准来研究金融市场价格波动(社会现象),绕开金融市场在时间的演化过程中可重复性实验的困难问题,实现在波动的演化过程中可重复性实验的目的。实际上,就是应用了与自然科学同样的方法和标准,当然这是在弯曲的金融时空层次上来进行认识的。

3  弯曲的金融时空

3.1 丘成桐紧致空间理想

    我相信非线性微分方程,几何稳定性和几何结构的交汇是一个很基本的问题,在未来的几十年里将会有深入的互动,更可以想象的是它跟物理学上的renormalization flow会有密切关系。当结构稳定后,我们希望将全部完成一个紧致空间,因此要引进半稳定结构的观念,而这些结构可以看做模空间的边界,也因此一般来说它们有奇异点,这种自然产生的奇异点是微分几何学里重要的奇异点,在这些空间上,研究它们的几何结构,规范场和子流形是很有意思的事情,往往经过singular perturbation后,我们对原来光滑的几何结构会有更深入的了解。[8]

3.2 流形的金融市场

市场参与者的有限理性、羊群效应以及策略结构的改变等因素导致了金融市场价格变化的时滞、过反应现象,实质上是微观部分的交互作用和变化导致了宏观系统的演变。Robert J. Aumann建立了完全经济状态下参与者连续统模型Continuum Model,证明了价格的瓦尔拉斯竞争均衡(Walrasian Competitive Equilibrium)的存在[9]。作者根据金融交易市场数据记录中的其他变量分析某个连续变量的值,即建立物理问题的数学模型对流形的金融市场系统的演变过程作出定量化的结论。

3.2.1 主纤维丛上的联络

维光滑流形 上的 -主丛, 。李群 是自由地右作用在丛空间 上的李氏变换群,而且, 上的这种右作用保持 的纤维不变。 是丛空间 上的一个 维光滑分布,即 上的一个光滑的 维切子空间场。在一定条件下,则 -主丛 上的一个联络。

主丛 上的一个联络就是在丛空间 上在李群 的右作用下保持不变的一个水平分布。

3.2.2发现金融市场的Yang-Mills泛函

是紧致黎曼流形 上的主纤维丛, 是它的伴随丛, 是结构群 的李代数。在 上取定一个 不变内积 ,则有向量丛 上的黎曼结构 ,使得对于任意的 的任意的

                                 (1)

其中, 上的单位正交标架场, 。由于 不变的,(1)式右端与 的取法无关。于是,对于任意的 ,它们的(整体)内积可以定义如下:

                                                  (2)

同时,如果令 ,则有

现设 是由主丛 上的所有联络构成的空间, 是联络 的曲率形式,则 是主丛 上的 2次张量形式,因而可以视为向量丛 的光滑截面。

定义 ,则由 确定了一个映射(泛函) 。对于给定的 ,若 Yang-Mills泛函 的临界点,则 是主丛 上的Yang-Mills联络。 的曲率形式即为黎曼流形 上的一个Yang-Mills场,且众所周知,其满足泛函所对应的Euler-Laglange方程。

 

4  金融高频数据的应用

上述研究是通过对海量的金融高频数据的数量关系,进行有效的数据挖掘;在重构的高维空间形式中应用了微分流形的描述语言;构筑了由连续数据不断支持的演化博弈模型;并基于广义庞加莱猜想和Yang-Mills规范理论,求得了梦寐以求的、极具穿透力而又富含信息价值的孤子解;由此,似乎已经进入到了真实的金融世界,好似亲密切触到的正是上帝的脉搏。然而,这一切还必须接受实践的检验,实践是检验其理论正确性的唯一标准。

对金融市场交易价格波动带锯齿状的K线走势轨迹进行映射(Hm,可获得比较光滑的波动曲线。在其波动曲线上存在有谷转捩点(B)、峰转捩点(D)和拐点(C),即皮卡不动点存在。现代金融交易市场海量的高频数据确保了函数的连续性,以金融孤子处理连续时间(t)的市场价格波动(即所谓布朗运动),随机逼近其波动的相应低或高点(图1)

一个事件涨落从孕育到发生的波动演化过程可以描述为:假设,现在所跟踪的金融孤子在波动曲线A点,且市场演化将继续保持下降趋势。由A点给出的数据可以求出此处的斜率值,同理,由连续时间内的数据可以求得过A点后的连续斜率值,其值将是越来越接近于零,下降动力越来越减弱;B点(谷转捩点)处斜率 ,此处的下降动力耗尽;过B点,演化趋势将发生反转,由下降趋势转变为上升趋势,随着继续上升演化,其连续斜率值越来越远离零,上升动力不断增强;随后,到达C点(可能存在),即拐点 ,此处上升动力最强;过C点,继续上升,连续斜率值又开始逐渐变小,越来越接近于零,上升动力也越来越变弱;最后到达D点(峰转捩点), 上升动力已经耗尽,过D点演化趋势发生反转,开始变成下降走势,随后进入下一个非周期性波动循环;在B点和C点区间,为时滞(有限理性);在C点和D点区间,为过反应(羊群效应)。结合资金头寸管理的动态规划,最优化建仓、出货时机,最终实现在市场博弈中通过学习进化争当少数获胜者。

 

D

C

B

A

Hm

0

t

文本框: 时滞文本框: 过反应

1  价格波动轨迹映射:几个关键点及波动曲线其演化示意图

 

长期以来,受莫里斯·肯德尔(1950)股价随机游走[10]观念的影响,人们将股票(期货)市场价格波动看成是连续时间内的布朗运动。应用金融孤子可以得出了一些不同结果,即价格波动的有限尺度布朗运动,它是指在证券期货市场中,追踪价格波动的一种操作性概念,具体来说,是根据交易市场高频数据所构造的空间时序结构,选择与其相匹配的尺度并进行划分和变换,应用分形原理发掘标准布朗运动中的关联增量过程,从而发现相应尺度的有偏随机游走的趋势(上鞅或下鞅)。本文对中国金融市场股票G广控和期货燃油进行了实盘交易测试,应用金融孤子有效地跟踪价格波动趋势,波动峰、谷值可推算逼近、辨识和确认,实现“低买高卖”(表1,图2,表2,图3)。

1  股票G广控实盘测试成交数据

股票名称

买卖

成交数量

成交价

盈亏

发生日期

G广控

买入

10000

4.140

0.00

20060221

G广控

卖出

8400

4.280

1008

20060216

G广控

买入

8400

4.160

0.00

20060118

G广控

卖出

5000

4.070

650

20051216

G广控

买入

5000

3.940

0.00

20051128

G广控

卖出

10000

4.660

4900

20050920

G广控

买入

10000

4.170

0.00

20050913

 

G广控(600098

2  股票G广控(600098)实盘交易测试示意图

2  期货燃油0603→0604→0605实盘测试成交数据

交易日

合约

买卖

投保

成交价

手数

开平

平仓盈亏

20051130

[A]fu0603

2911.00

15

0.00

20051202

[A]fu0603

3070.76

45

0.00

20051202

[A]fu0603

2980.00

15

10350.00

20051212

[A]fu0603

3107.14

35

23400.00

20051229

[A]fu0603

3055.14

5

0.00

20060106

[A]fu0603

3103.00

15

9400.00

20060106

[A]fu0604

3107.00

15

0.00

20060206

[A]fu0604

3585.47

15

71770.00

20060206

[A]fu0605

3589.00

10

平今

400.00

20060206

[A]fu0605

3562.57

35

0.00

20060207

[A]fu0605

3504.00

5

0.00

20060207

[A]fu0605

3530.00

5

平今

1300.00

20060207

[A]fu0605

3499.00

5

4300.00

20060216

[A]fu0605

3318.25

20

45500.00

 

燃油0603→0604→0605

卖平

卖平

买开

卖平

买开

卖平

买开

3  期货燃油实盘交易测试示意图

 

本实验实际上是一种在市场自然状况下,作为主体(市场参与者)的直接参与体验,这种参与确实对其市场结构有所改变(相互作用),尽管在整体(宏观)上是微小的金融孤子之所以能够有效跟踪股票和期货的价格波动,是因为充分考虑了以下因素:(1)被研究体系的对称性破缺、临界性以及量子凝聚。(2)体系的能量自陷,即孤子的出现总是伴随着系统的能量降低,且此能量转化为孤子形成的束缚能。(3)孤子的形式完全依赖于系统的运动状态,色散效应,非线性作用,关联耗散。也就是说金融孤子具有各自相对的独立个性。这一市场机理,可能决定于市场操作者的有限理性、羊群效应等因素,因此而导致价格变化的时滞、过反应现象。从而永恒的市场波动的神秘面纱正在被揭开,完全市场经济环境中投机获利机会将长期存在。当然,如果市场存在过度的信息操纵和内幕交易,导致金融生态环境恶化的情况下,其有效应用将受到相当程度的限制。

6  结语

迄今,复杂系统领域诸如气象、地震、航天、军事等的发展说明了这样一个事实,复杂系统理论和应用问题的解决必须依赖于非线性动力学建模,而非线性动力学建模的关键是高频数据。其中气象已经成为典型的范例,由于构建了卫星、气球等先进的数据采集系统,使得连续高频数据不断支持着建模,因此,可以成功地进行短期的天气预报。而地震领域由于缺乏这样的数据采集系统,无法获得高频数据,而不能有效地支持建模,估计在相当长的时间内都难以实现地震预报。令人庆幸的是,当代电子计算机交易系统使得金融市场随时间的演化可以被连续地大量地观察记录,并已经存在大量记录的高频数据和金融数据仓库。金融市场交易数据的海量性、高频性、共享性、统一性及经济性等已经发展到了相当高的水平层次,不存在全球化信息的垄断问题,也不存在发达国家与不发达国家之间的“数字鸿沟”问题,这是其它任何学科领域都不可比拟的

应用金融孤子新概念对中国股市和期市的实验研究中发现,在市场经济体系下,信息价值(投机)淹没在市场盘面的高频数据之中,通过有效的数据挖掘(Data Mining)从而实现数据库中的知识发现(Knowledge Discovery in Database),具有信息不对称情况下的信息黑箱可视化(Information Black Box Visualization)意义。市场和价格机制,是唯一可能的途径,让每一个人都能够在不知道他人知识的情况下,仍能够利用他人的知识提升自己的金融交易水准,并带来一定的交易收益。

 

参考文献

[1]张建玮,王正行. 经济物理学一瞥,物理照亮世界.赵凯华编. 北京:北京大学出版社. 2005,第一版,154.

[2]埃德加·E·彼得斯. 资本市场的混沌与秩序.王小东译.北京:经济科学出版社,1999: 64-83.

[3]埃德加· E·彼得斯. 分形市场分析——将混沌理论应用到投资与经济理由于论上[M].储海林,殷勤.北京:经济科学出版社,2002: 38-47.

[4]Mantegna R N, Stanley H E. An Introduction to Econophysics: Correlations and Complexity in Finance. Cambridge, England:Cambridge University Press, 1999.

[5]Engle R.F., Autoregressive Conditional Geteroscedasticity with Estimates of the Variance of United Kingdom Inflation. Econometrica. 1982, 50:987-1007.

[6]Engle R.F. and Russell J.R. Auto-regressive Conditional Duration:a New Model for Irregularly Spaced Transaction Data. Econometrica, 1998, 66:1127-1162.

[7]陈平. 文明分岔、经济混沌和演化经济动力学.北京:北京大学出版社,2004: 249-389.

[8]丘成桐,孙理察. 微分几何讲义,北京:高等教育出版社,2004,第1版,400.

[9]Robert J. Aumann. Existence of a Competitive Equilibrium in Markets with a Continuum of Traders. Econometrica, 1966.

[10]Maurice Kendall. The analysis of economic time series, part I: prices. Journal of the Royal Statistical Society. 1953:96.

 

 

 

全文见:中国金融电脑,2006,10:33-35。

欢迎光临长沙非线性特别动力工作室

http://solitonfund.blogchinese.com/