(陆铭)再谈“把实证研究进行到底”
再谈“把实证研究进行到底”
──经济学研究谈话(之四)
陆 铭* “把实证研究进行到底”是 04 年的时候我写过一篇文章,这文章发表在《经 济学家茶座》上,引起了一定的反响,出乎我的意料,也说明实证研究在中国越 来越受到重视。在这个时候,的确需要一些这样的文章来帮大家澄清一下对计量 的一些认识。 今天,我特别想帮大家清除几个误解,这几个误解也恰恰是我在和同学接
触 的过程当中,从同学嘴里讲出来的误解,所以不是我生造出来的。 第一个误解是, 实证研究就是应用性的, 应用性的就不够学术, 没什么价值, 好像就是回答了一个现实中的问题,发现的结论好像是我们都知道的。 第二个就是大家都会经常讲的一句话,实证研究好做,比理论研究容易做, 理论研究做不下去了就做实证研究。讲到这里,这个寒假刚刚迎来了我原来的一 个学生,现在比利时鲁汶大学读博士,她最近做的工作和 social economics 有关 系,做的是理论。我们在寒假碰到的时候就谈,我就问她,为什么你这个课题不 做实证呢?她说实证太难做了。所以我想,在某些问题上,不是像大家所想的, 理论做不了就做实证,可能正好是反过来,是实证做不了去做理论。我等会儿还 会讲实证和理论的关系, 我会告诉大家, 理论和实证都非常重要, 而且是互补的。 第三,同学们常常认为实证研究很简单,只要把数据往电脑里一放,结果就 出来了,就可以写文章了。有一次,一位同事不无自嘲的地说了这样一句话:觉 得很心虚, 因为数据不是自己收集的, 我们用的很多大样本数据都是别人收集的, idea 也不算新,不是自己的,然后程序都是现成的,stata 都是编好的。之后我们 就把不是自己收集的数据,也不算太新的 idea,往 stata 里一放,就出结果了, 觉得很心虚。 而我们的同学觉得经济学研究的高手应该是满纸数学符号加上自己 编的程序,再画出非常 fancy 的图形,这就是水平高。 第四个误解是,很多同学认为现在我们研究中国问题,应该做理论,因为理 论和国际接轨。特别是对于初学者来讲,考经济学的硕士和博士的时候,都是考 的微观和宏观,然后一年级上课的时候上的大量都是微观和宏观的理论,所以你 们就觉得那就是经济学的主流,只有做这个才上档次,哪怕做中国的研究,也应 该把中国的问题写成数学,甚至干脆就不做与中国问题有关的研究。那是不是这 样呢?是不是中国的经济学研究就应该首先做理论呢? 今天接下来我要讲的这几个问题就想尝试着去清除在大家脑子里面的几个 误解。我今天会讲这么几个问题:第一个,我们为什么要做实证研究?第二个就 是,实证跟理论,包括思想是一个怎样的关系?第三,实证研究跟中国经济学的 发展又怎样的关系?第四,如何完成一项实证研究? 一、为什么要做实证研究?
作者为复旦大学经济学院副教授,就业与社会保障研究中心、中国社会主义市场经济研究 中心研究员。本文是作者在“截面和面板数据分析”一课上的第一讲。感谢李爽将其整理成 记录稿。
1
*
实证研究在现代经济学研究和发展过程中的功能我想有这么几个: 第一,实证研究是用来检验理论的。因为对经济学家来讲,我们有太多的理 论,但是在现实中哪个理论正确与否,更重要或更不重要,其实离开了实践,我 们是没有办法知道的,这是实证研究重要的第一个方面。而且从经济学的科学化 的道路来讲,大家知道,第一届的诺贝尔经济学奖就是发给计量经济学家的,最 近这几年也是连着发给计量经济学家。大家知道,对于科学来讲,一个重要的标 准就是它可以被证伪, 那我们怎么知道理论是正确还是错误的呢?经济学家实际 上大量地依赖实证研究来使经济学成为一门可以被证伪或者证实的科学。 第二,to challenge the theory(挑战理论) 。当一个理论产生以后,大家知道 特别是数学建模的理论, 一旦数理逻辑建立起来, 它就有自恰性和逻辑的科学性, 因为它依赖于数学,数学的逻辑是严密的,所以它在一定意义上是正确的,但是 有时候, 我们看一个理论会发现, 当它得到的结论是 x 和 y 是正相关关系的时候, 我们觉得现实生活中好像不是这样的。那么可能存在的问题就是,既有的理论没 有正确地捕捉现实中的这个关系, 或者说没有捕捉到 x 和 y 的关系中更重要的方 面。 那我们怎么知道呢?经济学就依赖实证的方法来看 x 和 y 到底正相关还是负 相关?如果确实是这样,那么就说明既有的理论在很大程度上可能是正确的。在 这个层面上,计量经济学、实证研究和理论研究的关系就像实验物理和理论物理 一样。 第三就是去发现一些净效应。我们知道,很多理论,特别是现代经济学理论 已经非常庞杂,关于变量和变量之间的关系有不同的理论。有的理论认为 x 和 y 正相关,有的理论认为它们负相关。大家知道,在做政策的时候就需要知道 x 和 y 到底是正相关还是负相关?每一个机制在理论上单独来看可能都是对的, 但 对于制定政策的人来讲,如果不同的机制所预测的 x 和 y 的关系是相反的,那就 需要知道,一旦这个政策下去,影响到底是正的还是负的?理论是不能帮我们回 答这个问题的。不同的理论得到的方向完全可能是相反的,而且现在的经济学研 究在很多问题上都可以想出不同的机制,使得在这个机制下两个变量正相关,在 那个机制下负相关,而且做理论的很多人往往喜欢标新立异,大家都认为 x 和 y 正相关,他就写一篇 paper 认为二者负相关,这是在国外发文章的捷径。现代经 济学的理论, 已经有非常多的理论经济学家在做这样的工作来揭示 x 和 y 的关系 的不同机制。那我们在看现实世界的时候,就可能被这些理论搞糊涂了,它们到 底哪个更重要?这个问题如果离开了计量经济学, 我们也没有办法知道净效应到 底是正是负? 第四个方面,我们再往前走一步,x 和 y 的关系,x 和 z 的关系,在理论上 很清楚,但实证研究能告诉你哪个效应更强。大家知道在做政策的时候,比如有 一笔 100 万的预算,我们就需要考虑这笔钱到底用来干哪件事情?比如,现在国 外有个很著名的争论, 就是教育的发展至少可以提出两个办法, 第一是培训师资, 第二就是缩小班级的规模,因为大家认为如果班级大了,每一个学生得到老师的 关注就少了,这时候学生的成绩就会下降。那么对于政府来讲,就需要考虑,这 100 万到底去做哪件事情?且不说师资和学生之间的相关性,班级的规模和学生 之间的相关性,到底是正是负,是否显著,这件事情本身就不确定,就算是确定 的,政府也需要知道应该把这笔钱花在缩小班级规模上还是提高师资水平上,做 哪件事情更划算?所以,我们就必须知道,在大样本的观察下,去做这件事情对 学生成绩的提高程度有多大?对计量经济学家来讲, 一个非常重要的目标就是要 准确地让计量的结果的系数要符合真实的效应的大小, 这样就可以把一个计量分
2
析里面的不同政策变量的效应去做比较, 这就有利于政策效应的提高和资源配置 效率的提高,有利于改进人类的福利。而这个工作,是理论没有办法告诉我们的 事情,理论没有办法告诉我们这个效应到底有多大。 第五,在现代经济学的前沿研究中,更为重要的是去 identify 这个机制,特 别是在很多宏观的研究里面,我本人也做一些宏观的研究,比如做过不平等和增 长的研究,有那么多的理论说这两者是负相关的,也有一些理论说是正相关的, 我们现在的工作到了哪一步呢?实际上我们是看 net effect,在不同的理论机制 下,我可以告诉你,二者总体上是负相关的。但是,还有一个很难的工作就是, 这个负相关到底是因为什么导致的?实际上在我们的研究里我们是不知道的, 但 是计量经济学很难做的一个工作就是要告诉大家到底是什么机制在起作用?在 理论上可能有好几个机制会告诉你这两者是负相关的, 但到底是通过哪一个机制 起作用的呢?这个机制的 identification 的重要性就在于,在做政策的时候,知道 对什么样的机制去做政策?而这是非常困难的。因为在收集数据的过程当中,很 难区分出这样的机制。特别是在开始做计量还不是很有经验的时候,往往就想去 看看 x 和 y 之间的关系。在做计量的时候,在收集数据的时候,只考虑 x 怎么度 量, 怎么度量, y 然后把这数据往机器里一放就可以了, 但我们可能很少会去想, x 和 y 之间的中间变量是什么呢?我们可能就会忽略掉这些东西,那最后就没有 办法去看到底这些中间机制是什么了,这样就使得研究的档次上不去。而这些工 作需要在做实证研究之前, x 到 y 的各种各样的机制要有一个全面而清楚的了 对 解,并且在做问卷的时候就需要知道,怎么利用一些方法把各种机制独立开,必 须要非常清楚地, 让大家可以确信地认为你所看到的这个机制是非常干净的。 “干 净”这个词是一个比较通俗的说法,它是指在我看到的 x 到 y 的关系里面,我可 以让你确信,就是因为我说的这个机制,而不包含其他的东西,要达到这一点就 有很多的方法。 第二个我要讲的问题是, 我们处在经济学发展的历史当中的一个什么样的时 点呢?我要跟大家讲的第一点就是, 经济学整个理论分析的架构已经基本上完善 了,这意味着在经济学理论的进展上已经很难有重大突破,这就使得实证研究成 为全世界研究的潮流的一个重要原因。我这里要提到陈志俊,他是做产业组织理 论的,学物理出身的。我想我刚才讲的这句话可能从我嘴里讲出来你们不太信, 因为我现在很多工作是在做实证。他上学期来复旦,seminar 完了之后我们在一 起吃饭时他就讲,经济学的发展已经差不多了,所以大家现在就该用了,他说了 这样一句话,“有的时候我觉得数学太好是害人的”。这句话特别值得数学好的同 学去琢磨。 第二点, 在有一些研究领域里面, 我们有太多的理论, 但是经验的证据不足, 而这些研究领域里面,现在前沿的领域往往由实证研究所推动。那么有一些什么 样的领域呢?我等会儿还会反复再讲到这几个,第一个比如说 IO,经验的 IO 现 在成为了 IO 研究的前沿领域。还有一个很有代表性的研究领域,就是 personnel economics,人事管理经济学,现在也是经验的研究非常热。 第三个方面就是,应用的微观和政策的评估。现在在全世界范围之内,政府 的公共部门都非常庞大,而且如果看政府的公共开支在 GDP 中的比重,它在发 达国家中是上升的,那么大量的公共开支到哪些地方去了呢?到 labor market, health, education 这几个领域里, 在这些领域就碰到我刚讲的问题, 一个政策下去 到底有没有效果?哪个政策效果更大?政府也希望了解这个。 比如我刚讲到小班 的例子,这是一个非常好的例子,我也很喜欢举这个例子,在美国,每年有巨额
3
资金投入到缩小班级规模这件事情上。因为大家知道,班级规模缩小需要增加师 资、教室、硬件,所以联邦政府州政府把大量的钱投在里面,但这件事情是不是 真的像我们想象的那样会改进学生的成绩呢?这是不一定的, 因为在一个有选择 的社会里面,如果要是有一个班是小班,一个班是大班,大家马上就想到,谁会 去选择读小班?往往就是富人,因为他有钱,还有就是父母的教育程度高的家庭 也会觉得小班好,所以就会让孩子去读小班,于是就会看到小班的成绩好。但是 小班的成绩好是不是因为父母有钱呢?是不是因为父母的学习成绩就比较好 呢?还是因为班级规模缩小导致的呢?所以凭我们的肉眼观察到的, 小班的同学 成绩好,这不说明任何问题。如果这个政策没有效果,你要知道,给政府节省下 来的钱,不知道可以造多少航空母舰了。那么在这样的研究里面,政策评估所起 到的对于人类福利的改进,对于社会价值的创造就远远大于一个单纯的理论研 究。 所以, 为什么应用的研究和政策的评估如此之重要?很多人觉得文科好像没 什么用,文科就是大家拍拍脑袋,想想 idea 就可以了。现在的实证研究已经可 以为增进社会福利,提高资源的有效性,起到非常重要的作用。那么反过来看中 国,我一直讲的一句话就是,有政策无评估,我们做了大量的政策,我们有没有 评估?我们知道不知道这些政策有没有效果?我们不知道。 在经济学最近十年左右的时间里面,有一场新的热潮出现在三个领域,我也 一直在讲,一个是比较经济学,一个是政治经济学,实际上是新的政治经济学, 还有就是社会经济学。我这里特别要强调比较经济学和新政治经济学。新的政治 经济学的一个新的研究方向, 就是要去看各个国家的政治结构和政治制度对每一 个国家的经济增长和绩效有什么样的影响,所以新的政治经济学的兴起,本身就 带有比较的视角,那么这就马上带来一个问题,是不是不同国家的社会和政治结 构对经济的绩效和增长有不同的影响?这个问题首先是一个实证问题。 因为在理 论发展之前,我们首先要确认的就是我刚才讲的这个事实,如果它不能被确认, 那就不要去做理论了,就无所谓我们讲的 comparative economics 或者 new political economics 了。 大家现在学经济学理论,学微观宏观理论的时候,你们会在你们的教科书上 看到很多诺贝尔奖得主的名字,于是大家就有一个误解,就觉得这些代表了经济 学的前沿方向,代表了主流经济学的研究方向。我要提醒大家的是,你们在微观 宏观里面,特别是在公共课里面的微观宏观,而不是专业的微观宏观 seminar 或 workshop 里面所学到的,都至少是二十年前的东西。因为诺贝尔奖通常都授予 二三十年前的成果。你们更应该关注克拉克奖,去看看克拉克奖得主最近在做什 么东西,看看那些在世界经济学界处在最前沿位置的人在做什么东西。我列举几 个名字给大家听听,这些人我不能说他们是做实证研究的,但是我必须要说他们 大多是既做理论也做实证的,而最近的工作很多集中在实证上面。有些什么样的 人呢?Murphy, 现在在 Chicago, Becker 的学生。 Levitt, 前几届克拉克奖的得主, 他很有趣,他在读博士的时候有个笑话,他上课上到微观经济学的时候,问他的 同学什么叫全导数?他的同学看着他说,你死定了。可是就这样一个人最后得到 克拉克奖。他的工作完全是实证,待会儿我会举到他的例子,比如他会去看堕胎 和犯罪之间有什么样的关系?还有政治商业周期在实证上是否可以证实?再接 下来的两个人现在都大名鼎鼎了,我估计未来也可能是诺贝尔奖得主。Shleifer 和 Acemoglu,这两个人一个在哈佛,一个在 MIT,而且这两个人都是研究理论 出身的,Shleifer 以前做 corporate finance 的,Acemoglu 主要做 labor economics
4
的,尤其是 human capital, 最近这几个人大量的工作在做实证,而且这两年他们 最著名的一项实证研究,也是引起这两个人争论的一个研究,就是 institution and growth,制度与增长之间的关系。还有一个人还没有得到克拉克奖,但是我觉得 他完全够格,他也是 Becker 的学生,Edward Glaeser,这人也在哈佛,他也做理 论, 但他最近大量的工作也在做实证, 比如 social economics,还有就是在 institution and growth 方面他也做过,这人什么都做,d 城市经济学里也执一方牛耳。你们 看看这些人的研究工作就知道国际的前沿在什么地方。 二、实证和理论有怎么样的关系? 我今天站在这里讲实证的课,我会跟大家鼓吹实证有多重要,但这并不意味 着理论不重要。有一次上课,有一个同学听见我讲了这句话以后就问,陆老师, 你实证重要,到底理论重要还是实证重要?我说,现在还有人问这样的问题啊? 如果有个人告诉你,理论比实证重要,你就把他当疯子就可以了。理论和实证都 重要,我今天讲实证重要,并不意味着理论就不重要了,相反,理论非常重要。 那么理论和实证之间到底有什么样的关系呢?我先讲两句话给大家听听, 这话都 不是我的话,是别人说的,我来转述一下。 第一个是我的同学, 现在在加拿大女王大学, 丁维莉。 她有一次讲到一句话, 她说我为什么把实证研究来作为我职业的选择呢?因为有一次在开国际会议的 时候, 有两个搞理论的人争得不可开交, 后来有一个实证经济学家说你们别吵了, 我给你们看看证据,于是理论经济学家就不吵了。她说从那以后她就坚定了自己 做实证经济学的信心。 还有一个就是我刚讲到的我的一个学生,现在在鲁汶大学,叫纪月梅。这次 寒假的时候,我也跟她讲,面对很多来自于学生的困惑,就是学生不重视实证, 觉得实证很简单,很好做,理论做不了再做实证。她现在做理论,但她在听我讲 这句话时眼睛充满了惶惑,她心想复旦的学生怎么会这样,然后她就讲了这样一 句话,“我觉得实证经济学家应该多看理论文章,而理论经济学家应该多看实证 文章”。为什么呢?大家想想看,什么叫经济学?我借用王永钦老师的一句话说, 经济学理论不在于创造,而在于发现。经济学家有没有这样一个本事,说我们来 创造一个理论?经济学家没有这样的本事, 他们的本事在于发现现实生活当中存 在的规律是什么?那么什么是规律呢?规律无非就是去解释,x 为什么会导致 y?那么在这之前, 你首先要知道 x 导致了 y, 于是你才去解释为什么 x 导致了 y。 所以实证经济学对于理论来讲,就可以帮你提炼出在这个世界上所存在的事实。 就在这个礼拜二,在图卢兹读博士的李婷到我们学院来做 seminar,她是做理论 的,她说,“我这次回来,觉得在中国可以做的东西太多了,我每天看报纸看新 闻,我就跟我妈讲,好多事情都可以做一篇文章。”她讲的是什么意思?其实理 论经济学家的灵感是来自于对现实的观察。 报纸是一种观察, 电视也是一种观察。 而实证经济学家可以做的是提供一种更加科学的,可以被大家确信的观察,如此 而已。计量经济学家基于大样本的数据和科学的方法所得到的结论,更加可信, 如此而已,所以他可以给理论经济学家提供事实基础。 我刚才讲了实证对于理论为什么重要, 那接下来要讲的是实证也必须要基于 理论。这里我就要反驳大家一种观点:你们看大量的计量文章的时候,看到的是 计量经济学家把 10 几个变量往方程右边一摆,就出结果了,反正 stata 都会自动 报,在写文章的时候就说 x 和 y 正相关,x 和 y 负相关,就 ok 了,不是这样的。 实证研究必须基于理论。 当然我这里讲的基于理论并不一定是指基于那些已经发
5
表的数学模型的理论,不是这个意思。你在做实证研究的时候,一开始,从变量 的选取到变量的度量,再到模型的设置,都必须要基于理论,或者说得更通俗一 点,必须要有理论基础,要能说出为什么,否则你要提高计量方程的 R 2 非常容 易,就一次项放了放二次项,二次项放了放三次项,三次项放了放四次项,…… 可是有什么意义?如果这样去做计量,没有意义。在放每一个高次项的时候,为 什么变量间是这样一个关系,我们根本不知道,因为现在的经济学理论如果告诉 我们变量之间有一个非线性的关系,通常在二次项的时候就停止了,很少有人告 诉你还有三次项的关系。 第二个方面,就是避免 data mining。你们以后在作实证的时候会发现,经常 会碰到这样的情况, 一个结果出来以后发现跟事前预期不对, 有的时候是不显著, 有的时候是你以为是正的,结果出来是负的。有一种做法称之为 data mining,就 是试,不断的试,不断的加变量减变量,不断的增加二次项三次项,或者减掉二 次项三次项,再加个 log 项,然后再加个交互项,然后把数据的度量从 FDI 变成 trade,……从这个意义上来讲,做计量的人都知道,计量可以帮你得到你想得到 的任何结果,这就是 data mining。如果计量都这么做,那太可怕了,那我们就不 要去做计量了,事先就已经知道结论了。那么怎么来避免 data mining 呢?在具 体做计量之前,你已经有一个理论的判断,然后再去做一个计量,一时发现得到 的结果跟理论判断不一样,这个时候你要小心,你首先要去想为什么?是什么地 方出了问题?之后再把问题找到, 根据你找到的为什么会出现问题的原因再去调 整你的模型和数据,这就不是 data mining。在实际操作的过程中,data mining 和我讲的根据理论判断去调整数据和模型之间的界限是很模糊的, 但只有严格按 照理论的指引得到的结果才是经得起检验的。在现在的学术制度下,你如果只是 凑结果,而犯一些非常明显的错误,是不可能发表成果。 第三,──可能这话稍微有点过分,──对于理论经济学家,你可以片面而深 刻, 但对于实证经济学家来讲, 必须全面, 而且悉心洞察现实。 大家知道做理论, x 和 y 之间的关系或者相关性,有很多种可能。对于做理论的人来讲,其实他们 的工作就是讲一种可能的机制就行了。如果你希望自己的模型复杂一点,丰富一 点,可以多讲几种机制,但不需要把 x 和 y 之间所有的机制在一个模型里全讲清 楚。所以从某种意义上来讲,理论经济学家可以片面的深刻,但做计量经济学就 不能这样了,因为当你遗漏掉一个重要的机制或者重要的变量的时候,首先就会 出现系数估计的偏误。所以对于计量经济学家来讲,在想到要做一个问题,接下 来要去选数据、建模型的时候,必须事先对文献非常熟悉,就是理论经济学大概 做过什么,有一些什么理论?前人在做类似的工作的时候怎么设模型,怎么选数 据的?之后再做自己的工作。这个时候,遗漏掉任何重要的变量和文献都是非常 危险的。 接下来要讲的问题就是,数理的模型和计量之间的关系。现在有一种看法是 说,计量之前要先写一个数学模型,这样才上档次,不是这样的。如果你的计量 模型可以建立在数学模型的基础上,我只能说这更好,至少是好于或等于没有数 学模型。但有的时候它不是一个必需的东西,而且我特别要反对的是,大家为了 追求计量模型前面要有一个数学模型,就硬摆一个数学模型在那里。我碰到很多 文章,前面的数学模型跟后面的计量模型根本对不起来。那么,什么时候数学的 工作在计量之前不是必需的呢?我列举这样几种情况: 第一,理论已经有了,可以直接去检验,这个时候你的创新就是提供证据。
6
比如说,在理论上,在美国教育经济学界,大家都认为学校间的竞争有利于提高 学校的效率,于是会对学生的表现有正面的影响,理论上大家都认为是这样,但 事实上是不是这样呢?你不需要有数学模型的,只需要直接去检验就行了。而且 现在在做的这方面的工作都没有数学模型,这也成为教育经济学研究的前沿问 题。 第二,我们已经有足够的互相竞争的理论,我们就去检验一下到底哪个理论 更重要?比如我刚才讲的,我们自己也做的,不平等和增长之间的关系。有人讲 是正的,有人讲是负的,那我们把它们放在一起,看看到底是正是负。有人讲短 期是正的,长期是负的,那我们也把它们放在一起,看看短期和长期是不是有这 样的差别。 第三,如果机制已经非常清楚,并不需要什么东西都写成数学模型,数学模 型是帮助我们看人脑可能看不清楚的机制的。如果人脑的思路已经够清楚了,就 不需要数学模型了。比如说,在 social economics 或者教育经济学里面有这样一 些课题非常热,第一个是 peer effects(同群效应) ,说的是你的成绩受到你同学 的影响。比如在同学中会看到喜欢学术的往往是同一个寝室的,大家相互影响就 都喜欢学术了,喜欢打电脑游戏的也住在一起,这就是 peer effects。那么这个东 西我们是不是要用一个数学模型去写, 为什么喜欢游戏的人会影响到周围的同学 呢?对于做实证经济学的人来讲,大家都觉得这件事情可能是存在的,我只不过 是去 identify 到底是因为人们住在一起以后才受到了 peer effects,还是相同类型 的人事前就选择住在一起。对于实证研究来讲,更重要的是这个问题。 第二个例子,大家知道在现实世界中有所谓居住区的分割,就是穷人和穷人 住在一起,富人和富人住在一起,然后有人就说,当存在 social interaction 的时 候,由于穷人和穷人在一起,大家都相互有负面的影响,富人和富人在一起互相 也有负面的影响。于是穷人的人力资本的积累就减慢了,他们的失业概率就提高 了。可是这里面就碰到实证上一个很大的问题,你观察到的这种现象到底真的是 因为 social interaction 导致的,还是事先对人力资本都不偏好的穷人选择住在了 一起?这也是我们不知道的。 这个东西需不需要数学模型呢?对于实证经济学家 来讲也可以不写,因为更重要的是去 identify 到底是哪种情况导致的?人和人住 在一起就会相互受影响对于实证经济学家来讲不需要去写数学模型。 第三个我要举的例子就是 social multiplier。大家知道在经济学很喜欢乘数, 比如凯恩斯乘数,就是一点点货币政策、财政政策可以通过凯恩斯乘数放大。现 在社会经济学的发展里面就提出这样一个新的概念叫 social multiplier。就是说如 果人和人之间的相互影响是存在的话, 那么一点点政策的效果就可以通过人和人 之间的相互影响而不断放大。比如上海市有一个项目叫“百万人学礼仪”,就是政 府投入一笔钱来让大家提高礼仪修养。大家想,你学了这些礼仪之后回到你的社 区或者同事里面,你可能就会影响到他们,大家会觉得怎么这个人穿得好了或者 吃饭的样子好了,他就会来学你。那么这种效应不需要通过政府的政策实施就会 存在,所以你在去评估整个政策效果的时候,你看到的是最终效果,这个最终效 果除以政策直接作用的那个人的效果就是这个 social multiplier 的大小。 在实证上 这个 social multiplier 到底存在还是不存在?到底有多大?这个也成为实证研究 上非常前沿的课题,这个也不需要数学,因为我们都知道这个事情要么存在要么 不存在,就通过人和人之间的互动就产生了。 在有一些研究课题里面, 实际上经济学家已经出现理论经济学家和实证经济 学家的分工,就象物理学家已经分工为理论物理学家和实验物理学家。这个时候
7
如果你的比较优势是在实证方面,你不需要去做理论经济学家应该做的那些工 作。因为在某些研究领域里面,理论经济学家所用到的那些工具和实证经济学家 所用到的工具相互的进入成本是非常高的。我举个非常简单的例子,social network。社会网络的计量有一套方法,但是对于社会网络的形成的数理建模用 到的数学工具是图论。我不知道什么是图论,我只知道这个词。在我做的工作里 面,我也会去做 social network 的形成和影响。但我要去做 social network 是如何 形成的理论工作,对我来讲就是找死了。所以像这样的领域里面,你进入的时候 就应该清楚你想做什么样的经济学家, 这并不意味着那些会用图论的就比那些不 会用图论的更加高明和聪明。因为对于那些做理论的人来讲,他也不知道这些东 西到底在现实里有没有。这时候你要定位自己是一个实证经济学家,你就大胆去 做就好了。 三、实证研究和中国经济学的发展有怎样的关系? 首先,我刚才已经举了很多的例子来告诉大家,实证研究在很多领域里面它 是研究的前沿。那么,实证研究在哪些领域里面构成前沿呢?第一个在劳动经济 学里面,实证研究在上世纪九十年代以后变得越来越重要,因为劳动经济学是一 个典型的学科,它的理论已经基本上趋于完善了。所以,在九十年代以后,如果 你说你是一个劳动经济学家, 基本上大家就会把你理解为是一个应用微观计量经 济学家, 而不是理论经济学家。 这个学科的发展已经到了一个以实证为主的阶段。 第二个就是我刚才讲到的两个例子,在产业组织和人事管理经济学里面,这 些学科是从理论开始发展的,但是在它的理论大发展的时候,由于数据的公开性 问题和数据的成本问题,经验研究非常少。而现在这些年,经验研究在这些领域 里面构成了前沿研究领域。 第三个就是在很多的研究问题里面,我们根本就不知道事实是怎么回事。我 们都能体会到,中国经济的发展、中国的制度、文化、人的行为,包括社会和政 治的结构,跟现在经济学里面学到的一些东西不太一样,我们都模模糊糊地知道 不太一样,但是从经济学研究来讲,我们实际上缺乏可以被经济学科学研究所确 认的差异到底存在不存在?如果存在,到底有多大?我们不知道。所以现在大量 的对于中国问题的理解, 我们仍然是基于在西方的事实基础上所发展出来的理论 来研究和理解中国的事实, 但这样做, 在很多时候我们就会对中国的问题看不透。 如果你要提出一个对于中国的理解,构建一个新的理论的话,首先要做的就是, 确实我们需要一个新的理论,因为我可以告诉你,在经验研究上它是有差异的。 我特别想强调实证研究在中国特别重要的几个理由:第一个是我刚讲到的, 中国有一点不一样,但是什么地方不一样?事实还不是很清楚。第二是制定政策 的需要。在中国现在所处的经济发展阶段,我们还没有足够的资源去养一批经济 学家,他们可以不关注现实问题,就在书斋里读书,写 paper,做所谓的纯理论。 中国现在所处的阶段对应用研究的需求一定是非常大的,对此,非常重要的就是 我刚才讲的 policy evaluation,基于实证研究的政策评估。大家知道中国政 府现在都讲科学决策,什么叫科学决策?在英文里面没有一个词叫 scientific policy making 的,但英文有一个词叫 research-based policy making,我觉得这就 是科学决策的英文翻译,我们现在讲科学发展观,也就是要多做研究。此外,中 国的实证研究也是国际关注的焦点和趋势。以后你们有机会去参加会议,特别是 国际会议里面关系到中国问题的会议,你就会发现,经验研究所占的比重是绝大 多数。 这就反映了经济学家意识到经验研究对于这些问题而言是我们首先需要做
8
的工作。比如上学期期末的时候,我的学生张爽和我的文章被厦门大学一个非常 高规格的劳动经济学的会议接受,因为是洪永淼教授组织的,请了很多大牛,包 括 Heckman,诺贝尔得主级别的。有人在会上说,我们到了中国来就是希望知道 中国在发生什么,可是我们没有听到这个。所以,我们在中国做研究,首先要做 的还是踏踏实实地告诉大家, 中国到底在发生什么样的事情?在这个基础上如果 要是发现有差异,那么我们就需要新的理论。 最后,由于前面三点,它就会关系到你的资助(funding) 。你要去争取一些 项目,包括国际的一些项目,都涉及到 funding 问题。 四、如何完成一项实证研究? 实证研究和理论研究一样, 对于我们的学生来讲, 往往比较容易关注到中段。 就像在吃一条鱼的时候,就看到鱼肚子很肥,但你们不知道在做这项研究之前和 之后有很多的工作要做, 而这个之前和之后的工作往往占到 70%的时间, 但你们 就看到这个中段, 就是 paper 本身。 那么对于实证研究来讲, 之前需要做什么呢? 首先,在你做实证研究之前,你要有一个 great issue(大问题)作为你的研 究背景。这就是“大处着眼”的问题,但是你必须要有一个 small point,也就是 我经常讲的“小处着手”的问题。有了一个 great issue 就使得你的研究重要,而 有了 small point 又使得你的研究具有可操作性。之后你要有一个好问题(good question) 。比如我刚讲的,制度对于经济增长到底重不重要?理论制度经济学家 就会告诉你很重要,可是对于实证研究来讲,我们是不知道的。因为当你看到制 度好的国家经济发展水平也高的时候, 我们其实不知道这是不是因为它经济发展 水 平 高 了 所 以 它 有 好 的 制 度 。 那 么 对 于 实 证 经 济 学 家 来 讲 就 要 去 看 from institution to growth 的这个因果关系(causality)到底有没有,这就是一个 great issue。那么,small point 是什么呢?在 Acemoglu 做的研究里面,他就想,怎么 去把这个 causality 确定下来呢?他找到了一个很重要的工具变量,他去看非洲、 拉丁美洲等殖民地时期的自然条件,其中一个非常重要的条件就是死亡率。他的 想法是,如果在那个时期这些殖民地的死亡率高的话,白人就不愿意住下来,这 样他们就会采取掠夺式的制度。如果愿意住下来,他们就会移植欧洲的好制度。 那个时候制度的情况就会影响到今天一些地方制度好坏的差异,于是,这就很可 能带来增长的差异。通过这样一个链条的作用就可以确认制定是导致增长的原 因。这个做法就是一个 small point 使得他的研究变成了一个可操作的研究。 再接下来我举的一个例子是 tea 和 sex。大家知道在发展中国家,我们出现 的一个非常重要的问题就是 sex imbalance,女孩子太少,男孩子太多。经济学家 的一个解释是,对于一个家庭来讲,生男孩比生女孩好。因为男孩的生产率高, 工资高,于是投资一个男孩的回报就更高。这个解释很多人不太喜欢,说经济学 家从经济学角度来解释生育行为不对,他们觉得这就是文化的影响,大家都不喜 欢女孩子,歧视女孩子。那么经济学家讲的到底对不对呢?于是就有我刚讲到的 tea 和 sex 研究里面,有一个美籍华人叫 Nancy Qian,她是前年的美国 job market 上的 star,现在到 Brown 去了,她来过复旦两三次。在她的研究里面就用中国的 数据来检验家庭生育行为是一种经济决策。她想到,在改革开放以前,各种商品 的价格都是被管制的,改革开放以后价格在逐渐放开,于是经济作物特别是茶叶 的价格上涨了。大家知道摘茶叶这件事是女孩子的比较优势,因为女孩子比较细 心。那么,根据经济理论的推断,茶叶的价格上升就会导致女孩的回报提高,这 样就会使得家庭更加愿意生女孩, 就会在孩子出生以后给女孩更多的照顾以减少
9
她的死亡率。于是她就用了这样一个自然实验(natural experiment) ,价格改革这 个自然实验提高了女孩的回报,于是提高了女孩的出生率和存活率,结果她的研 究发现就是这样的。 那大家可能马上就想了,这些都太复杂了,我做不了。做不了可以做些简单 的,比如我要讲一个矿难的例子,当然这个也不简单,因为你要是研究矿难会很 麻烦。但我想举个例子,前年的经济学年会上,有一位老师说,他观察到中央政 府要求地方政府提高矿难职工死亡的补偿费以后,矿难反而增加了。为什么呢? 根据经济理论,这有可能引起更严重的道德风险。如果安全措施是由经济决策决 定的,而生命是有价值的话,矿难水平提高了意味着如果减少安全措施,一旦发 生事故,补偿金水平提高了,这就会增加人的道德风险,降低安全的保障措施, 这就有可能导致死亡率上升。问题在于,你们如果学过信息经济学,要做出一个 像我刚才讲的这个故事的理论是非常容易的。可是这里面就遇到一个问题了,他 刚才讲的这个故事到底是不是真的?是不是在补偿提高以后矿难的发生率反而 提高了?或者说这两件事情有没有因果关系?我们不知道的。 如果你要是把这个 文章做出来,一定是非常好的文章,因为它是一个大问题,它可以证明,人的生 命是不是可以用价格来算的。 在你提出一个好的问题以后,一定要充分去做文献评论(literature survey) , 这可以达到几个功能:第一,通过文献评论你可以去证实你的研究为什么重要。 比如我刚讲的矿难问题,如果你的文献评论是这样做的:某年某月有个人说,这 两者是正相关的, 所以我这篇文章就要去证明这个, 那这篇文章就没人感兴趣了。 如果你的文献评论是这样的:在经济理论里面有人提出,人对于安全设施的投入 是一个经济的计算,对此很多社会科学家是有争论的。比如一些社会学家认为经 济学家的这些观点是错的,这篇文章通过矿难的案例来告诉你经济理论是否正 确。 人家就会觉得非常重要。 第二个你要做的工作就是, 要说明 what’s new? 我 们做研究最容易忽略的就是 what’s new。你做一个东西出来,你的读者为什么要 看?你一定要在做的过程中想办法在你的东西里挖出一些新的东西来吸引你的 读者,因为看文章对于每个人来讲都是有成本的。我们很多同学以为,我做了一 个伟大的工作,但我不说,我很酷。我告诉你,如果现在做研究就抱着这样的心 态, 你死定了。 你做一项研究, 你一定要竭尽全力地要把你的工作在 idea, method, data 这几个方面跟既有的研究去做比较,来告诉大家,我用了一个不同的 idea, 我用了一个不同的方法, 我的方法能够得到更加准确或者 unbiased 的估计。 我的 data 是新的, 别人的样本很小, 我的样本大, 别人没有这个度量, 我有这个度量, 所以我新。 再来谈研究之中,这个时候你首先需要一个理论。我刚才已经讲过了,这个 理论和分析框架涉及到的第一个问题就是我需不需要数学?这我刚才已经回答 过,就不再重复了。 第二个就是数据(data) 。你的 data 哪来呢?当然我们有很多现成的数据, 比如象我们做实证研究的,手头都有一些数据,但是你们以后去做实证研究,不 管是去公司里做还是在学术界做实证研究,往往你需要自己去收集数据,这个时 候你的数据是第一手的,尤其是在初始起步阶段的时候,你的样本不可能太大, 样本大就需要钱,你没那么多钱,这样你的样本量不太大。那你要做这个研究, 怎么才能让自己的研究成为一个好的研究呢?你就要去考虑。首先,你要新,你 要注意,是不是在你样本不大的数据里面有一些变量是别的大样本的数据没有 的。或者你研究这个问题别人从来没研究过,你是第一次通过收集数据的方式来
10
研究。第二,一定要是 well defined,就是你这个数据一定要非常清楚地定义。 比如,根据已有的文献,social capital 是定义为这样几个方面,它们都是这样去 度量的,用什么样的问题来问的,所以我在我的问题里面也这样问,这样你就可 以得到好的度量(good measure) 。最后,你的数据要 well structured,就是该有 的变量你要有,你想 identify 的那些机制的中间变量你也都有,那么即便你的样 本小一点,也可以做很好的研究。 第三,你要有非常聪明的 idea,当然这很难了,所以要求就越来越高了。在 计量里面,通常来讲你看到的变量和变量之间的关系只能说它是一个相关性 (correlation),但现在的实证研究已经越来越不满 足于相关性,而是要去看 causality。看因果关系一个常用到的方法就找工具变量。那么,这时候你用什么 样的方法去看 causality?用 natural experiment?用足够让大家确信的外生变量? 还是去找工具变量?这就需要你有非常聪明的想法来让大家确信你看到的确实 是一个 causality,而不是一个因果不明的相互关系。当然这个要求比较高了,在 很多研究领域里面都是前沿课题。对于我们来讲,有的时候不要随便说你找到 causality 了,就是发现相关就很不容易了。 最后是计量分析(econometric analysis) ,就是要去分析、回归、解释结果等 等。我们得到结果以后就可能碰到这样的问题,首先我们会发现,这个结果好像 不对,我们感觉到的现实好像不是这样的,具体表现为符号或者显著性不是事先 预期那样的。这个时候就要注意,有可能问题出现在如下几个方面,你一定要去 想是哪些方面出了问题,然后再去调整它,而不要去做 data mining 的工作。第 一个,数据可能是不好的。数据不好的第一个原因可能是因为用了中国的数据。 中国的很多宏观统计指标是很粗糙的, 比如中国的失业率本身就不是真实的失业 率,你用了就有问题了。还有可能你的样本不是一个随机的样本,还有就是你的 样本量太小了,这些问题都有可能导致你的数据质量不高,从而你想看到的东西 看不到。第二个可能性就是理论出了问题。这又有两种可能性,一种是之前基于 的理论是错的,或者它根本不反映现实情况。还有一种可能性是,可能存在一个 新的理论或机制,它抵消了你原来认为的那个机制。 比如在我们自己做的一个研究里面就碰到过这样的情况, 我们在做经济开放 和国内市场分割这个相关性的研究的时候,本来觉得开放了使得竞争加剧,竞争 加剧应该使得国内市场整合, 结果后来发现往里面一放是线性关系, 而且是正的, 就是开放是促进市场分割的, 那我们就想为什么?有可能是在经济发展的早期阶 段,开放是促进市场分割的,在经济发展到一定阶段,开放就促进市场整合了, 于是有可能存在二次的关系,我们把二次项往里面一放,果真一个非常漂亮的 U 型曲线就出来了。当你在正确的理论指导的情况下去做计量的时候,你就会知道 怎么去加东西,是改变模型的形式还是改变数据,还是改变你的 measurement? 之后你在理论的指导下得到的结果就可以帮助你发现新的东西, 因为在我刚才讲 的这个 U 型曲线的下,就告诉我们,在理论上经济的开放和市场分割的程度取 决于开放的程度,这个是在既有的理论里没有的东西。事实上你们在座各位如果 有人对此感兴趣, 你就完全可以去做这样一个理论来描述经济开放和市场分割之 间的关系是一个象我们所看到的 U 型,这时候你就知道理论和实证是一个什么 关系了。理论是怎么来的?不是凭脑袋想起来的,是把现在已经发现的事实和规 律形式化(formalize) 。 研究之后我们得到很多结果,这时候你还有一些工作要做。第一个就是你要 去解释它,我们很多同学做完了计量以后说,我的结论是 x 和 y 正相关,x 和 z
11
负相关。这毫无意义,就象你做了一个数学模型,做出来以后,它的经济学含义 是什么?你要去解释为什么是正的?为什么是负的?为什么有非线性的关系? 另外大家要区分两个 significance。 一个是 econometric significance,它指的是在 统计上 x 和 y 之间的关系是不是显著的。还有一个是 economic significance,它 指的是系数到底有多大,就是经济上的显著性,它能告诉你一个因素的重要程度 到底有多高。然后你还要在这个基础上得到 policy implication,即政策含义。 如果你象刚才讲的那样去做了,我就要祝贺你了,因为你已经在一个正确的 道路上向一个好的经济学家前进了。 五、一些评论 接下来我再做几个结论性的评论。第一,尽管我前面讲了计量如此之重要, 现 在 我 要 跟 大 家 讲 的 第 一 个 评 论 是 , large sample plus econometrics is not everything。就是说,你不要以为,做计量、做实证,唯一的路子就是去做大样 本加上回归。首先,计量经济学所做的很多工作,往往还不足以 identify 两个变 量之间的作用机制,在这个层次上,计量和理论是互补的。理论能够帮你解释, 为什么 x 和 y 是正相关的?机制是什么?而实证帮你看到的只是 x 和 y 正相关, 如此而已。 除了理论能够帮助我们思考这些机制性的东西以外,案例 case 有时候也是 非常重要的。我们经济学家现在已经非常看不起 case,但是我觉得 case 很重要, 因为有的时候,机制在计量里面是不清楚的,这个时候就需要去做一些 case study,去观察一些现实来告诉你,你为什么在计量上有可能看到 x 和 y 是相关 的。 第二种情况是,有的时候很多东西是不能度量的。计量经济学一个依赖的前 提就是每一个东西都可以度量, 但是不是每个东西都可以度量呢?比如什么叫制 度?什么叫法律?什么叫产权?什么叫民主?其实,有的时候,一些可度量的东 西往往没有不一定能准确地捕捉到现实生活中的机制。 第三,有的时候数据几乎是不可得的,但是问题非常重要。比如上个学期的 时候,我在经济学院作过一个报告,讨论中国的私有化和腐败。通过案例的方式 来告诉大家,在中国,私有化导致了腐败的原因是因为我们以前就设置了一个非 常错误的制度结构。这个问题非常重要,但如果你想用计量经济学家来告诉大家 私有化造成了腐败,你要有 large scale sample。比如你要有 500 家企业,而且你 要找到腐败的度量, 你能通过问卷得到腐败的大小吗?所以这种情况下案例就非 常重要了。讲到这里,我就特别要强调,计量有计量的好处,它是大样本的,比 较可信。这时候你在那些可以度量的、可以收集数据的问题上,就尽量要用计量 的方法。案例用在数据几乎不可得、问题和作用机制又非常重要的问题上,你千 万不要去做那些大家都觉得可以用计量来做的,你说你用案例来做,就没有人信 你了,因为案例可能就只有几个观察点。 2004 年的时候我发表过一篇文章《把实证研究进行到底》 ,有几句话我想给 大家看一下。 第一, 计量是有陷阱的。 我刚才讲过, 不同的人有不同的道德底限, 每个人报告什么取决于他自己。由于现在学术的规范,这是非常难做到的。在国 外,你如果发表一篇实证的文章,你的数据就需要公开,要使得你的审稿人可以 重复,这个时候你就不敢随便报告结果了。第二,你会发现在实证研究的发展过 程中,经常是有一篇实证文章说前面的结果不可信,我得到的是可信的,而结果 是相反的。 那大家就很慌, 为什么呢?因为做理论, 你只要证明 x 和 y 是正相关,
12
它确实在纸上是对的。但做实证,已经发现 x 和 y 是正相关,但你却明明发现它 们是不相关的,那你就很慌,就生怕过了三年自己的文章没人引用了。可是我觉 得这里面就需要解决一个问题, 就是计量到底是什么?经济学的理论工具特别是 计量工具就像我们在研究天文现象时候的望远镜, 望远镜可看的远的程度相当于 计量方法的科学性的程度。计量的方法是在不断地往前推进,随着方法的推进, 以前得到的结果很可能就是不可信的了。这就好比你用望远镜去看这个世界,到 现在为止你没看到上帝,你就以为上帝不存在了?不一定的。只是现在的望远镜 看不到。从这个意义上讲,科学最后实际上是无穷逼近于神学的。所以我们千万 不用怕,觉得我们用的方法不够先进,没有看到正确的东西。从这个意义上讲, 我想说, 用发展的眼光来看, 所有的研究都是错的。 因为如果没有当初的地心说, 我们到现在还以为世界就是在一个大乌龟的背上。恰恰是因为有了地心说,后来 才慢慢有了日心说。 再接下来看一张漫画①。它讲的是非典型性肺炎的意思,很多盲人去摸这个 象,有人说是恐怖袭击,有人说是病毒,有人说是细菌,就好像不同的计量有可 能得到不同的结果。我们到底应该信谁呢?Feldstein 讲过一句话,他说, “这个 故事的重要意义不在于每个盲人带着片面的、“不正确的”印象而去,而在于聪明 的王公(经济学家)研究了这五个盲人的发现后,能把各部分拼在一起,形成对 大象的正确判断,特别是如果他以前曾看到过其他四腿动物的话。 ”这是什么意 思呢?就是说,计量经济学研究和我们对于世界的准确认识之间的关系是这样 的:并不是说你要去相信某一篇文章,你如果想形成对这个世界的整体看法,你 是把很多实证文章放在一起, 每一篇文章可能都是盲人摸象, 但对于你自己来讲, 对于一个好的经济学家来讲,应该把这些文章放在一起,形成对这个世界相对来 讲比较完整的看法。比如我刚才讲的不平等和增长的关系,大多数人的研究都认 为它们是负相关的,这个时候你就应该相信两者的关系确实是负的。所以,这就 是为什么同样一个问题, 不同的人反复做的原因。 有的改进方法, 有的改进数据, 因为在不断做的过程当中,不断重复的过程当中,我们就对变量间的关系有了更 为清晰的认识。 讲到这里就差不多该结束了,让我们的经济学研究走向现实,让我们将实证 研究进行到底。