做实证研究的朋友,估计都被CEPII数据库里的dist和geo这两个变量折磨过。刚入行时,我也以为这俩就是简单的“距离”和“地理”,直到跑回归结果显著性不对,才发现问题大条。今天不整那些虚头巴脑的定义,直接说怎么避坑,怎么让你的模型更靠谱。
先说结论:CEPII的dist和geo虽然都跟距离有关,但底层逻辑完全两码事。很多新手容易混淆,导致在构建引力模型时,把物理距离和经济距离混用,最后被审稿人打回来重写。理解CEPII的dist和geo区别,是做好国际贸易、区域经济分析的基础。
咱们拆开揉碎了讲。
第一步,搞懂dist(地理距离)。
这个变量在CEPII里通常指的是两个城市或地区中心点之间的球面距离,单位是公里。它是最原始的物理距离。比如北京到上海,dist算出来大概1000多公里。这个数据很硬,不会因为你修了高铁就变短。它的优势是稳定、客观,缺点是太“冷冰冰”。在2024年的今天,物流效率提升了,航空网络发达了,物理距离对贸易成本的边际影响其实在下降。如果你只盯着dist看,可能会低估那些虽然远但连接紧密的经济体。
第二步,理解geo(经济地理距离)。
这里要注意,CEPII里并没有一个直接叫“geo”的单一变量,通常大家说的geo是指基于经济基本面构建的距离,或者是指GeoDist数据库中的某些衍生指标。但在很多语境下,大家提到的geo区别,其实是在对比“纯物理距离”和“包含经济因素的距离”。有些研究会用GDP加权距离,或者用贸易强度来调整距离。这种“距离”是活的。比如,虽然北京到伦敦物理距离远,但航班多、贸易额大,在某种经济地理视角下,它们的“距离”可能比北京到某个内陆小城市还要近。这就是CEPII的dist和geo区别的核心:一个是静态的尺子,一个是动态的关系。
第三步,怎么在论文里用?
别傻乎乎地两个都扔进回归。如果你的研究重点是基础设施对贸易的影响,dist是控制变量,geo(如果指代经济联系)可能是核心解释变量。但要注意,这两个变量高度相关,多重共线性是噩梦。
实操建议:
1. 先跑个相关性矩阵。如果dist和geo的相关系数超过0.8,小心点,可能需要做主成分分析或者只选一个。
2. 检查你的数据版本。CEPII经常更新,GeoDist数据库的2023版和2024版在处理边境效应和城市中心点选取上可能有微调。别用十年前的数据跑现在的模型,过时信息会被降权,审稿人一眼就能看出来。
3. 考虑加入时间维度。物理距离不变,但经济距离随时间变化。如果你做面板数据,最好用动态的经济距离指标,而不是死板的dist。
这里有个小坑,很多人不知道CEPII的dist数据是基于1990年的城市坐标,虽然更新过,但有些新兴城市可能没涵盖。如果你的研究对象是近年崛起的新兴经济体,务必手动核对一下坐标,不然结果会有偏差。这点细节,同行大多不提,但很关键。
最后,总结一下。CEPII的dist和geo区别,本质上是“空间”与“空间-经济”的区别。做研究要接地气,别光看公式。多看看现实中的贸易流向,多想想背后的经济逻辑。只有把理论和现实结合起来,你的文章才有灵魂。
别等投稿被拒了才后悔。现在就去检查你的变量选择,看看是不是真的理解了CEPII的dist和geo区别。如果有疑问,多翻翻CEPII的官方文档,虽然写得枯燥,但那是源头。希望这篇能帮你在实证路上少踩点坑,早点毕业,早点发文章。加油吧,科研人。