跑数据之路
写在之前:
样本终于算是确定了。尽管仍存在很大的不确定性,让我内心十分忐忑。并没有系统学过stata,一直觉得这种工具不需要专门去学,只要learning by doing就可以了。很显然,我想的太简单。之前断断续续也用过stata将数据进行长短转换和简单的回归,样本正式确定后,从今天开始我要真正地跑数据了。
这里记录乱七八糟的跑数据之路,刚好把一些帖子和问题也汇总起来。且走且看,希望能顺利。
——7.17
关于import data:
我一直以为,import后面的excel地址是需要自己输入的,后来才发现并不是。file-import-excel就可以!!!蠢哭了… excel保存成97-03格式。 汇总下受帮助的帖子: http://bbs.pinggu.org/thread-3032215-1-1.html http://bbs.pinggu.org/thread-4791141-1-1.html http://bbs.pinggu.org/thread-3077577-1-1.html http://bbs.pinggu.org/thread-2811104-1-1.html
https://jingyan.baidu.com/article/7f41ecec15be2c593d095ca2.html
——7.18
今天查了很多帖子和资料,do文件中的基本回归已经完成5成,但很多细节之处还有各种检验,我仍然糊涂。
关于单位根检验:
单位根检验是指检验序列中是否存在单位根,因为存在单位根就是非平稳时间序列了。单位根就是指单位根过程,可以证明,序列中存在单位根过程就不平稳,会使回归分析中存在伪回归。
——百科
http://bbs.pinggu.org/thread-1309821-1-1.html
http://bbs.pinggu.org/thread-1332193-1-1.html
http://bbs.pinggu.org/thread-1546776-1-1.html
http://bbs.pinggu.org/thread-2156862-1-1.html
http://bbs.pinggu.org/thread-3177519-1-1.html ※
有这样几种方法(摘于stata的hlep手册)(当然有不同的判断标准和适应情况)
1、Levin-Lin-Chu test
xtunitroot llc varname [if] [in] [, LLC_options]
2、Harris-Tzavalis test
xtunitroot ht varname [if] [in] [, HT_options]
3、Breitung test
xtunitroot breitung varname [if] [in] [, Breitung_options]
4、Im-Pesaran-Shin test
xtunitroot ips varname [if] [in] [, IPS_options]
5、Fisher-type tests (combining p-values)
xtunitroot fisher varname [if] [in], {dfuller | pperron} lags(#) [Fisher_options]
6、Hadri Lagrange multiplier stationarity test
xtunitroot hadri varname [if] [in] [, Hadri_options]
其中,4、5、6允许非平衡面板,而其他的必须是平衡面板。(我的数据就是unbalanced)对于具体数据,究竟使用何种面板单位根检验,主要是看样本容量。
1、2、3的局限在于:强共同根假设。
陈强书 高级计量及stata应用:
p31:简单操作
p61:关于稳健标准误问题。很简单,略看
p93:关于异方差。
p154:关于工具变量、内生性检验。※※※。一步步加入变量
p258:关于短面板回归。※※※。
p292:关于动态面板。即存在滞后项的面板数据
p418:关于单位根检验。※※※。
——7.19
查了一圈资料和stata数据尝试后发现,我研究的题目下不做单位根检验没关系。
是否做单根检验与你研究的问题有关系。公司财务领域通常不做,原因是我们使用的变量基本上都是财务比率,不太可能包含单位根。但是,对于研究宏观经济的人而言,单根通常都须考虑。 ——连玉君老师
一些学习网站:
http://blog.sina.com.cn/u/1794198242
——7.20
关于excel:
整理数据时非常好用的函数:countif、countifs、vlookup
——7.21
今日主要是在从头开始筛选、重整和检查数据。
有朋友在看了我另一篇关于数据的怪圈的日志后,留言给我:
涉及企业层面一般是用xtreg,并且要对误差进行企业层面的聚类。至于回归的控制变量,一般是别人采用什么你就需要用什么,至少是要和其中一篇的控制变量相同,或者稍微比他多点。
我之前没有考虑过关于聚类误差的问题。
-
黑沢 转发了这篇日记 2019-08-21 15:12:09