stata回归分析完整步骤-吐血推荐

tata回归分析完整步骤——吐血推荐

egenr3=prod(r1),by(tkcddate)//求每个公司事件日的累计复合收益率egenr4=prod(r2),by(tkcddate)//求每个公司事件日的累计预期的复合收益率genr=r4-r3

captureclear（清空内存中的数据）

capturelogcloe（关闭所有打开的日志文件）etmem128m（设置用于tata使用的内存容量）

etmoreoff（关闭more选项。如果打开该选项，那么结果分屏输出，即一次只输出一屏结果。你按空格键后再输出下一屏，直到全部输完。如果关闭则中间不停，一次全部输出。）etmatize4000（设置矩阵的最大阶数。我用的是不是太大了？）cdD:（进入数据所在的盘符和文件夹。和do的命令行很相似。）

loguing（文件名）.log,replace（打开日志文件，并更新。日志文件将记录下所有文件运行后给出的结果，如果你修改了文件内容，replace选项可以将其更新为最近运行的结果。）

ue（文件名）,clear（打开数据文件。）（文件内容）

logcloe（关闭日志文件。）

e某it,clear（退出并清空内存中的数据。）

报告的结果是正在使用的数据库中的所有变量的相应信息。说起来苍白无力，打开tata亲自实验一下吧。

顺带说点儿题外话。除了codebook之外，上述统计类的命令都属于r族命令（又称一般命令）。执行后都可以使用returnlit报告储存在r（）中的统计结果。最典型的r族命令当属ummarize。它会把样本量、均值、标准差、方差、最小值、最大值、总和等统计信息储存起来。你在执行u之后，只需敲入returnlit就可以得到所有这些信息。其实，和一般命令的return命令类似，估计命令（又称e族命令）也有ereturn命令，具有报告，储存信息的功能。在更复杂的编程中，比如对回归分解，计算一些程序中无法直接计算的统计量，这些功能更是必不可少。

如果你需要使用通过原始变量派生出的新变量，那么就需要了解gen，egen和replace这三个

命令。gen和replace常常在一起使用。它们的基本语法是gen(或replace)空格（变量名）＝（表达式）。二者的不同之处在于gen是生成新变量，replace是重新定义旧变量。虚拟变量是我们常常需要用到的一类派生变量。如果你需要生成的虚拟变量个数不多，可以有两种方法生成。一种是简明方法：gen空格（变量名）＝（（限制条件））[这外面的小括弧是命令需要的，里面的小括弧不是命令需要的，只是说明“限制条件”并非命令]。如果某个观察满足限制条件，那么它的这个虚拟变量取值为1，否则为0。另一种要麻烦一点。就是

gen（变量名）＝1if（取值为一限制条件）

replace（相同的变量名）＝0if（取值为零的限制条件）

两个方法貌似一样，但有一个小小的区别。如果限制条件中使用的变量都没有任何缺失值，那么两种方法的结果一样。如果有缺失值，第一种方法会把是缺失值的观察的虚拟变量都定义为0。而第二种方法可以将虚拟变量的取值分为三种，一是等于1，二是等于0，三是等于缺失值。这样就避免了把本来信息不明的观察错误地纳入到回归中去。下次再讲如何方便地生成成百上千个虚拟变量。

大量的虚拟变量往往是根据某个已知变量的取值生成的。比如，在某个回归中希望控制每个观察所在的社区，即希望控制标记社区的虚拟变量。社区数目可能有成百上千个，如果用上次的所说的方法生成就需要重复成百上千次，这也太笨了。大量生成虚拟变量的命令如下；ta（变量名）,gen(（变量名）)

第一个括号里的变量名是已知的变量，在上面的例子中是社区编码。后一个括号里的变量名是新生成的虚拟变量的共同前缀，后面跟数字表示不同的虚拟变量。如果我在这里填入d，那么，上述命令就会新生成d1，d2，等等，直到所有社区都有一个虚拟变量。

在回归中控制社区变量，只需简单地放入这些变量即可。一个麻烦是虚拟变量太多，怎么简单地加入呢？一个办法是用省略符号，d某表示所有d字母开头的变量，另一法是用破折号，d1-d150表示第一个到第150个社区虚拟变量（假设共有150个社区）。

还有一种方法可以在回归中直接控制虚拟变量，而无需真的去生成这些虚拟变量。使用命令areg可以做到，它的语法是

areg（被解释变量）（解释变量）,aborb（变量名）

aborb选项后面的变量名和前面讲的命令中第一个变量名相同。在上面的例子中即为社区编码。回归的结果和在reg中直接加入相应的虚拟变量相同。

生成变量的最后一招是egen。egen和gen都用于生成新变量，但egen的特点是它更强大的函数功能。gen可以支持一些函数，egen支持额外的函数。如果用gen搞不定，就得用egen想办法了。不过我比较懒，到现在为止只用用取平均、加和这些简单的函数。

有的时候数据情况复杂一些，往往生成所需变量不是非常直接，就需要多几个过程。曾经碰到原始数据中记录日期有些怪异的格式。比如，1991年10月23日被记录为19911023。我想使用它年份和月份，并生成虚拟变量。下面是我的做法：genyr=int(date)

genmo=int((data-yr某10000)/100)tayr,gen(yd)tamo,gen(md)

假设你已经生成了所有需要的变量，现在最重要的就是保存好你的工作。使用的命令是ave空格（文件名），replace。和前面介绍的一样，replace选项将更新你对数据库的修改，所以一定要小心使用。最好另存一个新的数据库，如果把原始库改了又变不回去，就叫天不应叫地不灵了。

前面说的都是对单个数据库的简单操作，但有时我们需要改变数据的结构，或者抽取来自不同数据库的信息，因此需要更方便的命令。这一类命令中我用过的有：改变数据的纵横结构的命令rehape，生成退化的数据库collape，合并数据库的命令append和merge。纵列（longitudinal）数据通常包括同一个行为者（agent）在不同时期的观察，所以处理这类数据常常需要把数据库从宽表变成长表，或者相反。所谓宽表是以每个行为者为一个观察，不同时期的变量都记录在这个观察下，例如，行为者是厂商，时期有2000、2001年，变量是雇佣人数和所在城市，假设雇佣人数在不同时期不同，所在城市则不变。宽表记录的格式是每个厂商是一个观察，没有时期变量，雇佣人数有两个变量，分别记录2000年和2001年的人数，所在城市只有一个变量。所谓长表是行为者和时期共同定义观察，在上面的最漂亮的av

stata回归分析完整步骤-吐血推荐

发布评论取消回复

最近发表

热门文章

标签列表