中文版序
很高兴看到《应用STATA做统计分析》一书经巫锡炜、焦开山、李丁、赵联飞和王军等人的努力又一次被翻译成中文。此书的英文版一直非常成功,一版再版,所以读者现在阅读的已是其第8版的中文版。伴随Stata本身的发展,《应用STATA做统计分析》一书在每次修订后都会变得篇幅更长,并且覆盖更多的主题。借助此中文版,我希望初次偶读到《应用STATA做统计分析》一书的新读者也将会开卷有益。熟悉更早各版本的读者们将会见到新的内容。新的介绍调查研究的一章出现在书的前面,因为社会科学领域的课程经常会涉及该主题。其他章节中的新增内容会介绍缺失值多重填补、结构方程建模、因子分在回归中的使用及混合效应建模的应用。最后一章介绍编程,内容做了简化,并围绕部分读者会觉得实用的一个主要例子(绘制多幅调查图形)来进行。在本版的写作中,我也设法使用更有趣且最新的例子。比如,介绍时间序列分析的第12章使用了全球气温数据。它向读者说明了如何证实更大规模研究所得的主要结论:持续变暖的全球气温并不能为太阳辐照、火山爆发或自然变化(厄尔尼诺现象)所解释,而只有当我们考虑到持续攀升的二氧化碳浓度水平时才能得以理解。一些其他章也使用了环境主题的例子,从北极海冰到环境问题看法的调查,不同领域的读者或许都会对它们感兴趣。与这些例子相对应的数据可以从Stata网站的Bookstore处下载。《应用STATA做统计分析》(1990)是第一本针对Stata而写的书。与Stata软件本身一样,此书也旨在做一些前人未做过的事情。我写这本书的目的是想为学生和研究人员弥合理论色彩浓厚的教材与Stata自带手册中数千页内容之间的差距。研究人员需要掌握分析其数据的各式技能。因此,《应用STATA做统计分析》一书从基本的主题开始,比如统计学导论课上的那些内容,或如何建立新的数据集。然后进入到中级和高级主题,诸如回归诊断、logit模型、稳健回归、因子分析、生存分析、时间序列模型乃至编程。其中的一些可能出现在研究生的统计学课上,而另一些则可能会在开展研究项目过程中遇到。对于每一章,我都关注两个实用的问题:我如何在Stata中进行该分析?所得结果告诉我什么?我的目的是为读者写一本工作时会摆在其计算机旁的书。我经常收到GoogleScholar发来的信息告诉我不同国家的人们确实如此,并且在他们自己发表的研究中引用本书。感谢巫锡炜、焦开山、李丁、赵联飞和王军为翻译此书所付出的努力,现在您有机会来判定它对您的用处了。 Lawrence C.Hamilton2016年9月
看到巫锡炜、焦开山、李丁、赵联飞和王军等完成Lawrence C. Hamilton所著Statistics with STATA:Updated for Version 12, Eighth Edition一书的翻译工作并邀请我审校,我感到十分欣慰和高兴。欣慰的是因为他们都是我的学生,而我看到他们在博士毕业之后仍能在科研、教学之余做翻译统计学教材这种费力不讨好但却非常基础性的工作。在我看来,保持对知识、方法的不断学习和不断更新的渴望是一名研究者应当具备的基本素质,而专业文献翻译是学习和消化新知识、新方法的重要途径之一。高兴的是虽然我不再参与本书的翻译工作,但是审校过程中,他们5人的工作仍保持了之前的高质量,而熟悉本书的读者会看到,本版相对于以前版本在篇幅、所介绍内容和所用示例等方面做了幅度挺大的改动。一如既往,本书保持了它的实用风格。第一,它介绍了社会研究人员常用的统计方法,从最基础的数据创建、变量改造等到诸如时间序列模型、生存分析、混合效应建模乃至结构方程建模等更复杂的建模技术。第二,它侧重Stata操作以及对统计分析结果的解读,从而在统计学教科书与Stata软件之间架起了一座桥梁。第三,更值得称道的是,原作者介绍每一统计方法时都使用自己或其他研究者所做的实际研究作为示例,从研究问题开始,到如何做数据分析,最后说明哪些分析结果回答了研究问题,娓娓道来,这几乎相当于教人如何完整实施一项研究课题,引人入胜。以我本人作为前面两版翻译组织者和本版审校者的经历,相信对定量社会研究方法感兴趣的读者朋友都能从中获益匪浅。相比于之前我带领他们5位翻译的两个版本,这一版虽然在章数上有所减少,但内容上做了重新编排,结构上显得更紧凑。比如,原来有关线性回归、回归诊断、拟合曲线和稳健回归的数章被整合成两章;同时,还结合Stata软件12.0版的更新和统计方法的发展,新增了缺失值多重填补、结构方程建模以及复杂抽样设计下的调查数据等新内容,还介绍了一套非常有用的Stata模型拟合后续命令margins和marginsplot。从我对译稿所做审读和校对工作来看,译者们不但对新增方法本身理解到位,而且对其Stata软件的实现也很熟练,从而确保了翻译的质量。专业文献的翻译首先要追求的是准确无误,这一版的翻译满足了这一标准。当然,就表述的精当、流畅而言,译者们仍有继续完善的空间。 郭志刚 2016年10月
这是Statistics with STATA第8版的中译本,也是该书的第三个中文版。前面两版都是我们几位在郭志刚教授的带领和指导下完成的。他一直用这种翻译专业文献的方式训练我们对统计方法的学习和掌握。我们都从中受益匪浅。这次我们之所以“劈腿”郭老师独立承担翻译工作,完全是他向出版社力荐的结果。这既是他对我们的认可,更是一种鼓励和帮助。感谢郭老师给予这一难得的机会!Statistics with STATA一书堪称Stata软件应用教材中的经典。自1990年以来,此书伴随着Stata软件的更新和统计方法的发展而一版再版。一本统计软件应用教材能够在图书市场存活25年并且越来越受读者欢迎,非经典之作而不能为,要知道这个时间差不多与Stata软件本身到目前已经存在30余年的时光一样长。当然,成就其为经典之作更重要的还在于下面两点。一是此书在形式上既兼顾必要但简洁易懂的统计学原理介绍,又从实际研究问题出发示例说明如何应用Stata软件完成数据分析并解读统计分析结果以回答研究问题,非常好地将让很多人觉得枯燥甚至深奥的统计学原理与看上去浩繁冗长的Stata软件手册融合起来。二是此书在内容上紧跟统计理论的发展和研究实践的需要,介绍大多数学科领域中最为实用的统计方法。比如,此版中既有属于“基本功”的数据管理方面的内容,结合Stata 12.0版的新功能,也涉及近年来日渐增多的混合效应建模、结构方程建模和缺失值多重填补等“进阶术”。所以,尽管此书不断修订再版,但始终能够让新老读者开卷有益。翻译本身就是一件费力不讨好的事。对于Statistics with STATA这样的经典教材,翻译它更让人觉得有压力,尤其是前面还有郭老师之前的两个高质量译本。幸运的是,郭老师建议我们在之前译本的基础上完成翻译工作,甚至提供了翻译之前版本时创建的关键词中英文对照表,这大大方便了我们的翻译工作,翻译质量也有一定保证。加上他还亲自对译稿进行审校,更为翻译质量增加了一重保证。希望本次翻译仍能如之前郭老师亲自带领翻译的两个中译本那样受读者们的欢迎和好评。本版的翻译工作从今年4月11日同清华大学出版社李万红、王军老师的第一次见面就开始启动。出于方便,由巫锡炜协调整个翻译工作。我们根据各自的兴趣和时间确定了任务分工:全书正文共14章,巫锡炜承担第1、第2、第3、第11、第12、第13章以及书中的前言、中文版序言等内容,焦开山承担第4、第5、第14章,赵联飞承担第6、第7章,李丁承担第8、第10章,王军承担第9章。虽然各有分工,但是我们在翻译过程中相互讨论,并对其他人的译稿提出修订意见。不过,非常遗憾的是,由于出版署名方面的一些限制,只有巫锡炜、焦开山和李丁作为译者署名出现,而具有近乎同样贡献的赵联飞和王军则被“等”取代了。受专业水平和理解能力所限,翻译中难免有不当甚或舛误之处,恳请读者们指教和斧正!巫锡炜、焦开山、李丁、赵联飞、王军2016年10月
《应用STATA做统计分析》一书旨在为学生和实际研究工作者在统计教材和Stata应用之间架设桥梁,以缩小两者之间的差距。为扮演这样一个中介角色,本书既不准备对某一合适教材做详细说明,也不打算尽可能地描述Stata的全部特征。相反,本书示范了如何使用Stata来完成各种各样的统计任务。每章的讨论遵循统计学概念主题展开,而并非只集中在特定的Stata命令上,这使得《应用STATA做统计分析》一书又具有与Stata参考手册不同的结构。比如,数据管理一章涉及了创建、导入、合并或改变数据文件结构的各种程序。有关图形、概要统计与表格,以及方差分析与其他比较方法的这几章也都包含诸多不同技术在内而又具有类似性的宽泛主题。本书将新的介绍调查数据(Survey Data)的一章放到了前面,为后续各章在恰当位置出现的更具技术性的调查数据示例提供了背景知识。前7章(直到线性回归分析)为一般性主题,大体上对应了应用统计学中本科生或研究生一年级水平的课程,但是增加了深度,讨论了分析人员经常碰到的实际问题——比如,如何导入数据、绘制符合发表质量要求的图形、使用调查权重,或者解决回归中的问题。在第8章(高级回归)及随后各章中,我们转入高级课程或原创研究的领域。这里,读者能够找到有关lowess修匀、稳健回归、分位数回归、非线性回归、logit模型、序次logit模型、多项logit模型或泊松回归的基本信息和举例说明;应用新方法进行结构方程建模(structural equation modeling)或缺失值多重填补(multiple imputation);拟合存活时间和事件计数模型;根据因子分析或主成分结果构建和使用合成变量(composite variables);将观测案例区分成不同的经验类型或聚类;分析简单或多元时间序列;以及拟合多层或混合效应模型。Stata近年来一直致力于提升其一流地位,这种努力尤其体现在它现在所提供的各种各样的统计建模命令上。本书最后介绍Stata编程的内容。许多读者将会发现Stata可以做他们想做的任何事情,因此他们不需要编写原始程序。但是,对于积极主动的少数人而言,编程能力也是Stata的主要吸引力之一,并且它也肯定构成了Stata广泛传播和快速发展的基础。第14章为想探索Stata编程的初学者开启了大门,不论是用于专业化的数据管理,还是建立一种新的统计方法以进行蒙特卡罗实验或教学。通常,对于Windows、Macintosh和Unix等操作系统的计算机都有类似版本(“风格”)的Stata可以安装运行。在所有操作系统上,Stata都使用相同的命令并形成相同的输出结果。这些风格只是在屏幕外观、菜单和文件处理的一些细节上有些差异,这是因为Stata会遵循每一操作系统自己的规则——比如,Windows系统下采用诸如“\目录\文件名”的文件设定,而在Unix系统下则采用“目录/文件名”的设定。本书并未示范所有三种规则,而只采用Windows规则,但是采用其他操作系统的用户应能发现,其实只需要稍加改变即可。
关于第8版的说明笔者从1985年开始使用Stata,当时还是它的首次发布年。起初,Stata只在MS-DOS系统的个人电脑上运行,但其面向桌面的特点使得它明显比其主要竞争对手更现代,因为那时大多数竞争者还处于桌面革命之前,还基于主机环境、使用80列穿孔卡的Fortran语言。与认为每个用户都是一堆卡片的主机统计软件不同,Stata将用户视为人机对话。它的互动本质以及统计程序与数据管理和制图的浑然一体支持了分析思维的自然流程,而这些方面则是其他程序所不具备的。graph(作图命令)和predict(预测命令)很快成为倍受欢迎的命令。笔者深受其所有内容浑然一体打动,并开始写作《应用STATA做统计分析》的最初版本,该书对应着Stata第2版,并于1989年出版。Stata在2005年迎来了它的20周年纪念,为此该年的《Stata期刊》(Stata Journal)开辟了一期特刊,登载有关它发展史的文章和访谈,以及受邀而写就的《应用STATA做统计分析》一书的简史。自该书第1版问世以来,Stata已经发生了巨大变化。笔者在该书中就注意到,“Stata并不是一个万能程序……但是只要是它做的事情,它就做得棒极了”。Stata功能的扩展一直都引人注目。这一点在模型拟合程序的激增以及随后不断条理化方面显而易见。William Gould为Stata建立的架构,包括其编程工具和统一的命令语法都已非常成熟,并已证明能够容纳新发展出来的统计思想。本书第3章广泛的作图命令、第8章开头提供的大量建模命令或者后续各章所介绍的新的时间序列分析、调查数据分析、多重填补或混合建模能力,都说明多年来Stata在这些方面日益变得丰富。比如,适用于面板数据(xt)、调查数据(svy)、时间序列数据(ts)、存活时间数据(st)或数据多重填补(mi)等的套装新技术开辟了更多可能领域,像一般化线性模型(glm)以及最大似然估计的一般程序中的可编程命令也同样做到了这点。其他重要扩展还包括矩阵编程能力的发展、大量新的数据管理特征以及诸如边际效应图(marginal plots)或结构方程建模等新的多用途分析工具。在最初版本的《应用STATA做统计分析》中,数据管理只是一个附带的话题;但它在本书的第8版中已经合乎情理地成为最长的一章。Stata全面的菜单和对话框系统提供了对大多数键入命令的点选式替代。不过,菜单和对话选择系列通过探索比通过阅读更易于学习,因此《应用STATA做统计分析》会在每章开头只提供有关菜单的一般性建议。绝大部分情况下都用命令来展示Stata能做什么;找到那些命令的对应菜单应非难事。相反,若你主要凭借菜单开始工作,Stata会通过在结果窗口中呈现每一条相应的命令提供非正式训练。菜单/对话框系统通过将点选操作翻译成Stata命令,然后反馈给Stata并执行。分析性制图是Stata的一大强项,这一点在每一章中都有体现。本书的许多例子都并非意在说明一种特定方法的单调图像,而都做了一些改进以满足发表或演示要求。读者或许会浏览这些图形以了解制图的潜力,这超出了Stata手册的内容。针对Stata 12.0更新的《应用STATA做统计分析》与之前针对Stata 10.0更新的该书大为不同。很多章已被重新组织,包括出现在本书前面新的介绍调查数据分析的一章。10.0版的本书中分为4章的回归分析内容在这里已被更加逻辑性地整合和组织成篇幅更长的线性回归分析和高级回归两章。“高级回归”一章包含新的有关缺失值多重填补和结构方程建模(StructuralEquation Modeling,SEM)的内容。主成分、因子和聚类分析一章也纳入两节新内容,介绍回归中因子得分的使用和SEM中测量模型的使用。分层与混合效应建模一章中新的一节呈现了一个重复测量数据分析的例子。有关编程的最后一章已被精简并围绕一个主要示例(绘制多幅调查数据图)来展开,可以证明这对于一些读者而言更有益。本次针对Stata 12.0所做修订的一个目标是更新许多例子,其中一些涉及本人自20世纪90年代以来的研究,但已经过时。挑战者号航天飞机一例曾出现在最初1989年版的封面上,仍在logistic回归一章开头很好地说明基本思路。但是,该章的结尾为对2011年调查时收集到的人们关于气候变化的知识和观点的应答所做的加权多分类logit分析(weightedmultinomial logit analysis)。气候调查是三个新的2010或2011调查数据集之一,这些数据集为若干章提供了重要的例子。其中一章(主成分和因子分析)以简单的行星数据开篇,但结尾则是使用2011年沿海环境调查数据所做的结合因子分析与回归的分析,或者类似的测量和结构方程模型。其他例子涉及物理学气候指标的时间序列。一个关于42个北极阿拉斯加村庄的独特数据集取自2011年的一篇论文,被用来示例说明混合效应建模如何可以将自然科学数据与社会科学数据结合起来。时间序列一章最后部分的ARMAX模型受到2011年一篇考察全球变暖“真实迹象”(real signal)的重要论文的启发。只要可能,都致力于使用提出大众感兴趣研究问题的例子,而不仅仅是提供一堆数字来示例说明一个技术。许多示例数据,包括书中所讨论之外的其他变量,吸引着读者自行去做进一步分析。正如在第1章指出的,Stata的帮助和搜索功能也与程序同步,得以完善。除了可以通过帮助文件获得的互动说明文档以外,可用资源还包括了Stata的网站、互联网及其文献搜索功能、用户社区邮件列表、网络课程、《Stata期刊》以及9000多页的手册文档。《应用STATA做统计分析》提供了Stata的便捷入门,而这些其他资源将帮助你走得更远。
致谢Stata的设计师WilliamGould值得称赞,因为是他创建了《应用STATA做统计分析》所介绍的这个一流程序。Stata公司的很多其他人员多年来贡献过他们的真知灼见。就此第8版而言,要特别感谢组织评阅工作的Pat Branton和阅读过绝大部分章节的KristinMacDonald。James Hamilton为第12和13章的时间序列提出过重要建议。LeslieHamilton阅读并帮着修改了最终手稿的诸多部分。本书围绕着数据分析的内容而写成。该版中新的一节对数据来源做了说明,包括存在的网页链接,或者所发表论文的索引。许多例子取自于公共资源,它们是其他研究者辛苦工作的成果。也借鉴了本人自己的研究,特别是一些新近的调查与整合自然和社会科学数据的研究。所有与本人一同开展这些项目的同事都值得称赞,包括Mil Duncan和Tom Safford(CERA农村调查),Richard Lammers、Dan White和GretaMyerchin(阿拉斯加社区调查),DavidMoore和Cameron Wake(气候环境调查),Barry Keim和Cliff Brown(滑雪运动与气候环境研究),以及Rasmus Ole Rasmussen和Per Lyster Pedersen(格陵兰岛人口状况研究)。慷慨分享原始数据的其他人还有DaveHamilton、Dave Meeker、Steve Selvin、AndrewSmith和Sally Ward。
献给Leslie、Sarah和Dave。