人大社16年6月新书快递01-《Stata环境下的数据管理实务手册》-中国人民大学出版社

图书搜索：


	六十春秋耕耘学术沃土甲子华…

	《高思在云》、《中国大视野2…

	我社《高思在云》《抗战家书》…

	我社9个选题入选教育部“全国…

	我社“马克思主义研究论库（第…

	人大国际出版添佳果中罗学术…

	我社4种选题入选中宣部、国家…

	人大出版社荣获2015年度“中国…

	“中国特色社会主义法学理论体…

	新浪书会专访：中国人民大学出…


	六十春秋耕耘学术沃土甲子华…

	“中国特色社会主义法学理论体…

	人大出版社荣获2015年度“中国…

	我社4种选题入选中宣部、国家…

	人大国际出版添佳果中罗学术…

	我社“马克思主义研究论库（第…

	我社9个选题入选教育部“全国…

	我社《高思在云》《抗战家书》…

	《高思在云》、《中国大视野2…

	新浪书会专访：中国人民大学出…

人大社16年6月新书快递01-《Stata环境下的数据管理实务手册》

2016年06月15日

请点击下载：

/UploadFiles/XXGL/2016/6/人大社16年6月新书快递01-《Stata环境下的数据管理实务手册》.doc

书名：Stata环境下的数据管理实务手册（社会科学工作者、数据工作者必备，有效提升大数据时代的数据管理能力和处理能力！）

作者：【美】迈克尔•N•米歇尔

ISBN：978-7-300-18239-1

译者：唐丽娜

定价：68.00元

出版时间：2016年6月

页码：420

字数：522千字

开本：16开

装帧：平装

中图法分类：TP274-62

•一本非常实用的社会统计软件Stata数据管理的指导书！

•有效提升大数据时代的数据管理能力和处理能力！

•社会科学工作者、数据工作者必备的数据管理参考书！

•手把手逐步演示数据管理的流程，易上手，易操作，突出实务！

•国际权威的Stata出版社独家授权，中国人民大学中国调查与数据中心翻译，权威、准确、经得起检验的数据管理实务手册。

读者对象：

社会科学研究者（适用于社会学、管理学、心理学、教育学等学科的教师和科研工作者，以及高年级本科生和研究生的社会统计类课程）

政府和研究机构、咨询公司、网络公司、调查公司的数据研究部门和决策部门

编辑推荐：

一本生动可读的数据管理书。作者就像是一个坐在对面娓娓道来的讲故事的人，将数据管理的流程和步骤一一展现，让我们重新认识到Stata在数据管理方面的迷人魅力。大数据时代，让数据为我所用，易用，乐用，是这本书的一个出发点。

该书的翻译也是可圈可点的，精确，流畅，译者唐丽娜不亏是科班出身并长期致力于社会统计的专家，她在社会数据的管理与统计方面的专业经验，以及在CGSS（中国综合社会调查）项目中丰富的实操经验，也极大保证了这本书的翻译质量。

作者简介：

【美】迈克尔 •N•米歇尔（Michael N. Mitchell）是一位医疗卫生服务领域的高级统计师。12年来，他一直在加州大学洛杉矶分校学术技术服务部门的统计咨询组工作。所著书籍有A Visual Guide to Stata Graphics，Interpreting and Visualizing Regression Models Using Stata，Stata for the Behavioral Sciences等。

译者简介：

唐丽娜，社会学博士，就职于中国人民大学中国调查与数据中心。研究领域为宗教社会学、社会调查方法与技术、社会科学数据管理及数据可视化、数据库建设。

内容简介：

数据管理是介于原始数据收集和统计分析之间的一项重要工作，其包含了数据分析中那些最具挑战性的方面。《Stata环境下的数据管理实务手册》从Stata入手，展示了Stata在管理数据工作中的作用，而非仅仅是其在统计上的优势。

《Stata环境下的数据管理实务手册》各章甚至各章中的大多数小节都是相互独立的，每一部分都关注某一个特定的数据管理任务，并且提供了相应的实例来展示如何在Stata中实现这一特定数据管理任务。这使得本书提供了两种不同的方式供读者使用。读者可挑选其中某一章节进行阅读学习，或以数据管理任务为导向快速获得相应帮助。

《Stata环境下的数据管理实务手册》包含11章，第1章是简介，第2—5章讨论数据管理的基本问题：读入和保存数据、数据清理、给数据加标签以及创建变量。第6—8章讨论的是在数据管理项目中较为常见的问题：合并数据、处理子群体中的个案以及改变数据结构。第9章讨论的是有关数据管理编程的问题。其相对第2—5章的内容而言更为深入和高级。这章描述了应怎样组织构建数据分析以便其能被循环使用，并介绍了很多用来处理重复性任务的简单编程方法。第10章主要为拓展内容，介绍了怎样为本书获取一些在线资源，如何寻找和安装其他STATA用户编写的程序，并推荐了一系列补充的在线资源。最后附录列出STATA操作中的一些基本要素。这些要素并不是关于某一个特定的数据管理任务，较为分散，但却无处不在。

目录：

致谢

前言

第一章入门介绍

1.1 本书的使用

1.2 本书的概要

1.3 列出书中的观测值

第二章读取和录入数据

2.1 简介

2.2 读入Stata数据

2.3 保存Stata数据

2.4 读取逗号或制表符作分隔符的文件

2.5 读取空格作分隔符的文件

2.6 读取固定格式文件

2.7 读取一条观测值包含多行原始数据的固定格式的文件

2.8 读取SAS XPORT 文件

2.9 读取数据时的常见错误

2.10 在Stata数据编辑器中直接录入数据

2.11 保存逗号或制表符分隔文件

2.12 保存空格分隔文件

2.13 保存SAS XPORT 文件

第三章数据清理

3.1 简介

3.2 数据的双录

3.3单个变量检查

3.4 用分类变量检查分类变量

3.5 用连续变量检查分类变量

3.6 用连续变量检查连续变量

3.7 修正数据中的错误

3.8 识别重复录入

3.9 关于数据清理的总结性思考

第四章给数据加标签

4.1 简介

4.2 描述数据

4.3 给变量加标签

4.4 给取值加标签

4.5 标签的作用

4.6 用不同的语言给变量和取值加标签

4.7 给数据添加注释

4.8 格式化变量的显示

4.9 改变数据中的变量顺序

第五章创建变量

5.1 简介

5.2 创建和修改变量

5.3 数值表达式和函数

5.4 字符表达式和函数

5.5 重新编码

5.6 给缺失值编码

5.7 虚拟变量

5.8 日期变量

5.9 日期－时间变量

5.10 变量间的计算

5.11 个案间的计算

5.12 更多用egen命令的例子

5.13 把字符型变量转换成数值型变量

5.14 把数值型变量转换成字符型变量

5.15 变量重命名和变量排序

第六章合并数据

6.1 简介

6.2 Appending：添加数据

6.3 Appending：添加数据时存在的问题 2

6.4 Merging: 一对一匹配合并数据

6.5 Merging：一对多匹配合并数据

6.6 Merging：合并多个数据

6.7 Merging：更新合并

6.8 Merging：合并数据时的其他选项

6.9 Merging：合并数据时的问题

6.10 连接数据

6.11 交叉合并数据

第七章处理分组的观测值

7.1 简介

7.2 为每个分组获取独立的结果

7.3 分组独立计算数值

7.4 组内计算：加下标的观测值

7.5 组内计算：跨观测值计算

7.6 组内计算：求和

7.7 分组计算：更多示例

7.8 by命令和tsset命令比较

第八章改变数据形状

8.1 简介

8.2 宽数据和长数据

8.3 长数据转换成宽数据

8.4 长数据转宽数据时的问题

8.5 宽数据转换成长数据

8.6 宽数据转长数据时的问题

8.7 多层次数据

8.8 展开数据

第九章数据管理编程

9.1 简介

9.2 对数据管理长期目标的建议

9.3 执行do文件和制作日志文件

9.4 数据检验的自动化

9.5 合并do文件

9.6 介绍Stata中的宏

9.7 使用Stata的宏

9.8 通过变量循环实现命令的重复执行

9.9 通过数字循环实现命令的重复执行

9.10 任何数据管理都能用循环实现命令的重复执行

9.11 获取Stata命令保存的结果

9.12 把estimation命令的结果保存为数据

9.13 编写Stata程序

第十章附加资源

10.1 本书的在线资源

10.2 搜索并安装其他程序

10.3 更多在线资源

附录基础知识

A1.简介

A2.Stata语法概述

A3.用by命令进行多组分析

A4.注释

A5.数据类型

A6.逻辑表达式

A7.函数

A8.用if和in对观测值进行分组

A9.用keep和drop选择观测值和变量

A10.缺失值

A11.变量列表

主题索引

精彩样章：

有人说收集数据就像收垃圾一样：收集之前就应该想好怎么处理它。

—— 罗素.福克斯，马克思.哥白尼和罗伯特.虎克

1.1 本书的使用

书如其名，这是一本关于用Stata来管理数据的操作手册。作为一本操作手册，也就没有必要一定遵循某种顺序来阅读每个章节。书中各章不仅各自独立，并且各章中的大多数小节也相互独立。书中每一部分都关注某一个特定的数据管理任务，且提供了相应的示例来展示如何在Stata中实现这一特定的数据管理任务。我认为本书至少有两种使用方式。

读者可挑选其中一章，比如第3章“数据清理”，通过阅读这一章来掌握一些有关如何清理和准备数据的新知识点或小技巧。这样，当下次需要清理数据时，就可以直接使用之前学到的这些相关知识点，如果需要的话，也可以再快速浏览一下相关章节。

或者，面对之前从来没有做过的数据任务（或者也许之前做过，但是已经很长时间没有操作过了），希望能够快速获得帮助。例如，要读入一个用逗号作为分隔符的数据文件。这时候，拿起这本书直接翻到第2章“读入数据”的2.4节，这节介绍了如何读入以逗号和制表符作分隔符的数据文件。根据这节中的示例，就能把逗号分隔的数据文件读入Stata，然后继续你的数据处理工作。

当阅读这本书的时候，读者会发现本书的每个章节都是为解决某个具体问题而设计的，但千万不要迷失在一些附属或难懂的细节之中。如果发现自己需要了解一些更深的知识，本书的每个小节也列出了一些Stata帮助文件中的相关参考文件，这些参考中包含了更多的知识。如果读者用的是Stata 11.0版本，那么这些帮助文件中还包含了在线参考手册的链接。由于本书是按照实际数据管理中会遇到的不同任务来组织的，而Stata的参考手册是根据命令来组织的，因此我希望本书能够帮助读者将手头上要处理的数据管理任务和手册中与这些任务相关的对应条目联系起来。从这个角度来看，本书并不是Stata参考手册的竞争者，相反是它们的使用指南。

建议读者能够自己去操作和运行书中的示例。和被动学习（比如仅阅读本书）相比，实际操作让你进入一种主动学习的状态。如果读者主动在Stata中敲入命令，查看运行结果，自己试验同一命令的变体，那么相信这时你对知识的理解，和被动学习相比，会更好且更深入。

为了方便读者重复操作书中列出的示例，书中所有的数据都可以从网络上直接下载。通过在Stata中键入下面的命令，将书中涉及到的所有数据直接读入Stata的当前工作目录下：

. net from http://www.Stata-press.com/data/dmus

. net get dmus1

. net get dmus2

执行完这些命令后，就可以使用这些数据了，比如：要用数据wws.data，只需键入如下命令即可：

. use wws

书中每个小节都是独立的，因此可以在每个小节开时，键入相关命令，直接重复运行本节中的示例。有时，甚至可以在某个小节的中间重复运行一个示例，但并不是在所有的小节中都能这么操作。此时，需要重新回到这一小节的开头来重复这些示例。尽管大部分的章节是独立的，但有些部分仍是建立在之前章节的基础上。即使在这种情况下，数据也是可用的，以便读者能从任何一个给定小节开头部分来运行这些示例。

尽管书中讲的所有示例都可以通过点击Stata菜单中的相关条目来实现，但本书的重点是使用Stata的命令行进行操作。但，有一点需要说明：Stata里有两个非常方便的交互界面/点击的功能，即使一些以写命令为主的用户（包括我自己）也会发现这些功能很有用。数据编辑器（Data Editor，2.10节会介绍）是一个非常有用的用来把数据录入Stata的交互界面。在这节中，还介绍了变量管理器（Variable Manager）的使用。虽然这是在给一个新创建的数据添加标签的背景中，介绍变量管理器，但它对修改（或增加）一个既存数据的标签同样非常有用。

需要说明的是本书是在Stata 11.0下写成的。书中大部分示例在11.0之前的版本中也同样有效。但是，有些示例在11.0之前的版本下是无效的，最明显的是第6章中那些用来讲解数据合并的例子。

这就提出了一个问题，读者要一直保持自己所用的Stata是最新的，这也是一个不错的练习。要想证实你的Stata是最新版并获取所有免费更新，输入下面这个命令：

然后根据提示操作。升级完成后，可键入命令 help whatsnew来查看刚刚都更新了些什么以及此前Stata的更新记录。

在下载完所需数据并实现Stata的全面升级后，便可投入到本书的学习中，并亲自操作书中的所有示例。在此之前，希望读者能看完下面一节，它是对本书的总体介绍，能够帮助读者选择可能是你想最先阅读的章节。

1.2 本书的概要

本书每一章都包含了一个不同的、和数据管理有关的主题，每一章都非常独立。本书各章之间的先后顺序和传统书本中的不一样，传统书需要从头读到尾。也许读者学习本书的大部分内容都不是按照书中呈现的顺序进行，而是按一种不同顺序来学习。我想让读者先对本书有一个快速的、整体了解，以便能以自己喜欢的顺序来学完书中的大部分内容。

本书共11章，包括本介绍章（第1章），主体章节第2-10章，以及一个附录。

接下来的四章，2-5章，讨论的是基本主题，其中包含了所有数据管理项目中都会遇到的问题：读入和保存数据、数据清理、给数据加标签以及创建变量。之所以将这些主题放在前面来讲，是因为我认为它们都是数据管理中最常见的主题；把它们放在前面还有一个原因：它们都是最明确且最具体的主题。

接下来的三章，6-8章，讨论的是在很多（但不是所有）数据管理项目中都会出现的问题：合并数据、处理子群体中的个案以及改变数据结构。

第9章讲的是数据管理编程。虽然这章中涉及的主题对很多（不是所有的）数据管理项目而言很常见，但相对前面的2-5章中讨论的主题而言，它们更深入、更高级。这章讲的是如何构建数据分析以使其能够被复制，并介绍了很多用来处理重复性任务的快捷编程方法。

第10章主要是一些扩展内容，介绍了怎样为本书获取一些在线资源，如何寻找和安装其他Stata用户编写的程序，并推荐了一系列补充的在线资源。如果更早地看完这一章，或许你会发现这些信息很有用。

附录A 列出了Stata操作中的一些基本要素。和前面的章节不一样，这些要素是分散的，并且不是关于某一个特定的数据管理任务的，但是它们无处不在，本书通篇都会经常涉及。前面的几个章节会经常涉及到附录中的各节，在附录中给每一个要素提供一个解释，这样就不需要在它们每次出现的时候都重复这些解释了。附录包含的主题有：注释、逻辑表达式、函数、if和in、缺失值以及变量列表。把这一章放在最后，以便读者在需要时能够快速翻到这里。也许你会发现，和不断重复地回到附录相比，先读完附录并让自己熟悉附录中的这些要素会更容易些。

下一节介绍并解释了一些选项，这些选项可以和命令list一起使用，该命令贯穿全书。

1.3 列出书中的观测值

本书主要依赖用各种示例向读者展示Stata中数据管理命令的工作原理。我更倾向于用一个简单的示例向读者展示怎样使用一条命令，而不是用很多文字来解释这条命令。为此，我会经常使用list命令来讲解其他命令的作用。命令list默认的输出结果并不总是如我们希望的那样清楚明了。有时我会在list命令的后面加入一些选项让运行结果尽量清晰。我用这节来讲解这些选项并解释为什么全书都会用到它们，而不是每次这些选项出现时都去解释它们。

在第一组示例中，使用数据wws.dta，它包含2,246个虚构的、关于女性及其工作的观测值。

对包含了很多观测值的文件，列出其中一部分观测值非常有用。我经常用in来显示在一个数据中选中的观测值。在下面的示例中，列出了第1-5个观测值，显示了变量idcode, age, hours 和wage。

有时变量名太长，命令list就会把变量名进行缩写。这样列表就会更紧凑，但这样也会让被缩写的标题更难以理解。例如，下面的列表显示了前5个观测值中的变量idcode, married, marriedyrs 和nevermarried。请注意变量marriedyrs 和nevermarried是如何被缩写的。

在缩写变量时，可以用选项abbreviate()来指定命令list可用的最少字符数。例如，指定abbreviate(20)表示所有的变量都不能被缩写到小于20个字符。在本书中，这个选项缩写为abb()（例如，下面的abb(20)）。这里用这个选项就能让所有变量名都完整地显示出来。

如果在一行中要显示的变量列表太长，列表会在页内自动换行。如下所示，这种列表很难读懂，因此在本书中会避免这种情况的出现。

有时，用选项noobs来避免出现这种自动换行的情况。选项noobs禁止显示观测值的序号，这样偶尔会节省出足够的空间以防止变量列表在该页内自动换行。

在上面示例的命令中加入选项noobs，再重新运行该命令，现在就节省出足够的空间防止列表在页内被换行显示。

对接下来的示例，用的是数据tv1.dta，它包含了10个观测值，内容是4个不同孩子的看电视的习惯。

可以用命令list来查看整个数据。

注意每5个观测值间的后面会显示一条分隔线。这样更容易阅读输出结果。有时囿于空间，会禁止显示分隔线以确保将列表能显示在同一页上。选项seperator(0)（这个选项的缩写为sep(0)）不显示这些分隔线。

在其他情况下，分隔符在区分观测值组群时特别有用。在这个数据中，每个孩子都有多个观测值，通过加入选项sepby(kidid)要求在每两个kidid之间加入一条分隔线。这有便于清楚地看到不同孩子的观测值组。

本节对书中使用命令list时会用到的选项的介绍到此为止。在使用这些选项遇到疑惑时，且没有任何解释这些选项是什么以及为什么用这些选项，希望本节能帮助你解除这些疑惑。