选择一个研究问题很重要。这个问题要有意义。这个问题要能通过数据来回答。问题不能太大。问题不能太模糊。问题要具体。例如不问“教育有用吗”,而是问“多读一年书能让收入增加多少”。
查阅已有文献是必须的。看看别人研究过什么。看看别人是怎么做的。找到他们没研究过的地方。找到他们研究的不足。这能帮你确定自己的研究价值。避免做重复的工作。你可以站在别人的肩膀上。
提出一个明确的假设。你的研究想证明什么。假设要清晰。比如假设“参加职业培训会提高个人收入”。这个假设要能从你的问题里推导出来。
确定你需要的数据。数据从哪里来。可能是公开的统计数据。可能是调查问卷得到的数据。可能是实验得到的数据。数据要能测量你的关键变量。比如研究教育回报率,你需要每个人的“受教育年限”和“收入”数据。数据质量要好。数据量要足够。
清理和整理数据。原始数据经常很乱。可能有错误数字。可能有空缺。你需要检查数据。纠正明显的错误。处理缺失的数据。把数据转换成能分析的格式。生成你需要的新变量。比如用“毕业年份减去入学年份”得到“受教育年限”。
描述你的数据。这是第一步分析。计算主要变量的平均值。计算标准差。看看最小值是多少。看看最大值是多少。画一些简单的图表。比如画出收入和受教育年限的散点图。这让你对数据有个初步印象。看看数据有没有奇怪的模式。
建立数学模型。这是核心。常用的是回归模型。模型把你的假设变成数学公式。例如建立一个线性回归:收入=a b×受教育年限 其他因素 误差。这里的系数b就是你关心的,它代表多读一年书带来的收入变化。
处理复杂情况。现实生活没那么简单。收入不只受教育影响。还受工作经验、性别、地区影响。你要把这些因素加入模型。变成:收入=a b1×受教育年限 b2×工作经验 b3×性别 ... 误差。这样b1才是排除了其他干扰的“纯”教育回报。你还要考虑是否存在反向因果。是不是收入高的人更有钱去读书?你需要想办法解决这个问题。比如寻找工具变量。
运行模型并得到结果。使用统计软件。把数据放入软件。输入模型命令。软件会给你计算结果。你会看到各个系数的估计值。你会看到它们的标准误。你会看到显著性水平。就是那些星号。星号多通常意味着结果比较可靠。
解释这些数字。理解系数的含义。如果受教育年限的系数是1000,并且显著,那就意味着在其他条件不变的情况下,多受一年教育,年收入平均增加1000元。不仅要看大小,还要看方向。正号表示增加,负号表示减少。要结合你的知识和常识来判断这个数字是否合理。
检验结果的稳健性。改变一下模型设定再做分析。比如换一个变量衡量方式。比如增加或减少一些控制变量。比如换一种更复杂的估计方法。看看主要结论是不是不变。如果变来变去,你的核心发现都成立,大家就更相信你的结果。如果一换方法结论就变,那你的发现就很脆弱。
讨论你的发现。你的结果支持最初的假设吗?如果支持,意味着什么。如果不支持,可能的原因是什么。你的发现和之前文献的发现一样吗?如果不一样,为什么不一样。你的研究有什么实际意义。比如你的结果可能建议政府应该多投资教育。
承认研究的局限性。没有研究是完美的。你的数据可能有缺陷。你的模型可能太简单。可能存在你没考虑到的因素。这些都要老实说出来。这不会削弱你的研究,反而让它更可信。说明你清醒地知道研究的边界在哪里。
提出未来可以研究的方向。基于你的发现和局限,后面的人可以做什么。可以收集更好的数据。可以从另一个角度研究。可以研究更细致的群体。为后续研究留下线索。
论文要把这些步骤都写清楚。让别人能看懂你做了什么。让别人能重复你的过程。从问题到数据,从方法到结果,一步一步交代明白。实证研究就像做手工,步骤清晰,结果才可靠。