数据可以帮助我们了解世界。我们经常看到各种数字。这些数字代表什么意思。计量分析就是一种方法。它用数字研究问题。我们可以研究经济问题。我们可以研究社会问题。我们可以研究很多问题。今天讨论一个具体问题。这个问题关于家庭收入与教育支出。家庭收入是一个数字。教育支出也是一个数字。我们想知道它们的关系。收入高的家庭教育支出多吗。收入低的家庭教育支出少吗。这就是我们要研究的内容。
收集数据是第一步。我们需要很多家庭的信息。这些信息要真实可靠。我们可以发问卷。我们可以用已有的调查数据。我们收集了五百个家庭的数据。每个家庭告诉我们月收入。每个家庭告诉我们每月为孩子教育花多少钱。数据表里有两列数字。一列是收入。一列是教育支出。我们看看这些数字。有的家庭收入五千元。教育支出八百元。有的家庭收入三万元。教育支出五千元。看起来收入高支出多。但我们需要更仔细的分析。
只看几个家庭不行。我们需要看整体情况。把五百个家庭的数字放在一起。先算平均收入。把五百个收入加起来。除以五百。得到平均收入。再算平均教育支出。把五百个教育支出加起来。除以五百。得到平均支出。平均收入是一万二千元。平均教育支出是二千元。这只是一个大概。平均收入一万二。有的家庭可能只有三千。有的家庭可能有三万。教育支出也一样。我们需要看收入和教育支出怎么一起变化。
画图是一个好办法。横轴代表家庭收入。纵轴代表教育支出。每个家庭在图上是一个点。收入五千支出八百的点在这里。收入三万支出五千的点在那里。五百个家庭有五百个点。这些点散落在图上。我们观察点的分布。整体上看点从左下往右上走。收入增加点的高度也增加。这说明什么。说明收入高的家庭教育支出倾向于更高。点的分布不是完全整齐的。有的家庭收入高但教育支出不高。有的家庭收入低但教育支出不低。但大多数点呈现上升趋势。
我们需要一个数字描述这种关系。这个数字叫相关系数。相关系数在负一到一之间。相关系数接近一表示强正相关。一个增加另一个也增加。相关系数接近负一表示强负相关。一个增加另一个减少。相关系数接近零表示没有线性关系。我们计算收入和教育支出的相关系数。结果是零点七五。零点七五大于零。这说明存在正相关关系。零点七五不算小。这说明关系比较强。收入增加教育支出倾向于增加。
相关关系不等于因果关系。我们知道收入和教育支出相关。但一定是收入影响支出吗。可能有其他原因。可能教育支出高的家庭更重视教育。家长更努力赚钱所以收入高。可能还有第三个因素影响两者。比如家长受教育程度。家长受教育程度高可能收入高。同时他们更重视教育所以支出高。我们需要考虑这些可能性。计量分析可以帮助我们控制其他因素。我们收集家长受教育年限的数据。我们把三个变量放在一起分析。
我们建立一个模型。这个模型像一个公式。教育支出等于一个基础数加上收入的影响加上家长教育的影响加上误差。收入的影响是一个系数。家长教育的影响是另一个系数。我们通过计算得到这两个系数。计算过程用最小二乘法。原理是找到一条直线。这条直线最接近所有数据点。直线斜率代表收入的影响。我们得到收入系数是零点一五。家长教育系数是八十。这些数字什么意思。收入系数零点一五表示收入每增加一元教育支出平均增加零点一五元。家长教育系数八十表示家长受教育年限每增加一年教育支出平均增加八十元。模型考虑了家长教育的影响。这时收入系数仍然显著为正。这说明控制家长教育后收入仍对教育支出有独立影响。
我们检查模型是否可靠。我们看误差项。误差项代表模型没解释的部分。误差应该随机分布。不应该有规律。我们画误差的分布图。点随机分散在零线上下。没有明显pattern。这表示模型设定基本合理。我们计算模型的R平方。R平方是零点六五。这表示收入和家长教育解释了教育支出变化的百分之六十五。还有百分之三十五由其他因素解释。其他因素可能包括孩子数量家庭地域等等。
我们进一步测试。收入对教育支出的影响是线性的吗。可能收入很低时影响大。收入很高时影响小。我们加入收入的平方项。看看是否有曲线关系。计算新模型。收入平方项的系数很小且不显著。这说明线性关系可能足够。关系大致是直线。收入每增加一元教育支出增加零点一五元。这个增加幅度是固定的。至少在数据范围内如此。
我们考虑数据的局限性。数据来自一个城市。这个城市经济中等发达。结果可能不适用于所有地区。农村地区可能不同。发达大城市可能不同。数据是某一年的截面数据。我们看不到随时间变化。也许随着时间的推移关系会变化。这些都是需要注意的地方。更全面的研究需要更多数据更多地区更长时间。
计量分析给了我们清晰的认识。家庭收入确实影响教育支出。收入越高教育支出越多。家长教育水平也有影响。教育水平越高教育支出越多。这些影响是平均意义上的。具体到每个家庭会有不同。但整体趋势明确。这些信息对政策制定者有参考价值。如果想提高家庭教育投入。提高家庭收入是一个途径。提高家长教育认识也是一个途径。
我们通过具体例子看到了计量分析的过程。提出一个问题。收集相关数据。用图表观察关系。计算相关系数。建立模型分析。控制其他变量。检验模型可靠性。讨论结果意义。指出数据局限。每一步都用基础的语言描述。没有复杂的术语。这就是用数据寻找答案的过程。计量分析工具强大。但核心思想简单。就是用数字测量关系。用证据支持结论。生活中的许多问题都可以这样研究。