线性回归结果表放在论文里。这张表有很多数字。很多人看不懂这些数字。我们慢慢说。表里有自变量和因变量。自变量是原因。因变量是结果。比如你想知道学习时间对考试成绩的影响。学习时间是自变量。考试成绩是因变量。
表的第一列是变量名称。你看到学习时间这个变量。后面有很多数字。第一个数字是系数。系数是正数。表示学习时间增加考试成绩也增加。系数是负数。表示学习时间增加考试成绩减少。系数是0.5。表示学习时间每增加一小时考试成绩提高0.5分。
系数旁边是标准误。标准误表示系数的可靠程度。标准误小说明系数比较准确。标准误大说明系数可能不准。比如系数是0.5标准误是0.1。这个系数比较可靠。系数是0.5标准误是1。这个系数可能没有意义。
接下来是t值。t值是系数除以标准误。t值越大越好。t值大于2说明系数显著。显著的意思是可能不是偶然得到的。t值小于2说明系数可能只是偶然。
然后是p值。p值表示偶然得到这个系数的可能性。p值小于0.05很好。p值小于0.01更好。p值小于0.001非常好。p值小说明这个关系真实存在。p值大说明可能只是巧合。比如p值是0.03。表示有百分之三的可能性是巧合。
表里还有截距项。截距表示所有自变量为零时因变量的值。比如学习时间为零时的考试成绩。有时截距没有实际意义。比如体重为零的身高。
R平方在表的下面。R平方表示自变量能解释因变量的多少变化。R平方是0到1之间的数。R平方为1表示完全解释。R平方为0表示完全没有解释。R平方为0.6表示自变量解释了因变量百分之六十的变化。R平方越大模型越好。
调整后R平方考虑变量个数。变量太多R平方会虚高。调整后R平方更准确。比较不同模型时看调整后R平方。
样本量很重要。样本量是观察值的个数。样本量越大结果越可靠。样本量小结果可能不准。表里会写样本量是多少。
星号表示显著性水平。一颗星表示p小于0.05。两颗星表示p小于0.01。三颗星表示p小于0.001。星号越多越显著。
看表时要看系数的正负。正系数表示正相关。负系数表示负相关。比如学习时间系数为正说明学习有用。游戏时间系数为负说明游戏影响学习。
系数大小很重要。系数大影响大。系数小影响小。比较不同变量的系数要看标准化系数。标准化系数可以比较不同单位的变量。
多重共线性是个问题。多个自变量高度相关。系数会不稳定。方差膨胀因子可以检查多重共线性。方差膨胀因子大于10不好。
异方差性影响标准误。异方差性表示误差项方差不等。稳健标准误解决这个问题。表里有时会报告稳健标准误。
模型设定很重要。遗漏变量会导致偏差。无关变量会降低精度。理论指导变量选择。
虚拟变量处理分类变量。比如性别分为男和女。需要设置虚拟变量。基准组不能忘记。
交互项考虑调节效应。比如学习时间对考试成绩的影响可能因性别不同。加入交互项检验这个想法。
结果解释要谨慎。相关不是因果。观察数据只能证明相关。实验数据才能证明因果。
表格要清晰美观。变量命名要明确。数字对齐要整齐。小数位数要一致。显著结果要标注。
写作时要描述关键结果。不要重复所有数字。强调显著关系。解释系数含义。讨论实际意义。
读者可能不懂统计。用简单语言解释。举例子帮助理解。避免专业术语。
审查结果时检查符号是否符合预期。大小是否合理。显著性是否达到。模型是否合适。
软件输出直接粘贴不好。需要整理格式。删除不必要信息。保留重要结果。
比较不同模型时看系数变化。新变量加入后原有系数如何变。稳定系数更可靠。
极端值可能影响结果。检查残差图。删除极端值重新分析。结果稳健很重要。
理论框架指导分析。不要盲目跑回归。先有想法再验证。结果解释结合理论。
政策建议基于结果。显著关系可作依据。系数大小决定力度。谨慎推广结论。
未来研究可改进局限。更大样本更多变量。更长时间更好数据。不同方法验证。
表格是论文核心部分。读者通过表格了解发现。花时间做好表格。仔细解释结果。
统计显著不等于实际重要。小系数可能显著但无意义。大系数可能不显著但重要。结合领域知识判断。
置信区间提供更多信息。95置信区间包含真值。区间窄精度高。区间宽不确定。
模型假设需要检验。线性关系假设。误差项独立同分布。残差分析验证假设。
时间序列数据不同。自相关是个问题。单位根检验平稳性。协整分析长期关系。
面板数据有个体效应。固定效应模型。随机效应模型。豪斯曼检验选择。
工具变量解决内生性。寻找合适工具变量。相关外生条件。弱工具变量检验。
这些内容帮助理解线性回归结果表。多看多练就熟悉了。实际分析中结合具体情况。不断学习提高。