统计在生活中随处可见。天气预报说明天降雨概率百分之三十。医生判断一种新药是否有效。工厂检查一批灯泡的寿命。这些都需要统计。
统计是数学的一个分支。它研究如何收集数据。它研究如何处理数据。它研究如何从数据中得出结论。数据来自观察。数据来自实验。数据是信息。数据是数字。数据是描述。统计让数据说话。
收集数据是第一步。数据要准确。数据要可靠。数据要有代表性。我们想了解全校学生的身高。我们不能只测量篮球队的学生。他们的身高可能偏高。我们应该随机抽取学生。每个学生被抽到的机会应该相同。这叫随机抽样。随机抽样很重要。它减少偏差。它让样本代表整体。
调查问卷是常见方法。问卷问题要清楚。问题不能引导答案。你想了解学生阅读时间。你问“你每天读书多久?”这个问题是好的。你问“你每天读书时间很短,对吗?”这个问题不好。它暗示了答案。数据就会不准确。
实验是另一种方法。医学试验常用实验。一组病人服用新药。另一组病人服用旧药。或者服用安慰剂。安慰剂看起来像药但没有药效。病人不知道自己是哪一组。医生也不知道。这叫双盲试验。这可以避免心理影响。最后比较两组病人的康复情况。数据更可信。
数据收集好了。数据是原始的数字。数据是杂乱无章的。我们需要整理数据。我们需要描述数据。这是描述统计的工作。
一种方法是画图。图表直观。图表容易理解。
直方图常用。我们测量了五十个灯泡的寿命。寿命单位是小时。数据如下:一千零五十,一千一百,九百八十,一千二百……我们把数据分组。比如九百五十到一千小时一组。一千到一千零五十小时一组。以此类推。数一数每组有多少个灯泡。这个数叫频数。在图上画柱子。柱子高度代表频数。我们能看到分布。大部分灯泡寿命集中在哪个范围?图形一目了然。
饼图也常用。我们调查学生喜欢的运动。篮球占百分之四十。足球占百分之三十。游泳占百分之二十。其他占百分之十。画一个圆。圆分成几个扇形。每个扇形大小代表比例。一眼看出哪个运动最受欢迎。
除了画图,我们计算数字特征。平均数最重要。把所有人的身高加起来。除以总人数。得到平均身高。平均数代表一般水平。但它容易被极端值影响。一个班里,大部分同学家庭月收入一万元。突然转来一个同学,他家月收入一千万元。计算全班家庭月收入平均数。这个平均数会变得很大。它不能代表大多数同学的情况。这时用中位数更好。把所有数据从小到大排队。位置在最中间的那个数就是中位数。中位数不受极端值影响。还有众数。众数是出现次数最多的那个数。
数据有波动。数据有差异。我们需要衡量这种差异。这叫离散程度。甲班数学平均分八十分。乙班数学平均分也是八十分。但甲班同学分数很接近。都在七十五到八十五之间。乙班同学分数很分散。有六十分的,有一百分的。两个班水平不一样。我们需要一个量来衡量分散程度。常用的是方差。计算每个数据和平均数的差。差的平方。把这些平方加起来。再除以数据个数。得到方差。方差大,数据分散。方差小,数据集中。方差的平方根叫标准差。标准差和原始数据单位一致。
描述统计整理和描述数据。推断统计更进一步。推断统计用样本推断总体。总体是我们研究的全部对象。样本是从总体中抽取的一部分。我们不可能检查所有灯泡的寿命。那样灯泡都烧坏了。我们只能抽检一部分。我们想知道这批灯泡的平均寿命。我们测量样本的平均寿命。用样本平均去估计总体平均。这种估计叫点估计。点估计是一个具体的数。
但估计可能有误差。我们需要知道这个估计的可靠程度。于是引入区间估计。我们说,灯泡总体平均寿命在九百八十小时到一千零二十小时之间。我们有百分之九十五的把握。这个区间叫置信区间。百分之九十五叫置信水平。置信区间给出了一个范围。同时给出了我们相信这个范围的程度。
假设检验是另一种重要推断。我们先提出一个假设。比如,药厂说新药有效率是百分之九十。我们怀疑。我们提出一个假设:新药有效率等于百分之九十。这叫原假设。然后我们做实验。收集数据。看看在假设成立的条件下,得到我们现有数据的概率有多大。这个概率很小,小于我们事先设定的一个标准(比如百分之五)。我们就拒绝原假设。我们认为新药有效率不是百分之九十。可能更低。也可能更高。假设检验像一场审判。原假设默认无罪。证据(数据)足够强,我们才拒绝它。这个标准叫显著性水平。
统计中有很多模型。回归模型是常用的模型。我们关心两个变量之间的关系。父亲的身高和儿子的身高有关。教育投入和收入有关。广告费和销售额有关。我们收集数据。在坐标系里画点。横坐标是父亲身高。纵坐标是儿子身高。点大致呈一条直线趋势。我们找一条直线。让这条直线尽可能靠近所有点。这条直线可以描述关系。儿子身高等于一个数加上另一个数乘以父亲身高。这叫线性回归。我们可以用这个方程预测。知道父亲身高,可以预测儿子身高。当然预测不是绝对准确。回归分析给出了预测的不确定性。
时间序列分析是另一类模型。股票价格每天变化。气温每天变化。这些数据按时间顺序排列。它们叫时间序列。时间序列分析寻找其中的规律。有长期趋势。有季节波动。比如空调销量夏天高冬天低。分析这些,可以帮助我们预测未来。
统计不是万能的。统计结论有不确定性。统计可能被误用。选择性地使用数据。用错误的图表误导人。混淆相关关系和因果关系。夏天雪糕销量高。溺水人数也多。雪糕销量和溺水人数正相关。但不能说吃雪糕导致溺水。它们都和天气热有关。相关不等于因果。这是重要的原则。
统计需要数学基础。概率论是统计的理论支柱。随机事件的发生有规律。概率描述这种规律。抛一枚均匀的硬币。正面朝上的概率是二分之一。抛一万次。正面朝上的次数大约五千次。不一定正好五千次。但很接近。大数定律告诉我们,试验次数很多时,频率接近概率。中心极限定理告诉我们。不管总体是什么分布。从中抽取样本。样本平均数的分布近似正态分布。正态分布像一口钟。中间高,两边低,对称。很多自然现象服从正态分布。人的身高。测量的误差。正态分布很重要。这些定理让统计推断有了坚实的数学基础。
计算机改变了统计。过去计算很麻烦。大量数据无法处理。现在有统计软件。有编程语言。R语言,Python。它们功能强大。可以处理海量数据。可以画复杂的图。可以进行复杂的计算。统计的应用范围大大扩展。大数据时代。数据非常多。非常杂。传统方法需要发展。机器学习方法和统计结合紧密。统计的思想是核心。
学习统计需要理解思想。不能只记公式。要明白为什么这样做。要知道结论的含义。要警惕各种陷阱。要诚实对待数据。
统计是工具。帮助我们理解充满不确定性的世界。从数据中寻找规律。做出更明智的决策。它严谨。它有用。它就在我们身边。