本文来自微信公众号 “磊叔的数据增长实验室”,作者:我是磊叔,纷传经授权发布。
在回归分析中,“回归”指的是一种统计方法,用于研究自变量(或多个自变量)与因变量之间的关系。回归分析可以帮助我们预测因变量的值,或者解释因变量的变异情况,进而研究自变量对因变量的影响程度。
回归分析中,自变量是用来解释因变量的变异情况的变量,而因变量则是需要被解释的变量。回归分析可以帮助我们确定自变量与因变量之间的函数关系,进而可以预测因变量在不同自变量取值下的值。
回归分析可以用于很多领域,如经济学、金融学、社会学、心理学、医学等。在实际应用中,回归分析可以帮助我们分析市场需求、预测销售量、研究消费者行为、分析医学数据等。
01
“回归”的意思
回归(regression)一词最早源自于英国的天文学家弗朗西斯·高尔顿 (Francis Galton) 在19世纪晚期对遗传学中“回归于平均值”的研究,他通过对家禽体重数据的分析,发现后代的体重有回归于平均值的趋势,即子代的体重趋向于群体平均体重而不是父母的体重。由此,他将这种趋势称为“回归”(regression)。
后来,统计学家卡尔·皮尔森 (Karl Pearson) 在高尔顿的研究基础上,引入了相关系数和线性回归分析,将回归应用于统计学中。由于高尔顿最早将这种趋势称为“回归”,因此线性回归在统计学中也被称为回归分析。
因此,回归分析中的“回归”一词是源于高尔顿对遗传学研究的称谓,并在统计学中被沿用,后来也成为了统计学中的一个专业术语。
回归分析可以解决以下问题:
预测问题:根据自变量和因变量之间的关系,使用回归分析来预测因变量的取值,例如预测销售额、房价、股票价格等。
探究问题:通过回归分析探究自变量与因变量之间的关系,例如探究不同因素对学生成绩的影响,探究广告投放对销售额的影响等。
确定变量之间的关系:回归分析可以用来确定自变量与因变量之间的关系是正相关还是负相关,以及关系的强度。
排除干扰:回归分析可以用来排除一些影响因变量的干扰因素,以便更准确地估计自变量与因变量之间的关系。
模型选择:通过回归分析比较不同模型的拟合优度,选择最优模型,以便更好地解释变量之间的关系。
02
案例展示
假设我们想要预测一个人的体重,我们可以收集多个自变量,如身高、性别、年龄和日常饮食习惯等。我们可以将这些自变量输入到回归模型中,来预测该人的体重。在这个例子中,我们的因变量是体重,自变量包括身高、性别、年龄和日常饮食习惯等。我们可以使用线性回归、多元线性回归或其他回归模型来预测体重。
另一个例子是,假设我们想要预测房屋价格。我们可以收集多个自变量,如房屋的面积、房间数、年龄和地理位置等。我们可以将这些自变量输入到回归模型中,来预测该房屋的价格。在这个例子中,我们的因变量是房屋价格,自变量包括房屋的面积、房间数、年龄和地理位置等。我们可以使用多元线性回归或其他回归模型来预测房屋价格。
给您一个Excel中做回归分析的简单案例
在Excel中,可以通过内置的“数据分析工具”来进行回归分析。具体操作如下:
点击“数据”选项卡,在“分析”组内找到“数据分析”按钮,并点击打开“数据分析”对话框。
选择“回归”选项,并点击“确定”按钮。
在“回归”对话框中,输入“输入数据范围”和“输出数据范围”,并勾选“标签”选项。这里的“输入数据范围”指的是自变量的数据区域,“输出数据范围”指的是因变量的数据区域。
选择“输出选项”中的“置信水平”,一般设定为95%。
点击“确定”按钮即可生成回归分析报告。
以下是一个简单的回归分析案例:
假设某公司想要预测产品销量与广告投入之间的关系,收集了如下数据:
广告投入(万元) | 产品销量(件) |
---|---|
2 | 300 |
4 | 500 |
6 | 700 |
8 | 900 |
10 | 1100 |
通过Excel中的回归分析,可以得到如下结果:
Coefficients | Standard Error | t-Stat | P-value | |
Intercept | 200.0000 | 63.6396 | 3.1413 | 0.0283 |
广告投入 | 100.0000 | 11.5470 | 8.6586 | 0.0011 |
根据回归分析的结果可以得到如下回归方程:
y = 200 + 100x
其中,y为产品销量,x为广告投入。该回归方程可以用于预测在不同广告投入的情况下,预计可以实现的产品销量。