回归的故事

Published at 2022-11-22 10:02

Author:zhixy

View:752


回归的故事

弗朗西斯 · 高尔顿 (Francis Galton),1822年2月16日出生于英国伯明翰一个知识分子家庭。父亲经营一家银行,祖父是皇家学会会员,查尔斯 · 达尔文 (Charles Darwin) 是高尔顿年长13岁的表哥。高尔顿早期分别在伯明翰总医院和伦敦国王学院接受医学教育和训练,后在三一学院转向数学的学习,但只得到及格学位 (通过考试但不足以获得荣誉学位的本科学位)。父亲去世后留下一笔遗产,高尔顿放飞自我,在1845-1846年探险非洲大陆,并详细记录了此次旅行,还因此获得了地理学会颁发的金质奖章。1853年,年仅31岁的高尔顿被选为皇家地理学会会员,三年后又被选为皇家学会会员。高尔顿的早期贡献集中在气象学领域,他首次认识并命名了反气旋。43岁之后,遗传学和统计学成为了他的主要关注点。坚信人才的遗传性,并相信通过制定方案培养人才,可以消除疾病和病态。1883年,高尔顿将这种方案称为“优生学”。虽然高尔顿是达尔文自然选择理论的坚定拥护者,但他认为变异并不是连续的。高尔顿的另一个值得称道的贡献是他首次将指纹识别作为人类身份识别的一种工具。1909年高尔顿被授予骑士称号。两年后的1911年1月17日高尔顿在英国的哈斯勒姆去世。

1877年,高尔顿发表了他的开创性论文——“Typical laws of heredity”,文中讨论了长久以来困扰他的一个遗传学问题:为什么人类群体的遗传属性的特征 (如身高的平均值和方差) 会在世代之间保持不变?他还指出了另一个需要考虑的问题:为什么这些属性多服从正态规律?这与遗传过程中发生的大量遗传影响相去甚远。比如,限制某一类孩子 (如巨人) 数量的遗传过程,减少他们与父辈在身高上的相似性,这是非常重要的影响。然而,正态规律通常会在反应一系列独立的、微小的影响因素,以各种组合方式表现整体效应时才会出现。任何选择上的倾向都会带来巨大影响,从而破坏正态规律。高尔顿通过一组甜豌豆实验发现:不同大小的种子所得子代的种子大小都会表现出正态分布的规律,而且各分布呈现出相同的标准差;设所有子代种子大小的均值为,不同父代种子大小组别会有均值,各组子代种子的大小则满足。这两种现象高尔顿分别称之为“Family variability”和“Reversion”。后者描述的就是:一个人在父母不具备的某些特征方面与祖父母或更远的祖先相像的遗传现象。

1885年,高尔顿继续深化关于reversion问题的研究,并在英国科学联合会人类学部作了主席演讲。这一次高尔顿不仅证明了regression (第一次使用了该名词,以代替之前的reversion) 在本质上是对称的,而且还给出了正确的机制。研究结论基于205个家庭的父母和成人孩子的身高数据。高尔顿首先将母亲的身高乘以以平衡身高的性别差异,然后取父母的身高均值;以1英寸为一个组别将父母均值与成年孩子身高作频率分布表。计算得到父母和子代的平均身高都是68.25英寸,偏差分别为1.2英寸和1.7英寸。然后在每一个身高分组中计算孩子代身高的中位数,并与父母身高均值一起作图,发现相对于拟合父母均值得到直线,子代身高的拟合直线有斜率。高尔顿解释道,子代在部分继承了父母特征的同时,也部分继承了祖先的特征。一般说来,家谱越往前追溯,当前一代的祖先就越多、越杂,直到他们不再与从整个种族中随机抽取的任何同等数量的样本有区别。

实际上,所谓的向均值回归的现象不需要任何生物学的机制为基础,回归效应可以发生在任何两个不完美“相关”的变量之间。所以这种关系是对称的,也就是说将子代和父代的数据对掉,父代的身高也会不那么极端,只是拟合直线的斜率会变为。在此基础上,高尔顿着手绘制父代身高均值和子代身高的联合分布图,并从中发现了二元正态分布。由于高尔顿仅具备“及格”的数学功底,最后在数学家汉弥尔顿 · 迪克森 (Hamilton Dickson) 的帮助下 (作为附件发表于高尔顿1886年的文章“Family likeness in stature”),在理论分析的层面证实了高尔顿的所有经验性结果。回归效应的对称性,在高尔顿1889年基于295个家庭的783个兄弟之间的身高数据中再次出现。所有这些理论的和经验的数据有力的证实了高尔顿的假设,即回归是对称的,本质上它是一个统计学问题。所有这些成果,高尔顿都完整记录在了1889年出版的代表作《Natual Inheritance》之中。

在回归问题的研究中,高尔顿发明的巧妙的高尔顿板 (又称梅花机,quincunx) 来表达和验证他的思想。1873年第一版梅花机的顶部有一个漏斗,下面是一排排的木销,每两层木销的位置交错呈梅花形,底部是一排的垂直隔间。铅弹自漏斗口下落,碰到木销后要么从左侧要么从右侧滑落,再碰到下层木销后会重复以上情形,直到进入底部的某一个垂直间隔内。当准备大量铅弹,逐个自上而下掉落后,它们在连续的隔间中形成的铅弹柱,其轮廓接近于正态密度曲线。所以实际上梅花机是二项分布逼近正态分布的一种形象展示。1877年第二版本梅花机——双层梅花机,用来展示多个小正态分布可汇聚成一个大正态分布的现象。双层梅花机在木销层中插入了一层垂直隔间。当铅弹从漏斗落下后先在上层隔间中形成大的正态分布,然后依次打开上层隔间底部的挡板,铅弹继续下落 (一个隔间内的弹丸会在下层隔间与之垂直对应的位置附近形成一个小正态分布),最后在底层隔间中再次形成大的正态分布。然而高尔顿发现在底层隔间形成的正态分布会比上层隔间形成的分布具有更大的方差,这与他对自然种群中变异性的观察不一致。所以设计了第三版本——收敛梅花机,垂直隔间的上部加装了两侧向中心倾斜的滑道。收敛梅花机可使上下两个正态分布的变异程度保持一致。倾斜的滑道实际上模拟了回归的效果。

回归与相关问题源自两个具有正态分布的两个随机变量,然而当服从正态分布的假设不成立时,两个变量之间的回归还存在吗?正态变量虽然普遍,现实情况中不服从正态分布的变量也是常见的,例如人的生育能力的统计、对花的测量、甚至对成年人的体重测量,还有经济学中工资和估价等随机变量的分布都是偏斜的。这个问题最终被乔治 · 尤尔 (George U. Yule) 通过引入最小二乘法而得以解决。尤尔出生在苏格兰莫汉姆的一个古老的家族,在政府、军事和文学方面都有一定的历史地位。尤尔十三岁时进入温彻斯特学院学习物理,十六岁时进入伦敦大学学院学习工程学,在这里结交了卡尔 · 皮尔逊。毕业后尤尔在工程公司做过学徒,后又投身实验物理学,研究电波 (并在该领域发表了人生第一篇论文)。1893年尤尔放弃了物理学,接受皮尔逊的邀请回到了伦敦大学学院,并于1896年被提升为应用数学的助理教授。

1897年,尤尔结合最小二乘原理拟合两个或多个变量的线性关系,发现最小二乘公式适用于回归呈线性的任何情形,使回归完全脱离了正态分布。1907年,尤尔的论文“On the theory of correlation for any mumber of variables”对多元回归符号进行系统化和标准化。这是统计学新技术的开创点,它实现了统计学从生物学向社会学的跨越。尤尔在处理相关和回归问题时,清楚的认识到,许多问题的本质是回归关系而非简单的相关关系。他在经济学领域的研究并不单纯为了研究相关,而是试图借改目标因素潜在的因果关系。1920年后,尤尔开始研究时间序列,尝试回答“为什么时间序列数据中会有一些奇怪的相关?”,运用序列相关和回归技术开创了现代时间序列分析。尤尔终其一生没有发展任何新的统计学理论分枝,却为很多统计研究方向开拓了新的领域。其中包括第一次利用统计学方法对作者身份的识别,搭建了现代统计学与计量风格学的桥梁。

回归与相关的关系

假设是一个二元正态随机变量,有均值,方差和相关系数,则的联合概率密度函数为:

。对分量积分,得的边缘密度函数:

。相似地,也可得的边缘密度函数。有了,根据条件密度函数的公式,有

。所以条件随机变量有数学期望

,方差

。同理,条件随机变量有数学期望

,方差

。两个条件随机变量期望的计算公式分别是的回归方程和的回归方程。回归系数分别为。两式相乘可得如下关系:

可见两个回归系数是成反比的,而且它们的乘积等于相关系数的平方,因此在0和1之间。