1. 在抽象的意义下,一切科学都是数学;在理性的世界里,所有的判断都是统计学。(统计学家C.R Rao)
2. Essentially, all models are wrong, but some are useful. (Goerge Box)
人类认识世界,存在两种逻辑思维过程:演绎和归纳。归纳是由个别(特殊)现象推断出一般(总体)情况。演绎是由一般(总体)推及个别(特殊)情况。在抽象的意义下,一切科学都是数学:就是说一切科学在抽象的情况下,无论物理学,化学,生物学,社会科学,甚至语言学,都可以用数学符号和数学方程甚至数学模型来表示;数学是演绎过程,是由一般推及特殊的过程,数学上的推导在逻辑上是一种必然的存在,比如说2+2=4,在数学上是如此,在生活中任何2个事物加上2个事物都是4个,这是一种逻辑的必然。那么在抽象的情况下,任何科学也都有这个严密的数学逻辑基础。然而世界不是抽象的,不是理想的,世界的复杂在于现实,所以很多时候数学的完美演绎过程并不适用于现实中的科学。
现实中的情况是不确定的,变化的,而且我们人类认识世界更多的时候是从个别现象开始来推及本质,这本身就是一个归纳过程,由于是特殊到一般,本身也存在不确定性。概率作为衡量不确定大小的工具,为统计提供了归纳的逻辑基础。
概率统计作为一个强有力的归纳工具,从19世纪开始,尤其是现在的大数据时代,发挥了强大的作用。医院里的数据库有很多病人的信息,根据病人的患病特征和所患疾病,训练出优化的统计模型。当有新病人来了之后,我们可以根据病人的特征,来预测出他患哪种疾病。(这里是针对那种容易诊断错误和混淆的疾病, 也就是说多种疾病具有同样特征的情况而言,这时候模型给出的是具体特征下患有A,B,C病的概率,概率最大的则是病人最可能患有的病)。除了医学,统计在金融领域,计算机领域,社会科学领域,心理学等发挥着基础性的工具作用。这是一个大数据的时代,更是统计的时代。
统计看似是万能的,但事实真是如此吗。本质上,所有的统计模型都是错的,因为是归纳,因为带有一定的概率性,所以这不是必然的存在,一定有误差,适用范围也是有限的,所以本质上统计模型一定是错的,但是在大多数情况下确实有用,正如上文的多个例子所说。
著名的黑天鹅事件彻底的反映了人的预测无知。人类的最大无知在于把未来的事情是否发生建立在过去的经验之上,但是没有人能保证未来的现象存在于过去现象的集合中。 即使太阳已经每天升起频次达到1亿次,也不能从逻辑上绝对保证明天太阳照样从东方升起。 太阳明天升起和昨天升起没有因果关系,我们无法通过过去的事情预测未来。而统计的预测则是带有一定不确定性和风险。欧洲人看到的所有天鹅都是白色的,所以他们从不认为会有黑色的天鹅,直到黑天鹅出现,他们才意识到预测的局限,黑天鹅这个未来的现象从未出现在过去白天鹅的集合中,所以人类的认知模型出了问题,即使这个概率很小,但是不意味着它不会发生。大卫•休谟说:“运用归纳法的正当性永远不可能从理性上被证明。”
统计只是一种有用的工具,但绝对不是一种数学上正确的工具,它是一定程度上的理性判断,是帮助人们在99%上理性认识世界的工具,但它也会出错。其实,统计中最基础的一个核心概念P值,它的定义是当H0假设为真时,出现当前样本结果或者更极端情况的概率。用公式表达是P(Event|H0),为了数学上的统计量可以计算,我们采用了这样的一个很奇怪的概率方式。正常的情况应该是,P(H0|Event), 基于样本结果得到原假设或者背则假设出现的概率是多大, 这样看起来更为直观,这也是大哲学家Carnap所推崇的逻辑概率。归纳在本质上是以不确定性和概率为基础的,那么归纳其实可以看成是partial演绎法,即带有不确定的部分程度演绎法。但是,不管如何,归根到底,过去的事件对未来的事件没有因果上的关系,有的只是相关,所以归根到底,统计所做的工作是在预测相关性,而不是因果性,相关不是必然,而必然的因果在归纳统计学里无法得到印证。 统计的基础是概率,概率的逻辑基础是归纳。 以后我会写篇文章具体讲讲两大类概率:客观概率(频率概率和Propensity 概率)和主观概率 (Bayesian条件概率和Carnap逻辑概率)。
数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。