3.2.3 游览:可选停止
数据揭示了更多或其他内容的观点,而不是由案子上的假设的可能性所表达的观点详细关注。在这里,我们参考可选停止的争议进一步研究了这个问题。
让我们通过构造两个拒绝区域的数值细节来考虑以上两个研究人员的分析。
确定拒绝区域
勤奋的研究人员将成功和失败的所有6个成绩视为样本空间,并将其数字视为足够的统计数据。六个成功的事件或六个正确的猜测具有
1
/
2
6
=
1
/
64
在无效的假设下,那位女士只是在猜测
3
6
/
4
6
在替代假设下。如果我们设置
r
<
3
6
/
2
6
,然后将该样本包括在否定假设的排斥区域中。成功五个成功的样本的概率
1
/
64
在零假设下,违约
3
5
/
4
6
在替代方面。通过将可能性比降低到一个因子3,我们将所有这些样本包括在排斥区域中。但这将导致完全拒绝的总概率
7
/
64
,大于5%。因此,这些样本不能包括在排斥区域中,因此,勤奋的研究人员在发现五个成功和一个失败时不会拒绝原假设。
另一方面,对于不耐烦的研究人员来说,样本空间要小得多。除了由六个成功组成的样本外,所有样本都包含一系列成功以失败结尾的成功,仅在系列的长度上有所不同。然而,六个长度的两个样本的概率与勤奋的研究人员相同。和以前一样,六个成功的样本再次包括在排斥区域中。同样,五个成功之后的序列也有一个失败的概率
1
/
64
在零假设下,符合
3
5
/
4
6
根据替代方案。不同之处在于,降低可能性比将该样本包括在排斥区域中的情况仅导致该样本包含。如果我们将其包括在拒绝区域中,则错误拒绝的可能性变为
1
/
32
因此不超过5%。因此,根据这些数据,悠闲的研究人员可以拒绝女士只是在猜测的无效假设。
考虑到为什么不耐烦的研究人员可以拒绝零假设,这是有启发性的。凭借其抽样计划,其他取得五个成功的样本,即使勤奋的研究人员无法在拒绝区域内将观察到的样本包括在超过误差概率的痛苦区域中,因此无法观察到。这表明,经典统计程序的结果不仅取决于实际数据的可能性,这对于两个研究人员来说都是相同的。它们还取决于我们未获得的数据的可能性。
在上面的示例中,可能会认为可选停止的协议取决于正在记录的数据,这可能会被认为是令人困惑的。但是,如果缺乏这种依赖性,则对可选停止的争议也会出现。例如,想象一下第三位研究人员,他对勤奋的研究人员进行采样,或者在此之前,如果她开始感到啄食。此外,我们可能会认为,每杯新杯子都向女士提供,感觉啄木鸟的可能性是
1
2
。如果她完成了六个杯子的系列,这位啄食的研究人员也将能够拒绝无效的假设。当然,这似乎与统计程序的客观性有所不同,即这种拒绝取决于研究人员的生理和心态:如果她没有敞开零食休息的可能性,她就不会拒绝零假设,即使她实际上并没有休息一下。正如杰弗里(Jeffrey)著名的那样,这确实是一个“出色的程序”。
然而,情况并不像看起来那样清晰。一方面,贝克什研究人员可以说是在两个同时检验两个假设,一个关于茶品尝女士的能力,另一个关于她自己的啄木鸟的能力。合并的假设共同样本的可能性与勤奋研究人员所考虑的简单假设不同。上面给出的可能性原则表明,这种差异不会影响实际样本的证据影响,而是保留了应有的直觉。此外,在某些情况下,这种直觉是由那些维护可能性原则的人共享的,即停止规则取决于所记录的过程,以所发表的假设尚未表达的方式(参见Robbins 1952,Howson and Urbach和Urbach 2006,2006年,2006年,2006年)第365页。就我们的示例而言,如果女士只是在猜测,那么研究人员可能会从纯粹的无聊中啄食,而不是这位女士的表现远低于或高于机会水平。在这种情况下,停止本身的行为揭示了有关有争议的假设的一些信息,这应该反映在假设的可能性中。这将使数据对假设产生的证据影响取决于停止规则。
3.3 对批评的回应
对上述批评有许多回应。其中一些响应有效地重新解释了经典的统计程序仅与数据的证据影响有关。其他回答发展了经典的统计理论以解决问题。他们的共同核心是,他们建立或至少阐明了两个概念领域之间的联系:统计程序是指物理概率,同时其结果涉及证据和支持,甚至与拒绝或接受假设有关。
3.3.1 证据的强度
经典统计通常是为我们提供行动的建议。错误概率并未告诉我们根据统计程序要采取什么认知态度,而是指出如果我们靠它们生活的长期错误频率。尼曼(Neyman)特别提倡对经典程序的解释。反对这一点,费舍尔(1935a,1955年),皮尔逊和其他古典统计学家提出了更多的认知解释,而最近的许多作者也效仿了。
上述关于古典统计的讨论的核心是可能性的概念,它反映了数据对有关的假设的影响。在Hacking(1965),Edwards(1972)和最近的Royall(1997)中,这些可能性被视为统计程序的基石并得到了认知解释。据说它们表达了数据提出的证据的强度,或者数据对假设的比较程度的支持程度。黑客在所谓的可能性定律中提出了这个想法(1965年,第59页):如果样本
s
在
小时
0
而不是继续
小时
1
, 然后
s
支持
小时
0
不仅仅支持
小时
1
。
似然性的位置是基于对概率观点的特定组合。一方面,它仅在样本空间上采用概率,并避免对统计假设提出概率。因此,它避免了无法给出物理解释的概率的使用。另一方面,它确实将样本空间上的概率解释为支持关系的组成部分,从而与认知有关,而不是物理领域。值得注意的是,可能性主义方法与认识论的正式方法中的悠久历史非常吻合,尤其是确认理论(参见Fitelson 2007),其中概率理论被用来阐明数据和假设之间的确认关系。确认的度量总是以假设的可能性为输入成分。它们提供了可能性定律所描述的支持关系的定量表达。
Mayo(1996)和Mayo and Spanos(2011)提出了另一种经典统计学的认知方法。在过去的十年左右的时间里,他们在推动科学哲学中的古典统计议程中做了很多事情,这已经受到贝叶斯统计的控制。与Neyman的原始行为主义倾向相反,错误统计方法推进了经典测试和估计程序的认识论阅读。梅奥(Mayo)和斯帕诺斯(Spanos)认为,最好将经典程序理解为推论:它们许可归纳推断。但是他们很容易地承认,这些推论是不可避免的,即,他们可能会使我们误入歧途。经典过程始终与特定的错误概率相关联,例如,错误拒绝或接受的概率,或估计器落在一定范围内的概率。在蛋黄酱和Spanos的理论中,这些错误概率获得了认知作用,因为它们被视为指示该程序许可的推论的可靠性。
Mayo和其他人的错误统计方法包括科学的一般哲学以及对哲学统计的特定观点。通过讨论严重测试的概念,我们将重点放在后者上(参见Mayo and Spanos 2006)。主张是,我们以严格检验的假设获得了实验效应的知识,这可以以显着性和权力为特征。在Mayo的定义中,假设通过两个条件进行了严格的测试:数据必须与该假设一致,并且数据与替代假设一致的概率必须非常低。在对“同意”和“低概率”的精确解释上忽略了潜在的争议,我们可以认识到Neyman和Pearson在这些要求下的标准。如果显着性很低,则该测试是严重的,因为数据必须与假设一致,并且功率很高,因为这些数据不得同意,否则与替代方案的可能性很低。
3.3.2 理论进展
除了重新解释经典统计程序外,许多统计学家和哲学家还进一步发展了古典统计理论,以便对其结果的认知作用良好。我们特别关注两个发展,以机智,信托和证据概率。
证据概率理论起源于1961年的凯堡(Kyburg,1961年),他开发了一个逻辑系统来一致处理经典统计分析的结果。因此,证据概率属于建立经典统计的认知使用的尝试。 Haenni等人(2010年)和Kyburg和Teng(2001)提出了有关证据概率的深刻介绍。该系统基于一个版本的默认推理:统计假设以置信度附加了,并且逻辑系统组织了如何在推理中传播这种置信度的水平,因此建议将哪些假设用于预测和决策。特别关注的是推断置信度的传播,这些推论涉及具有不同信心标记的相同假设的多个实例,这些假设是由各种与特定人群相关的多种数据集引起的。证据概率有助于选择最佳置信度,从而为所考虑的案件选择适当的人群。换句话说,证据概率有助于解决上述中提到的参考类问题。
基准概率提出了另一种可以给予认知状态的经典统计数据的方式。 Fisher(1930,1933,1935c,1956/1973)提出了基准概率的概念,是一种在不假定一开始就对统计假设提前概率的概率分配的一种方式。基准论点是有争议的,普遍认为其适用性仅限于特定的统计问题。 Dempster(1964),Hacking(1965),Edwards(1972),Seidenfeld(1996)和Zabell(1996)提供了深刻的讨论。 Seidenfeld(1979)提出了一项特别详细的研究,并进一步讨论了该论点在具有多个参数的情况下的适用性。 Dawid and Stone(1982)认为,为了实现基准论证,必须假设可以在平稳可逆的功能模型中捕获统计问题。 Dempster(1966)为案例提供了这一想法的概括
θ
不是唯一的固定,而仅在上限和下限内受到约束(参见Haenni等,2011)。至关重要的是,这种对概率分布的限制是对
θ
在不假设任何分配的情况下获得
θ
从一开始。
3.3.3 偏差:基准论证
为了解释基准论点,我们首先设置了一个简单的示例。说我们估计平均
θ
在变量上具有单位差异的正态分布
X
。我们收集样本
s
由测量组成
X
1
,
X
2
,
……
X
n
。最大似然估计器
θ
是
X
我
, 那是,
^
θ
(
s
)
=
Σ
我
X
我
/
n
。在假定的真实价值下
θ
然后,我们有一个正态分布的估计器
^
θ
(
s
)
,以真实值和差异为中心
1
/
√
n
。值得注意的是,该分布的所有值都具有相同的形状
θ
。 Fisher认为,因此,我们可以使用估算器上的分布
^
θ
(
s
)
作为对真实价值的分配的替身
θ
。因此,我们得出概率分布
磷
(
θ
)
根据样本
s
,似乎没有假设先前的概率。
有几种澄清这一所谓的基准论点的方法。一种方法采用所谓的功能模型,即通过特定函数的统计模型规范。对于上述模型,功能为
f
(
θ
,
ε
)
=
θ
+
ε
=
^
θ
(
s
)
。
它与可能的参数值相关
θ
基于样品的数量,在这种情况下,观测值的估计器
^
θ
。两者通过随机分量相关
ε
其分布是已知的,并且对于所有正在考虑的样本而言相同。在我们的情况下
ε
正常分布有差异
1
/
√
n
。重要的是,分布
ε
每个值的相同
θ
。功能的解释
f
现在可能很明显。相对于选择价值的选择
θ
,然后获得真实价值的作用
θ
⋆
,分布
ε
决定估计函数的分布
^
θ
(
s
)
。
现在可以简洁地表达基准论点的想法。它是将随机组件上的分布投射回可能的参数值。关键观察是功能关系
f
(
θ
,
ε
)
平稳可逆,即功能
f
-
1
(
^
θ
(
s
)
,
ε
)
=
^
θ
(
s
)
-
ε
=
θ
点的每个组合
^
θ
(
s
)
和
ε
到唯一的参数值
θ
。因此,我们可以颠倒上一段的主张:相对于修复值
^
θ
,分布
ε
充分确定分布
θ
。因此,根据倒功能模型,我们可以将正态分布转移到
ε
到价值观
θ
大约
^
θ
(
s
)
。这会在参数上产生所谓的基准概率分布
θ
。之所以获得分布,是因为以估计器的值,参数和随机项的条件为条件完全相关。然后,对后者的分布自动适用于前者(参见Haenni等,52-55和119-122)。
解释相同想法的另一种方式调用了关键数量的概念。由于如何建立上述统计模型,我们可以构建关键数量
^
θ
(
s
)
-
θ
。我们知道该数量的分布,即正常,并且具有上述方差。此外,此分布与样本无关,因此将样品固定到
s
,然后确定价值
^
θ
,独特地确定参数值的分布
θ
。因此,基准参数使我们能够基于观察到的样本构建概率分布在参数值上。只要我们可以像这样构造一个关键数量,或者,只要我们可以将统计模型作为功能模型表达,就可以运行该参数。
在这里有警告。正如上述许多参考文献中所揭示的那样,基准论点是高度争议的。数学结果存在,但是对结果的正确解释仍在讨论中。为了适当地欣赏精确的推论移动及其摇摆的概念基础,考虑使用基准概率在解释置信区间时,将是有益的。对此的正确理解需要首先阅读第3.1.2节。
回想一下,通常会在认识论上解释置信区间,以表明估计的质量。 95%的置信区间通常被误解为包括95%概率的真实值的参数值范围,即所谓的信用间隔:
磷
(
θ
ε
[
^
θ
-
Δ
,
^
θ
+
Δ
]
)
=
0.95
。
这种解释与经典的统计数据不一致,但是这将变得很明显,它可以通过基准论点的应用来激发。说我们替换确定尺寸的积分
Δ
以下置信区间以下内容:
∫
^
θ
(
s
)
+
Δ
^
θ
(
s
)
-
Δ
磷
θ
(
右
^
θ
(
s
)
)
d
θ
=
0.95
。
用语言,我们修复了估算器
^
θ
(
s
)
然后在参数上集成
θ
在
磷
θ
(
右
^
θ
(
s
)
)
,而不是假设
θ
⋆
然后集成参数
τ
在
右
τ
。果然,我们可以计算此积分。但是,是什么确保我们可以将积分视为概率?请注意,它经历了概率分布的连续性,并且没有理由认为这些术语
磷
θ
(
右
^
θ
(
s
)
)
加起来适当的分布
θ
。
基准论点的假设在此解释了功能模型的可逆性,确保术语确实加起来,并且表现良好的分布将浮出水面。我们可以以示例统计量的方式选择统计模型
^
θ
(
s
)
和参数
θ
以正确的方式相关:相对于参数
θ
,我们对统计数据有分配
^
θ
,但同样,我们相对于此统计量具有分布的参数。结果,概率函数
磷
θ
(
右
^
θ
(
s
)
+
ε
)
超过
ε
, 在哪里
θ
固定,可以转移到基准概率函数
磷
θ
+
ε
(
右
^
θ
(
s
)
)
超过
ε
, 在哪里
^
θ
(
s
)
是固定的。功能
磷
θ
(
右
^
θ
)
参数
θ
因此,是一个适当的概率函数,可以从中构建信用间隔。
数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。