资讯(八)
似乎非常艰难的P与NP问题,一直是计算机科学和数学的丰富研究来源,尽管已经出版了哲学相关性。 Scott Aaronson的报价说明了一个解决方案可能具有深刻的哲学影响:
如果P = NP,那么世界将是一个比我们通常认为它的深刻不同的地方。 在“创意跨利赛”中没有特殊价值,在解决问题并在发现后识别解决方案之间没有基本差距。 每个人都能欣赏交响乐的人将是莫扎特; 每个可以遵循逐步论据的人都将是高斯...... (Aaronson 2006 - 在其他互联网资源中)
实际上,如果p = np,那么每个对象都有一个没有太大且易于检查的描述也很容易找到。
6.4模型选择和数据压缩
在目前的科学方法论中,科学过程的顺序方面在实证周期中正式化,这根据De Groot(1969),具有以下阶段:
观察:观察有关其原因的现象和探究。
诱导:对现象的假设的概括解释的制定。
扣除:对测试假设的实验的配方(即,如果为true,请确认它们,如果为false则反驳它们)。
测试:收集假设和数据的过程。
评价:对数据的解释和理论的制定 - 一个讨论的论点,呈现实验结果作为现象最合理的解释。
在信息理论的背景下,观测集是数据集,我们可以通过在此数据集中观察规则来构造模型。 科学旨在建立真实模型的现实。 这是一个有意义的语义风险。 在21世纪,理论地层和测试的过程将由在大型数据库上的大型数据库的计算机自动完成。 图灵奖得主吉姆灰色丛生的电子科学新兴学科作为科学的第四个数据驱动范例。 其他人是经验,理论和计算。 由于这种基于数据的自动理论建设的过程是科学方法的一部分,因此信息哲学(Adriaans&Zantinge 1996; Bell,Hey,&Szalay 2009;嘿,丹Ly和Tolle 2009)。 许多知名的学习算法,如决策树归纳,支持向量机,归一化信息距离和神经网络,使用基于熵的信息措施来提取大数据库的有意义和有用的模型。 数据库中的学科知识发现的名称(KDD)是关于大数据研究计划的野心的见证。 我们引用:
在一个抽象的水平,KDD字段涉及开发用于了解数据感的方法和技术。 由KDD进程寻址的基本问题是映射低级数据(通常过于大量的,以便轻松地理解和消化)进入可能更紧凑的其他形式(例如,短暂的报告),更摘要(例如,描述的描述性近似或模型生成数据),或者更有用(例如,用于估计未来情况值的预测模型)。 在该过程的核心,是在模式发现和提取的特定数据挖掘方法的应用。 (Fayyad,Piatetsky-Shapiro,&Smyth 1996:37)
大部分当前研究侧重于选择数据集的最佳计算模型的问题。 Kolmogorov复杂性理论是一种有趣的方法基础,用于研究学习和理论建设作为一种数据压缩形式。 直觉是仍然解释数据的最短理论也是观察概括的最佳模型。 在这一环境中的一个至关重要的区别是一个和两部分代码优化之间的区别:
单零件代码优化:如果我们遵循其定义,Kolmogorov复杂性理论的方法论是清楚的。 我们从一个形成良好的数据集y开始,然后选择合适的通用机器UJ。 表达式uj(
¯
首选的TI
x)= y是一个真正的句子,给我们提供了关于y的信息。 测量理论的开发中的第一次举动是通过限制对空输入计算的句子的限制来强迫所有表达的句子的指导或程序部分:
uj(
¯
首选的TI
∅)= y
这种限制对于不变性证明至关重要。 从这一点,原则上是无限,我们可以在代表作为程序时测量长度的句子。 我们选择的形式(可能有多个)
¯
首选的TI
那是最短的。 长度l(
¯
首选的TI
)这种最短描述是y的信息内容的度量。 它在意义上是渐近的,当数据集y生长到无限长度时,通过选择另一个图灵机的选择分配的信息内容永远不会在极限中变化超过一个常数。 Kolmogorov复杂性测量根据在通用计算设备上生成数据集的数据集的最短描述的最短描述的数据集的信息内容。
两部分代码优化:请注意,通过将自己限制为具有空输入的程序和对节目长度而不是他们的内容,我们获得了我们的措施的不变性,但我们也失去了很多表达力。 忽略了产生数据集的实际程序中的信息。 因此,随后的研究专注于制定解释性的技术,隐藏在Kolmogorov复杂度措施中,显式。
通过对贝叶斯定律的解释提出了一种可能的方法。 如果我们将Shannon与贝叶斯定律的最佳码的概念结合起来,我们得到了关于最佳模型选择的粗略理论。 让H成为一组假设,让X成为数据集。 使用贝叶斯定律,该分布下的最佳计算模型是:
mmap(x)=argmaxm∈h
p(是)p(x|m)
p(x)
这相当于优化:
argminm∈h-logp(是)-logp(x|m)
这里可以解释为shannon sense和-logp(x |m)中最佳模型代码的长度作为最佳数据到模型代码的长度; 即,数据解释了模型的帮助。 这个洞察力是在所谓的:
最小描述长度(MDL)原理:解释数据集的最佳理论是最小化理论(模型代码)和与理论编码的数据集(数据到模型代码)的数据集中的比例中的总和。
MDL原则通常被称为ockham剃刀的现代版本(参见奥克姆威廉的进入),尽管在其原始形式的Octham的剃刀中是一个本体原则,与数据压缩有关(长2019年)。 在许多情况下,MDL是一个有效的启发式工具,并且广泛研究了理论的数学特性(Grünwald2007)。 仍然MDL,OCKAM的剃刀和两部分代码优化一直是过去二百元(例如,Domingos 1998; Mcallister 2003)的相当争论的主题。
由Solomonoff,Kolmogorov和Chaitin在20世纪六十年代发起的工作的哲学含义是基本和多样化的。 例如,Solomonoff提出的普遍分布M编纂所有可能的数学知识以及在实证观察的基础上更新时,原则上会融合到我们世界的最佳科学模式。 在这个意义上,可以选择通用图灵机作为我们信息衡量理论的基础,具有哲学的重要性,专门用于科学方法论。 可以看到通用图灵机的选择可以被视为我们方法的一组偏差的选择。 大约两所学校:
机器可换机器:选择一个小型通用图灵机。 如果机器很小,它也是通用和通用的,因为没有空间将任何偏置对机器进行编码。 此外,当对小机器的模拟时,对小机器的限制提供了小的开销,因此您获得的Kolmogorov复杂性的版本,可以获得渐近余量的测量。 Hutter明确地捍卫“自然”小机器的选择(哈特2005; rathmanner&huth 2011),而且李和vitányi(2019)似乎建议使用小型模型。
丰富的机器:选择一台大型机器,明确反映了您已经了解世界的知识。 对于Solomonoff,算法复杂性的发明者,通用图灵机的选择是通用之前的选择。 他捍卫了一种进化的学习方法,其中代理人经常在他已经发现的内容之前适应。 选择您的参考图案机器唯一地表征了您的先验信息(Solomonoff 1997)。
两种方法都有其价值。 对于刚性数学证明,较差的机器方法往往是最好的。 对于有限数据集的实际应用程序,丰富的模型策略往往会得到更好的结果,因为每次压缩数据集时都必须“重新发明轮子”。 这导致了Kolmogorov复杂性固有地含有关于科学偏见的理论,因此意味着一种方法,其中应明确地制定和激励优质的普遍模型。 在过去的二十分之田中,已经有许多建议定义数据集中的结构(或模型)信息量的正式测量单位。
审美措施(Birkhoff 1950)
精致(Koppel 1987; Antunes等人2006; Antunes&Fortnow 2003)
逻辑深度(本网关1988)
有效的复杂性(Gell-Mann,Lloyd 2003)
有意义的信息(Vitányi2006)
自我不相似(Wolpert&Macready 2007)
计算深度(Antunes等,2006)
事实(Adriaans 2008)
三个直觉主导了这项研究。 什么时候一个字符串“有趣”
一定数量的计算涉及其创建(复杂性,计算深度);
在两部分代码优化下的模型代码和数据代码之间存在平衡(有效复杂性,事实);
它具有内部阶段过渡(自我不相似)。
此类模型惩罚最大熵和低信息内容。 这些直觉之间的确切关系尚不清楚。 在过去几年中,有意义的信息的问题已经过广泛研究,但是对基于压缩技术的模型选择的普遍方法的野心似乎被误导:
观察:基于两部分代码优化的有意义信息的衡量标准在Kolmogorov复杂性的意义上永远不会是不变的(Bloem等,2015,Adriaans 2020)。
即使我们将自己限制为较弱的计算模型,这似乎是这种情况,即使总功能的计算模型,而且需要更多的研究。 对于该方法似乎没有先验的数学理由,尽管两部分代码优化在基于重复观察的基础上创建的数据集的经验设置中继续是有效的方法。 可能与结构信息理论有关的现象,目前是不明白的:相位过渡与他们复杂性有关的满足性问题(Simon&Dubois 1989; Crawford&Auton 1993)和阶段过渡与其复杂性有关的具体机器的表现力(Crutchfield&Young 1989,1990; Langton 1990; Dufort&Lumsden 1994)。
6.5确定主义和热力学
信息理论的许多基本概念是在九世纪在热力学科学的背景下开发的。 对Kolmogorov复杂性和Shannon信息之间的关系有合理的理解(Li&Vitányi2008;Grünwald&Vitányi2008;封面和托马斯2006),但熵概念之间的统一除了一些非常临近的Hoc Insights(Harremońs和Topsøe2008)外,热力学和Shannon-Kolmogorov信息非常不完整; Bais&Farmer 2008)。 Fredkin和Toffoli(1982)已经提出所谓的台球电脑,以研究热力学的可逆系统(Durand-Lose 2002)(参见信息处理和热力学熵的条目)。 可能具有高概率的理论模型具有可行的实验(例如,Joule的绝热扩张,见Adriaans 2008)。
出现的问题是:
什么是从热力学的角度来看的计算过程?
热力学计算理论可以作为非均衡动态的理论吗?
是我们宇宙物理描述所需的实际数字的表现力吗?
这些问题似乎很难,因为在热力学本身的理论本身的核心中,热力学的150年的研究仍然让我们留下了很多概念的慷慨(参见热力学不对称的时间)。
在有限的计算过程中,我们无法访问真实数字,但它们在我们对热力学过程的分析中起作用。 最优雅的物理系统模型基于连续空间中的功能。 在这些模型中,几乎所有空间点都带有无限量的信息。 然而,热力学的基石是有限量的空间具有有限的熵。 根据量子信息理论,没有基本原因假设实际上从未在本质上以此级别使用的表现力。 这个问题与数学哲学中研究的问题有关(直觉与更多柏拉图视图)。 这个问题是关于计算和信息性质的一些更哲学讨论的核心(Putnam 1988; Searle 1990)。 问题也与自然描述中的相变(例如,热力学与统计力学)的概念和抽象水平的想法(佛罗里达2002,2019)的概念有关。
在过去的十年中,在分析这些问题方面取得了一些进展。 基本洞察力是时间和计算过程之间的相互作用可以在抽象的数学水平中理解,没有一些预期物理应用的负担(Adriaans&Van Emde Boas 2011)。 Central是确定性程序不生成新信息的洞察力。 因此,物理系统的确定性计算模型永远不会对自然界的信息或熵增长表示:
观察:鉴于Adriaans和Van Emde Boas(2011)的基本定理以及量子物理学作为我们基本随机描述的假设,宇宙可以描述为确定性计算机的拉普拉斯假设。现实,不正确。
像牛顿物理学这样的确定性理论的热力学的统计减少导致熵的概念,从根本上与确定性计算机处理的信息不同。 从这个角度来看,热力学的数学模型,这是实数空间的基本微分方程,似乎在不达到的水平上运行。 更先进的数学模型,即考虑量子效应,可能解决一些概念困难。 在借封水平的水平似乎是固有的概率。 如果概率量子效应在真正的台球行为中发挥作用,那么辩论是否熵在抽象气体中增加,似乎是一个理想的球,似乎有点学术。 有理由假设量子水平的随机现象是宏观规模(Albrecht&Phillips 2014)的概率源。 从这个角度来看,宇宙是一个恒定的,从字面上,以任何规模的信息量的信息量。
6.6逻辑和语义信息
理解信息的逻辑和计算方法都有他们的根源,在“语言转弯”中,表现了二十世纪初的哲学研究,源自弗雷格的工作来源于弗雷格的工作(1879,1892,见入门逻辑和信息)。 雄心壮志,以规定真正的句子的信息,如popper,carnap,Solomonoff,Kolmogorov,Chaitin,Rissanen,Koppel,Schmidthuber,Li,Vitányi等研究人员所致休假是一个本质上的语义研究计划。 事实上,香农的信息理论是唯一明确声称非语义的现代方法。 更新的定量信息等kolmogorov复杂性(以其对普遍分布的所有科学知识为所有科学知识进行编纂)和量子信息(以其对物理系统的观察的概念)固有地呈现语义组件。 同时,可以开发语义理论的定量版本(参见信息的语义概念)。
算法复杂性理论的中央直觉是对象的内涵或含义可以是计算,最初由Frege制定(1879,1892)。 表达式“1 + 4”和“2 + 3”具有相同的延伸(BEDEUTUNG)“5”,而是不同的内涵(SINN)。 在这个意义上,一个数学对象可以具有不同含义的无限。 有不透明的背景,其中需要这种区分。 考虑“John知道log222 = 2”的句子。 显然,Log222代表特定计算的事实在此相关。 句子“约翰知道2 = 2”似乎有不同的含义。
DUNN(2001,2008)指出,逻辑中信息的分析与内涵和延期的概念复杂相关。 在皇家逻辑(1662年)(1662年)和磨坊(1843年),Boole(1847)和Peirce(1868年)的作品中已经预期了内容和延期之间的区别,但在弗雷格逻辑(1879年)(1879)1892)。 在现代意义上,延伸谓词,说“X是一个学士”,这只是我们域名中的一组学士。 内涵与谓词的含义有关,并允许我们得出“约翰是一个学士学”的事实,“约翰是男性”和“约翰未婚”的事实。 很明显,这种现象与可能的世界诠释的莫代尔运营商和信息概念有关。 学士学位也是必要性的男性,即在每个可能的世界中,约翰是一个男士,他也是男性,所以
莫代尔运营商的可能世界解释(Kripke 1959)与Carnap(1947)引入的“状态描述”的概念有关。 状态描述是包含每个原子句或其否定中的一个的结合(参见第4.3节)。 确定州描述良好概率措施的野心是开发算法信息理论的Solomonoff(1960,1997)的动机之一。 从这个角度来看,kolmogorov复杂性,它的数据类型分离(程序,数据,机器)及其对描述过程效果的真实句子的重点基本上是一个语义理论(Adriaans 2020)。 如果我们评估表达式,那就立即清楚:
uj(
¯
首选的TI
x)= y
如第5.2.1节中解释了表达式UJ(
¯
首选的TI
x)在读取自定义描述之后,用UJ表示计算TI(x)的仿真结果
¯
首选的TI
机器TJ。 如下:如下:如下:
通用图灵机UJ是计算所发生的上下文。 它可以解释为在计算语义的模态解释中作为可能的计算世界。
符号的序列
¯
首选的TI
x和y是形成良好的数据。
序列
¯
首选的TI
是一个程序的自定义描述,它可以解释为一块形成良好的教学数据。
序列
¯
首选的TI
X是一个内涵。 序列Y是相应的扩展。
表达式uj(
¯
首选的TI
x)= y表示程序的结果
¯
首选的TI
世界上的x是y。 这是一个真正的句子。
句子UJ的逻辑结构(
¯
首选的TI
x)= y与真正的句子相当:
在地球上的经验观察的背景下,你可以在东部天空中早上看到的明星是金星
Mutatis Mutandis可以制定以下解释:UJ可以被视为一个上下文,例如,为地球上的科学观察编纂偏差,Y是延伸金星,
¯
首选的TI
X是“聪明的明星,你可以在早上在东方天空中看到的明星”。 内涵由TI组成,可以解释为一些通用天文观察程序(例如,教学数据),并且X提供了良好的数据,该数据讲述了一个看起来在哪里看的(早上在东部天空中的明亮明星)。
这表明在语义信息的信息中提出的信息地图中,更真实的信息和计算方法之间可能的统一。 我们描绘了一些研究问题:
什么是一个很好的逻辑系统(或一组系统),它将我们的直觉形式形式的概念与“知道”,“相信”和“被告知”之间的关系。 有提出的提案:Dretske(1981),Van Benthem(2006; Van Benthem&de Rooij 2003),佛罗里达州(2003年,2011年)等。 对我们目前的已知逻辑景观(结构,模态)的仔细映射可能澄清不同提案的优势和弱点。
尚不清楚特定差异(在亚里士多妙之位的意义上)是将环境数据与其他数据分开,例如,如果一个人在海滩上使用鹅卵石计数了一个人观察到的海豚的数量,那么不合理的路人可能是不可能的通过判断这一结石是否是环境数据。