贝叶斯网络（Bayesian Network, BN）：如何用图结构简化概率计算？_街坊资讯

（来源：图灵人工智能）

您想知道的人工智能干货，第一时间送达

转自Fairy Girl，仅用于学术分享，如有侵权留言删除

在机器学习和统计推断中，如何高效地表示和处理高维随机变量之间复杂的依赖关系，始终是一大难题。

概率图模型（Probabilistic Graphical Model, PGM）则通过将图论与概率论进行有机结合，为其提供了一个优雅的解决方案。

根据图结构中边的方向性概率图模型可以分为：有向图模型（贝叶斯网络）与无向图模型（马尔可夫网络）。

本文将聚焦于贝叶斯网络（Bayesian Network, BN）的理论基础，进一步探究因果推断与复杂系统的建模思想。

文章速览

ARITCLE CONTENTS

PART .01 >>>

贝叶斯网络

PART .02 >>>

条件独立性

PART .03 >>>

常见的模型

贝叶斯网络

贝叶斯网络与因子分解

贝叶斯网络，又称信念网络（Belief Network）是一种以有向无环图为基础的图模型。

其中，每个节点代表一个随机变量，有向边表示变量之间的直接依赖关系；若存在从节点指向的有向边，则称是的父节点，是的子节点。

边的方向通常被解释为某种形式的“因果关系”或“生成关系”；但严格来说，只能表示概率依赖的方向性。

贝叶斯网络的核心优势在于对联合概率分布的紧凑表示：对于一个包含个随机变量的联合分布；根据链式法则，其联合概率分布可以写作：

上述公式在理论上是完备的，但在实践中却完全不能用。

这是因为，第个变量的条件依赖于前个的所有变量，随着的增长，条件概率表的规模将呈指数级膨胀。

当达到数十甚至上百时，这一表示将变得极其庞大，也将导致计算和存储开销难以承受。

那么，如何化解这一困境呢？核心思路就在于：很多变量之间的依赖关系其实并非直接关系，而是通过中间变量传递的。

如果能够识别出那些“一旦知道某些关键变量，其余变量就变得无关紧要”的独立性结构，就可以大幅压缩上述公式的复杂度

贝叶斯网络正是这一思路的图论实现，通过拓扑排序将个变量排列为一个有向无环图，其中每个节点都代表一个随机变量，有向边则表示“直接依赖”的方向。

在这种表示下，联合概率分布不再按照全链式法则展开，而是按照图的结构进行因子分解。由此可得：

式中，表示节点在图中的所有父节点集合。

这一公式的意义在于：每个随机变量的条件概率都只依赖于图中直接相连的父节点变量而非所有前序变量。

图结构则将那些“间接”的依赖关系过滤，只保留最本质的局部条件概率。

那么，因子分解与链式法则之间是什么关系？二者并不矛盾。

链式法则是恒成立的通用公式，而因子分解是在特定图结构下对链式法则的一种“裁剪”——裁剪的依据，正是变量之间存在的条件独立性。

如果数据生成机制本身具有某种独立性结构，那么贝叶斯网络通过图的方式将其显式地编码出来，从而实现了对联合分布的紧凑表达。

相反，如果所有变量之间完全相关，没有任何条件独立性可资利用，则图也将退化为全连接结构，此时因子分解与链式法则并无本质区别。

至此，一个关键问题浮出水面：我们如何从图中“读”出条件独立性？图的结构究竟如何告诉我们，哪些变量在给定某些条件下是独立的？

条件独立性

从局部到全局的条件独立性判定

条件独立性不仅是贯穿概率论理论核心，更是贝叶斯网络进行不确定性建模与高效计算的基石。

在贝叶斯网络中，条件独立性关系直接反映有向边的依赖结构：

直接连接的节点通常非条件独立，表示直接因果依赖；不直接连接的节点在给定父节点信息的条件下可能条件独立。

任何复杂的贝叶斯网络都可分解为三种基本局部结构，理解这三种结构是掌握D-划分准则的前提。

链式结构（Head-to-Tail），如。当中间节点未被观测时，的变化通过影响；但当被观测到时，与之间的信息传递被阻断，二者在给定的条件下相互独立。
分叉结构（Tail-to-Tail），如，即是与的共同父节点。当未被观测时，与因共同受影响而表现出相关性；当被观测时，与在给定的条件下条件独立。共同父节点的观测阻塞了与之间的路径。
V型结构（Head-to-Head），如，即是与的共同子节点。这是三种结构中最特殊的一种。默认情况下（未被观测），与相互独立；但当被观测时，与反而变得不独立——路径被“激活”。若的任何后继节点被观测，同样会激活与之间的路径。这一反直觉现象在因果推断中被称为“解释消除”效应。

将上述三种局部结构推广至全局，便得到了 D-Separation 准则。

D-Separation 是由Judea Pearl提出的一种寻找贝叶斯网络中节点之间条件独立性的图论准则，是贝叶斯网络推理的理论基石之一。

其核心思想在于：检查与之间的所有无向路径，如果每一条路径都被中的某些节点阻塞，则与在给定的条件下独立。

所谓“路径被阻塞”，需要逐一检查路径上的每个节点，判定其属于哪一种局部结构：

路径上存在节点，且路径上的两条弧都以为头（是汇合节点，对应V型结构）；

路径上存在节点，且一条弧以为头、另一条以为尾（对应链式或分叉结构）；

路径上存在节点及其所有后继节点都不属于，且两条弧都以为头（即未被观测的V型结构）。

若与之间的每一条无向路径都被中的某个节点以上述方式阻塞，则与在给定的条件下条件独立。

这一准则称为全局马尔可夫性。其意义在于，将概率论中抽象的条件独立性判定转化为图论中直观的路径阻塞判断。

研究者无需进行复杂概率计算，只需在图上检查路径是否被阻塞，即可判断变量间的条件独立性关系，极大简化了推理过程。

在此基础上，我们可以进一步引入马尔可夫毯（Markov Blanket）概念：

对于节点，其马尔可夫毯指给定该集合中所有节点的条件下，与图中所有其他节点条件独立的最小节点集合。

的马尔可夫毯由三部分构成：父节点、子节点及子节点的其他父节点（“配偶”节点）。这一结论可从因子分解形式直接推导：

在计算时，与无关的因子项在分子分母中相互抵消，最终只剩与直接相关的父节点、子节点及子节点的共同父节点。

马尔可夫毯提供了一种局部化视角，在特征选择、因果推断等领域具有重要应用价值。

常见的模型

贝叶斯网络的常见模型分类

基于上述理论框架，贝叶斯网络衍生出丰富的模型家族，可从多个维度进行分类。

首先，从单一模型到混合模型：最简单的贝叶斯网络是朴素贝叶斯模型。它假设在给定类别变量的条件下，所有特征相互独立。对应的图结构正是分叉结构，是共同父节点。

当放松这一假设并引入隐变量后，便得到混合模型，如高斯混合模型，其中隐变量为离散的类别指示变量，观测变量服从给定条件下的高斯分布。

其次，从离散变量到连续变量：贝叶斯网络中的随机变量既可为离散型，也可为连续型。

当所有变量服从联合高斯分布时，便得到高斯贝叶斯网络，其条件概率分布均为线性高斯形式。

最后，又引入了时间维度。当贝叶斯网络沿时间轴展开时，便形成动态贝叶斯网络。

典型例子包括隐马尔可夫模型，其隐状态序列构成一阶马尔可夫链，观测变量在给定隐状态条件下条件独立；

以及线性动态系统，如卡尔曼滤波器，其状态转移与观测方程均为线性高斯的。

此外，高斯过程可被视为无限维高斯分布，从空间维度实现了从有限到无限的扩展。

从单一到混合、从离散到连续、从静态到动态，这些维度共同勾勒出贝叶斯网络模型家族的全貌。

朴素贝叶斯、混合模型、高斯贝叶斯网络、隐马尔可夫模型、卡尔曼滤波器及粒子滤波器等，均为这一框架下的具体实例，各自适用于不同类型的实际问题。

结语

贝叶斯网络通过有向无环图将概率论中的条件独立性关系直观地呈现在图结构之中，为高维不确定性推理提供了系统而高效的理论工具。

从朴素贝叶斯到隐马尔可夫模型，从高斯贝叶斯网络到动态系统，贝叶斯网络的模型家族不断扩展，在医疗诊断、故障检测、风险评估、自然语言处理等众多领域展现出广阔的应用前景。

街坊秀

贝叶斯网络（Bayesian Network, BN）：如何用图结构简化概率计算？

热门标签

热门排行

最新更新

友情链接