条件概率分布

条件概率分布（Conditional Probability Distribution，或者 条件分布，Conditional Distribution ）是现代概率论中的概念。已知两个相关的随机变量X 和Y，随机变量Y 在条件{X =x}下的条件概率分布是指当已知X 的取值为某个特定值x之时，Y 的概率分布。如果Y 在条件{X =x}下的条件概率分布是连续分布，那么其密度函数称作Y 在条件{X =x}下的条件概率密度函数（条件分布密度、条件密度函数）。与条件分布有关的概念，常常以“条件”作为前缀，如条件期望、条件方差等等。

例子

如果骰子一侧是6点，朝上的可能是4点，但不可能是6点或1点。

假设在桌子上抛掷一枚普通的骰子，则其点数结果的概率分布是集合 $\{1,2,3,4,5,6\}$ 的均匀分布：每个点数出现的概率都是均等的六分之一。然而，如果据某个坐在桌边的人观察，向着他的侧面是6点，那么，在此条件下，向上的一面不可能是6点，也不可能是6点对面的1点。因此，在此条件下，抛骰子的点数结果是集合 $\{2,3,4,5\}$ 的均匀分布：有四分之一的可能性出现 $2,3,4,5$ 四种点数中的一种。可以看出，增加的条件或信息量（某个侧面是6点）导致了点数结果的概率分布的变化。这个新的概率分布就是条件概率分布。

数学定义

更为严格清晰的定义需要用到数学语言。当随机变量是离散或连续时，条件概率分布有不同的表达方法。

离散条件分布

对于离散型的随机变量X 和Y（取值范围分别是 ${\mathcal {I}}$ 和 ${\mathcal {J}}$ ），随机变量Y 在条件{X =x}下的条件概率分布是：

\forall j\in {\mathcal {J}},\quad p_{Y\mid X}(j)=p_{Y}(j\mid X=i)=P(Y=j\mid X=i)={\frac {P(X=i,Y=j)}{P(X=i)}}.

（

P(X=i)>0

）

同样的，X 在条件{Y=y}下的条件概率分布是：

\forall i\in {\mathcal {I}},\quad p_{X\mid Y}(i)=p_{X}(i\mid Y=j)=P(X=i\mid Y=j)={\frac {P(X=i,Y=j)}{P(Y=j)}}.

（

P(Y=j)>0

）

其中， $P(X=i,Y=j)$ 是X 和Y 联合分布概率，即“ $X=i$ ，并且 $Y=j$ 发生的概率”。如果用 $p_{ij}$ 表示 $P(X=i,Y=j)$ 的值： $P(X=i,Y=j)=p_{ij}$ 那么随机变量X 和Y 的边际分布就是：

P(X=i)=p_{i.}=\sum _{j\in {\mathcal {J}}}p_{ij}

P(Y=j)=p_{.j}=\sum _{i\in {\mathcal {I}}}p_{ij}

因此，随机变量Y 在条件{X =x}下的条件概率分布也可以表达为：

p_{Y\mid X}(j)=P(Y=j\mid X=i)={\frac {p_{ij}}{p_{i.}}}.

（

p_{i.}>0

）

同样的，X 在条件{Y=y}下的条件概率分布也可以表达为：

p_{X\mid Y}(i)={\frac {p_{ij}}{p_{.j}}}.

（

p_{.j}>0

）

连续条件分布

对于连续型的随机变量X 和Y， $P(X=i)=P(Y=j)=0$ ，因此对离散型随机变量的条件分布定义不适用。假设其联合密度函数为 $f(x,y)$ ，X 和Y 的边际密度函数分别是 $f_{X}(x)$ 和 $f_{Y}(y)$ ，那么Y 在条件{X =x}下的条件概率密度函数是：

f_{Y|X}(y|x)=f_{Y}(y\mid X=x)={\frac {f(x,y)}{f_{X}(x)}}.

同样的，X 在条件{Y=y}下的条件概率密度函数是：

f_{X|Y}(x|y)=f_{X}(x\mid Y=y)={\frac {f(x,y)}{f_{Y}(y)}}.

条件分布和独立分布

在一定意义上，条件分布和独立分布是相对的。如果两个随机变量X 和Y 是独立分布的，那么不论是否已知某个关于X 的条件，都不会影响Y 的概率分布。用数学语言来说，就是：

$P(Y=y\mid X=x)=P(Y=y)=p_{Y}(y)$

这与独立分布的定义是相合的，事实上，随机变量X 和Y 相互独立分布，则：

$P(Y=y,X=x)=P(Y=y)\cdot P(X=x).$

因此

$P(Y=y)={\frac {P(Y=y,X=x)}{P(X=x)}}=P(Y=y\mid X=x).$

参见

条件概率
正则条件概率

参考资料

赵衡秀. 《概率论与数理统计》. 清华大学出版社. 2005.