戴尔指数

戴尔指数（英语：Theil Index）又称为泰尔指数^[1]，是一个衡量经济不平等^[2]的统计量。它也曾经用来衡量其他社会不平等现象，如种族隔离^[3]^[4]^[5]。

戴尔指数主要是利用信息论中的资讯熵的概念导出的。戴尔指数等于资讯冗余，也就是资料最大可能资讯熵减去观测到的资讯熵，它是广义熵指数（英语：generalized entropy index）的特例，可以被视为冗余度、单样性、不平等、非随机性和可压缩性的度量。^[5]

戴尔指数最早由荷兰鹿特丹伊拉斯姆斯大学的计量经济学家亨利·戴尔（英语：Henri Theil）（Henri Theil）所提出。^[5]

数学公式

假设一个人口为N的群体，其收入分别为x_i (i = 1,...,N)，则它的戴尔指数T定义为^[6]：

T_{T}=T_{\alpha =1}={\frac {1}{N}}\sum _{i=1}^{N}{\frac {x_{i}}{\mu }}\ln \left({\frac {x_{i}}{\mu }}\right)

而戴尔指数L则定义为

T_{L}=T_{\alpha =0}={\frac {1}{N}}\sum _{i=1}^{N}\ln \left({\frac {\mu }{x_{i}}}\right)

其中 $x_{i}$ 为第 $i$ 个人的收入， ${\mu }$ 为平均收入， $N$ 为人口数量。加总符号中的第一项可以理解为个人在总收入中所占的比例，第二项为该个人相对于均值的收入。

如果收入分布是个离散分布函数 f_k (k = 0,...,W)，其中f_k是收入为k的人口比例，而W = Nμ 代表总收入，可以得知 $\sum _{k=0}^{W}f_{k}=1$ 。它的戴尔指数T定义为：

T_{T}=\sum _{k=0}^{W}\,f_{k}\,{\frac {k}{\mu }}\ln \left({\frac {k}{\mu }}\right)

这里的 $\mu$ 一样是收入平均

\mu =\sum _{k=0}^{W}kf_{k}

其中应注意到收入k是一个整数，k=1代表最小收入增量（比如新台币1元）。

如果收入分布是个连续分布函数f(k)，k取值0到无穷，其中f(k) dk 是收入为k 到 k + dk的人口数量，那戴尔指数T定义为：

T_{T}=\int _{0}^{\infty }f(k){\frac {k}{\mu }}\ln \left({\frac {k}{\mu }}\right)dk

其中平均 $\mu$ 为：

\mu =\int _{0}^{\infty }kf(k)\,dk

一些常见连续概率分布的戴尔指数如下表所示：

收入分布函数	PDF(x) (x ≥ 0)	戴尔指数（纳特）
狄拉克δ函数	$\delta (x-x_{0}),\,x_{0}>0$	0
连续型均匀分布	${\begin{cases}{\frac {1}{b-a}}&a\leq x\leq b\\0&{\text{otherwise}}\end{cases}}$	$\ln \left({\frac {2a}{(a+b){\sqrt {e}}}}\right)+{\frac {b^{2}}{b^{2}-a^{2}}}\ln(b/a)$
指数分布	$\lambda e^{-x\lambda },\,\,x>0$	$1-$ $\gamma$
对数正态分布	${\frac {1}{\sigma {\sqrt {2\pi }}}}e^{(-(\ln(x)-\mu )^{2})/\sigma ^{2}}$	${\frac {\sigma ^{2}}{2}}$
帕累托分布	${\begin{cases}{\frac {\alpha k^{\alpha }}{x^{\alpha +1}}}&x\geq k\\0&x<k\end{cases}}$	$\ln(1\!-\!1/\alpha )+{\frac {1}{\alpha -1}}$ (α>1)
卡方分布	${\frac {2^{-k/2}e^{-x/2}x^{k/2-1}}{\Gamma (k/2)}}$	$\ln(2/k)+$ $\psi ^{(0)}$ $(1\!+\!k/2)$
伽玛分布	${\frac {e^{-x/\theta }x^{k-1}\theta ^{-k}}{\Gamma (k)}}$	$\psi ^{(0)}$ $(1+k)-\ln(k)$
韦伯分布	${\frac {k}{\lambda }}\left({\frac {x}{\lambda }}\right)^{k-1}e^{-(x/\lambda )^{k}}$	${\frac {1}{k}}$ $\psi ^{(0)}$ $(1+1/k)-\ln \left(\Gamma (1+1/k)\right)$

如果每一个人都有相同的收入，即等于均值，则指数为零。如果某个个人拥有所有的收入，则指数为 $\ln {N}$ 。T_T 除以 $\ln N$ 可以将方程归一化到0到1的范围，但这样违反独立公理（英语：Economic inequality metrics）: $T[x\cup x]\neq T[x]$ 并不符合衡量不平等的标准。

信息论推导

戴尔指数导自克劳德·夏农的信息熵，他的一般数学形式为：

S=k\sum _{i=1}^{N}\left(p_{i}\log {\frac {1}{p_{i}}}\right)=-k\sum _{i=1}^{N}\left(p_{i}\log {p_{i}}\right)

其中 $p_{i}$ 是从人群里找到 $i$ 的几率。 $k$ 是玻尔兹曼常数。在信息论中，当信息以二进制数字给出时， $k=1$ 并且对数基底为2。在物理学和戴尔指数的计算中，选择自然对数作为对数基底。当 $p_{i}$ 替换成人均收入 $x_{i}$ 时，需要除以总收入达到归一化 $N{\overline {x}}$ 。那可以导出，观察到的信息熵为：

S_{\text{Theil}}=\sum _{i=1}^{N}\left({\frac {x_{i}}{N{\overline {x}}}}\ln {\frac {N{\overline {x}}}{x_{i}}}\right)

设 $T$ 为戴尔指数， $S$ 为夏农熵，则有

$T=\ln(N)-S$

其中，ln(N)是理论最大熵。香浓根据事件发生概率导出的其熵测度。它可以用戴尔系数解释为自某个特定个人处随机取得一块钱的概率。并与其第一项，即总收入中个人所占份额相同。

符号	信息论	戴尔指数 T_T
$N$	字符数	人口数
$i$	某个特定字符	某个特定人
$x_{i}$	第i个字符 character	第i个人的收入
$N{\overline {x}}$	总字符数	总收入
$T_{T}$	未被使用的资讯空间	未使用潜在价格机制

可分解性

戴尔指数的一个优点是它是某个子群体中不平等的加权和^[1]。例如，美国国内的不平等就是每个州的不平等的加权和，由该州收入相对于国家总收入的比值来加权。

如果人口被划分为 $m$ 个子群体， $s_{k}$ 为群体 $k$ 的收入比例， $T_{k}$ 为该子群体的戴尔指数，而 ${\overline {x}}_{k}$ 为子群体 $k$ 的平均收入，则戴尔指数为

T=\sum _{k=1}^{m}s_{k}T_{T_{k}}+\sum _{k=1}^{m}s_{k}\ln {\frac {{\overline {x}}_{k}}{\overline {x}}}

因此，我们可以说某个特定群体给总体“贡献了”一定数量的不平等。

另外一个被广泛使用的不平等度量为基尼系数，该系数对于很多人来说由于基于劳伦茨曲线而非常直观。但是它却没有戴尔指数容易分解。

参考文献

^ ^1.0 ^1.1 徐淑娟. 中国经济发展中的行业收入差距问题研究. 西南财经大学出版社. 2018-02-01: 33–34 [2019-01-14]. ISBN 7550428530. （原始内容存档于2019-06-05）（中文（中国大陆））.
^ Introduction to the Theil index from the University of Texas (PDF). [2006-01-15]. （原始内容存档 (PDF)于2005-11-18）.
^ Diversity and Social Segregation. geodacenter.asu.edu. [2016-03-18]. （原始内容存档于2012-07-10）.
^ Segregation Measures. www.urban.org. Urban Institute. [5 February 2018]. （原始内容存档于2021-01-19）（英语）.
^ ^5.0 ^5.1 ^5.2 Parker, Lauren. Racial and Ethnic Segregation: In the News and On PolicyMap. PolicyMap. 20 July 2015 [5 February 2018]. （原始内容存档于2019-06-08）.
^ Redundancy, Entropy and Inequality Measures. [2019-01-11]. （原始内容存档于2020-10-23）（英语）.

外部链接

德克萨斯大学戴尔指数简介（页面存档备份，存于互联网档案馆）（英文）
试算表: Income inequality metrics#Spreadsheet computations（英语：Income inequality metrics#Spreadsheet computations）
免费在线计算器计算基尼系数，绘制洛伦兹曲线，并为任何数据集计算许多其他浓度测量值
Free Calculator: Online （页面存档备份，存于互联网档案馆） and downloadable scripts (Python and Lua) for Atkinson, Gini, and Hoover inequalities
Users of the R （页面存档备份，存于互联网档案馆） data analysis software can install the "ineq" package which allows for computation of a variety of inequality indices including Gini, Atkinson, Theil.
MATLAB 不平等包（页面存档备份，存于互联网档案馆）。MATLAB不平等包，其中包括用于计算基尼，阿特金森，泰尔指数和标绘洛伦茨曲线的代码

[中国经济发展中-1] 1.0 ^1.1 徐淑娟. 中国经济发展中的行业收入差距问题研究. 西南财经大学出版社. 2018-02-01: 33–34 [2019-01-14]. ISBN 7550428530. （原始内容存档于2019-06-05）（中文（中国大陆））.

[2] Introduction to the Theil index from the University of Texas (PDF). [2006-01-15]. （原始内容存档 (PDF)于2005-11-18）.

[3] Diversity and Social Segregation. geodacenter.asu.edu. [2016-03-18]. （原始内容存档于2012-07-10）.

[4] Segregation Measures. www.urban.org. Urban Institute. [5 February 2018]. （原始内容存档于2021-01-19）（英语）.

[policymap-5] 5.0 ^5.1 ^5.2 Parker, Lauren. Racial and Ethnic Segregation: In the News and On PolicyMap. PolicyMap. 20 July 2015 [5 February 2018]. （原始内容存档于2019-06-08）.

[Formulas-6] Redundancy, Entropy and Inequality Measures. [2019-01-11]. （原始内容存档于2020-10-23）（英语）.

[1]

[2]

[3]

[4]

[5]

[6]