大数法则(4)弱大数法则(Weak law of large

法则(4)弱法则(Law of large numbers-4. Weak law of large numbers)

连结:大数法则(3)巨数法则

摘要:本文从「伯努力试验(Bernoulli trial)」谈起,说明「大数法则」的主要内涵,进而介绍「弱大数法则(weak law of large numbers)」,并釐清常见的误解。

大数法则又称大数率或平均法则(law of averages)。由于有大数法则,使得在不确定性(uncertainty)中,我们仍能掌握一些确定性(certainty);在混乱(chaos)中,仍有其秩序(order)。大数法则是说:若一实验(或观测),能持续且重複地进行,则观测值之平均,将任意接近期望的成果。比较正式一点的说,就是随机所产生样本之平均,当样品数很大,将有很大的机率,接近母体之平均。

机率论早期的发展,常对某件事是否发生有兴趣。如:投掷铜板是否出现正面?玩扑克牌得到 \(3\) 条等。换句话说,对只有两个结果的观测有兴趣。以 \(X_i=1\),表第 \(i\) 次观测该事件发生,\(X_i=0\),表第 \(i\) 次观测该事件未发生。如此观测到一串 \(0,1\) 的数列。

这种数列,今日称作伯努力数列(Bernoulli sequence)。而这类只有两个结果的实验,便称作伯努力试验(Bernoulli trial)。这是因瑞士数学家伯努力(Jacob Bernoulli,1654-1705),最先探讨而得名。在他死后八年,1713年,他姪儿尼古拉斯伯努力(Nicholas Bernoulli, 1687-1759),替他出版那本可说是机率论最早的书籍 Ars Conjectandi(原文为拉丁文,英文书名为The Art of Conjecturing)。在这本书中,伯努力证明了一以他的姓为命名的定理,即伯努力法则(Bernoulli law):

独立且重複地观测一发生机率为 \(p\) 之事件 \(A\),
当观测次数趋近至 \(\infty\),事件发生之相对频率接近 \(p\) 之机率,将趋近 \(1\)。

注一:Bernoulli一家可说是数学史上相当显赫的一家。在三代里,至少有八位,对数学、机率或统计有贡献。其中有五位算是相当杰出。在数学、机率或统计中,常会见到Bernoulli,不见得是同一人。我们列出伯努力四代的部分成员于图一。西方人的姓(last name)较少相同,名(First name)则很容易相同。

在同一领域出名且姓相同的,往往并不大多。所以我们通常以姓称呼西方的科学家、文学家及艺术家等名人。如:牛顿、高斯及欧拉等,都是姓。而几百年来也没产生第二个科学家是牛顿、高斯及欧拉。若真有同姓的,再附上名,即可区隔。只是这套惯用的称法,对Bernoulli就不适用了。由于这是一数学大家族,不但你见到的Bernoulli可能不是同一人,有几位的名也相同。中国人对于取名,常会避长者讳。外国人则有时为小孩取某长者之名,以为纪念。这点在Bernoulli家族很明显,还有取与自己同名的。图一中有11人,却只有4个不同的名。有时以二世(II),三世(III)来区隔,有时也不区隔。

另一个Bernoulli家族的名会令人产生困扰的是,有几位曾在欧洲几个国家居住,而在不同的地方会有不同的名。以我们所提到的Bernoulli家族第一位数学家为例,Jacob有时写成Jakob;他又称为Jacques (有时写成Jaques);有时又称为James。为了提昇机率与统计的发展,1975年还成立了一个伯努力协会(Bernoulli Society)的国际组织,可见伯努力家族在机率与统计界的被重视。

大数法则(4)弱大数法则(Weak law of large

伯努力所指的『趋近』是什幺意思呢?

令 \(n(A)\) 表观测 \(n\) 次,事件 \(A\) 所发生之次数。又以 \(p_{n,k}\) 表 \(n(A)=k\) 之机率,则

\((1)~~~p_{n,k}=P(n(A)=k)=\dbinom{n}{k}p^k(1-p)^{n-k},~~~k=0,1,…,n\)

当 \(n\) 很大时,事件 \(A\) 发生之相对频率 \(n(A)/n\) 与 \(p\) 之差距不应太大。但 \(n(A)\) 可能每回观测都不尽相同,毕竟这是一随机现象。有时 \(n(A)=n\),有时 \(n(A)=0\)。我们上一节才讨论巨数法则。投掷一公正铜板 \(100\) 次,\(100\) 次全出现正面的机率当然很低,仅 \(1/2^{100}\)。但若一直重複做这件事(每回投掷 \(100\) 个铜板),譬如说做了 \(2^{100}\) 回,则其中出现一回 \(100\) 个全是正面,就不用太奇怪。如果回数再多些,譬如做了 \(2^{110}\) 回,就更容易出现好几回 \(100\) 个全部是正面了。因平均可出现 \(2^{110}/2^{100}=2^{10}=1,024\)(次)。

注二:要完成 \(2^{100}\) 回投掷铜板 \(100\) 次,其实并非易事。假设以电脑模拟,且 \(1\) 秒钟可模拟 \(1\) 万兆\((=2^{16})\) 回,够快了吧! \(1\) 天有 \(86,400\) 秒,\(1\) 年 \(365\) 天约有 \(3.1536\times 10^7\) 秒。因此一年约可模拟 \(3.1536\times 10^{23}\) 回。又 \(2^{100}\) 约等于 \(1.2676506\times 10^{30}\),两者相除,得到约要模拟 \(4.01969\times 10^6\) 年。要四百多万年才能模拟完,中华民族才号称有五千年文化。野史里偶有投掷出 \(100\) 个正面的纪载,宋朝名将狄青曾办到,见黄文璋(2003)p.71,那些铜板当然都是特製的。如果铜板为公正,你现在知道了,投掷 \(100\) 个,是很难出现 \(100\) 个全是正面。若想靠多投掷几回而得,几回之多,乃远超乎我们所能想像。

对于随机现象的种种解释,自然须以机率为依归。伯努力是认为 \(n(A)/n\) 与 \(p\) 之差是『不太可能』过大。即只要 \(n\) 够大,\(|\frac{n(A)}{n}-p|>\varepsilon\) 之机率应很小,其中 \(\varepsilon\) 为任一正数。而此机率为

\((2)~~~\displaystyle\sum_{|(k/n)-p|>\varepsilon}p_{n,k}=\sum_{|(k/n)-p|>\varepsilon}\dbinom{n}{k}p^k(1-p)^{n-k}\)

伯努力辛苦证明

\((3)~~~\displaystyle\lim_{n\to\infty}\sum_{|(k/n)-p|>\varepsilon}\dbinom{n}{k}p^k(1-p)^{n-k}=0\)

其中的求和当然不会是容易的工作。今日已少有人看过(可能也不想,甚至不知道)他的证法。有兴趣的读者,可参考Renyi(1970)pp.195-196。事实上,利用柴比雪夫不等式(Chebyshev inequality, Pafnuty L. Chebyshev, 1821-1894, 为俄国着名数学家),可轻易证出比伯努力更一般的结果,可参考黄文璋(2010)p.124。

伯努力所指的事件发生之相对频率,其实就是

\(\displaystyle f_n(A)=\frac{n(A)}{n}=\frac{X_1+\cdots+X_n}{n},~~n\ge 1\)

其中 \(X_1,\cdots,X_n\) 为独立且有相同分布(independent and identically distributed, 简称 \(\mathrm{iid}\))之随机变数,\(X_i\) 取值 \(0\) 或 \(1\),且 \(P(X_i=1)=p,~i\ge 1\)。随机变数只取值 \(0\) 或 \(1\),且取值 \(1\) 的机率为 \(p\),便称为有参数 \(p\) 之伯努力分布(Bernoulli distribution),以 \(\mathrm{Ber}(p)\) 表之。

伯努力即指出,\(\mathrm{iid}\) 的随机变数 \(X_i, i\ge 1\),以 \(\mathrm{Ber}(p)\) 为共同分布时,当 \(n\to\infty\) 时,\((X_1+\cdots+X_n)/n\) 会偏离 \(p\) 『太远』(如差距超过 \(\varepsilon\))的机率趋近至 \(0\)。

读者可看出大数法则与巨数法则是两个不同的法则。曾在网路上一篇文章中,看到底下一段话:

记得保险业有一条『大数法则』,意思是只要大量客人,十位或一百位或一千位,总有一位客人投保。换句话说,你失败,只是个人不够勤力,接触的客人不够多之故。

其实这应是巨数法则,而非大数法则。对一事件 \(A\) 当观测数 \(n\) 很大,巨数法则关心 \(A\) 是否发生,大数法则则是说事件 \(A\) 发生的总次数 \(n(A)\),『约』是 \(np\),其中 \(p\) 为 \(A\) 发生的机率。也可以这幺说,大数法则是比巨数法则更精确的法则。它指出当观测数 \(n\) 很大,一特定事件大约发生多少次。因 \(n\) 很大时,事件 \(A\) 约发生 \(np\) 次,即使 \(p\) 很小,只要 \(np>1\),则看到事件 \(A\) 发生,就不足为奇。而这就是巨数法则所指出的现象。

大数法则可以支持频率对机率的解释。设有一铜板,出现正面的机率为 \(p\)(或一事件发生的机率为 \(p\)),只投掷一次,不是正面就是反面,无法感受 \(p\) 的意义。但只要投掷数够大,铜板出现正面的相对频率,就有可能接近 \(p\) 了。伯努力之后,机率学家们,继续探讨大数法则。1928年,俄国机率学家辛钦(Aleksandr, Y. Khinchin, 1894-1959),证明对 \(\mathrm{iid}\) 的随机变数,只要期望值存在,不论分布为何,大数法则便成立。即

对 \(\forall n\ge 1\),设 \(X_1,\cdots,X_n\) 为 \(\mathrm{iid}\) 之随机变数,

且设 \(E(X_1)\) 存在 (即 \(-\infty

\(\displaystyle \overline{X}_n=\frac{X_1+\cdots+X_n}{n},~~~n\ge 1\)

当 \(n\to \infty\) 时,会机率收敛(converges in probability) 至 \(E(X_1)\),以

\((4)~~~\displaystyle \overline{X}_n \xrightarrow[n\to\infty]{P} E(X_1)\) 表之。

在此,机率收敛的定义如下:

定义1. 设有一数列之随机变数 \(\{Y_n,~~n\ge 1\}\),及一随机变数 \(Y\),若

\((5)~~~\displaystyle\lim_{n\to\infty} P(|Y_n-Y|>\varepsilon)=0,~\forall \varepsilon>0\)

则称 \(n\to\infty\) 时,\(\{Y_n,~n\ge 1\}\),机率收敛至 \(Y\),且以 \(\displaystyle Y_n\xrightarrow[n\to\infty]{P} Y\) 表之。

\((5)\) 式是说,对 \(\forall \varepsilon>0\),当 \(n\to\infty\) 时,\(|Y_n-Y|>\varepsilon\) 之机率趋近至 \(0\)。

亦即 \(|Y_n-Y|\le \varepsilon\) 之机率趋近至 \(1\):

\((6)~~~\displaystyle\lim_{n\to\infty} P(|Y_n-Y|\le\varepsilon)=1,~\forall \varepsilon>0\)

辛钦所证出的结果,后来被称为弱大数法则。当 \(\mathrm{iid}\) 的随机数列 \(X_n, n\geq 1\),只取 \(0,1\) 两个值,且 \(P(X_1=1)=p\),则 \(E(X_1)=p\),这时,弱大数法则就回到伯努力版本。

弱大数法则并无法保证 \(n\) 很大时,样本平均 \(\overline{X}_n\) 与随机变数之期望值 \(E(X_1)\) 『必会』很接近。这与常数数列的收敛大不相同。对于随机现象,所有的保证,都是机率式的。即弱大数法则保证 \(n\) 很大时,样本平均 \(\overline{X}_n\) 与随机变数之期望值 \(E(X_1)\) 很接近的机率很大。

不论 \(\overline{X}_n\) 与 \(E(X_1)\) 之差距要多小(譬如说 \(|\overline{X}_n-E(X_1)|\leq\varepsilon\),其中 \(\varepsilon\) 可为一任一正数)此机率要多大(譬如说 \(P(|\overline{X}_n-E(X_1)|\leq\varepsilon)\) 大于 \(1-\delta\),其中 \(\delta\) 可为任一正数。),皆能办到,只要样本数够大。即对每一 \(\varepsilon>0\) 及 \(0<\delta<1\),存在一 \(n_0\geq 1\),使得

\((7)~~~P(|\overline{X}_n-E(X_1)|\le \varepsilon)>1-\delta\),当 \(n\ge n_0\)

或等价地说

\((8)~~~\displaystyle\lim_{n\to\infty} P(|\overline{X}_n-E(X_1)|\le \varepsilon)=1,~\forall \varepsilon>0\)

弱大数法则并没有说,\(n\) 很大时,\(X_n\) 会等于 \(E(X_1)\)。很多初学者会误以为如此,但这是错的。即使 \(n\) 很大时,\(|\overline{X}_n-E(X_1)|\) 必很小,此说法也是错的。这些皆非机率式的说法。

正确的说法是当 \(n\) 很大时,\(|\overline{X}_n-E(X_1)|\) 很小的机率会很大。以数学式子表示就是 \((7)\) 式或 \((8)\) 式。对于随机现象,我们通常只能做机率式的保证。初学者或许会以为,我们的保证好似都有些保留,不像数学中一向斩钉截铁似的说法有权威。但这就是机率与数学之别:看似不确定,其实是更可靠的保证。只要想甲医生肯定地说这病人活不过 \(3\) 个月,乙医生说病人活不过 \(3\) 个月的机率为 \(0.99\),你觉得哪一种讲法较精準?

弱大数法则不只针对 \(\mathrm{iid}\) 的随机变数才成立,条件可放宽些。历来机率学家给出不同条件下的弱大数法则,使其适用範围更广。

大数法则针对期望值存在的随机变数,期望值若不存在,像是柯西分布(Cauchy distribution),就不适用了。图2给出当 \(X_n,n\geq 1\),为 \(\mathrm{iid}\) 之随机变数,且以 \(\mathrm{Ber}(1/2)\) 为共同分布,\(\overline{X}_n\) 之一模拟图形,\(1\leq n\leq 1,000\)。可看出除了 \(n\) 不太大时,\(\overline{X}_n\) 与 \(0.5\) 有较大差距,之后就与 \(0.5\) 很接近了。对参数 \(2.5\) 及 \(1\) 之柯西分布,以 \(\mathrm{C}(2.5,1)\) 表之,即机率密度为

\(\displaystyle f(x)=\frac{1}{\pi(1+(x-2.5)^2)},~~~x\in\mathbb{R}\)

大数法则(4)弱大数法则(Weak law of large

图3给出 \(\overline{X}_n\) 之模拟图形。由于此分布之期望值不存在,大数法则不适用,图形显示 \(\overline{X}_n\) 震荡很大。

大数法则(4)弱大数法则(Weak law of large

在统计里,很多不错的统计方法,都基于大数法则。着名的动差估计法(metho d of moment estimator)为一例。设随机变数 \(X\) 有参数 \(\lambda\) 之波松分布(Poisson distribution),以 \(X\)~\(P(\lambda)\) 表之,\(\lambda >0\)。即 \(X\) 之机率密度函数为

\(\displaystyle f(x)=\frac{e^{-\lambda}\lambda^x}{x!},~~~x=0,1,\cdots\)

我们想要估计 \(\lambda\),独立且重複地观测 \(n\) 次,得到样本 \(X_1,…,X_n\)。则可利用样本平均 \(\overline{X}_n\) 作为 \(\lambda\) 的估计量,即为动差估计法。由于 \(E(X)=\lambda\) 恰为 \(X\) 之期望值,此略可说明何以动差估计法通常是不错的估计量。因至少我们确定取样够多时,它接近欲估计的参数之机率便很大。

我们常会接触到机率为 \(0\) 之事件。自区间 \([0.1]\) 随机取一个点,会取中 \(0.3\) 的机率为何?\(0\),你可能会不假思索地回答。你还知道任何一点被取中之机率为 \(0\)。如果令 \(X\) 表取中之点,则 \(X\) 为一连续型的机率变数。因此 \(X\) 会等于 \([0,1]\) 间任一数之机率皆为 \(0\)。修过机率与统计的课程,使你具备基本的机率知识,但有人一取之下,取中 \(0.729\),他问妳机率不是 \(0\) 吗?怎幺却发生了?

要知机率 \(0\) 的事件,不代表不会发生,使现象常让初学者感到迷惑。事实上,事件之『不会发生』、『会发生』及『一定发生』等,皆非专业的说法。专业的说法分别是:机率为 \(0\),机率为正,机率为 \(1\)。有人取中 \(0.729\),他怀疑 \(0.729\) 被取中的机率其实大于 \(0\)。如何跟她解释?

此时,大数法则便可派上用场。你请他再取 \(1\) 次,第 \(3\) 次取,继续取,依序取了 \(n\) 次,如此得到随机数列 \(X_1,\cdots,X_n\),其中 \(X_i=1\),表第 \(i\) 次取中 \(0.729\),\(X_i=0\),表第 \(i\) 次未取中 \(0.729,~i\geq 1\)。然后算出 \(0.729\) 出现次数的相对频率,即求

\(\displaystyle \overline{X}_n=\frac{X_1+\cdots+X_n}{n},~~~n\ge 1\)

虽然 \(X_1=1\),但自 \(X_2\) 起,应都是 \(0\) 了。随着 \(n\) 增大,\(\overline{X}_n\) 愈来愈接近 \(0\)。

何以我们那幺『确定』?因弱大数法则告诉我们 \(n\rightarrow\infty\) 时

\(\overline{X}_n \xrightarrow[n\to\infty]{P} E(X_1)=0\)

由于上述这种困扰,有时机率学家,倾向以几乎不可能(almost impossible)及几乎确定(almost certain),来取代『不可能』(不会)及『确定』(必会)。

附带一提,当有人告诉你,他自区间 \([0,1]\) 随机地取一个点,取中 \(0.729\),你可大胆地请问他,是否真的是 \(0.729\)?你的量尺够精确吗?为何你如此有信心,该数可能是因量测不够精确,才以为是 \(0.729\),其实并不是 \(0.729\)?此因 \([0,1]\) 间有理数的集合是可数的(countable),而可数集合之勒贝格测度(Lebesgue measure)为 \(0\), \([0,1]\) 间无理数之勒贝格测度为 \(1\)。因此随机取一点,会取中无理数的机率为 \(1\)。我们当然宁可认为是因他没量精準,才以为得到的是有理数。

最后,随机变数的不独立,或分布不同,在适当条件下,弱大数法则仍会成立。可参考黄文璋(2010)5.3节。

连结:大数法则(5)强大数法则


参考文献:

上一篇: 下一篇: