能把P(城市|省份)和P(省份|城市)联系起来的公式叫贝叶斯公式。我们来看贝叶斯公式长什么样子。
用A表示省份,B表示城市,套入公式,即能把P(城市|C)和P(C|城市)联系起来。看到能够联系起来,上级工作人员很高兴,但是这公式有什么意义吗,是不是随便编造的一个公式,为何叫贝叶斯公式而不是叫陈佩斯公式?
贝叶斯公式以托马斯·贝叶斯(Thomas Bayes,1701-1761)命名的,贝叶斯是和牛顿同时代的牧师,同时也是一位业余数学家,和牛顿不同的是,贝叶斯的理论当时并未被重视,原因在于贝叶斯在统计当中引入了主观因素,即所谓的先验概率,这对于数学来说是大忌,数学应该是客观的,怎么能加入主观因素。因此,直到1950年左右,人们发现加入先验概率效果更好,贝叶斯的理论才被广泛接受。
一个理论能被广泛接受,一定是因为能够解决很多问题,那贝叶斯理论又解决了什么问题,为什么一个数学理论能够加入主观因素?
如果问抛硬币正面朝上的概率,很多人会肯定回答说概率是1/2,但这是想当然了,对于理想的硬币,正反面概率是均匀的,但是如果硬币动了手脚,那就不一定了,这个时候,要怎么去确定概率是多少?有人想到通过做抛硬币的试验来确定,例如抛5次硬币,统计正面和反面出现的次数,如果抛5次都是正面向上,我们能说正面向上的概率是100%吗?有人说,5次太少,那抛5000次以上总能计算概率大小吧,答案是可以,只是这种估计概率的方式成本太高了。事实上,现实生活中,有很多类似的例子是不能通过做试验来确定概率的,例如小明预测明天下雨的概率是30%,他无法重复过上明天100次,统计下雨的次数来计算下雨的概率。而贝叶斯理论,可以解决这种在有限信息条件下对概率的一个预估,贝叶斯理论的思路是, 在主观判断的基础上,先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数) 。
我们继续来看贝叶斯公式,我们再用省份和城市来理解这个公式有点不太好理解,因为那个例子看起来我们所有的信息都知道了。这里再举另外一个例子来理解。
曾经有一个大神给我传授表白理论,他说如果女神从来没有单独出去逛街吃饭,这说明女神根本不喜欢你,表白的成功概率很低的,反之亦然。
我们以这个理论作为概率的例子,首先,分析给定的已知信息和未知信息:
1)要求解的问题:女神喜欢你,记为A事件
2)已知条件:经常和女神单独出门吃过饭,记为B事件
那么,P(A|B)就是女神经常和你单独出门吃饭这个事件(B)发生后,女神喜欢你的概率。把这个套入贝叶斯公式来理解一下。
贝叶斯可以分为三个部分,先验概率、可能性函数和后验概率。
1)先验概率
我们把P(A)称为"先验概率"(Prior probability),先验概率是根据以往经验和分析得到的概率。这个例子里就是在不知道女神经常和你单独出门逛街的前提下,来主观判断出女神喜欢你的概率。因为是主观判断,我们可以给任何值,例如高富帅可以把这个概率设定得很高,为80%,也可以设定低一点,例如50%,这完全是根据个人经验做出的判断。这也是前面说的贝叶斯公式的主观因素部分。
2)可能性函数
P(B|A)/P(B)称为"似然函数"(Likelyhood),这是一个调整因子,即新信息B带来的调整,作用是使得先验概率更接近真实概率。至于新信息带来的调整作用大不大,还得看因子的值大不大。
如果"可能性函数"P(B|A)/P(B)>1,意味着"先验概率"被增强,事件A的发生的可能性变大,例如女神平时很少和别人出门逛街吃饭,那么这个调整因子特别有用,肯定是大于1的。
如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性,例如女神偶尔也和他人出门逛街吃饭,那么和女神出门吃饭没有我们带来任何信息,对判断女神是否喜欢你没有重大意义;
如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小,例如知道女神实际上有喜欢的人了,那该信息直接使得女神喜欢你的概率下降很厉害。
至于为什么似然函数的公式长这样的,这个留在以后再解释。
3)后验概率
P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。这个例子里就是在女神跟你出门逛街吃饭这个事件发生后,对女神喜欢你的概率重新预测。
通过这个例子,我们理解了贝叶斯公式,也知道了贝叶斯公式能够通过似然函数不断调整主观概率得到后验概率,使得预测更加准确,这也是为什么带有主观因素还能在数学界呆着的原因。也正因为这样,贝叶斯可以出现在所有需要作出概率预测的地方,例如垃圾邮件过滤,中文分词,疾病检查等。特别是在机器学习领域,贝叶斯理论更是一个绕不过去的门槛。
近九成男性欢迎女性主动表白,有8621%的男性表示如果有好感,愿意接受女性的表白,还有1164%的男人表示即使不喜欢也不会拒绝,女性主动表白的成功率居然达到9785%!而男性表白的成功率只达到58%。
贝叶斯定理太有用了,不管是在投资领域,还是机器学习,或是日常生活中高手几乎都在用到它。
生命科学家用贝叶斯定理研究基因是如何被控制的;教育学家突然意识到,学生的学习过程其实就是贝叶斯法则的运用;基金经理用贝叶斯法则找到投资策 略;Google用贝叶斯定理改进搜索功能,帮助用户过滤垃圾邮件;无人驾驶汽车接收车顶传感器收集到的路况和交通数据,运用贝叶斯定理更新从地图上获得 的信息;人工智能、机器翻译中大量用到贝叶斯定理。
我将从以下4个角度来科普贝叶斯定理及其背后的思维:
1贝叶斯定理有什么用?
2什么是贝叶斯定理?
3贝叶斯定理的应用案例
4生活中的贝叶斯思维
1贝叶斯定理有什么用?
英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。而这篇论文是在他死后才由他的一位朋友发表出来的。
(ps:贝叶斯定理其实就是下面中的概率公式,这里先不讲这个公式,而是重点关注它的使用价值,因为只有理解了它的使用意义,你才会更有兴趣去学习它。)
在这篇论文中,他为了解决一个“逆概率”问题,而提出了贝叶斯定理。
在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,比如杜蕾斯举办了一个抽奖,抽奖桶里有10个球,其中2个白球,8个黑球,抽到白球就算你中奖。你伸手进去随便摸出1颗球,摸出中奖球的概率是多大。
根据频率概率的计算公式,你可以轻松的知道中奖的概率是2/10
如果还不懂怎么算出来的,可以看我之前写的科普概率的回答: 猴子:如何理解条件概率?
而贝叶斯在他的文章中是为了解决一个“逆概率”的问题。比如上面的例子我们并不知道抽奖桶里有什么,而是摸出一个球,通过观察这个球的颜色,来预测这个桶里里白色球和黑色球的比例。
这个预测其实就可以用贝叶斯定理来做。贝叶斯当时的论文只是对“逆概率”这个问题的一个直接的求解尝试,这哥们当时并不清楚这里面这里面包含着的深刻思想。
然而后来,贝叶斯定理席卷了概率论,并将应用延伸到各个问题领域。可以说,所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。
为什么贝叶斯定理在现实生活中这么有用呢?
这是因为现实生活中的问题,大部分都是像上面的“逆概率”问题。生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就在信息有限的情况下,尽可能做出一个好的预测。
比如天气预报说,明天降雨的概率是30%,这是什么意思呢?
我们无法像计算频率概率那样,重复地把明天过上100次,然后计算出大约有30次会下雨。
而是只能利用有限的信息(过去天气的测量数据),用贝叶斯定理来预测出明天下雨的概率是多少。
同样的,在现实世界中,我们每个人都需要预测。想要深入分析未来、思考是否买股票、政策给自己带来哪些机遇、提出新产品构想,或者只是计划一周的饭菜。
贝叶斯定理就是为了解决这些问题而诞生的,它可以根据过去的数据来预测出概率。
贝叶斯定理的思考方式为我们提供了明显有效的方法来帮助我们提供能力,以便更好地预测未来的商业、金融、以及日常生活。
总结下第1部分:贝叶斯定理有什么用?
在有限的信息下,能够帮助我们预测出概率。
所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。例如垃圾邮件过滤,中文分词,艾滋病检查,肝癌检查等。
2什么是贝叶斯定理?
贝叶斯定理长这样:
到这来,你可能会说:猴子,说人话,我一看到公式就头大啊。
其实,我和你一样,不喜欢公式。我们还是从一个例子开始聊起。
我的朋友小鹿说,他的女神每次看到他的时候都冲他笑,他想知道女神是不是喜欢他呢?
谁让我学过统计概率知识呢,下面我们一起用贝叶斯帮小鹿预测下女神喜欢他的概率有多大,这样小鹿就可以根据概率的大小来决定是否要表白女神。
首先,我分析了给定的已知信息和未知信息:
1)要求解的问题:女神喜欢你,记为A事件
2)已知条件:女神经常冲你笑,记为B事件
所以说,P(A|B)是女神经常冲你笑这个事件(B)发生后,女神喜欢你(A)的概率。
从公式来看,我们需要知道这么3个事情:
1)先验概率
我 们把P(A)称为'先验概率'(Prior probability),即在不知道B事件的前提下,我们对A事件概率的一个主观判断。这个例子里就是在不知道女神经常对你笑的前提下,来主观判断出女 神喜欢一个人的概率,这里我们假设是50%,也就是不能喜欢你,可能不喜欢还你的概率都是一半。
2)可能性函数
P(B|A)/P(B)称为'可能性函数'(Likelyhood),这是一个调整因子,即新信息B带来的调整,作用是使得先验概率更接近真实概率。
可 能性函数你可以理解为新信息过来后,对先验概率的一个调整。比如我们刚开始看到“人工智能”这个信息,你有自己的理解(先验概率/主观判断),但是当你学 习了一些数据分析,或者看了些这方面的书后(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(可能性函数/调整因子),最后重新理解了“人工 智能”这个信息(后验概率)
如果'可能性函数'P(B|A)/P(B)>1,意味着'先验概率'被增强,事件A的发生的可能性变大;
如果'可能性函数'=1,意味着B事件无助于判断事件A的可能性;
如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小
还是刚才的例子,根据女神经常冲你笑这个新的信息,我调查走访了女神的闺蜜,最后发现女神平日比较高冷,很少对人笑。所以我估计出'可能性函数'P(B|A)/P(B)=15(具体如何估计,省去1万字,后面会有更详细科学的例子)
3)后验概率
P(A|B)称为'后验概率'(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。这个例子里就是在女神冲你笑后,对女神喜欢你的概率重新预测。
带入贝叶斯公式计算出P(A|B)=P(A) P(B|A)/P(B)=50% 15=75%
因此,女神经常冲你笑,喜欢上你的概率是75%。这说明,女神经常冲你笑这个新信息的推断能力很强,将50%的'先验概率'一下子提高到了75%的'后验概率'。
在得到预测概率后,小鹿自信满满的发了下面的表白微博:无图
稍后,果然收到了女神的回复。预测成功。无图
现在我们再看一遍贝叶斯公式,你现在就能明白这个公式背后的最关键思想了:
我们先根据以往的经验预估一个'先验概率'P(A),然后加入新的信息(实验结果B),这样有了新的信息后,我们对事件A的预测就更加准确。
因此,贝叶斯定理可以理解成下面的式子:
后验概率(新信息出现后的A概率) = 先验概率(A概率) x 可能性函数(新信息带来的调整)
贝叶斯的底层思想就是:
如果我能掌握一个事情的全部信息,我当然能计算出一个客观概率(古典概率)。
可是生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就在信息有限的情况下,尽可能做出一个好的预测。也就是,在主观判断的基础上,你可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)。
如果用图形表示就是这样的:
其实阿尔法狗也是这么战胜人类的,简单来说,阿尔法狗会在下每一步棋的时候,都可以计算自己赢棋的最大概率,就是说在每走一步之后,他都可以完全客观冷静的更新自己的信念值,完全不受其他环境影响。
3贝叶斯定理的应用案例
前面我们介绍了贝叶斯定理公式,及其背后的思想。现在我们来举个应用案例,你会更加熟悉这个牛瓣的工具。
为了后面的案例计算,我们需要先补充下面这个知识。
1全概率公式
这个公式的作用是计算贝叶斯定理中的P(B)。
假定样本空间S,由两个事件A与A'组成的和。例如下图中,红色部分是事件A,绿色部分是事件A',它们共同构成了样本空间S。
这时候来了个事件B,如下图:
全概率公式:
它的含义是,如果A和A'构成一个问题的全部(全部的样本空间),那么事件B的概率,就等于A和A'的概率分别乘以B对这两个事件的条件概率之和。
看到这么复杂的公式,记不住没关系,因为我也记不住,下面用的时候翻到这里来看下就可以了。
案例1:贝叶斯定理在做判断上的应用
有两个一模一样的碗,1号碗里有30个巧克力和10个水果糖,2号碗里有20个巧克力和20个水果糖。
然后把碗盖住。随机选择一个碗,从里面摸出一个巧克力。
问题:这颗巧克力来自1号碗的概率是多少?
好了,下面我就用套路来解决这个问题,到最后我会给出这个套路。
第1步,分解问题
1)要求解的问题:取出的巧克力,来自1号碗的概率是多少?
来自1号碗记为事件A1,来自2号碗记为事件A2
取出的是巧克力,记为事件B,
那么要求的问题就是P(A1|B),即取出的是巧克力,来自1号碗的概率
2)已知信息:
1号碗里有30个巧克力和10个水果糖
2号碗里有20个巧克力和20个水果糖
取出的是巧克力
第2步,应用贝叶斯定理
1)求先验概率
由于两个碗是一样的,所以在得到新信息(取出是巧克力之前),这两个碗被选中的概率相同,因此P(A1)=P(A2)=05,(其中A1表示来自1号碗,A2表示来自2号碗)
这个概率就是'先验概率',即没有做实验之前,来自一号碗、二号碗的概率都是05。
2)求可能性函数
P(B|A1)/P(B)
其中,P(B|A1)表示从一号碗中(A1)取出巧克力(B)的概率。
因为1号碗里有30个水果糖和10个巧克力,所以P(B|A1)=30/(30+10)=75%
现在只有求出P(B)就可以得到答案。根据全概率公式,可以求得P(B)如下图:
图中P(B|A1)是1号碗中巧克力的概率,我们根据前面的已知条件,很容易求出。
同样的,P(B|A2)是2号碗中巧克力的概率,也很容易求出(图中已给出)。
而P(A1)=P(A2)=05
将这些数值带入公式中就是小学生也可以算出来的事情了。最后P(B)=625%
所以,可能性函数P(A1|B)/P(B)=75%/625%=12
可能性函数>1表示新信息B对事情A1的可能性增强了。
3)带入贝叶斯公式求后验概率
将上述计算结果,带入贝叶斯定理,即可算出P(A1|B)=60%
这个例子中我们需要关注的是约束条件:抓出的是巧克力。如果没有这个约束条件在,来自一号碗这件事的概率就是50%了,因为巧克力的分布不均把概率从50%提升到60%。
现在,我总结下刚才的贝叶斯定理应用的套路,你就更清楚了,会发现像小学生做应用题一样简单:
第1步 分解问题
简单来说就像做应用题的感觉,先列出解决这个问题所需要的一些条件,然后记清楚哪些是已知的,哪些是未知的。
1)要求解的问题是什么?
识别出哪个是贝叶斯中的事件A(一般是想要知道的问题),哪个是事件B(一般是新的信息,或者实验结果)
2)已知条件是什么?
第2步应用贝叶斯定理
第3步,求贝叶斯公式中的2个指标
1)求先验概率
2)求可能性函数
3)带入贝叶斯公式求后验概率
很多人都搞不懂表白的流程,才会想着如何表白才会增加成功概率。
在表白之前,你需要试探一下。
试探的结果如果失败了,你就不用表白了,如果试探的结果成功了,你也就不用表白了,直接牵手就行了。
如果你很喜欢表白这个仪式的话,也一定是试探的结果成功了才表白的。
所以正常的追女生的了流程是这样的。
1,你见到了一个女生,发现是你喜欢的类型。
2,你通过中间的朋友或者其他媒介要到了****。
3,你可以先加一下,打一个招呼,自我介绍一下,简单聊一下,看看对方对你有没有好感。
4,如果有的话,你就可以直接继续聊,如果没有的话,你可以放弃,如果看不出来,或者有,或者没有,你都可以通过朋友或者媒介找机会再见面,然后打招呼,聊一聊,当然,记得好好准备一下。
5,回来继续聊聊,确认一下,通常这个时候你就能确定女生是否对你有好感了。
6,如果没有好感,你可以继续坚持一下,如果有好感,你就可以单独约出来了。
7,有第一次就有第二次,然后牵手表白什么的就不用我说了吧。
如果按照这个流程,你觉得你表白还会失败么,这个时候你大可以好好的玩一个花样,是买蜡烛也好,买花也好,方法随你,其实你不表白,牵手也会很成功的了。所以其实增加表白成功率的方法并不是表白的时候怎么做,而是你在表白之前应该怎么做。
然后在给几个别的建议。
第一,少年你一定要是一个帅哥,如果觉得自己丑的可怜,那么就一定要干净,要自信,别胡子头发到处都是,衣着可以不是很潮流,但是一定要干净,这是你的硬件。
第二,你的性格尽量外向一些,知道如何聊天,如何说话,如何让对方和你说话,不要上来你就问人家一大堆问题,就算人家对你有点好感,也被你问走了,多说一些可以挑起对方一起讨论的话题,了解对方的信息来日方长呢,这里可以了解对方的价值观。
第三,一定要有品位,通常你的****是朋友圈,你的朋友圈别除了游戏就是吃饭,尽量好好装饰一下,包括你的衣着,还有你约人家的地点,别上来就是大排档啥的,还有,不要说脏话。
共读章节:
第1章 概率论的四大基石
14 概率度量:降水概率40%的真正含义是什么
➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖
14 概率度量:降水概率40%的真正含义是什么?
概率论解决问题的核心思路是,把局部的随机性转化为整体上的确定性。
✨要实现这个转化,靠的是“概率”。
✨当一件事,概率确定了,它在整体上发生的可能性就确定了。
️如何度量概率?
️️️
三种常用的度量概率的方法。
定义法:对现实世界的合理简化
✨定义法的基础逻辑是,某件事不同结果出现的可能性是相等的,没有任何一个结果比其他结果更有可能发生。(比如抛硬币,在定义法的逻辑中,只有正面或者反面概率相等,概率都是二分之一。)
✨定义法是简单、直接的,在宏观尺度上,它是一种对现实世界的合理简化,所以还是有一定的科学性的。➡️比如,用定义法确定抛硬币、掷骰子的概率 。
✨定义法的等概率假设,是以宏观世界的对称性这个大前提为基础的。
✨对称性是世界的普遍规律。➡️雪花是对称的,花瓣是对称的,对称是自然最完美的展现。
著名经济学家约翰凯恩斯在他的《概率论》一书中,专门给这种定义法取了个名字,叫“无差别原理”。
✨如果没有充分的理由说明某件事的每个结果的概率,就给予每个结果相同的概率。
✨在很长的一段时间里,这个原理一直被应用在科学、统计学、经济学、哲学和心理学等领域中。
频率法:依靠大量数据获得真相
✨定义法虽然简单、好用,但很多事情的多个结果的概率并不相等。➡️比如,一个人患肺癌的概率。
✨频率法的基础逻辑是,只要数据量足够大,一个随机事件发生的频率就会无限接近它的概率。
✨虽然每次结果都是随机的,但随着这件事不断地被重复,只要重复的次数足够多,隐含的规律就会慢慢浮现出来。
✨比如投篮命中的概率 , 用投篮命中的次数除以总投篮的次数 就可以把频率值作为这件事发生的概率。
✨这种依靠大量数据获得真相的思路,是现代统计学的基础,破广泛地应用在各个学科之中。(也可以运用在日常的生活中或教学上。)
迭代法
✨用动态发展的眼光来看待问题
✨当我们用频率法解决生活中的概率问题时,会发现有些问题还是解决不了。
️️️
有些事是没法去试验的。
比如,你向某个女生表白,成功的概率有多大
总不能表白500次,记录一下成功的次数吧。
很多事件的概率是不断变化的。
比如费德勒和纳达尔的比赛, 随着比赛的进行和场上局势的变化,这个概率也是不断变化的。
很多事件的概率还与个体的差异有关。
比如,同样一道4选1的选择题,不同人答对的概率是不一样的。(学霸答题的概率一定比上学渣高,因为学渣对这个知识点不熟悉,只能靠猜碰运气,所以答对的概率是四分之一,而学霸答对的机率可能是二分之一或者百分百。)
迭代法的做法是,先利用手头少量的数据做推测,甚至是主观猜测一件事的概率,然后再通过收集来的新数据,不断调整概率的估算值。
✨迭代法中最常用的一种方法是贝叶斯推理计算。
✨现在定义法用得比较少,使用比较多的是频率法和迭代法。
➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖
三种概率度量方法的关系
️其实是从不同的视角来度量概率的。
定义法通过自然世界的对称性来定义概率。
频率法用随机事件发生的频率来计算概率。
迭代法则是从一种动态发展的、考虑个体差异的角度来度量概率。
➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖
️概率度量追求精准的意义
️要度量随机事件发生的可能性,概率是一种准确的数学播述方式。
️在日常生活中,我们并不追求精准的概率度量的值,而是会使用5种模糊的概率度量的表述:️️
小概率事件(不可能发生):概率小于1%。
可能性不大的事件:概率为1%~45%
一半对一半的事件:
概率约等于50%(45%~55%)。
可能性比较大的事件:概率为55%~90%。
大概率事件(几乎肯定会发生):概率在90%以上。
️精准的概率度量还有一个非常重要,而很多人完全没有意识到的作用,那就是利用精准的概率度量和我们模糊的概率意识形成的概率差赚取利润。
️通过这种概率的认知差异赚取利润,是很多行业的盈利模式。
️在日常生活中,精准的概率度量对很多决策没有太大的作用,但概率区间的判断是基于精准概率度量而做出的:➡️但在大量专业领域中,精准的概率度量几乎是这些领域商业模式的基础。(就比如现在做抖音,能火起来的概率是很低的,除非是专业垂直,做手工就做手工,做知识分享就一直是知识分享,打造个人IP,让粉丝有粘性,最好是有方便后期变现的渠道,都是这些因素融合在一起,才能产生出来的效果。)
这个很难说,如果她喜欢你被拒绝几率为0,如果他讨厌你被拒绝几率为100%。如果他对你不了解那呗拒绝的几率为50%吧,但是不管怎么样只要不是他讨厌你,那么及时她拒绝了你你以后还是有机会,有些人不一定那么直接地接受你的。
欢迎分享,转载请注明来源:表白网
评论列表(0条)