存眷微信公众号
下载APP

您是小我用户,您可以认领企业号

AI产品经理的好副手——朴实贝叶斯

3664
玩皮木偶 2019-09-11 20:40 抢发第一评

贝叶斯定理信赖很多人都接触过,这个看似只属于数学范畴的定理,在AI产品经理看来有如何的魅力呢?

AI产品经理的好副手——朴实贝叶斯

我们常常碰到如许的场景。与友人聊天时,一开端能够不知道他要说甚么,然则他说了一句话以后,你就可以猜到接上去他要讲甚么内容。友人给的信息越多,我们越可以或许揣摸出他想表达的含义,这也是贝叶斯定理所阐述的思虑方法。

贝叶斯定理得以广泛应用是由于它符合人类认知事物的天然规律。

我们并不是生上去就知道一切任务的内涵的规律,大年夜多半时辰,我们面对的是信息不充分、不肯定的情况。这个时辰我们只能在无限资本的情况下,作出决定,再根据后续的生长停止修改。

一、朴实贝叶斯退场

贝叶斯分类是一类分类算法的总称,这类算法均以“贝叶斯定理”为基本,以“特点条件独'立假定”为条件。而朴实贝叶斯分类是贝叶斯分类中罕见的一种分类办法,同时它也是经典的机械进修算法之一。

在很多场景下处理成绩直接又高效,是以在很多范畴有着广泛的应用,如渣滓邮件过滤、文本分类与拼写纠错等。同时关于产品经理来讲,贝叶斯分类法是一个很好的研究天然说话处理成绩的切入点。

朴实贝叶斯分类是一种非常简单的分类算法,说它非常简单是由于它的处理思路异常简单。即关于给出的待分类项,求解在此项出现的条件下各个种别出现的概率,哪个大年夜,就认为此待分类项属于哪个种别。

举个笼统的例子,若我们走在街上看到一个黑皮肤的本国友人,让你来猜这位本国友人来自哪里。十有八九你会猜是从非洲来的,由于黑皮肤人种中非洲人的占比多,固然黑皮肤的本国人也有能够是美洲人或许是亚洲人。然则在没有其它可用信息赞助我们断定的情况下,我们会选择能够出现的概率高的种别,这就是朴实贝叶斯的根本思维。

值得留意的是,朴实贝叶斯分类并不是是瞎猜,也并不是没有任何实际根据。它是以贝叶斯实际和特点条件独'立假定为基本的分类算法。

想要弄明白算法的道理,起首须要懂得甚么是“特点条件独'立假定”和“贝叶斯定理”,而贝叶斯定理又牵扯到“先验概率”、“后验概率”及“条件概率”的概念。

以下图所示,固然概念比较多然则都比较轻易懂得,下面我们逐一详细简介。

AI产品经理的好副手——朴实贝叶斯

特点条件独'立假定是贝叶斯分类的基本,意思是假定该样本中每个特点与其他特点之间都不相干。

例如在猜想信用卡客户过期的例子中,我们会经过过程客户的月支出、信用卡额度、房车情况等不合方面的特点综合断定。两件看似不相干的任务实际上能够存在内涵接洽,就像胡蝶效应一样。广泛情况下,银行批给支出较高的客户的信用卡额度也比较高。

同时支出高也代表这个客户更有才能购买房产,所以这些特点之间存在必定的依附关系,某些特点是由其他特点决定的。

但是在朴实贝叶斯算法中,我们会忽视这类特点之间的内涵关系,直接认为客户的月支出、房产与信用卡额度之间没有任何干系,三者是各自独'立的特点。

接上去我们重点讲解甚么是“实际概率”与“条件概率”,和“先验概率”与“后验概率”之间的差别。

2、真假概率

起首我们停止一个小实验。

假定将一枚质地均匀的硬币抛向空中,实际上,由于硬币的正和睦质地均匀,落地时正面朝上或和睦朝上的概率都是50%。这个概率不会随着抛掷次数的增减而变更,哪怕抛了10次成果都是正面朝上,下一次是正面朝上的概率依然是50%。

但在实际测试中,假设我们抛100次硬币,正面朝上和和睦朝上的次数平日不会正好都是50次。有能够出现40次正面朝上和60次和睦朝上的情况,也有能够出现35次正面朝上和65次和睦朝上的情况。

只要我们一向抛,抛了不计其数次,硬币正面朝上与和睦朝上的次数才会逐步趋势于相等。

是以,我们说“正面朝上和和睦朝上各有50%的概率”这句话所指的概率是实际上的客不雅概率。只要当抛掷次数接近有数次时,才会达到这类幻想中的概率。在实际概率下,虽然抛10次硬币,前面5次都是正面朝上,第6次是和睦朝上的概率依然是50%。

然则在实际中,抛过硬币的人都有如许的感到——假设出现持续5次正面朝上的情况,下一次是和睦朝上的能够性极大年夜。大年夜到甚么程度?有没有甚么办法可以求出实际的概率呢?

为懂得决这个成绩,一名名叫托马斯·贝叶斯(ThomasBayes)的数学家创造了一种办法用于计算“在已知条件下,别的一个事宜产生”的概率。该办法请求我们先预估一个主不雅的先验概率,再根据后续不雅察到的成果停止调剂。随着调剂次数的增长,真实的概率会愈来愈纤细。

这句话怎样懂得呢?

我们经过过程一个坐地铁的例子解释这句话的含义。深圳地铁一号线从车公庙出发至终点站共有18站,每天早上小林要从车公庙出发经过5个站到高新园下班,以下图所示:

AI产品经理的好副手——朴实贝叶斯

某天早岑岭,小林被站立的人群隐瞒住视野并且戴着耳机听不到报站的内容,是以他不知道列车能否达到高新园站。

假设下一站列车到站时,他直接出站,实际上他正好到高新园站的概率只要1/18,出对站的概率异常小。这时候辰小林刚巧在人群中看到一个同事,他正走出站台。

小林心想,虽然不知道这个同事要去哪里,但在早岑岭时段,同事去公司的概率明显更高。是以在取得这个有效信息后,小林跟随出站,正好达到高新园站——这类思虑方法就是贝叶斯定理所阐述的思虑方法。

3、引入贝叶斯定理

在概率论与统计学中,贝叶斯定理描述了一个事宜产生的能够性,这个能够性是基于事前控制了一些与该事宜相干的情况从而推想的。

假定癌症能否会病发与每小我的年纪有关。假设应用贝叶斯定理,当我们知道一小我的年纪,可以用于更精确地评价他得癌症能否会病发的概率。也就是说,贝叶斯实际是指根据一个已产肇事宜的概率,计算另外一个事宜的产生概率。

从数学上贝叶斯实际可以表示为:

AI产品经理的好副手——朴实贝叶斯

  • P(B)表示产生B事宜的概率,即小林到高新园站的概率;
  • P(A)表示产生A事宜的概率,即小林的同事出站的概率;
  • P(B|A)表示在A事宜曾经产生的情况下B事宜会产生的概率,即同事出站的时辰,小林正好到高新园站的概率;
  • P(A|B)表示在B事宜曾经产生的情况下A事宜会产生的概率,即小林达到高新园站,同事出站的概率。

这时候辰我们再来看贝叶斯定理,这个公式说清楚明了两个交换的条件概率之间的关系,它们经过过程结合概率接洽关系起来。在这类情况下,若知道P(A|B) 的值,便可以或许计算P(B|A)的值。

是以贝叶斯公式实际上阐述了这么一个任务,以下图所示:

AI产品经理的好副手——朴实贝叶斯

我们可以用文氏图可以加深对贝叶斯定理的懂得,以下图所示:

AI产品经理的好副手——朴实贝叶斯

上述例子中小林恰好在早岑岭时段看到同事出站,代表出现了新的信息。就像是上图中已知斑点曾经落入A区域了,由于A区域大年夜部分区域与B区域订交,是以揣摸斑点也在B区域的概率会变大年夜。我们想取得的成果实际上是P(B|A),即我们想知道,在推敲了一些现有的身分后,这个随机事宜会以多大年夜概率出现。

参考这个概率成果,在很多任务上我们可以有针对性地作出决定计划。我们须要同时知道P(B)、P(A|B)与P(A)才能算出目标值P(B|A),然则P(A)的值仿佛比较难求。

细心想想,P(A)与P(B)之间仿佛没有任何接洽关系,二者本身就是独'立事宜,不管P(B)的值是大年夜照样小,P(A)都是固定的分母。也就是说我们计算P(A)各类取值的能够性其实不会对各成果的相对大年夜小产生影响,是以可以忽视P(A)的取值。

假定P(A)的取值为m,P(B)的能够取值为b1、b2或许是b3,已知:

AI产品经理的好副手——朴实贝叶斯

那么计算P(B|A)时,分别会取得成果:

AI产品经理的好副手——朴实贝叶斯

且由于P(b1|A)、P(b2|A)与P(b3|A)三者之和必定为1,是以可以得出ox+py+qz=m。即使m的值不知道也没紧要,由于ox,py,qz的值都是可以计算出来的,m天然也就知道了。剩下的任务就是计算P(B)、P(A|B),而这两个概率必须要经过过程我们手上有的数据集来停止估计。

关于贝叶斯算法有一段小插曲。贝叶斯算法被创造后,曾有接近200年的时间无人问津。

由于经典统计学在当时完全可以或许处理客不雅上可以或许解释的简单概率成绩;并且比拟须要靠主不雅断定的贝叶斯算法,明显当时的人们更情愿接收建立在客不雅现实上的经典统计学,他们更情愿接收一个硬币不管抛若干次后正和睦朝上的概率都是50%的现实。

但我们生活中还存在很多没法预知概率的复杂成绩,例如台风侵袭、地动规律等等。经典统计学在面对复杂成绩时,常常没法取得足够多的样本数据,招致其没法揣摸整体规律。总不克不及说每天猜想台风来的概率都是50%,只要来或许不来两种情况。

数据的稀少性令贝叶斯定理几次再三碰鼻。随着近代计算机技巧的飞速生长后,数据的大年夜量运算不再是艰苦的任务,贝叶斯算法这才被人们重新看重起来。

四、贝叶斯定理有甚么用

讲到这里部分读者能够会问,固然贝叶斯定理模仿了人类思虑的过程,然则它又可以或许赞助我们处理甚么样的成绩呢?我们先来看一个简直是讲到贝叶斯定理时必定会提到的经典案例。

在疾病检测范畴,假定某种疾病在一切人群中的感染率是0.1%,医院现有的技巧关于该疾病检测精确率可以或许达到99%。也就是说,在已知或人曾经得病情况下,有99%的能够性检查出阳性;而正常人去检查有99%的能够性是正常的。假设从人群中随机抽一小我去检测,医院给出的检测成果为阳性,这小我实际抱病的概率是若干?

或许很多读者都邑信口开合 “99%”。但真实的抱病概率其实远低于此,缘由在于很多读者将先验概率和后验概率弄混了。

假设用A表示这小我得了该疾病,用B表示医院检测的成果是阳性,那么 P(B|A)=99%表示的是“已知一小我曾经抱病的情况下医院检测出阳性的概率”。而我们如今问的是“关于随机抽取的这小我,已知检测成果为阳性的情况下这小我得病的概率”,即P(A|B),经过过程计算可得P(A|B)=9%。所以即使被医院检测为阳性,实际得病的概率其实还不到10%,有很大年夜能够是假阳性。是以须要经过过程复诊,引入新的信息,才有更大年夜掌握确诊。

经过过程以上例子可以看出,生活中我们常常会把先验概率与后验概率弄混淆,从而得掉足误的断定。贝叶斯定理正是帮我们理清概率的前后条件之间的逻辑关系,并取得更纤细的概率。

实际上,这个定理所阐述的核心思维对产品经理的思虑方法也有很大年夜的启发:

一方面是我们要弄清楚需求场景中的先验概率是甚么?后验概率是甚么?不要被数据的表象蒙蔽了双眼;

另外一方面我们可以借助贝叶斯定理搭建一个思虑的框架——在这个框架中须要赓续调剂我们对某事物的看法,在经过一系列的新的任务被证明后,才构成比较稳定、精确的看法。

当我们的脑筋里有新想法主意出现时,大年夜多半情况下,我们只能根据经历大年夜概断定某个产品靠谱不靠谱,投入到市场中反响有多大年夜没有人可以或许说清楚。

是以很多时辰我们须要测验测验,须要做一个简单的版本投入到市场上快速验证本身的想法主意;然后赓续想办法取得“事宜B”,赓续增长新产品的成功率——如许我们的产品才有能够获获成功。

是以“小步快跑,快速迭代”才是晋升容错率鹤立鸡群的办法。

爱盈利-运营小咖秀(www.aiyingli.com) 一直保持研究分享移动互联网App运营推行经历、战略、全案、渠道等纯干货知识内容;是广大年夜App运营从业者的知识发蒙、生长指导、进阶进修的会聚平台;

想懂得更多移动互联网干货知识,请存眷微信公众号运营小咖秀(ID: yunyingshow)

转载请注明:爱盈利 » AI产品经理的好副手——朴实贝叶斯

所属栏目: 大年夜数据
声明:该文章版权归原作者一切,转载目标在于传递更多信息,其实不代表本网赞成其不雅点和对其真实性担任。如触及作品内容、版权和其它成绩,请在30日内与本网接洽。
爱好这篇
评论一下
评论
登录后发表评论
×

Tel:18514777506

存眷微信公众号

下载APP