编辑:
2015-11-02
公式(1)
由于P(X) 对于所有类为常数,只需要P(X | Ci)P(Ci)最大即可。并据此对P(Ci| X)最大化。否则,最大化P(X | Ci)P(Ci)。如果给定具有许多属性的数据集,计算P(X | Ci)P(Ci)的开销可能非常大。为降低计算P(X| Ci )的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系,这样,
公式(2)
概率,可以由训练样本估值:
(1) 如果Ak是分类属性,则P(xk|Ci)=sik/si其中sik是Ak上具有值xk的类Ci的训练样本数,而si是Ci中的训练样本数。
(2) 如果Ak是连续值属性,则通常假定该属性服从高斯分布。因而
公式(3)
其中,给定类Ci的训练样本属性Ak的值, 是属性Ak的高斯密度函数,而 分别为平均值和标准差。
朴素贝叶斯分类算法(以下称为NBC)具有最小的出错率。然而,实践中并非如此,这是由于对其应用假定(如类条件独立性)的不确定性,以及缺乏可用的概率数据造成的。主要表现为:
①不同的检测属性之间可能存在依赖关系,如protocol_type,src_bytes和dst_bytes三种属性之间总会存在一定的联系;
②当连续值属性分布是多态时,可能产生很明显的问题。在这种情况下,考虑分类问题涉及更加广泛,或者我们在做数据分析时应该考虑另一种数据分析。
后一种方法我们将在以下章节详细讨论。
编辑老师为大家整理了朴素贝叶斯分类在入侵检测中的应用,希望对大家有所帮助。
相关推荐:
标签:统计学论文
精品学习网(51edu.com)在建设过程中引用了互联网上的一些信息资源并对有明确来源的信息注明了出处,版权归原作者及原网站所有,如果您对本站信息资源版权的归属问题存有异议,请您致信qinquan#51edu.com(将#换成@),我们会立即做出答复并及时解决。如果您认为本站有侵犯您权益的行为,请通知我们,我们一定根据实际情况及时处理。