试论三种浅谈三种分类办法优劣小结

更新时间:2024-01-31 点赞:31197 浏览:143806 作者:用户投稿原创标记本站原创

【摘要】本文针对DNA序列的分类问题,通过使用S中国免费论文网www.618jyw.com
PSS和Matlab软件,运用Fisher判别法、BP人工神经网络模型和支持向量机方法,由已知AB类样本分别对未知类型的20个DNA序列进行分类.并通过三个统计分类方法的结果同时综合考虑误差及原理分析对三个统计分类方法进行比较,得出三个统计方法的优势及其不全面之处.
【关键词】DNA序列;Fisher判别法;BP人工神经网络模型;支持向量机方法
2000年全国大学生数学建模竞赛A题的DNA人工序列分类要求根据已给出的20个分为A,B两类的DNA序列对另外20个未标明类别的人工序列进行分类,我们由这个类型的题目出发,来谈谈与之相关的三个统计分类方法及其优劣.
很常见的一种判别方法就是通过Fisher判别法进行特征值提取及分类,用的是投影的思想,定义一个准则函数JF,找到其最大的解来得到Fisher线性判别式ω*,再根据亲疏程度进行判定分类.
在DNA的这题中由于序列是由四种碱基构成,A和B两组各有10个观察数据,判别分析就是要根据这些数据在适当的准则下,由问题分析中的特征向量xi确定判别函数:y=uTxi=ω1x1+ω2x2+ω3x3,再确定临界值ye,然后进行判别分类.
Fisher判别法的实现可以借助SPSS软件,用上述算法对已知的1~20组进行分类,除了A组的第4个被错判之外,其余全部分类正确,正确率达到95%.
对于未知序列21~40组进行分类,得到的结果是:
A类:22,23,25,27,29,34,35,36,37.
B类:21,24,26,28,30,31,32,33,38,39,40.
另外一种分类的方法是利用BP人工神经网络模型,本文考虑两层前传网络,激活函数由函数φ(x)=1[]1+e-nv来决定.本题输入层包含三个单元k=1,2,3,分别为T,G,C的含量;中间层取j=1,2,3;输出层包含两个单元i=1,2,记A类的理想输出为(1,0),B类的理想输出为(0,1),其后我们将碱基T,G,C的含量输入网络,根据输出模式靠近(0,1)还是(1,0)来判断其归于哪一组.为了减小误差,我们让实际输出尽可能接近理想输出.
我们将对应于样品S的理想输出记作{TSi},实际输出记作{QSi},则实际输出与理想输出的差异为E(W)=0.5∑(TSi-QSi)

2.由向后传播算法,求得适当的W,使E(W)达到极小值.

为了保证该模型的准确性,我们对数据进行了筛选.由Fisher函数验证结果可以发现,A类中第4 组数据在顺序检验和交叉检验中都出现错误,因此我们认为这个样本是错误值,故删去.使用Matlab软件进行神经网络运算,进过17次训练达到目标值,得到如下结果.
A类:27,25,29,23,35,34,37.
B类:21,22,24,26,28,30,31,32,33,36,38,39,40.
最后要提的是一种支持向量机技术,由于四个碱基比例之和为1,因此我们将DNA序列分类问题转化为三个变量的问题,作DNA样本散点图时可将其看作是三维立体空间的散点图,寻找超平面π把样本空间分割成两部分.记这些样本xi,yi,i=1,2,…,20,yi∈{-1,1},定义A的输出类别为1,B的输出类别为-1.假设超平面π:ωx+b=0,同时存在两个平行于π的超平面π1和π2:ωx+b=1和ωx+b=-1(ω,x∈R3).使离π最近的刚好分别落在π1和π2上,其他样本都将位于π1和π2之外,因此建立规划模型:
min1[]2‖ω‖2s.tyi(ωxi+b)≥1.
构造拉格朗日方程,则ω求解方程(λi为拉格朗日系数),ω=∑20i=1λiyixi.
输出结果若为1则判为A 类,若为-1则判为B 类.由Matlab运算,我们可得分界面15.8315x-1.9923y+1

6.9883z-8.6174=0(其中x,y,z轴分别为a,c,g频率).

下面我们定量地检验该模型的合理性,把A,B类共20个样本的数据代入,即让A,B类共20个样本的数据代入上面的分界面方程中,若g(xi,yi,zi)=15.8315xi-1.9923yi+16.9883zi-8.6174≥1,则判为第i个序列为A类;而g(xi,yi,zi)≤1,则判为第i个序列为B类.计算结果20个样本判别结果与绝大多数实际相符(B类第2,7个与实际有很小的误差,小于0.005%可忽略),说明该模型合理.
支持向量机得到人工序列21~40的分类结果:
A类:23, 25, 27,29,34,35.
B类:21,22,24,26,28,30,31,32,33,36,37,38,39,40.
三种分类方法各有其优劣.Fisher线性判别式对确定性和随机性模式的分类都是适用的,但这个模型也存在着一些不足,在本模型中两个样本均值不同,因此可以进行分类,否则无法用此方法.BP神经网络算法对不确定的问题有自适应和自学习能力,能高精度地逼近连续的非线性函数,很好地协调多种输入信息的关系,从而对未知样本进行分类.支持向量机方法优势在于,通过分界面能够直观地表现类别间的区分,但通过分类结果与前两种方法的比较,我们可以得知其缺点在于只能用于具有明显差异的小样本间的区分,误差较大.
【参考文献】
豆丁网,第19章神经网络模型,http:///p-39236896

1.html,2013年5月20日.

道客巴巴,神经网络建模之

一、http:///p-116698859629.html,2013年5月20日.

[3]百度文库,实验1Fisher线性判别实验,http://wenku.baidu.com/view/95a448a9d1f34693daef3e4b.html,2013年5月20日.
[4]道客巴巴,2000网易杯全国大学生数学建模竞赛题目,http:///p-71399194087

6.html,2013年5月20日.

[5]郭显娥,武伟,刘春贵,张景安.多种SVM分类算法的研究.山西大同大学学报,2010年6月第26卷第3期.
相关文章
推荐阅读

 发表评论

共有3000条评论 快来参与吧~