蛋白质结构预测,利用神经网络和支持向量机我要分享

protein structure prediction by using neural netwo

matlab 神经网络 预测 利用 支持 结构 向量 蛋白质

关注次数: 331

下载次数: 0

文件大小: 1.11 MB

代码分类: 其他

开发平台: matlab

下载需要积分: 2积分

版权声明:如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

代码描述

中文说明:预测蛋白质的结构是重要的生物化学由于三维结构可以从被发现在二级结构确定局部褶皱。此外,了解蛋白质的三级结构可以帮助确定他们的功能。本文的目的是比较性能的神经网络(NN)和支持向量机(SVM)预测的62个球状蛋白质的初级序列的二级结构。对于每一个神经网络和支持向量机的,我们创造了六个二进制分类器区分类别之间的螺旋(H),链(E),和线圈(C)。我们使用弹性BP神经网络训练和无提前终止。我们使用神经网络没有隐层或具有一个隐层,隐层神经元的1,2,40…。我们使用高斯核支持向量机固定在= 0.1和不同的成本参数C的范围在10倍交叉验证得到正确预测的概率估计总体参数。我们的实验表明,神经网络和支持向量机,不同的分类有不同的精度:69%正确的预测,线圈与非线圈多达80%站与非链正确的预测。这进一步表明,神经网络没有隐层或不超过2个隐藏的隐层神经元为更好的预测是足够的。我们表明,SVM估计精度不依赖于成本参数的值。作为一个重要的结果,我们将证明,神经网络和SVM分类精度估计不能区分。这与生物信息学中的一个现代的信念,SVM优于其他预测。关键词:神经网络,支持向量机,预测蛋白质的二级结构


English Description:

Predicting the structure of proteins is important in biochemistry because the 3D structure can be determined from the local folds that are found in secondary structures. Moreover, knowing the tertiary structure of proteins can assist in determining their functions. The objective of this thesis is to compare the performance of Neural Networks (NN) and Support Vector Machines (SVM) in predicting the secondary structure of 62 globular proteins from their primary sequence. For each NN and SVM, we created six binary classifiers to distinguish between the classes helices (H), strand (E), and coil (C). For NN we use Resilient Back-propagation training with and without early stopping. We use NN with either no hidden layer or with one hidden layer with 1,2,...,40 hidden neurons. For SVM we use a Gaussian kernel with parameter fixed at = 0.1 and varying cost parameters C in the range 10-fold cross-validation is used to obtain overall estimates for the probability of making a correct prediction.


代码预览