前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇網(wǎng)絡合理化建議范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關鍵詞:基因調控網(wǎng)絡;粒子群優(yōu)化;遺傳算法;粗糙集;特征選擇
中圖分類號:TP399
文獻標志碼:A
文章編號:1001-9081(2016)11-2969-05
0 引言
MicroRNA(miRNA) 是一類非常重要的非編碼核糖核酸(RiboNucleic Acid,RNA)分子, 通過誘導靶基因降解, 從而廣泛地參與到基因的轉錄后調控, 或者通過抑制基因的轉錄, 對基因在轉錄水平上進行調控[1]。miRNA通過與靶mRNA(messenger RNA)匹配結合實現(xiàn)對生物學功能的調控, 因此, 研究miRNA與其靶基因的調控關系成為生物界廣泛關注的問題。傳統(tǒng)的實驗驗證方法耗費巨大, 利用現(xiàn)有的序列數(shù)據(jù)、基因表達數(shù)據(jù)或其他生物信息學數(shù)據(jù), 通過統(tǒng)計學模型或機器學習的方法構建基因調控網(wǎng)絡來發(fā)現(xiàn)基因之間的關系, 能夠有效減少實驗花費, 對生物學研究者有一定指導作用。
從機器學習的角度來看, 基因調控網(wǎng)絡構建可以分為非監(jiān)督學習和監(jiān)督學習。非監(jiān)督學習不需要已知的調控關系, 只是利用一些生物數(shù)據(jù)來進行調控網(wǎng)絡的構建; 監(jiān)督學習則需要已知的調控關系, 可以看出監(jiān)督學習需要的數(shù)據(jù)信息多于非監(jiān)督學習, 具有更強的發(fā)現(xiàn)能力。有研究表明, 在網(wǎng)絡推斷方面, 監(jiān)督學習優(yōu)于非監(jiān)督學習[2]。
監(jiān)督學習需要利用已有的調控關系數(shù)據(jù), 通過學習調控關系的判別模型, 對未知的調控關系進行判別, 需要處理特征生成和分類器選擇問題。miRNA與其靶基因的交互特征包括自由能特征、結構序列特征和基于綁定位置特征, 收集這些特征并進行計算, 然后使用分類器進行模型的構建。由于支持向量機(Support Vector Machine, SVM)在解決小樣本、非線性以及高維問題中表現(xiàn)出的優(yōu)勢[3], 使得它在基因網(wǎng)絡構建方面獨具一格, 已成為近期的研究熱點。
本文提出了一種基于粗糙集、混合粒子群和遺傳算法(Genetic Algorithm, GA)的基因調控構建方法。首先利用序列數(shù)據(jù)構建特征向量, 然后使用所提方法選取最優(yōu)的特征子集, 構建支持向量機模型。由于存在正負樣本不平衡問題, 本文采用SMOTE (Synthetic Minority Oversampling TEchnique)[4] 算法對樣本進行處理, 降低類不平衡的影響。在擬南芥和水稻數(shù)據(jù)集上的實驗結果表明該方法可以得到較好的性能。
3 遺傳算法
遺傳算法是一種模擬達爾文生物進化論的自然選擇和遺傳學機制演化而來的隨機化搜索方法[12]。 它采用概率化的尋優(yōu)方法, 能自動獲取和指導優(yōu)化的搜索空間, 不需要確定的規(guī)則, 能夠自適應的調整搜索方向, 已經(jīng)被廣泛應用到信號處理、組合優(yōu)化和機器學習等領域。
遺傳算法具有粒子群算法所沒有的交叉和變異操作。交叉就是按照一個較大的概率從種群中選擇兩個個體, 交換兩個個體的某個或某些位, 從而形成兩個新的個體。交叉操作方法有單點交叉、兩點交叉、多點交叉和順序交叉等。常用的交叉算子是單點交叉算子, 是指在個體中隨機設置一個交叉點, 然后在該點相互交換兩個配對個體的部分染色體。
變異操作是模擬生物由于偶然的因素而引起基因突變的原理來進行的。它使用一個很小的變異概率隨機將染色體中的某一位或某些位使用其他值進行替換, 從而形成一個新的個體。
4 基于粗糙集的PSO和GA的混合算法
雖然粒子群算法中粒子的學習能力很強, 節(jié)省時間并且容易實現(xiàn)。
但是存在一些缺點:比如局部搜索能力比較差、搜索的精度不高、容易陷入局部最優(yōu)解等。因此, PSO算法和其他算法的融合是當前的研究熱點。Li等[13]在2006年提出將模擬退火算法和PSO進行融合;Ye等[14]在2005年將演化策略的變異算子引入到了PSO中; 文獻[15] 在SVM特征選擇方面對PSO和GA進行融合。
本文將粒子群算法和遺傳算法的交叉與變異算子進行融合。遺傳算法個體之間不共享信息, 側重自然尋優(yōu), 而粒子群之間共享信息, 因此搜索時間較快, 將二者的優(yōu)點進行融合。在粒子群算法的執(zhí)行過程中, 將基于粗糙集的依賴度作為特征選擇的適應度函數(shù), 對于適應度函數(shù)排名靠前的粒子使用粒子群算法的速度和位置更新公式進行更新, 而對排名靠后的粒子則采用遺傳算法的交叉和變異算子進行粒子的更新, 提出基于粗糙集的混合粒子群和遺傳算法的方法(PSOGARS)。
每個粒子是一個長為d的二進制位串, d是特征的總數(shù), 每一位代表一個屬性, “1”代表這個屬性被選擇, “0”代表這個屬性沒有被選擇。
4.1 參數(shù)設置和適應度函數(shù)
慣性權重w影響著粒子群的搜索能力, 一般將慣性權重設置為隨著迭代次數(shù)遞減的函數(shù), 這樣在開始時可以有較大的搜索空間, 之后在一個較小的空間搜索, 提高收斂速度。公式如下:
4.2 PSOGARS方法流程
基于粗糙集的粒子群和遺傳算法的混合算法過程如下:
第一步 設定算法的初始參數(shù)(種群規(guī)模、迭代次數(shù)、遺傳算法的概率p、交叉和變異速率等)。
第二步 隨機產(chǎn)生初始種群, 隨機化粒子的速度和位置, 設置每個粒子的個體極值Pbest和全局極值gbest。
第三步 根據(jù)式(11) 計算每個粒子的適應值。
第四步 按照適應值的大小對粒子進行排序, 將排序前p的粒子, 根據(jù)式(8)和(9) 更新速度和位置值。對于排在p以后的那些粒子, 使用遺傳算法的交叉和變異算子進行更新。
第五步 根據(jù)更新后的粒子再次計算適應度值, 確定粒子的個體極值Pbest和全局極值gbest。
第六步 判斷是否滿足迭代次數(shù)要求:如果是, 就轉向第七步;否則轉向第三步。
第七步 輸出最優(yōu)粒子的最優(yōu)位置。
5 實驗分析
5.1 數(shù)據(jù)集
擬南芥和水稻的miRNA數(shù)據(jù)下載自miRNA數(shù)據(jù)庫miRBase (版本號21)[16], 它包含了427條擬南芥miRNA成熟體。擬南芥mRNA數(shù)據(jù)下載自擬南芥數(shù)據(jù)庫TAIR[17]。水稻的mRNA數(shù)據(jù)下載自Ensembl Genomes數(shù)據(jù)庫(http://)。本文使用的正樣本來自一些文獻中搜集的實驗驗證的擬南芥miRNA靶基因交互數(shù)據(jù)[18-22], 共101條。實驗驗證的水稻的miRNA靶基因交互數(shù)據(jù)共30條。因為實驗驗證的負樣本數(shù)據(jù)缺乏, 因此一些負樣本按照下面的步驟生成。
根據(jù)擬南芥miRNA中堿基比例PU=0.29, PC=0.19, PA=0.26, PG=0.26, 300個人工的miRNA(30nt)已經(jīng)生成[23],用這些生成的miRNA產(chǎn)生負樣本。用psRNATarget[24]產(chǎn)生這些人工的miRNA的靶基因。最后, 1311條負的調控關系已經(jīng)生成。miRNA與其靶基因的序列特征一般包括自由能、結構和位置方面的特征, 本文采用文獻[25]的方式提取48維特征。在水稻數(shù)據(jù)集上采用同樣的方法生成負樣本。因為需要樣本數(shù)據(jù)中有miRNA與mRNA的交互的靶位點信息, 利用psRNATarget工具得到的調控關系作為測試集。
5.2 數(shù)據(jù)預處理及參數(shù)設置
實驗中, 由于正負樣本的比例不平衡, 負樣本的比例大于正樣本的比例, 結果會出現(xiàn)較高的假陰性。本文采用經(jīng)典的SMOTE方法解決樣本的不平衡問題。SMOTE算法是一種過采樣算法, 基本思想是通過合成的方法產(chǎn)生新的少數(shù)樣本。合成的方法是對每個少數(shù)類樣本a, 計算a與少數(shù)類樣本之間的歐氏距離, 選取k個最短的距離作為其最近鄰, 文中的k值為5。然后從它的最近鄰中隨機選擇樣本b, 然后在a和b之間的連線上隨機選一點作為新合成的少數(shù)類樣本M, 如式(12)所示, 其中u是一個介于0~1的隨機數(shù),并不是簡單地進行復制。使用數(shù)據(jù)挖掘工具Weka[26]將連續(xù)屬性值進行離散化處理, 以間距0.1為分割, 分成10份, 離散化后小于0.1的值都看作0, 0.1~0.2的值都看作0.1, 依此類推。
算法中的遺傳概率p, 從0.1~0.9, 以0.1為步長連續(xù)取不同的值進行實驗, 最終選取一組準確率最高時的p值作為最終的結果。
本文采用了3種分類性能評價指標, 分別是準確率、F值和受試者工作特征(Receiver Operating Characteristic, ROC)曲線面積。其中:
準確率=(TP+TN)/(TP+TN+FP+FN)
F值=(2*TP)/(2*TP+FP+FN)
ROC曲線是顯示分類器真正率和假正率折中的一種圖形化方法。在一個ROC曲線中, 真正率(True Positive Rate, TPR)沿y軸進行繪制, 而假正率(False Positive Rate, FPR)顯示在x軸上, 沿著曲線每一點對應于一個分類器歸納的模型。ROC曲線面積是曲線下方的面積, 其取值范圍為0~1。
其中:TP、TN、FP、FN分別表示真陽性、真陰性、假陽性和假陰性。
表1按照不同的p值選出不同的特征子集, 根據(jù)不同的特征子集采用支持向量機進行訓練, 使用10倍交叉驗證得到在擬南芥數(shù)據(jù)集上不同p值時的準確率、F值和ROC面積。本實驗中, p值最終選擇的是0.2。最大迭代次數(shù)Maxiter=100, 慣性權重的最大值和最小值分別是1.4和0.4。種群的大小N為特征的個數(shù)48, 遺傳算法的交叉概率c=0.7, 變異概率m=0.01。
5.3 結果分析
本文方法PSOGARS與基于粗糙集和粒子群優(yōu)化的特征選擇方法(Feature Selection based on Rough Sets and PSO, PSORSFS)[27]、粗糙集軟件(ROSETTA)[28]等算法進行比較分析。ROSETTA中采用的是利用遺傳算法得到的屬性約簡方法。然后使用支持向量機對每種算法得到的特征子集對應的樣本子集進行分類, 采用10折交叉驗證比較這三種算法的性能。因為使用粗糙集軟件一共得到了4個不同的屬性約簡子集, 文中取它們的平均值進行比較。表2為三種方法在擬南芥數(shù)據(jù)集上的性能比較。
使用同樣的方法在水稻數(shù)據(jù)集上進行實驗, 結果如表3所示。
從表2和表3中可以看到, 雖然三種方法約簡后的特征個數(shù)相同, 但是本文方法的準確率略高于其他兩種方法。對于擬南芥數(shù)據(jù)集來說, 分類的準確率, F值和ROC面積都比PSORSFS高5%, 比ROSETTA高1%。在水稻數(shù)據(jù)上, 比PSORSFS高1%, 比ROSETTA高8%。
5.4 網(wǎng)絡構建
根據(jù)構建的分類模型, 得到miRNAmRNA的調控網(wǎng)絡。圖1給出了部分的調控關系。miR156調控的AT1G27360、AT3G57920、AT1G35515等大部分均有GO術語GO:0006355。AT1G35515也具有相同的生物過程, 因此, 它們很可能同時被相同的調控因子調控。這里, 實驗驗證的miR157的靶基因都具有同樣的GO標簽, 而預測的AT2G42200也有相同的GO標簽。同時被miR156和miR157預測A8T3G18217擁有的GO標簽GO:0035195和GO:0006355都是GO標簽GO:0010467的后代, 所以它們很可能也有相同的功能, 被同樣的調控因子調控。表4給出了這些實驗驗證的以及預測的miRNA的靶基因的GO術語及其功能。
6 結語
基于粗糙集理論, 本文將粒子群優(yōu)化算法與遺傳算法相結合, 提出了一種新的構建調控網(wǎng)絡的方法??紤]到miRNA與其靶基因之間的序列信息, 提取序列之間的關系, 構造特征向量, 混合粒子群和遺傳算法選擇最優(yōu)的特征子集, 使用SMOTE算法解決樣本不平衡問題。使用支持向量機進行實驗, 采用10折交叉驗證來衡量模型的準確性。結果表明, 該方法可以有效地預測調控關系。今后, 可以考慮結合其他種類的生物學數(shù)據(jù), 提高預測的準確率。
參考文獻:
[1] RUVKUN G. Glimpses of a tiny RNA world[J]. Science, 2001, 294(5543): 797.
[2] MADHAMSHETTIWAR P B, MAETSCHKE S R, DAVIS M J, et al. Gene regulatory network inference: evaluation and application to ovarian cancer allows the prioritization of drug targets[J]. Genome Medicine, 2012, 4(5): 1-16.
[3] 亓慧,王文劍,郭虎升.一種基于特征選擇的SVM Bagging集成方法[J]. 小型微型計算機系統(tǒng), 2014, 35(11): 2533-2537.(QI H, WANG W J, GUO H S. An SVM bagging ensemble learning algorithm based on feature selection[J]. Journal of Chinese Computer Systems, 2014, 35(11): 2533-2537.)
[4] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority oversampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-357.
[5] PAWLAK Z. Rough sets[J]. International Journal of Computer & Information Sciences, 1982, 11(5): 341-356.
[6] 常犁云, 王國胤, 吳渝. 一種基于Rough Set理論的屬性約簡及規(guī)則提取方法[J]. 軟件學報, 1999, 10(11):1207-1211. (CHANG L Y, WANG G Y, WU Y. An approach for attribute reduction and rule generation based on rough set theory[J]. Journal of Software, 1999, 10(11): 1207-1211.)
[7] 石云, 孫玉芳, 左春. 基于Rough Set的空間數(shù)據(jù)分類方法[J]. 軟件學報, 2000, 11(5): 673-678. (SHI Y, SUN Y F, ZUO C. Spatial data classification based on rough set[J]. Journal of Software, 2000, 11(5): 673-678.)
[8] PAWLAK Z. Imprecise Categories, Approximations and Rough Sets[M]. Boston, Massachusetts: Kluwer Academic Publishers, 1991: 9-26.
[9] PAUL S, MAJI P. Rough set based gene selection algorithm for microarray sample classification[C]// ICM2CS 2010: Proceedings of the 2010 International Conference on Methods and Models in Computer Science. Piscataway, NJ: IEEE, 2010: 7-13.
[10] KENNDY J, EBERHART R C. Particle swarm optimization[C]// Proceedings of the 1995 IEEE International Conference on Neural Networks. Piscataway, NJ: IEEE, 1995:1942-1948.
[11] EBERHART R C, KENNEDY J. A new optimizer using particle swarm theory[C]// Proceedings of the 6th International Symposium on Micro machine and Human Science. Piscataway, NJ: IEEE, 1995: 39-43.
[12] HAYESROTH F. Review of "Adaptation in Natural and Artificial Systems by John H. Holland". The University of Michigan Press[J]. ACM SIGART Bulletin, 1975, 53: 15.
[13] LI L, WANG L, LIU L. An effective hybrid PSOSA strategy for optimization and its application to parameter estimation[J]. Applied Mathematics and Computation, 2006, 179(1): 135-146.
[14] YE B, ZHU C, GUO C, et al. Generating extended fuzzy basis function networks using hybrid algorithm[C]// Proceedings of the Second international conference on Fuzzy Systems and Knowledge Discovery. Berlin: SpringerVerlag, 2005: 79-88.
[15] 張進, 丁勝, 李波. 改進的基于粒子群優(yōu)化的支持向量機特征選擇和參數(shù)聯(lián)合優(yōu)化算法[J]. 計算機應用, 2016, 36(5):1330-1335.(ZHANG J, DING S, LI B. Improved particle swarm optimization algorithm for support vector machine feature selection and optimization for parameters[J]. Journal of Computer Applications, 2016, 36(5): 1330-1335.)
[16] GRIFFITHSJONES S, SAINI H K, VAN DONGEN S, et al. miRBase: tools for MicroRNA genomics[J]. Nucleic Acids Research, 2008, 36(1): 154-158.
[17] SWARBRECK D, WILKS C, LAMESCH P, et al. The Arabidopsis Information Resource (TAIR): gene structure and function annotation[J]. Nucleic Acids Research, 2008, 36(Database issue): D1009-D1014.
[18] ADDOQUAYE C, ESHOO T W, BARTEL D P, et al. Endogenous siRNA and miRNA targets identified by sequencing of the Arabidopsis degradome[J]. Current Biology, 2008, 18(10): 758-762.
[19] ALLEN E, XIE Z, GUSTAFSON A M, et al. MicroRNAdirected phasing during transacting siRNA biogenesis in plants[J]. Cell, 2005, 121(2): 207-221.
[20] GERMAN M A, PILLAY M, JEONG D H, et al. Global identification of MicroRNAtarget RNA pairs by parallel analysis of RNA ends[J]. Nature Biotechnology, 2008, 26(8): 941-946.
[21] LIANG G, HE H, YU D. Identification of nitrogen starvationresponsive MicroRNAs in Arabidopsis thaliana[J]. PloS One, 2012, 7(11): e48951.
[22] ALLEN E, XIE Z, GUSTAFSON A M, et al. Evolution of MicroRNA genes by inverted duplication of target gene sequences in Arabidopsis thaliana[J]. Nature Genetics, 2004, 36(12): 1282-1290.
[23] SAETROM O L A, SNVE O L A, SAETROM P. Weighted sequence motifs as an improved seeding step in MicroRNA target prediction algorithms[J]. RNA, 2005, 11(7): 995-1003.
[24] DAI X, ZHAO P X. psRNATarget: a plant small RNA target analysis server[J]. Nucleic Acids Research, 2011, 39(Web Server issue): W155-W159.
[25] MENG J, SHI L, LUAN Y. Plant MicroRNAtarget interaction identification model based on the integration of prediction tools and support vector machine[J]. PloS One, 2014, 9(7): e103181.
[26] HOLMES G, DONKIN A, WITTEN I H. WEKA: a machine learning workbench[C]// Proceedings of the 1994 2nd Australian and New Zealand Conference on Intelligent Information Systems. Piscataway, NJ: IEEE, 1994:357-361.
網(wǎng)絡營銷 網(wǎng)絡教育研究 網(wǎng)絡廣告 網(wǎng)絡通信 網(wǎng)絡安全 網(wǎng)絡環(huán)境 網(wǎng)絡實訓報告 網(wǎng)絡輿論論文 網(wǎng)絡暴力相關案例 網(wǎng)絡優(yōu)化論文 紀律教育問題 新時代教育價值觀