Моделювання та аналіз сигналів біонанопорового секвенування ДНК для виявлення генетичних мутацій
Основний зміст сторінки статті
Анотація
Робота присвячена розвитку методів цифрової обробки геномних сигналів, які представляють собою дані щодо будови ДНК, з метою використання методів обробки сигналів до задачі аналізу геномних даних. За фрагментами послідовностей нуклеотидів змодельовано сигнали іонного струму крізь біологічну нанопору при секвенції ДНК для випадків норми, точкових мутацій, вставки та видалення ділянки ДНК. Модельні сигнали іонного струму у білковій нанопорі отримано на основі реальних послідовностей нуклеотидів з атласів ракового геному. В роботі використано кореляційний аналіз для визначення подібності сигналів нанопорового секвенування ДНК за допомогою функції взаємної кореляції між двома сигналами іонного струму крізь білкову нанопору, зокрема між сигналами у нормі та з наявністю мутації. За розташуванням максимуму взаємної кореляційної функції визначається тип мутації (інсерція або делеція), а також проводиться вирівнювання однакових нуклеотидних послідовностей за допомогою визначеного зсуву сигналу.
Проаналізовано застосування методів машинного навчання до класифікації геномних сигналів нанопорового секвенування ДНК. Для визначення найкращих моделей класифікації застосовано алгоритми на основі дерев рішень, дискримінантного аналізу, методу опорних векторів, логістичної регресії, методу k-найближчих сусідів та ансамблевого навчання. Для різних методів машинного навчання визначено та порівняно точність класифікації на 4 класи: норма, точкова мутація (місенс або нонсенс), мутація делеції та інсерції декількох нуклеотидів. Показано, що результати застосування методів машинного навчання до проблеми класифікації сигналів нанопорового секвенування ДНК суттєво залежать від рівня шуму у зареєстрованих сигналах іонного струму крізь білкову нанопору та типу мутації. Найкращі результати класифікації отримано для методу опорних векторів. Застосування лінійної, квадратичної та кубічної функцій ядра показало високу точність вірно класифікованих сигналів – від 93 до 100%.
Блок інформації про статтю
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).
Посилання
Hengyun Lu, Francesca Giordano, Zemin Ning. Oxford Nanopore MinION Sequencing and Genome Assembly, Genomics, Proteomics & Bioinformatics, Vol. 14, Issue 5, 2016, pp. 265-279, DOI: https://doi.org/10.1016/j.gpb.2016.05.004.
D. R. Garalde, C. R. O'Donnell, R. D. Maitra, D. M. Wiberg, G. Wang and W. B. Dunbar, "Modeling the Biological Nanopore Instrument for Biomolecular State Estimation," in IEEE Transactions on Control Systems Technology, vol. 21, no. 6, pp. 2038-2051, 2013, DOI: https://doi.org/10.1109/TCST.2012.2224349.
J. Kim, R. Maitra, K. D. Pedrotti and W. B. Dunbar, "A Patch-Clamp ASIC for Nanopore-Based DNA Analysis," in IEEE Transactions on Biomedical Circuits and Systems, vol. 7, no. 3, pp. 285-295, 2013, DOI: https://doi.org/10.1109/TBCAS.2012.2200893.
Nanoporovoe sekvenuvannya: na porozi tretʹoyi henomnoyi revolyutsiyi [Nanoporous sequencing: on the threshold of the third genomic revolution]. URL: https://biomolecula.ru/articles/nanoporovoe-sekvenirovanie-na-poroge-tretei-genomnoi-revoliutsii
Anastassiou, Dimitris. (2001). Genomic Signal Processing. Signal Processing Magazine, IEEE. 18. 8-20. DOI: https://doi.org/10.1109/79.939833.
Mendizabal-Ruiz G, Román-Godínez I, Torres-Ramos S, Salido-Ruiz RA, Vélez-Pérez H, Morales JA. Genomic signal processing for DNA sequence clustering. PeerJ. 2018 Jan 24;6:e4264. DOI: https://doi.org/10.7717/peerj.4264. PMID: 29379686; PMCID: PMC5786891.
P. Dixit and G. I. Prajapati, "Machine Learning in Bioinformatics: A Novel Approach for DNA Sequencing," 2015 Fifth International Conference on Advanced Computing & Communication Technologies, Haryana, 2015, pp. 41-47, DOI: https://doi.org/10.1109/ACCT.2015.73.
J. Chen and S. T. c. Wang, "Nanotechnology for genomic signal processing in cancer research - A focus on the genomic signal processing hardware design of the nanotools for cancer ressearch," in IEEE Signal Processing Magazine, vol. 24, no. 1, pp. 111-121, Jan. 2007, DOI: https://doi.org/10.1109/MSP.2007.273064
P. Qiu, Z. J. Wang and K. j. R. Liu, "Genomic processing for cancer classification and prediction - Abroad review of the recent advances in model-based genomoric and proteomic signal processing for cancer detection," in IEEE Signal Processing Magazine, vol. 24, no. 1, pp. 100-110, Jan. 2007, DOI: https://doi.org/10.1109/MSP.2007.273063.
Ravichandran Lakshminarayan et al.. (2011). Waveform Mapping and Time-Frequency Processing of DNA and Protein Sequences. Signal Processing, IEEE Transactions on. 59. 4210 - 4224. DOI: https://doi.org/10.1109/TSP.2011.2157915.
S. Deng, Z. Chen, G. Ding and Y. Li, "Prediction of protein coding regions by combining Fourier and Wavelet Transform," 2010 3rd International Congress on Image and Signal Processing, Yantai, 2010, pp. 4113-4117, DOI: https://doi.org/10.1109/CISP.2010.5648065.
T. Meng et al., "Wavelet Analysis in Current Cancer Genome Research: A Survey," in IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 10, no. 6, pp. 1442-14359, 2013, DOI: https://doi.org/10.1109/TCBB.2013.134.
David Stoddart et al. Single-nucleotide discrimination in immobilized DNA oligonucleotides with a biological nanopore//Proceedings of the National Academy of Sciences, 2009, 106 (19), pp.7702-7707. DOII: https://doi.org/10.1073/pnas.0901054106
Kim, Bong-Hyun & Yu, Kijin & Lee, Peter. (2019). Cancer classification of single cell gene expression data by neural network. Bioinformatics (Oxford, England). 36. DOI: https://doi.org/10.1093/bioinformatics/btz772.
Rockwood AL, Crockett DK, Oliphant JR, Elenitoba-Johnson KS. Sequence alignment by cross-correlation. J Biomol Tech. 2005; 16(4):453-458. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2291754 PMID: 16522868
Single-channel recording /edited by Bert Sakmann and Erwin Neher. - Springer. - 705 p. DOI: https://doi.org/10.1007/978-1-4419-1229-9
Bindal, N., Forbes, S.A., Beare, D. et al. COSMIC: the catalogue of somatic mutations in cancer. Genome Biol 12, P3 (2011). DOI: https://doi.org/10.1186/1465-6906-12-S1-P3
The Cancer Genome Atlas Program. URL: https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga
Genomic Data Commons Data Portal. URL: https://portal.gdc.cancer.gov/
Ï. B. AYDÏLEK, "Examining Effects of the Support Vector Machines Kernel Types on Biomedical Data Classification," 2018 International Conference on Artificial Intelligence and Data Processing (IDAP), Malatya, Turkey, 2018, pp. 1-4, DOI: https://doi.org/10.1109/IDAP.2018.8620879.
A. David and B. Lerner, "Pattern classification using a support vector machine for genetic disease diagnosis," 2004 23rd IEEE Convention of Electrical and Electronics Engineers in Israel, Tel-Aviv, Israel, 2004, pp. 289-292, DOI: https://doi.org/10.1109/EEEI.2004.1361148.
Alessio Fragasso, Sonja Schmid, and Cees Dekker, "Comparing Current Noise in Biological and Solid-State Nanopores," ACS Nano 2020, 14 (2), 1338-1349, DOI: https://doi.org/10.1021/acsnano.9b09353
Shengfa Liang, Feibin Xiang, Zifan Tang, Reza Nouri, Xiaodong He, Ming Dong, Weihua Guan, "Noise in nanopore sensors: Sources, models, reduction, and benchmarking," Nanotechnology and Precision Engineering, Volume 3, Issue 1, 2020, Pages 9-17, DOI: https://doi.org/10.1016/j.npe.2019.12.008.
Wen, C., Zeng, S., Zhang, Z., Hjort, K., Scheicher, R. et al. On nanopore DNA sequencing by signal and noise analysis of ionic current. Nanotechnology, 27: 215502, 2016. DOI: https://doi.org/10.1088/0957-4484/27/21/215502