У генетичній базі даних знайшли 100 тисяч нових вірусів

Підказки до майбутніх спалахів можуть бути приховані в геномних базах даних: вчені виявили 100 000 нових вірусів у старих генетичних зразках, пише журнал Science.

Потрібний був лише один вірус SARS-CoV-2, щоб вивести з ладу світову економіку і вбити мільйони людей. Проте, за оцінками вірусологів, існують трильйони досі невідомих вірусів, багато з яких можуть нести смертельну небезпеку та потенційно спровокувати наступну пандемію. На щастя, у вчених з'явився новий і дуже довгий список можливих підозрюваних. Проаналізувавши безпрецедентну кількість існуючих геномних даних, вчені виявили понад 100 000 нових вірусів, у тому числі дев'ять коронавірусів та понад 300 варіацій дельта-гепатиту, що може спричинити печінкову недостатність.

Дослідники Національного центру біотехнологічної інформації США значно розширили уявлення про віруси, що використовують для кодування своїх генів РНК замість ДНК. Ця робота також допоможе запустити так звану петабайтну геноміку - аналіз раніше незбагненних кількостей даних ДНК та РНК.

Грандіозним відкриттям світ завдячує простій зацікавленості. На початку 2020 року вченим стало цікаво, скільки ще коронавірусів – крім вірусу SARS-CoV-2, який щойно викликав пандемію COVID-19 – можуть бути знайдені у послідовностях у існуючих геномних базах даних.

Хмарні геномні показники із глобальної ДНК-бази даних Національного інституту охорони здоров'я США завантажили до суперкомп'ютера. На даний момент ця бібліотека містить 16 петабайт (16 млн гігабайт) заархівованих послідовностей, отриманих в результаті генетичних досліджень всього, що можна уявити – від риб фугу до сільськогосподарських ґрунтів та мікробіом людського кишечника.  Хоча під час аналізу геноми вірусів із зразків вловлюються секвенуванням, раніше вчені не акцентували на них уваги.

У новому дослідженні вчені вирішили виправити це прикре непорозуміння. За допомогою спеціально розробленого алгоритму їм удалося обробляти 1 мільйон наборів даних на день. Генетики просканували всю генетичну хмару на предмет центральної частини гена РНК-залежної РНК-полімерази, яка є ключем до реплікації не тільки коронавірусів, але також вірусів грипу, поліомієліту, кору та гепатиту. У результаті виявили геноми майже 132 тис. потенційних винуватців хвороб.

У новій базі даних немає повної послідовності кожного нового вірусу – у багатьох випадках виявлено лише ген основного ферменту. Але навіть часткові послідовності можуть бути використані для побудови генеалогічних дерев вірусів, які покажуть їхні взаємозв'язки та моделі розвитку. Також можна з'ясувати, де було виявлено конкретний вірус та хто його господар.

Відкриття має допомогти вченим краще зрозуміти, як виникають людські патогени, а заразом удосконалити діагностичні тести на вірусні інфекції.