В генетической базе данных нашли 100 тысяч новых вирусов

Подсказки к будущим вспышкам могут быть скрыты в существующих геномных базах данных: ученые обнаружили 100 000 новых вирусов в старых генетических образцах, пишет журнал Science.

Потребовался всего один вирус SARS-CoV-2, чтобы вывести из строя мировую экономику и убить миллионы людей. Тем не менее, по оценкам вирусологов, существуют триллионы до сих пор неизвестных вирусов, многие из которых могут нести смертельную опасность и потенциально спровоцировать следующую пандемию. К счастью, у ученых появился новый – и очень длинный – список возможных подозреваемых. Проанализировав беспрецедентное количество существующих геномных данных, ученые обнаружили более 100 000 новых вирусов, в том числе девять коронавирусов и более 300 вариаций дельта-гепатита, который может вызывать печеночную недостаточность.

Исследователи Национального центра биотехнологической информации США на порядок расширили представления о вирусах, использующих для кодирования своих генов РНК вместо ДНК. Эта работа также поможет запустить так называемую петабайтную геномику – анализ ранее непостижимых количеств данных ДНК и РНК.

Грандиозным открытием мир обязан простому любопытству. В начале 2020 года ученым стало интересно, сколько еще коронавирусов – помимо вируса SARS-CoV-2, который только что вызвал пандемию COVID-19 – могут быть найдены в последовательностях в существующих геномных базах данных.

Облачные геномные показатели из глобальной ДНК-базы данных Национального института здравоохранения США загрузили в суперкомпьютер. На данный момент эта библиотека содержит 16 петабайт (16 млн гигабайт) заархивированных последовательностей, полученных в результате генетических исследований всего, что можно представить – от рыб фугу до сельскохозяйственных почв и микробиома человеческого кишечника, уточняет Science. Хотя при анализе геномы вирусов из образцов улавливаются секвенированием, ранее ученые не акцентировали на них внимания.

В новом исследовании ученые решили исправить это досадное недоразумение. При помощи специально разработанного алгоритма им удалось обрабатывать 1 миллион наборов данных в день. Генетики просканировали все генетическое облако на предмет центральной части гена РНК-зависимой РНК-полимеразы, которая является ключом к репликации не только коронавирусов, но также вирусов гриппа, полиомиелита, кори и гепатита. В итоге они обнаружили геномы почти 132 тыс. потенциальных виновников болезней.

В новой базе данных нет полной последовательности каждого нового вируса – во многих случаях найден лишь ген основного фермента. Но даже частичные последовательности могут быть использованы для построения генеалогических деревьев вирусов, которые покажут их взаимосвязи и модели развития. Также можно выяснить, где был обнаружен конкретный вирус и кто его хозяин.

Открытие должно помочь ученым лучше понять, как возникают человеческие патогены, а заодно усовершенствовать диагностические тесты на вирусные инфекции.