1. HelixFold-Single: прогнозирование структуры белка без MSA с использованием языковой модели белка в качестве альтернативы (arXiv)

Автор: Сяоминь Фан, Фан Ван, Лихан Лю, Цзинчжоу Хэ, Дайонг Линь, Инфэй Сян, Сяонань Чжан, Хуа Ву, Хуэй Ли, Ле Сун. »

Аннотация: Конвейеры прогнозирования структуры белков на основе ИИ, такие как AlphaFold2, достигли почти экспериментальной точности. Эти расширенные конвейеры в основном полагаются на выравнивание нескольких последовательностей (MSA) в качестве входных данных для изучения информации о совместной эволюции из гомологичных последовательностей. Тем не менее, поиск MSA в базах данных белков занимает много времени, обычно десятки минут. Следовательно, мы пытаемся исследовать пределы прогнозирования структуры быстрых белков, используя только первичные последовательности белков. HelixFold-Single предлагается для объединения крупномасштабной модели белкового языка с превосходными возможностями геометрического обучения AlphaFold2. Предлагаемый нами метод HelixFold-Single сначала предварительно обучает крупномасштабную модель белкового языка (PLM) с тысячами миллионов первичных последовательностей с использованием парадигмы обучения с самоконтролем, которая будет использоваться в качестве альтернативы MSA для обучения совместной работе. -эволюционная информация. Затем, комбинируя предварительно обученный PLM и основные компоненты AlphaFold2, мы получаем сквозную дифференцируемую модель для предсказания 3D-координат атомов только из первичной последовательности. HelixFold-Single проверен в наборах данных CASP14 и CAMEO, достигая конкурентоспособной точности с методами на основе MSA на мишенях с большими гомологичными семействами. Кроме того, HelixFold-Single требует гораздо меньше времени, чем основные конвейеры для прогнозирования структуры белка, демонстрируя свой потенциал в задачах, требующих большого количества прогнозов. Код HelixFold-Single доступен по адресу https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold-single, и мы также предоставляем стабильные веб-сервисы по адресу https://paddlehelix. baidu.com/app/drug/protein-single/forecast

2.ProGen2: изучение границ белковых языковых моделей (arXiv)

Автор: Эрик Нейкамп, Джеффри Руффоло, Эли Н. Вайнштейн, Нихил Найк, Али Мадани.

Аннотация: модели, основанные на внимании, обученные последовательностям белков, продемонстрировали невероятный успех в задачах классификации и генерации, имеющих отношение к дизайну белков, управляемому искусственным интеллектом. Однако нам не хватает достаточного понимания того, как очень крупномасштабные модели и данные играют роль в эффективной разработке белковых моделей. Мы представляем набор моделей белкового языка под названием ProGen2, которые масштабируются до 6,4 млрд параметров и обучаются на различных наборах данных о последовательностях, полученных из более чем миллиарда белков из геномных, метагеномных и иммунных репертуарных баз данных. Модели ProGen2 демонстрируют современную производительность в захвате распределения наблюдаемых эволюционных последовательностей, создании новых жизнеспособных последовательностей и прогнозировании пригодности белков без дополнительной точной настройки. Поскольку большие размеры моделей и исходное количество белковых последовательностей становятся все более доступными, наши результаты показывают, что необходимо уделять все больше внимания распределению данных, предоставляемых модели белковых последовательностей. Мы публикуем модели и код ProGen2 на https://github.com/salesforce/progen.