Результат шестого семинара НУГ "Молекулярное моделирование для синтеза практически важных веществ"
Игорь Валентинович Свитанько представил доклад на тему "Статистические методы обработки имеющихся данных для прогнозирования свойств". Краткая схема доклада с семинара:
1. Исторический обзор: начиная с 1989 года, расширяется использование компьютера в схеме статобработки с обратной связью, или, на современный лад, с машинным обучением:
2. Основной вопрос в статобработке – что считать дескриптором свойства в схеме выше. Большинство исследователей сходятся на электростатической конфигурации молекулы, 2D (молекулярная электростатическая поверхность) либо 3D (молекулярный электростатический объем), и модель свойства представляет собой максимальную плотность молекулярного совмещения обучающей выборки, например (частный случай 3D), общие точки на поверхности (ключевые точки):
Общие ключевые точки и являются моделью свойства. Все это называется 3D-QSAR.
3. С развитием математических методов (машинное обучение, neuroscience и пр.) методы стат. Обработки уже существующих данных для прогнозирования активности новых структур возродились. Статья ниже показывает использование машинного обучения в графическом анализе структурных данных душистых веществ из двух известных библиотек данных:
Очевидно, что с новыми математическими методами и терминологией идет хорошо забытый 3D-QSAR. Алгоритмы те же, улучшена фильтрация обратной связи.
4. У нас в 2018 году студентами разработан метод статистической обработки комплексов лиганд-белок (см. Приложение), дающий в качестве результата расчетов множества лигандов к одному и тому же белку картинки, где присутствует максимальная плотность вероятности нахождения лиганда (красным), и области (ветвление функционалов), которые индивидуальны и не влияют на модель свойства. Закрашенные области можно считать 3D-моделью свойства, или новой итерацией 3D-QSAR. Метод очень перспективен для уточнения и параллелизации классического докинга.
Приложение