Третий семинар НУГ
Семинар о применении моделей обработки естественного языка для извлечения биохимических сущностей из научных текстов.

Семинар НУГ состоялся 5 марта. В рамках встречи рассматривалось применение специализированной модели распознавания именованных сущностей (NER) на основе архитектуры SciBERT для автоматического извлечения химических соединений и белковых мишеней из текстовых описаний биоактивности базы данных ChEMBL. В ходе семинара был описан принцип работы модели, включая этапы токенизации текста, использование BIO-разметки для выделения сущностей и особенности контекстного обучения на аннотированных данных.
В обсуждении приняли участие сотрудники лаборатории гликохимии (№ 23) и группы теоретической химии (№ 24) ИОХ РАН. Участники семинара обсудили возможности применения данного подхода для автоматизации анализа биомедицинских текстов и извлечения структурированной информации из научных источников.
