Массив данных RxRx1, содержащий 300 с лишним гигабайт информации о различных биологических контекстах, в том числе 125 000 изображений четырёх типов клеток, был на днях представлен общественности на конференции по машинному обучению ICLR 2019. Создавшая массив компания Recursion Pharmaceuticals объявила, что он будет доступен для свободного использования. Для разработки лекарств с помощью методов машинного обучения нужны большие объёмы экспериментальных данных. Чем больше этих данных и чем они качественнее, тем больше оснований ожидать реальных результатов. Так что обнародование массива RxRx1 может спровоцировать ИИ-революцию в области обнаружения новых лекарств.
В своё время обнародование открытого набора данных ImageNet, содержащего унифицированные подписанные изображения разных объектов (например, котиков и собачек), способствовало быстрому развитию ИИ в области распознавании образов и компьютерного зрения. Применение искусственного интеллекта в медицине, в том числе для нахождения новых лекарств, также шагает семимильными шагами. Такие компании как AstraZeneca, Pfizer, и Merck & Co. активно используют машинное обучение в своих исследовательских лабораториях. Но для ещё более быстрого прогресса нео6ходимы большие массивы высококачественных данных. 6 мая биотехнологическая компания Recursion Pharmaceuticals, расположенная в Солт-Лейк-Сити, штат Юта, обнародовала датасет RxRx1 с изображениями генетически модифицированных клеток. Его можно бесплатно скачать, а это важно, так как для многих научных и коммерческих компаний он может значительно уменьшить стоимость разработки новых лекарств. Публикуя датасет RxRx1, разработчики надеются, аналогично случаю с ImageNet, спровоцировать быстрое развитие ИИ-технологий.
RxRx1 по объёму занимает порядка 300 гигабайт и включает 125 000 изображений. На каждой картинке изображён один из четырёх типов клеток — клетки пупочных вен, глазной сетчатки, раковые клетки печени и кости. В каждой из таких клеток была произведена генетическая модификация: учёные с помощью специально спроектированных отрезков РНК отключали тот ген из тысячи выбранных. Затем с помощью специального микроскопа был запечатлён эффект влияния РНК на разные части клеток, в том числе критически важные для производства энергии, движения и выработки и фолдинга белков. Компания повторила эту процедуру 51 раз для указанных четырёх типов клеток в течение примерно года.
Делая свой набор данных открытым, Recursion надеется помочь другим компаниям в области биотехнологий находить такие молекулы, на которые можно воздействовать новыми лекарствами. Для обучения новых ИИ-моделей необходим большой объём данных, создать который стоит немалых денег. RxRx1 предназначен для того, чтобы удовлетворить, хотя бы частично, потребность в подобных наборах данных.
«Лучшие из ИИ-моделей, которые мы можем натренировать, всё ещё ограничены в данных. Если их натренировать на большем количестве изображений, модели будут отражать гораздо больше тонкостей»,
говорит Джейсон Йосински (Jason Yosinski), советник по машинному обучению в Recursion.
Источник: