Статья, опубликованная сегодня в Журнале медицинской визуализации – "DeepLesion: автоматизированный анализ крупномасштабных аннотаций поражений и универсальное обнаружение поражений с помощью глубокого обучения, – объявила об открытой доступности крупнейшей базы данных КТ-изображений поражений, доступной для общественности. Такие данные являются основой для обучающих наборов алгоритмов машинного обучения; до сих пор крупномасштабные аннотированные наборы данных радиологических изображений, необходимые для разработки подходов к глубокому обучению, не были общедоступными.
DeepLesion, разработанный командой из Клинического центра Национальных институтов здравоохранения, был разработан путем извлечения исторических медицинских данных из их собственной системы архивации изображений и связи. Этот новый набор данных имеет огромный потенциал, чтобы дать толчок развитию области компьютерного обнаружения (CADe) и диагностики (CADx).
База данных включает в себя несколько типов поражений, включая поражения почек, поражения костей, узелки в легких и увеличенные лимфатические узлы. Отсутствие набора данных о поражениях с несколькими категориями на сегодняшний день является серьезным препятствием на пути к разработке более универсальных каркасов CADe, способных обнаруживать несколько типов поражений. Набор данных о поражениях с несколькими категориями может даже позволить разработать системы CADx, которые автоматизируют радиологическую диагностику.
База данных построена с использованием аннотаций – закладок – клинически значимых результатов на медицинских изображениях из архива изображений. После анализа характеристик этих закладок, которые принимают различные формы, включая стрелки, линии, эллипсы, сегментацию и текст, команда собрала и отсортировала эти закладки для создания базы данных DeepLesion.
В то время как область компьютерного зрения имеет доступ к надежному набору данных ImageNet3, который содержит миллионы изображений, область медицинской визуализации не имеет доступа к тому же количеству данных. Большинство общедоступных наборов данных медицинских изображений содержат всего десятки или сотни случаев. Набор данных DeepLesion, содержащий более 32 000 аннотированных поражений из более чем 10 000 тематических исследований, в настоящее время является крупнейшим общедоступным набором данных медицинских изображений.
"Мы надеемся, что набор данных принесет пользу области медицинской визуализации так же, как ImageNet принес пользу области компьютерного зрения," говорит Кэ Ян, ведущий автор статьи и научный сотрудник лаборатории старшего автора Рональда Саммерса, доктора медицины, доктора философии.D.
Помимо создания базы данных, команда также разработала универсальный детектор повреждений на основе базы данных. Исследователи отмечают, что обнаружение поражений – трудоемкая задача для радиологов, но это ключевая часть диагностики. В будущем этот детектор может служить в качестве начального скринингового инструмента для радиологов или других специализированных CADe-систем.
В дополнение к обнаружению поражений база данных DeepLesion также может использоваться для классификации поражений, извлечения поражений на основе строк запроса или прогнозирования роста поражений в новых случаях на основе существующих шаблонов в базе данных. Базу данных можно скачать по адресу https: // nihcc.коробка.com / v / DeepLesion.
Дальнейшая работа будет включать расширение базы данных для других видов изображений, таких как МРТ, включая данные из нескольких больниц, и повышение точности обнаружения алгоритма детектора.