Прогнозирование лечение реакции изображений руководствуясь терапии с использованием машинного обучения: пример для транс артериальная Лечение гепатоцеллюлярной карциномы

Aaron Abajian; Nikitha Murali; Lynn Jeanette Savic; Fabian Max Laage-Gaupp; Nariman Nezami; James S. Duncan; Todd Schlachter; MingDe Lin; Jean-François Geschwind; Julius Chapiro

doi:10.3791/58382

АВТОРЫ

СВЯЖИТЕСЬ С НАМИ

Войдите в систему

Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.

Method Article

Прогнозирование лечение реакции изображений руководствуясь терапии с использованием машинного обучения: пример для транс артериальная Лечение гепатоцеллюлярной карциномы

DOI:

10.3791/58382

⸱

October 10th, 2018

Aaron Abajian¹, Nikitha Murali¹, Lynn Jeanette Savic¹^,², Fabian Max Laage-Gaupp¹, Nariman Nezami¹, James S. Duncan³, Todd Schlachter¹, MingDe Lin⁴, Jean-François Geschwind⁵, Julius Chapiro¹

¹Department of Radiology and Biomedical Imaging, Yale School of Medicine, ²Department of Diagnostic and Interventional Radiology, Universitätsmedizin Charité Berlin, ³Department of Biomedical Engineering, Yale School of Engineering and Applied Science, ⁴Philips Research North America, ⁵Prescience Labs

Please note that all translations are automatically generated. Click here for the English version.

Резюме

Внутри артериальной терапии являются стандарт медицинской помощи для пациентов с гепатоцеллюлярной карциномы, которые не могут пройти хирургическая резекция. Предложен метод прогнозирования ответа на эти виды лечения. Техника использует предварительно процедурные клинических, демографические и визуализации информации для обучения машина обучения моделей, способных предсказать ответ до начала лечения.

Аннотация

Внутри артериальной терапии являются стандарт медицинской помощи для пациентов с гепатоцеллюлярной карциномы, которые не могут пройти хирургическая резекция. Цель этого исследования была разработка метода для прогнозирования реакции внутри артериальной лечения до вмешательства.

Этот метод обеспечивает общие рамки для прогнозирования результатов до внутри артериальной терапии. Она включает в себя объединение клинических, демографические и визуализации данных через когорте больных и использование этих данных для обучения модели обучения машины. Обученная модель применяется для новых пациентов для того чтобы предсказать вероятность их реакции на внутри артериальной терапии.

Метод предполагает приобретение и разбора клинических, демографические и визуализации данных из N пациентов, которые уже прошли транс артериальная терапии. Эти данные анализируются в дискретных функций (возраст, пол, цирроз печени, степень повышения опухоли и т.д.) и binarized в значения true/false (например, возраст более 60, мужского пола, повышение опухоли за пределы установленного порога, и т.д.). Разница низкая функции и функции с низкой одномерных ассоциаций с результатами будут удалены. Каждое лечение пациента размечается согласно ли они ответили или не реагировать на лечение. Каждый пациент обучение таким образом представлена набором двоичных функции и метку результат. Машина модели обучения проходят подготовку с помощью N - 1 пациентов с тестированием на левой из пациента. Этот процесс повторяется для каждой из N пациентов. N модели усредняются прибыть в окончательной модели.

Методика является расширяемым и позволяет включение дополнительных функций в будущем. Это также обобщению процесс, который может применяться для клинических исследований вопросов за пределами интервенционной радиологии. Основным ограничением является необходимость вручную наследовать характеристики каждого пациента. Популярная современная форма машинного обучения называется глубокой обучения, не страдают от этого ограничения, но требует больших наборов данных.

Введение

Пациенты с гепатоцеллюлярной карциномы, которые не являются хирургические кандидатов предлагаются внутри артериальной терапии¹^,²^,³. Существует без один метрику, определяющую ли пациент будет реагировать внутри артериальной терапии, прежде чем лечение проводится. Целью данного исследования было продемонстрировать метод, который предсказывает реакции лечение путем применения методов машинного обучения. Такие модели служат руководством для специалистов-практиков и пациентов при выборе продолжения лечения.

Протокол предполагает воспроизводимый процесс для подготовки и обновления модели, начиная с первичных данных о пациенте (клинические примечания, демография, лабораторных данных и обработки изображений). Данные сначала анализируется для конкретных функций, с каждым пациентом, представленный набор бинарных функций и целевой меткой двоичный результат. Метке результат определяется с использованием критерия установленных ответ на основе изображений для гепатоцеллюлярной терапии⁴^,⁵^,⁶^,⁷. Машина обучения программного обеспечения, которое узнает сопоставление функций и результатов конкретный обучения модели (логистической регрессии или случайных лесных)⁸^,⁹^,¹⁰передаются функции и целевых ярлыках. Подобные методы применялись в радиологии и других районах раковых исследований для диагностики и лечения предсказание¹¹^,¹²^,¹³.

Этот метод адаптируется методы от компьютерных наук в области интервенционной радиологии. Традиционное значение исследования в интервенционной радиологии и медицины в целом полагаются на моно - или oligo функция анализа. Например модель для конечной стадии заболевания печени включает в себя пять клинических метрик для оценки масштабов заболевания печени. Преимущество предлагаемого метода является возможность добавления функции Либерально; в примере анализе рассматриваются особенности двадцать пять. Дополнительные функции могут быть добавлены по желанию.

Техника может применяться для других радиографический вмешательств, где имеются данные изображений до и после вмешательства. Например результаты после чрескожного лечения может быть предсказано в подобной манере. Главное ограничение этого исследования является необходимость ручной викарий функции для включения в модель. Курирование и функция извлечения данных занимает много времени для практикующего и могут препятствовать клинических принятие такой машины, обучения модели.

протокол

1. Настройка рабочей станции для машинного обучения

Используйте систему следующим текстом:
Процессор Intel Core 2 Duo или выше процессор тактовой частотой 2,0 ГГц
4 ГБ или больше системной памяти
POSIX-совместимая операционная система (Linux или Mac OS) или Microsoft Windows 7
Разрешения пользователя для выполнения программ и сохранения файлов
Установите следующие средства:
Анаконда Python3: https://www.anaconda.com/download
DICOM NIfTI конвертер (dcm2niix) - https://github.com/rordenlab/dcm2niix
Возвышенное текстовый редактор: https://www.sublimetext.com/
ITK-SNAP (опционально): http://www.itksnap.org
1. Установки Anaconda Python3, dcm2nii и возвышенное текст, посетите их соответствующих веб-сайтах для операционной системы следующие шагов установки.
2. Создать и активировать среде Anaconda.
  Конда создать--имя mlenv
  Конда активировать mlenv
3. Установка пакетов Anaconda для машинного обучения.
  Конда установить numpy scipy scikit-узнать nltk nibabel
  Примечание: Nltk пакет полезен для разбора клинических примечания текста, в то время как nibabel пакет предоставляет полезные функции для обработки медицинских изображений. ITK оснастки могут быть установлены для сегментации органов и опухоли из медицинских изображений. Это полезно для ограничивающих возможности для конкретных регионов.

2. Функция извлечения из текста клинические примечания и структурированных клинических данных

Создайте родительский каталог для проекта и создать папку для каждого пациента в родительской папке. Структура каталогов должна выглядеть следующим образом:
Проект /
Проект/Patient_1 /
Проект/Patient_2 /
Проект/Patient_3 /
...
Получение текста клинические примечания от электронных медицинских записей (EMR). Извлечь заметки вручную через Эми или посредством больницы информационных технологий (ИТ) Управление через дамп данных. Храните примечания каждого пациента в соответствующих папках.
Project/Patient_1/History_and_Physical.txt
Project/Patient_1/Procedure_Note.txt
1. Решение клинических компонентов, которые требуется включить в модель. Синтаксический анализ текста клиника отмечает для этих функций. Инструментарий для естественного языка Python (nltk) библиотека предоставляет полезные команды для разделения документов на приговоры. Каждое предложение может быть искали соответствующие термины например желтуха. Храните особенностей каждого пациента в файле с одной функцией в строке.
  Project/Patient_1/Features.txt:
  67 лет
  мужчины секс
  Альбумин 3.1
  цирротической нет
  hepatitis_c нет
  ...
2. Для не двоичных функции взять среднее значение каждого компонента во всех пациентов. Бинаризация каждую функцию как истина(1) или false(0) значение, основанное на медиану.
  Project/Patient_1/Binary_Features.txt:
  age_over_60 0
  male_sex 1
  albumin_less_than_3.5 1
  presence_of_cirrhosis 0
  hepatitis_c 0
  ...

3. Функция извлечения из медицинских изображений

Примечание: См. шаг 3 дополнительных материалов для примеров кода.

Скачайте до и после терапии магнитного резонанса DICOM изображений из больницы ПГС. Хранить изображения в соответствующие папки пациента.
Проект /
Project/Patient_1/Pre_TACE_MRI_Pre-Contrast.dcm
Project/Patient_1/Pre_TACE_MRI_Arterial.dcm
Project/Patient_1/Post_TACE_MRI_Pre-Constrast.dcm
Project/Patient_1/Post_TACE_MRI_Arterial.dcm
Преобразуйте изображения DICOM в NIfTI формат с помощью программы dcm2niix. Следующие команды преобразует все .dcm изображения в указанной папке. Повторите для всех пациентов.
dcm2niix проект/Patient_1 /
dcm2niix проект/Patient_2 /
Загрузите каждый файл NIfTI в Python.
Импорт nibabel
изображение = nibabel.load('Project/Patient_1/Pre_TACE_MRI_Pre-Contrast.dcm')
1. Канонизации ориентации каждого изображения. Это гарантирует, что x, y и z оси являются идентичными, независимо от того, машина, используемая для получения изображения.
  cImage = nibabel.as_closest_canonical(image)
Используйте itk-SNAP (или эквивалентного программного обеспечения пакета) сегмент двоичный печени и опухоли маски для каждого изображения.
Project/Patient_1/Pre_TACE_MRI_Pre-Contrast_Liver_Mask.bin
Project/Patient_1/Pre_TACE_MRI_Pre-Contrast_Tumor_Mask.bin
Читайте маски печень и опухоли в Python. В приведенном ниже коде показано, как исправить проблемы ориентации для того, чтобы ориентировать маски вдоль оси же каноническое как изображения МРТ.
Импорт numpy как np
с открытыми (liver_mask_file, 'РБ') как f:
liver_mask = f.read()
liver_mask = np.fromstring (liver_mask, dtype = 'uint8')
liver_mask = np.reshape (liver_mask, diff.shape, порядок = 'F')
liver_mask = liver_mask [:,:: -1:]
liver_mask [liver_mask > 0] = 1
1. Используйте маски печень и опухоли изолировать вокселей, содержащих печень и опухоли.
  печень = np.copy(cImage)
  печени [liver_mask < = 0] = 0
Вычислите среднее повышение печени функция.
mean_liver_enhancement = mean(liver)
1. Вычислите функцию печени тома.
  pixdim = cImage.header['pixdim']
  единиц = pre.header['xyzt_units']
  DX, dy, dz = pre_pixdim [1:4]
  liver_volume = length(liver) * dx * dx * dz
2. (Необязательно) Рассчитайте дополнительные функции, как хотелось.
Обновление файла пациент специфические функции с функциями изображения.
Project/Patient_1/Features.txt:
67 лет
мужчины секс
Альбумин 3.1
цирротической нет
hepatitis_c нет
pre_tace_mean_liver_enhancement 78
pre_tace_liver_volume 10000
1. Расчета медианных значений для каждой функции визуализации и Бинаризация как шаг 2.2.2.
  Project/Patient_1/Binary_Features.txt:
  age_over_60 0
  male_sex 1
  albumin_less_than_3.5 1
  presence_of_cirrhosis 0
  hepatitis_c 0
  pre_tace_mean_liver_enhancement 1
  pre_tace_liver_volume 0

4. есть агрегации и сокращения

Примечание: См. шаг 4 дополнительных материалов для примеров кода.

Объединить файлы Binary_Features.txt для каждого пациента в электронную таблицу с пациентами на оси y и функций на оси x.

Пациент	Возраст > 60	Мужского пола	Альбумин < 3.5	Присутствие цирроза	Гепатит C настоящего	значит печени повышение > 50	печени тома > 20000
1	0	1	1	0	0	1	0
2	1	1	1	0	0	0	0
3	0	1	1	0	1	0	0

Добавьте qEASL результат ответ этикетки как последний столбец.

Пациент	Возраст > 60	Мужского пола	Альбумин < 3.5	Присутствие цирроза	Гепатит C настоящего	значит печени повышение > 50	печени тома > 20000	qEASL ответчика
1	0	1	1	0	0	1	0	1
2	1	1	1	0	0	0	0	1
3	0	1	1	0	1	0	0	0

Экспорт электронной таблицы в файл с разделителями табуляции.
Project/ML_Matrix.tsv:
PatientAge > 60 мужского пола альбумина < 3.5 присутствие цирроз гепатит C настоящей среднее повышение печени > 50 печени тома > 20000 qEASL ответчика
1 0 1 1 0 0 1 0 1
2 1 1 1 0 0 0 0 1
3 0 1 1 0 1 0 0 0

Убрать низким отклонение от рассмотрения.
Импорт numpy как np
импортировать из sklearn.feature_selection VarianceThreshold

# Читать двоичные матрицы.
особенности =]
этикетки =]
для i, L в enumerate(sys.stdin):
Если я == 0
продолжить
n_fs_L = L.strip().split('\t')
Features.append([float(_) _ в n_fs_L[1:-1]])
labels.append(n_fs_L[-1])
X = np.array(features)
y = np.array(labels)

# Для вычисления функции в по крайней мере 20% респондентов и не respnders.
модель = VarianceThreshold (порог = 0,8 * (1 - 0,8))
X_new = model.fit_transform (X, y)
Мужского пола, альбумин < 3.5, наличие цирроз печени и функции печени тома > 2000 были удалены.
Пациент Возраст > 60 Гепатит C настоящего значит печени повышение > 50 qEASL ответчика
1 0 0 1 1
2 1 0 0 1
3 0 1 0 0
Удаление компонентов с низким одномерных ассоциация с результатами. Фильтр только те функции, которые прошли 4.2. Сохранить ceil функций (журнал₂(N)), где N — это число больных. Ceil (журнал₂(3)) = 2.

Импорт математике
импортировать из sklearn.feature_selection SelectKBest
импортировать из sklearn.feature_selection Чи 2

# Читать в матрице двоичного как 4.2.1
...

# Вычисления функции Топ ceil(log2(N)) одномерных ассоциацией.
k = math.ceil(log2(length(y)))
модель = SelectKBest (Чи 2, k = k)
X_new = model.fit_transform (X, y)

Функцию > 60 лет мужского пола был удален из оставшихся функций от 4.2.1.

Пациент	Гепатит C настоящего	значит печени повышение > 50	qEASL ответчика
1	0	1	1
2	0	0	1
3	1	0	0

5. Модель обучения и тестирования

Шаг 5 дополнительных материалов для примеров кода см.

Поезд с использованием двоичных функции матрица от 4.3 модели логистической регрессии.
Импорт математике
импортировать из sklearn.linear_model LogisticRegression

# Читать в матрице двоичного в 4.2 и 4.3.
...

# Для каждого пациента обучить модель на всех других пациентов.
Оценка = 0.0
модели =]
для пациента в len(X):
# Обучить модель на все, но один из пациентов.
train_x = np.array ([_ для i, _ в enumerate(X) если i! = пациента])
train_y = np.array ([_ для i, _ в enumerate(y) если i! = пациента])
модель = LogisticRegression(C=1e15)
Model.Fit (train_x, train_y)

# Тест на левой из пациента.
y_prediction = model.predict(X[patient])
Если y_prediction == y [пациент]:
Оценка += 1
Models.append(Model)
Поезд модель случайных леса с использованием двоичных функции матрица от 4.2.2. Шаги идентичны 5.2.1, за исключением экземпляра модели должны быть обновлены следующим образом:
импортировать из sklearn.ensemble RandomForestClassifier
...
модель = RandomForestClassifier(n_estimators=100)
...
Распечатать Оценка / лен (X) для 5.1 и 5.2. Это представляет собой средняя точность всех моделей логистической регрессии и все модели случайных лесных, соответственно. Все модели N должны применяться к новым пациентам с средняя классификации, как результат прогноза

Результаты

Предложенный метод был применен к 36 пациенты, перенесшие транс артериальная Лечение гепатоцеллюлярной карциномы. Были определены особенности двадцать пять и binarized используя шаги 1-5. Пять компонентов удовлетворяющие дисперсии и одномерных ассоциации фильтры (см. шаги...

Обсуждение

Пациентов с гепатоцеллюлярной карциномы, которые не являются кандидатами для хирургической резекции предлагаются внутри артериальной терапии. Некоторые методы существуют, чтобы определить, если пациент будет отвечать pre-лечение. Методы оценки после лечения зависят от изменения ...

Раскрытие информации

А.а. работает как программное обеспечение консультации для здоровья верности, Inc., которая использует аналогичные машины, обучения методам на клинические примечания для оптимизации возмещения медицинских расходов.

J.F.G. получает персональный сборы от Guerbet здравоохранения, BTG, порог Фармацевтика (Сан-Франциско, Калифорния), Бостонский научная и Terumo (Элктон, Мэриленд); и есть платные консультации для предвидения Labs (Вестпорт, Коннектикут).

Ни одна из другие авторы определили конфликт интересов.

Благодарности

А.а. получил финансовую поддержку от управления студенческих исследований, Йельской школы медицины.

L.J.S. получает субсидии от национальных институтов здоровья (NIH/NCI R01CA206180), Леопольдина докторантура стипендий и Фондом Гюнтер W. Рольф радиационной наук (Аахен, Германия).

Ж.к. получает субсидии от национальных институтов здоровья (NIH/NCI R01CA206180), Philips Healthcare и немецко-израильский фонд для научных исследований и разработок (Иерусалим, Израиль и Neuherberg, Германия); и стипендии от Фонда Гюнтер W. Рольф радиационной наук и Шарите Берлин институт здравоохранения клинической ученый программа (Берлин, Германия).

Дж.С.Д. и м.л. получать гранты от национальных институтов здоровья (NIH/NCI R01CA206180) и Philips Healthcare (лучший, Нидерланды).

J.F.G. получает субсидии от национальных институтов здоровья (NIH/NCI R01CA206180), Philips Healthcare, BTG (Лондон, Соединенное Королевство), Бостонский научная (Мальборо, Массачусетс) и Guerbet Healthcare (Вильпент, Франция)

Материалы

Name	Company	Catalog Number	Comments
Computer workstation	N/A	N/A	Intel Core 2 Duo or higher CPU at 2.0 GHz; 4 GB or more system memory; POSIX-compliant operating system (Linux or Mac OS) or Microsoft Windows 7; User permissions for executing programs and saving files
Anaconda Python 3	Anaconda, Inc.	Version 3.6	Python 3 system and libraries packaged for scientists and researchers
DICOM to NIfTI	NeuroImaging Tools & Resources Collaboratory	Version 1.0 (4/4/2018 release)	Standalone program for converting DICOM imaging files to NIfTI format
Sublime Text Editor	Sublime HQ Pty Ltd	Version 3 (Build 3143)	Text-editor for writing Python code
Required Python Libraries	N/A	Version 3.2.25 (nltk) Version 0.19.1 (scikit-learn)	Natural Language Toolkit (nltk) Scikit-learn
ITK-SNAP	N/A	Version 3.6.0	Optional toolkit for performing segmentation of organ systems in medical images.