Создание представления транскрипционной регуляции транскриптомных признаков для задачи прогнозирования и обнаружения темных биомаркеров на небольших наборах данных

Kewei Li; Yusi Fan; Yaqing Liu; Hongmei Liu; Gongyou Zhang; Meiyu Duan; Lan Huang; Fengfeng Zhou

doi:10.3791/66030

АВТОРЫ

СВЯЖИТЕСЬ С НАМИ

Войдите в систему

Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.

Method Article

Создание представления транскрипционной регуляции транскриптомных признаков для задачи прогнозирования и обнаружения темных биомаркеров на небольших наборах данных

DOI:

10.3791/66030

⸱

March 1st, 2024

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Please note that all translations are automatically generated. Click here for the English version.

Резюме

Здесь мы представляем протокол для преобразования транскриптомных данных в представление mqTrans, позволяющий идентифицировать темные биомаркеры. Несмотря на то, что эти биомаркеры не экспрессируются дифференциально в обычном транскриптомном анализе, они демонстрируют дифференциальную экспрессию в представлении mqTrans. Этот подход служит дополнением к традиционным методам, выявляя ранее упущенные биомаркеры.

Аннотация

Транскриптом представляет собой уровни экспрессии многих генов в образце и широко используется в биологических исследованиях и клинической практике. Исследователи обычно сосредотачивались на транскриптомных биомаркерах с дифференциальными представлениями между фенотипической группой и контрольной группой образцов. В этом исследовании была представлена многозадачная структура обучения сети графового внимания (GAT) для изучения сложных межгенных взаимодействий эталонных образцов. Демонстрационная референсная модель была предварительно обучена на здоровых образцах (HealthModel), которая может быть непосредственно использована для создания представления количественной транскрипционной регуляции на основе модели (mqTrans) независимых тестовых транскриптомов. Сгенерированный mqTrans вид транскриптомов был продемонстрирован задачами прогнозирования и детектирования темных биомаркеров. Термин «темный биомаркер» возник из-за его определения, согласно которому темный биомаркер демонстрирует дифференциальное представление в представлении mqTrans, но не дифференциальную экспрессию на исходном уровне экспрессии. Темный биомаркер всегда упускался из виду в традиционных исследованиях обнаружения биомаркеров из-за отсутствия дифференциальной экспрессии. Исходный код и руководство по конвейеру HealthModelPipe можно скачать с http://www.healthinformaticslab.org/supp/resources.php.

Введение

Транскриптом состоит из экспрессии всех генов в образце и может быть профилирован с помощью высокопроизводительных технологий, таких как микрочип и РНК-секвенирование¹. Уровни экспрессии одного гена в наборе данных называются транскриптомным признаком, а дифференциальное представление транскриптомного признака между фенотипом и контрольной группами определяет этот ген как биомаркер этого фенотипа ^2,3. Транскриптомные биомаркеры широко используются в исследованиях диагностики заболеваний⁴, биологического механизма⁵, анализа выживаемости ^6,7 и т.д.

Паттерны активности генов в здоровых тканях несут важнейшую информацию о жизни ^8,9. Эти закономерности дают неоценимую информацию и служат идеальными справочными материалами для понимания сложных траекторий развития доброкачественных заболеваний^10,11 и смертельных заболеваний¹². Гены взаимодействуют друг с другом, и транскриптомы представляют собой конечные уровни экспрессии после их сложных взаимодействий. Такие паттерны формулируются как транскрипционная регуляционная сеть¹³ и метаболическая сеть¹⁴ и др. Экспрессия матричных РНК (мРНК) может транскрипционно регулироваться транскрипционными факторами (ТФ) и длинными межгенными некодирующими РНК (линкРНК)15,16,17. Традиционный анализ дифференциальной экспрессии игнорировал такие сложные взаимодействия генов с предположением о независимости между признаками^18,19.

Недавние достижения в области графовых нейронных сетей (GNN) демонстрируют необычайный потенциал в извлечении важной информации из данных, основанных на OMIC, для исследований^рака20, например, идентификация модулей коэкспрессии²¹. Врожденная способность GNN делает их идеальными для моделирования сложных взаимоотношений и зависимостей между генами^22,23.

Биомедицинские исследования часто сосредоточены на точном прогнозировании фенотипа по сравнению с контрольной группой. Такие задачи обычно формулируются в виде бинарных классификаций 24,25,26. Здесь две метки классов обычно кодируются как 1 и 0, true и false или даже positive и negative²⁷.

Это исследование было направлено на предоставление простого в использовании протокола для создания представления транскрипционной регуляции (mqTrans) набора данных транскриптома на основе предварительно обученной эталонной модели сети графового внимания (GAT). Для преобразования транскриптомных признаков в признаки mqTrans был использован многозадачный фреймворк GAT из ранее опубликованной работы²⁶ . Большой набор данных здоровых транскриптомов из платформы Xena²⁸ Калифорнийского университета в Санта-Крузе (UCSC) был использован для предварительного обучения референсной модели (HealthModel), которая количественно измеряла регуляции транскрипции от регуляторных факторов (ТФ и линкРНК) до целевых мРНК. Сгенерированное представление mqTrans может быть использовано для построения моделей прогнозирования и обнаружения темных биомаркеров. В этом протоколе в качестве иллюстративного примера используется набор данных пациентов с аденокарциномой толстой кишки (COAD) из базы данных²⁹ Атласа генома рака (TCGA). В этом контексте пациенты на I или II стадиях классифицируются как отрицательные образцы, в то время как пациенты на III или IV стадиях считаются положительными образцами. Также сравнивается распределение темновых и традиционных биомаркеров по 26 типам рака TCGA.

Описание конвейера HealthModel
Методология, используемая в этом протоколе, основана на ранее опубликованной структуре²⁶, как показано на рисунке 1. Для начала пользователям необходимо подготовить входной набор данных, передать его в предлагаемый конвейер HealthModel и получить функции mqTrans. Подробные инструкции по подготовке данных приведены в разделе 2 раздела протокола. После этого у пользователей есть возможность комбинировать признаки mqTrans с исходными транскриптомными признаками или продолжать только с сгенерированными признаками mqTrans. Затем полученный набор данных подвергается процессу выбора признаков, при этом пользователи могут выбрать предпочтительное значение для k в k-кратной перекрестной проверке для классификации. Основным оценочным показателем, используемым в этом протоколе, является точность.

HealthModel²⁶ классифицирует транскриптомные признаки по трем отдельным группам: TF (транскрипционный фактор), lincRNA (длинная межгенная некодирующая РНК) и mRNA (матричная РНК). Признаки TF определяются на основе аннотаций, доступных в Атласе белков человека^30,31. В данной работе используются аннотации линкРНК из набора данных GTEx³². Гены, принадлежащие к путям третьего уровня в базе данных KEGG³³, рассматриваются как признаки мРНК. Стоит отметить, что если признак мРНК проявляет регуляторную роль для гена-мишени, как это задокументировано в базе данных TRRUST³⁴, он реклассифицируется в класс TF.

Этот протокол также вручную генерирует два файла примеров для идентификаторов генов регуляторных факторов (regulatory_geneIDs.csv) и мРНК-мишеней (target_geneIDs.csv). Матрица попарных расстояний между регуляторными признаками (ТФ и линкРНК) вычисляется с помощью коэффициентов корреляции Пирсона и кластеризуется с помощью популярного инструментального взвешенного сетевого анализа генной коэкспрессии (WGCNA)³⁶ (adjacent_matrix.csv). Пользователи могут напрямую использовать конвейер HealthModel вместе с этими примерами файлов конфигурации для создания представления mqTrans набора транскриптомных данных.

Технические характеристики HealthModel
HealthModel представляет сложные взаимосвязи между ТФ и линкРНК в виде графа, где входные объекты служат вершинами, обозначенными V , и матрицей межвершинных ребер, обозначенной как E. Каждый образец характеризуется К-регуляторными признаками, обозначаемыми как V^K×1. В частности, набор данных включал 425 ТФ и 375 линкРНК, в результате чего размерность выборки составила K = 425 + 375 = 800. Для установления матрицы кромок E в этой работе использовался популярный инструмент WGCNA³⁵. Попарный вес, связывающий две вершины, представленные как figure-introduction-7402 и figure-introduction-7493 , определяется коэффициентом корреляции Пирсона. Генная регуляторная сеть имеет безмасштабную топологию³⁶, характеризующуюся присутствием генов-концентраторов с ключевыми функциональными ролями. Мы вычисляем корреляцию между двумя объектами или вершинами, figure-introduction-7861 и figure-introduction-7952 , используя меру топологического перекрытия (TOM) следующим образом:

figure-introduction-8137 (1)

figure-introduction-8257 (2)

Мягкий пороговый β вычисляется с помощью функции 'pickSoft Threshold' из пакета WGCNA. Применяется степенная экспоненциальная функция _{a ij}, где figure-introduction-8550 представляет ген, исключая i и j, и figure-introduction-8693 представляет связность вершин. WGCNA кластеризует профили экспрессии транскриптомных признаков в несколько модулей, используя широко используемую меру несходства ( figure-introduction-8945 ³⁷.

Фреймворк HealthModel изначально разрабатывался как многозадачная архитектура обучения²⁶. Этот протокол использует только задачу предварительного обучения модели для построения транскриптомного представления mqTrans. Пользователь может дополнительно усовершенствовать предварительно обученную модель HealthModel в многозадачной графовой сети внимания с помощью дополнительных транскриптомных образцов, специфичных для конкретной задачи.

Технические сведения о выборе и классификации функций
Пул выбора признаков реализует одиннадцать алгоритмов выбора признаков (FS). Среди них три алгоритма ФС на основе фильтров: выбор K лучших признаков с использованием максимального коэффициента информации (SK_mic), выбор K признаков на основе FPR MIC (SK_fpr) и выбор K объектов с наибольшим уровнем ложного обнаружения MIC (SK_fdr). Кроме того, три древовидных алгоритма ФС оценивают отдельные признаки с помощью дерева решений с индексом Джини (DT_gini), адаптивного дерева решений (AdaBoost) и случайного леса (RF_fs). Пул также включает в себя два метода-оболочки: рекурсивное исключение признаков с помощью классификатора линейных опорных векторов (RFE_SVC) и рекурсивное исключение признаков с классификатором логистической регрессии (RFE_LR). Наконец, включены два алгоритма внедрения: линейный классификатор SVC с самыми ранжированными значениями важности признаков L1 (lSVC_L1) и классификатор логистической регрессии с самыми ранжированными значениями важности признаков L1 (LR_L1).

Пул классификаторов использует семь различных классификаторов для построения моделей классификации. Эти классификаторы включают в себя линейный метод опорных векторов (SVC), наивный байесовский метод Гаусса (GNB), классификатор логистической регрессии (LR), k-ближайшего соседа, с k, установленным в 5 по умолчанию (KNN), XGBoost, случайный лес (RF) и дерево решений (DT).

Случайное разбиение датасета на обучающие: тестовые подмножества можно задать в командной строке. В приведенном примере используется соотношение train: test = 8:2.

Access restricted. Please log in or start a trial to view this content.

протокол

ПРИМЕЧАНИЕ: Следующий протокол описывает детали аналитической процедуры информатики и команд Python основных модулей. На рисунке 2 показаны три основных шага с примерами команд, используемых в этом протоколе, и ссылки на ранее опубликованные работы^26,38 для получения более подробной технической информации. Выполните следующие действия по следующему протоколу под обычной учетной записью пользователя в компьютерной системе и избегайте использования учетной записи администратора или root. Это вычислительный протокол, в котором отсутствуют биомедицинские опасные факторы.

1. Подготовьте среду Python

Создайте виртуальную среду.
1. В этом исследовании использовался язык программирования Python и виртуальная среда Python (VE) с Python 3.7. Выполните следующие действия (Рисунок 3A):
  conda create -n healthmodel python=3.7
  conda create - это команда для создания нового VE. Параметр -n указывает имя новой среды, в данном случае healthmodel. А python=3.7 указывает устанавливаемую версию Python. Выберите любое предпочтительное имя и версию Python, поддерживающую приведенную выше команду.
2. После выполнения команды результат будет аналогичен рисунку 3B. Введите y и дождитесь завершения процесса.
Активация виртуальной среды
1. В большинстве случаев активируйте созданную VE следующей командой (рисунок 3C):
  Conda Активация HealthModel
2. Следуйте инструкциям для активации VE для конкретной платформы, если некоторые платформы требуют, чтобы пользователь загрузил файлы конфигурации для конкретной платформы для активации.
Установка PyTorch 1.13.1
1. PyTorch — это популярный пакет Python для алгоритмов искусственного интеллекта (ИИ). В качестве примера используйте PyTorch 1.13.1 на основе платформы программирования графического процессора CUDA 11.7. Другие версии можно найти на https://pytorch.org/get-started/previous-versions/. Используйте следующую команду (рисунок 3D):
  PIP3 Установить фонарик TorchVision TorchAudio
  ПРИМЕЧАНИЕ: Настоятельно рекомендуется использовать PyTorch версии 1.12 или более поздней. В противном случае установка необходимого пакета torch_geometric может быть сложной задачей, как отмечено на официальном сайте torch_geometric: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
Установка дополнительных пакетов для резака-геометрии
1. Следуя рекомендациям, приведенным в https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html, установите следующие пакеты: torch_scatter, torch_sparse, torch_cluster и torch_spline_conv с помощью команды (рисунок 3E):
  pip install pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
Установите пакет torch-geometric .
1. Для этого исследования требуется специальная версия 2.2.0 пакета факел-геометрия . Выполните команду (рисунок 3F):
  pip install torch_geometric==2.2.0
Установите другие пакеты.
1. Такие пакеты, как pandas, обычно доступны по умолчанию. Если нет, установите их с помощью команды pip. Например, чтобы установить pandas и xgboost, выполните:
  pip install pandas
  pip install xgboost

2. Использование предварительно обученной модели HealthModel для генерации признаков mqTrans

Скачайте код и предварительно обученную модель.
1. Загрузите код и предварительно обученную модель HealthModel с веб-сайта: http://www.healthinformaticslab.org/supp/resources.php, который называется HealthModel-mqTrans-v1-00.tar.gz (рисунок 4A). Загруженный файл можно распаковать по указанному пользователем пути. Подробную формулировку и вспомогательные данные внедренного протокола можно найти в²⁶.
Введите параметры для запуска HealthModel.
1. Во-первых, измените рабочий каталог на папку HealthModel-mqTrans в командной строке. Используйте следующий синтаксис для выполнения кода:
  python main.py <папка данных> <папка модели> <выходная папка>
  Ниже приведены подробные сведения о каждом параметре, а также о папках данных, модели и выходных данных.
  Папка данных: Это папка исходных данных, и каждый файл данных имеет формат csv. Эта папка данных содержит два файла (см. подробное описание в шагах 2.3 и 2.4). Эти файлы должны быть заменены персональными данными.
  data.csv: Файл транскриптомной матрицы. В первой строке перечислены идентификаторы признаков (или генов), а в первом столбце — идентификаторы образцов. Список генов включает регуляторные факторы (ТФ и линкРНК), а также регулируемые гены мРНК.
  label.csv: образец файла этикетки. В первом столбце перечислены идентификаторы образцов, а в столбце с именем "label" указан образец метки.
  model folder: Папка для сохранения информации о модели:
  HealthModel.pth: предварительно обученная модель HealthModel.
  regulatory_geneIDs.csv: Идентификаторы регуляторных генов, использованные в этом исследовании.
  target_geneIDs.csv: Гены-мишени, используемые в этом исследовании.
  adjacent_matrix.csv: Соседняя матрица регуляторных генов.
  Выходная папка: Выходные файлы записываются в эту папку, созданную кодом.
  test_target.csv: Значение экспрессии генов-мишеней после Z-нормализации и импутации.
  pred_target.csv: Прогнозируемое значение экспрессии генов-мишеней.
  mq_target.csv: Прогнозируемое значение экспрессии генов-мишеней.
Подготовьте файл транскриптомной матрицы в формате csv.
1. Каждая строка представляет выборку, а каждый столбец — ген (рис. 4B). Назовите файл транскриптомной матрицы как data.csv в папке данных .
  ПРИМЕЧАНИЕ: Этот файл может быть сгенерирован путем ручного сохранения матрицы данных в формате .csv из программного обеспечения, такого как Microsoft Excel. Транскриптомная матрица также может быть сгенерирована с помощью компьютерного программирования.
Подготовьте файл этикетки в формате csv.
1. Как и в случае с файлом транскриптомной матрицы, назовите файл меток как label.csv в папке данных (рисунок 4C).
  ПРИМЕЧАНИЕ: В первом столбце приведены имена образцов, а метка класса каждого образца указана в столбце label. Значение 0 в столбце метки означает, что эта выборка отрицательная, 1 означает положительную выборку.
Сгенерируйте объекты mqTrans.
1. Выполните следующую команду, чтобы сгенерировать объекты mqTrans и получить выходные данные, показанные на рисунке 4D. Функции mqTrans генерируются в виде файла ./output/mq_targets.csv, а файл меток пересохраняется как файл ./output/label.csv. Для удобства дальнейшего анализа исходные значения экспрессии генов мРНК также извлекаются в виде файла ./output/ test_target.csv.
  python ./Get_mqTrans/code/main.py ./data ./Get_mqTrans/model ./output

3. Выберите функции mqTrans

Синтаксис кода выбора признаков
1. Во-первых, измените рабочий каталог на папку HealthModel-mqTrans . Используйте следующий синтаксис:
  python ./FS_classification/testMain.py
  Подробная информация о каждом параметре приведена ниже:
  in-data-file: Файл входных данных
  in-label-file: Метка файла входных данных
  Выходная папка: В этой папке сохраняются два выходных файла, в том числе Output-score.xlsx (метод выбора признаков и точность соответствующего классификатора) и Output-SelectedFeatures.xlsx (выбранные имена объектов для каждого алгоритма выбора признаков).
  1. select_feature_number: выберите количество объектов в диапазоне от 1 до количества объектов файла данных.
  2. test_size: Задайте соотношение испытуемого образца к разделению. Например, 0,2 означает, что входной набор данных случайным образом разбивается на тестовые подмножества train: в соотношении 0,8:0,2.
  3. combine: Если true, объединять два файла данных для выбора признаков, т.е. исходные значения выражений и объекты mqTrans. Если false, то для выбора признаков используется только один файл данных, т.е. исходные значения выражения или функции mqTrans.
  4. combine file: Если combine имеет значение true, укажите это имя файла для сохранения объединенной матрицы данных.
    ПРИМЕЧАНИЕ: Этот конвейер предназначен для демонстрации того, как сгенерированные объекты mqTrans работают в задачах классификации, и он напрямую использует файл, сгенерированный разделом 2, для следующих операций.
Запустите алгоритм выбора признаков для выбора признаков mqTrans.
1. Включите combine =False , если пользователь выбирает функции mqTrans или исходные функции.
2. Во-первых, выберите 800 исходных объектов и разделите набор данных на train: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 False
3. Включите combine =True, если пользователь хочет объединить объекты mqTrans с исходными значениями выражения для выбора объектов. Здесь демонстративный пример состоит в том, чтобы выбрать 800 признаков и разбить набор данных на train: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
  ПРИМЕЧАНИЕ: На рисунке 5 показана выходная информация. Дополнительные файлы, необходимые для этого протокола, находятся в папке HealthModel-mqTrans-v1-00.tar (Supplementary Coding File 1).

Access restricted. Please log in or start a trial to view this content.

Результаты

Оценка представления mqTrans транскриптомного набора данных
В тестовом коде используются одиннадцать алгоритмов выбора признаков (FS) и семь классификаторов для оценки того, как сгенерированное mqTrans-представление транскриптомного набора данных вносит вклад в задачу классифик?...

Access restricted. Please log in or start a trial to view this content.

Обсуждение

Раздел 2 (Использование предварительно обученной модели HealthModel для создания функций mqTrans) протокола является наиболее важным шагом в этом протоколе. После подготовки вычислительной рабочей среды в разделе 1, раздел 2 генерирует представление mqTrans транскриптомного набора данных на основ...

Access restricted. Please log in or start a trial to view this content.

Раскрытие информации

Авторам нечего раскрывать.

Благодарности

Эта работа была поддержана Старшей и Младшей группой по технологическим инновациям (20210509055RQ), Научно-техническими проектами провинции Гуйчжоу (ZK2023-297), Научно-техническим фондом Комиссии по здравоохранению провинции Гуйчжоу (gzwkj2023-565), Научно-техническим проектом Департамента образования провинции Цзилинь (JJKH20220245KJ и JJKH20220226SK), Национальным фондом естественных наук Китая (U19A2061), Ключевой лабораторией интеллектуальных вычислений больших данных провинции Цзилинь (20180622002JC) и Фонды фундаментальных исследований для центральных университетов, JLU. Мы выражаем нашу искреннюю признательность редактору обзора и трем анонимным рецензентам за их конструктивную критику, которая сыграла важную роль в существенном повышении строгости и ясности этого протокола.

Access restricted. Please log in or start a trial to view this content.

Материалы

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software