Pour commencer, sur la page d’accueil du bloc-notes Jupyter, cliquez sur l’optimisation du modèle M02-DeepOmicsAE. ipynb notebook pour l’ouvrir dans un nouvel onglet. Dans la deuxième cellule du bloc-notes, tapez le nom du fichier de sortie généré lors du prétraitement des données à la place de M01_output_data.csv.
Dans la cinquième cellule, spécifiez les positions des colonnes pour différents types de données, telles que les données protéomiques, les données métabolomiques, les données cliniques et toutes les données d’expression moléculaire. Remplacez col_start et col_end par les index de colonne appropriés pour chaque type de données. Spécifiez le nom de la colonne contenant la variable cible à la place de y_column_name comme y_label.
Dans la sixième cellule, définissez le nombre de tours pour l’optimisation du modèle en attribuant une valeur à n_comb. D’autres cycles d’optimisation permettront d’affiner les paramètres du modèle et d’améliorer les performances du modèle, mais nous augmenterons également le temps de traitement. Exécutez le bloc-notes en sélectionnant Cellule, puis Exécuter tout dans la barre de menus.
Pour implémenter le workflow, cliquez sur l’implémentation M03a-DeepOmicsAE avec des paramètres optimisés personnalisés. ipynb notebook sur la page d’accueil du notebook Jupyter. Dans la deuxième cellule du bloc-notes, tapez le nom du fichier de sortie généré lors du prétraitement des données à la place de M01_output_data.csv.
Dans la cinquième cellule, spécifiez les positions des colonnes pour différents types de données, telles que les données protéomiques, les données métabolomiques, les données cliniques et toutes les données d’expression moléculaire. Remplacez col_start et col_end par les index de colonne appropriés pour chaque type de données. Spécifiez le nom de la colonne contenant la variable cible à la place de y_column_name comme y_label.
Sélectionnez Cellule, puis Exécuter tout dans la barre de menus. Les tracés PCA et la distribution des scores de caractéristiques importants seront automatiquement enregistrés dans le dossier local. Les listes des caractéristiques importantes pour chaque module de signalisation identifié seront également stockées sous forme de fichiers texte dans le dossier local portant les noms module_n.txt.
Pour implémenter le workflow avec des paramètres prédéfinis, cliquez sur l’implémentation M03b-DeepOmicsAE avec des paramètres prédéfinis. ipynb notebook sur la page d’accueil du notebook Jupyter. Suivez ensuite la même procédure.
Notez que les paramètres kprot, kmet et latent dans la septième cellule des notebooks sont calculés automatiquement dans le script en fonction des résultats des cycles d’optimisation précédents. Les données protéome, métabolome et cliniques de 142 échantillons de cerveau humain post-mortem provenant de personnes en bonne santé ou diagnostiquées avec la maladie d’Alzheimer ont été analysées à l’aide de ce flux de travail basé sur un modèle d’auto-encodeur d’apprentissage profond pour extraire un ensemble concis de caractéristiques à partir des données d’entrée multi-omiques de grande dimension. Les résultats de l’optimisation des paramètres du modèle montrent que la sélection d’un petit nombre de caractéristiques protéomiques et métabolomiques à utiliser comme entrée pour le modèle permet un degré plus élevé de séparation entre les patients sains et les patients atteints de la maladie d’Alzheimer.
Alors que le nombre de neurones dans la couche latente n’a pas eu d’impact majeur sur les performances du modèle. En utilisant les paramètres optimaux, un petit ensemble de caractéristiques résumant les données d’entrée, appelées caractéristiques extraites, a été extrait de la couche latente du modèle d’auto-encodeur. L’analyse PCA a montré que les groupes de diagnostic étaient séparés par les caractéristiques extraites.
Cependant, les groupes ne se distinguaient pas bien par les caractéristiques originales, ce qui indique que les caractéristiques extraites capturent les informations cruciales pour déterminer l’état de la maladie.