首先,通过打开新的终端窗口并键入 Jupyter Notebook 来启动新的 Jupyter Notebook 会话。然后按 Enter 键。在 Jupyter Notebook 主页上,选择标题为 M01 表达式数据预处理的笔记本。
ipynb 在新的浏览器选项卡中打开它。此笔记本将对输入数据进行规范化和缩放,处理缺失数据,并删除异常值。在笔记本的第二个单元格中,替换占位符your_dataset_name。
csv 替换为数据集文件的实际名称。在笔记本的最后一个单元格中,替换M01_output_data。csv 替换为输出数据文件的首选名称。
对于每种数据类型(如蛋白质组学、代谢组学、连续临床数据和二进制临床数据),请使用第四个单元格中的命令确定与第一列和最后一列对应的索引。检查色谱柱名称,找到蛋白质组学数据、代谢组学数据、临床数据对应的色谱柱。通过将 col_start 和 col_end 替换为每种数据类型的第一列和最后一列索引,指定第五个单元格中不同数据类型的列位置。
选择“单元格”,然后从 Jupyter 的菜单栏中选择“全部运行”,以在指定文件夹中创建输出数据文件。