首先将所有多组学输入数据集添加到输入数据文件夹中。在这里,它们包含来自稳定、慢性和急性冠脉综合征患者的数据。要预处理数据,请单击文件夹符号,然后双击mofa_workflow脚本和配置以访问配置文件夹。
双击数据配置 CSV 文件以将其打开。在 value 列中,输入 input data 和 results 文件夹的路径。在 configuration name-value 列中,指定要添加为所有已保存文件的文件扩展名的名称。
要保存更改,请选择 文件 和 保存 CSV 文件 从顶部的菜单中。然后,使用左侧的导航菜单,单击 scripts 以转到 scripts 文件夹。双击 00_Configuration_Update。
ipynb 打开初始化笔记本。要运行脚本,请单击顶部的 Restart Kernel and Run All Cells 按钮,然后单击弹出窗口中的 Restart。要导航到 configurations 文件夹,请双击 configurations。
然后双击 01_Pre_Processing_SC_Data。csv 打开文件。验证自动填充的值,选择 文件 和 保存 CSV 文件 从顶部的菜单中保存更改。
然后使用左侧的导航菜单并单击 scripts 导航到 scripts 文件夹。双击 01_Prepare_Pseudobulk。ipynb 打开笔记本。
要运行脚本,请单击顶部的 Restart Kernel and Run All Cells 按钮,然后单击弹出窗口中的 Restart。要导航到 figures 文件夹,请先双击 figures,然后双击 01_figures。打开新生成的绘图,FIG01_Amount_of_Cells overview。
然后检查该图以识别每个样品中细胞数量非常少的细胞类型簇。记下这些集群 ID 的名称,以便在后续步骤中将其排除。要导航回配置文件夹,请单击点并双击 configurations。
然后打开文件 02_Pre_Processing_Configuration_SC.csv。添加在上一步中标识为排除的所有群集 ID,在 cell_type_exclusion 列中用逗号分隔。要保存更改,请选择 文件 和 保存 CSV 文件 从顶部的菜单中。
现在打开文件02_Pre_Processing_Configuration。CSV,并调整数据输入文件夹中包含和存储的每个数据集的预处理配置。根据需要调整列中的参数,具体取决于应应用的预处理步骤。
通过选择 File (文件) 和 Save CSV File (保存 CSV 文件) 来保存更改。要导航到 scripts 文件夹,请单击 scripts。打开笔记本 02_Integrate_and_Normalize_Data_Sources.ipynb。
点击 重启内核并运行所有单元 顶部的按钮,然后单击 重新启动 在弹出窗口中。接下来,导航到生成的 02_results 文件夹。单击文件夹符号,然后双击结果并02_results。
验证它是否包含文件 02_Combined_Data、配置名称、包含组合预处理数据输入文件的 INTEGRATED CSV。