시작하려면 새 터미널 창을 열고 Jupyter Notebook을 입력하여 새 Jupyter Notebook 세션을 시작합니다. 그런 다음 Enter 키를 누릅니다. Jupyter Notebook 홈페이지에서 M01 식 데이터 전처리라는 Notebook을 선택합니다.
ipynb를 클릭하여 새 브라우저 탭에서 엽니다. 이 Notebook은 입력 데이터를 정규화 및 확장하고, 누락된 데이터를 처리하고, 이상값을 제거합니다. Notebook의 두 번째 셀에서 자리 표시자 your_dataset_name 바꿉니다.
csv를 데이터 세트 파일의 실제 이름으로 바꿉니다. Notebook의 마지막 셀에서 M01_output_data를 바꿉니다. csv를 출력 데이터 파일의 기본 설정 이름으로 바꿉니다.
단백질체학(proteomics), 대사체학(metabolomics), 연속형 임상 데이터(continuous clinical data), 이진 임상 데이터(binary clinical data)와 같은 각 데이터 유형에 대해 네 번째 셀의 명령을 사용하여 첫 번째 열과 마지막 열에 해당하는 인덱스를 확인합니다. 열 이름을 확인하여 단백질체학 데이터, 대사체학 데이터 및 임상 데이터에 해당하는 열을 찾습니다. 다섯 번째 셀에서 col_start 및 col_end를 각 데이터형의 첫 번째 열 인덱스와 마지막 열 인덱스로 바꿔 서로 다른 데이터형에 대한 열 위치를 지정합니다.
셀을 선택한 다음, Jupyter의 메뉴 모음에서 모두 실행을 선택하여 지정된 폴더에 출력 데이터 파일을 만듭니다.