우리의 연구 초점은 미생물 단백질을 검출 및 정량화하고 임상 질병에서 미생물 단백질의 역할을 이해하는 것이었습니다. 이 연구 분야를 임상 메타단백질체학(clinical metaproteomics)이라고 합니다. 이 연구에서는 연구자들이 박테리아 활동이 질병 진행에 어떤 영향을 미칠 수 있는지 이해할 수 있도록 생물정보학 워크플로우를 개발했습니다.
임상 샘플의 메타단백질체학 분석은 질량 분석 데이터에서 민감하고 정확한 미생물 펩타이드 및 단백질 식별을 위한 초대형 단백질 염기서열 데이터베이스를 처리하는 것 외에도 정량화된 펩타이드 및 단백질의 분류학적 및 기능적 주석을 수행하여 결과의 생물학적 해석을 가능하게 하는 등 수많은 과제를 안고 있습니다. 워크플로우는 데이터베이스 축소 워크플로우를 사용한 데이터베이스 축소, 여러 검색 알고리즘을 사용하여 미생물 펩타이드를 검색하는 기능, 질량 분석 데이터에서 검출된 미생물 펩타이드를 검증하는 기능, 숙주 단백질과 함께 미생물 단백질을 정량화하는 기능, 통계 및 시각적 분석을 사용한 데이터의 생물학적 해석 등 여러 가지 이점을 제공합니다. 우리는 COVID-19 팬데믹 파동 동안 동시 감염 상태를 연구하기 위해 낭포성 섬유증 질환 진행 연구를 위한 미생물 펩타이드 패널을 식별하기 위해 임상 메타단백질체학 워크플로우를 활용했습니다.
이러한 연구는 동료 심사 학술지에 발표되었습니다. 우리는 현재 난소암에 대한 예측 표적 펩타이드 패널을 개발하기 위한 진행 중인 연구에 이 워크플로우를 사용하고 있습니다. Galaxy P 팀은 다중유전체학 연구에 참여하고 있으며, 단백질유전체학 및 전이단백질체학 분석을 위한 몇 가지 고급 워크플로우를 개발하고 있습니다.
우리는 또한 면역펩티도믹스를 위한 워크플로우를 개발하기 위해 노력하고 있으며, 이를 통해 연구자들은 면역 체계에 나타나는 펩타이드를 검출하고 특성화할 수 있으며, 일부는 암 진행 중에 신생항원이라고 하며, 또한 이러한 펩타이드가 미생물 펩타이드일 수 있는 다른 질병에 대해서도 검출하고 특성화할 수 있습니다. 시작하려면 질병 또는 관심 상태와 관련된 종 목록을 얻으십시오. Species라는 제목의 종 목록 파일을 사용합니다.
tabular"를 UniProt의 입력으로 사용합니다. 단백질체를 FASTA 형식으로 다운로드하여 단백질 염기서열 데이터베이스를 생성합니다. 단백질 데이터베이스 다운로더를 실행하여 두 개의 추가 단백질 염기서열 데이터베이스, 즉 검토된 항목만 포함하는 human Swiss-Prot 데이터베이스와 외래 단백질의 공통 저장소(cRAP)가 포함된 오염 단백질 데이터베이스를 생성합니다.
3개의 단백질 데이터베이스를 FASTA 병합 파일의 입력으로 사용하고 고유한 염기서열을 필터링하여 중복을 제외합니다. 생성된 대규모 데이터베이스 및 질량 분석 데이터 세트를 입력으로 사용하여 MetaNovo를 실행하여 감소된 단백질 염기서열 데이터베이스를 생성한 다음 FASTA 병합 파일을 실행하고 MetaNovo 생성 데이터베이스, human Swiss-Prot 및 cRAP 데이터베이스에서 고유한 염기서열을 필터링하여 펩타이드 검출을 위한 미생물, 인간 및 오염 단백질 염기서열을 포함하는 감소된 표적 데이터베이스를 생성합니다. "Search GUI"를 실행하여 펩타이드 스펙트럼 일치 또는 PSM을 포함하는 아카이브 파일을 생성합니다.
Search GUI"archive file as input for Peptide-Shaker"를 사용하여 PSM, 펩타이드 및 단백질 보고서를 생성합니다. MaxQuant"를 실행하여 단백질 그룹 및 펩타이드 파일을 생성합니다. 텍스트 조작 도구를 사용하여 Search GUI, Peptide-Shaker" 및 MaxQuant에서 얻은 출력을 구성합니다.
두 펩타이드 목록을 SGPS-MQ-Peptides.tabular라는 레이블이 지정된 단일 데이터 세트로 연결합니다. 연결된 펩타이드 목록을 그룹화하여 중복 펩타이드 염기서열을 제거하고 고유한 미생물 펩타이드의 최종 목록을 얻습니다. PepQuery2 검증을 위해 별개의 미생물 펩타이드 목록, MS 스펙트럼 데이터 세트, 동형이 있는 human UniProt 참조 데이터베이스 및 오염 단백질 염기서열 데이터베이스를 입력합니다.
Search GUI, Peptide-Shaker 및 MaxQuant의 펩타이드 보고서에서 Cut"을 실행하여 펩타이드 염기서열 및 관련 단백질 항목을 추출합니다. 두 프로그램의 펩타이드 서열과 단백질 항목을 연결하여 새로운 결합 펩타이드 단백질 데이터 세트를 생성한 다음, 결합된 펩타이드 단백질 데이터 세트와 검증된 펩타이드에 대해 쿼리 표"를 실행하여 확인된 각 펩타이드를 관련 단백질 엔트리에 할당합니다. 검증된 고유한 펩타이드 및 관련 UniProt ID를 유지하기 위해 그룹화합니다.
그런 다음 Query Tabular"를 실행하여 UniProt ID를 추출하고 검증된 Peptides.tabular에서 Uniprot-ID라는 레이블이 지정된 목록을 생성합니다. UniProt ID를 UniProt에 업로드하여 관련 단백질 염기서열을 검색하고 새 UniProt FASTA 파일로 저장합니다. 새로 생성된 UniProt FASTA와 동형이 있는 human UniProt 데이터베이스 및 cRAP 오염 물질 데이터베이스에서 FASTA 병합 파일을 실행하고 고유한 염기서열을 필터링하여 펩타이드 정량을 위한 검증된 데이터베이스를 생성합니다.
검증된 단백질 염기서열 데이터베이스와 MS 데이터 세트를 MaxQuant의 입력으로 사용합니다. MaxQuant"펩타이드 파일에서 미생물 펩타이드만 선택하고 Cut"을 실행하여 선택 파일에서 미생물 펩타이드 염기서열만 추출합니다. Cut" 파일을 그룹화하여 정량화된 미생물 펩타이드 목록을 컴파일합니다.
list-of-quantified-microbial-peptides 파일을 Unipept의 입력으로 사용하여 분류 및 기능 주석을 수행합니다. Unipept 출력, 특히 미생물 분류 트리와 미생물 효소 커미션 단백질 트리를 추출합니다. 미생물 분류 체계 및 EC 단백질 트리를 보려면 데이터 세트를 선택하고 옵션을 엽니다.
Visualize(시각화)를 클릭한 다음 Unipept Taxonomy Viewer(Unipept 분류 뷰어)를 클릭합니다. 테이블 형식의 분류 및 기능 주석을 보려면 Unipept_peptinfo라는 테이블 형식 데이터 집합의 눈 아이콘을 클릭합니다. 스크롤하여 각 펩타이드를 자체 행과 해당 정보 열에서 검토합니다.
MSstatsTMT로 통계 분석을 수행하기 전에 MaxQuant" 단백질 그룹 파일에서 Select"를 실행하여 미생물 및 인간 단백질에 대한 별도의 데이터 세트를 생성합니다. 이러한 단백질에는 출처를 나타내는 분류 태그가 포함되어 있습니다. 태그 con_로 표시된 모든 오염 단백질을 제외합니다.
_9laco"와 같은 태그가 있는 미생물 단백질과 _human Microbial_Proteins"" 및 Human_Proteins" 태그가 있는 인간 단백질만 각각 "표 형식으로 유지합니다. 마지막으로 MSstatsTMT를 사용하여 MaxQuant"evidence 파일과 선택한 미생물 또는 인간 단백질로 통계 분석을 수행합니다. 눈 아이콘을 클릭하면 결과 플롯을 볼 수 있습니다.
총 2, 595, 745개의 단백질 염기서열을 하나의 포괄적인 데이터베이스로 컴파일한 다음, 효과적인 펩타이드 동정을 위해 21, 289개의 단백질 염기서열을 포함하는 보다 표적화된 데이터베이스로 축소하였습니다. Search GUI, Peptide-Shaker" 및 MaxQuant를 사용하여 196개의 고유한 미생물 펩타이드를 식별했습니다. PepQuery2는 73개의 단백질 염기서열에 연결된 134개의 미생물 펩타이드를 확인하여 정량화를 위한 검증된 데이터베이스를 형성했습니다.
MaxQuant" 분석은 155개의 정량화된 미생물 펩타이드와 함께 3,203개의 펩타이드를 포함하는 펩타이드 파일을 제공했습니다. Unipept 분석은 lactobacillus를 가장 풍부한 속으로, class 2 transferases를 155개의 정량화된 미생물 펩타이드 중에서 가장 널리 퍼진 효소 범주로 밝혔습니다. MSstatsTMT" 분석은 차등적으로 발현된 단백질을 보여주는 화산 및 비교 플롯을 생성했으며, 이는 3개의 락토바실러스 단백질이 난소암 사례와 양성 사례에서 하향 조절되었음을 보여주었습니다.