과학 데이터는 지난 수십 년 동안 점점 더 복잡하고 풍부해졌지만 과학자들은 확장되는 데이터 요구를 더 이상 충족시키지 못하는 조직 방법을 계속 사용하고 있습니다. 이 비디오에 설명된 기술의 주요 장점은 데이터 분석을 위한 유연성을 유지하면서 엄격한 데이터 파이프라인과 스토리지를 제공하는 데이터베이스를 허용한다는 것입니다. 관심 있는 데이터 집합에 대한 평가를 시작하려면 이 표에 표시된 예제 코드 및 데이터베이스를 다운로드합니다.
다음으로 다차원 데이터베이스의 그래픽 표현을 사용하여 관심 데이터 집합이 실제로 다차원인지 평가합니다. 데이터는 데이터베이스 조직의 이점을 위해 두 가지 조건을 충족해야 합니다. 첫째, 데이터는 다차원 형태로 시각화할 수 있어야 합니다.
둘째, 특정 실험 결과를 차원에 공감할 수 있게 됨으로써 더 큰 과학적 통찰력을 얻어야 합니다. 관계형 데이터베이스는 행과 열로 구성된 테이블 형태로 정보를 저장하며 데이터베이스 내에서 식별 정보를 연결하는 데 사용할 수 있습니다. 다차원성은 테이블의 열 및 개별 테이블과 같은 서로 다른 필드를 서로 관련시켜 처리됩니다.
첫째, 데이터 파일을 구성하여 고유한 이름을 잘 생각했습니다. 파일 명명 규칙 및 폴더/하위 폴더 구조의 좋은 방법은 파일에 수동으로 액세스하는 가독성을 손상시키지 않으면서 광범위한 데이터베이스 확장성을 허용합니다. 메타데이터에 따라 일관된 형식과 이름 하위 폴더에 일자 파일을 추가합니다.
데이터베이스 구조가 설계되면 서로 다른 테이블의 필드 간의 관계를 그립니다. 생성된 데이터베이스및 관계를 설명하는 README 설명서를 만듭니다. 이 그림이나 텍스트 기반과 같은 그래픽일 수 있습니다.
서로 다른 테이블 간의 항목이 연결되면 모든 관련 정보가 해당 항목과 관련이 있으며 복잡한 쿼리를 호출하여 원하는 정보로 필터링하는 데 사용할 수 있습니다. 개인의 다른 특성이 해당 개인의 관련 실험 데이터와 관련된 이 예제와 유사한 최종 결과를 만듭니다. 패턴 유형 및 데이터 형식의 관련 열을 통해 기본 DataValue 테이블의 일치하는 항목에 대해 다양한 약기 표기를 설명했습니다.
각 데이터 형식에 대한 일반적인 데이터 저장소 관행과 함께 데이터 수집으로 이어질 수 있는 모든 다양한 실험 및 데이터 분석 방법을 식별합니다. GitHub와 같은 오픈 소스 버전 제어 소프트웨어와 협력하여 사용자 부담을 최소화하면서 필요한 일관성과 버전 제어를 보장합니다. 자동화된 파이프라인을 허용하기 위해 일관된 데이터 명명 및 저장 절차를 만들어야 합니다.
편리한 프로그래밍 언어를 사용하여 데이터베이스에 대한 새 데이터 항목을 생성합니다. 자동화된 데이터 선택을 안내할 수 있는 별도의 파일에 작은 도우미 테이블을 만듭니다. 이러한 파일은 파이프라인에서 작동할 수 있는 가능성의 템플릿역할을 하며 편집이 용이합니다.
데이터 파이프라인에 대한 새 데이터 항목을 생성하려면 이 문서의 보충 파일에 제공되는 예제와 유사한 방식으로 코드를 프로그래밍합니다. 이렇게 하면 도우미 테이블을 사용자가 선택할 입력으로 사용할 수 있습니다. 여기에서 새 항목을 이전 항목과 결합하여 파일 위치의 새 스프레드시트를 어셈블합니다.
여기에 표시되고 추가 파일에 제공된 코드는 이 프로세스를 자동화하는 데 사용할 수 있습니다. 그런 다음 여기에 표시된 코드를 사용하여 병합된 스프레드시트를 사용하여 이 단계를 자동화합니다. 또한 스프레드시트에서 자동화된 방법을 사용하여 오류를 확인하고 사용자에게 이유 및 위치를 알립니다.
또한 컴파일된 데이터베이스를 확인하고 누락된 잘못된 데이터 점을 식별하는 코드를 작성할 수 있습니다. 여기에 표시된 것과 유사한 코드를 사용하여 데이터베이스의 무결성을 잃지 않고 잘못된 점을 수동으로 제거합니다. 데이터 포인트를 더 추가하려면 다음 단계를 반복합니다.
그런 다음 파일 위치를 사용하여 데이터 값 스프레드시트를 생성합니다. 또한 파일 위치를 식별하거나 향후 항목과 병합하기 위해 액세스할 수 있는 항목의 업데이트된 목록을 만듭니다. 데이터베이스 생성을 시작하려면 먼저 빈 데이터베이스 문서를 만들어 셀주, 데이터 유형 및 패턴 유형에 대한 도우미 테이블을 로드합니다.
외부 데이터 메뉴로 이동하여 텍스트 파일 가져오기를 선택하고 찾아보기를 클릭한 다음 원하는 파일을 선택합니다. 가져오기 마법사에서 제한 해제를 선택하고 다음을 공격합니다. 디리미터 유형에 대한 필드 이름과 쉼표가 포함된 첫 번째 행을 선택합니다.
다음을 클릭한 후 기본 필드 옵션을 선택한 다음 기본 키 없음을 선택합니다. 다음을 클릭한 다음 완료합니다. 그런 다음 동일한 단계를 반복하여 데이터 및 패턴 유형을 로드합니다.
다음으로 데이터 값 테이블을 로드합니다. 외부 데이터 메뉴로 이동하여 텍스트 파일 가져오기를 선택하고 찾아보기를 클릭한 다음 원하는 파일을 선택합니다. 가져오기 마법사에서 제한 해제를 선택하고 다음을 공격합니다.
디리미터 유형에 대한 필드 이름과 쉼표가 포함된 첫 번째 행을 선택합니다. 다음을 클릭한 후 기본 필드 옵션을 선택한 다음 액세스 가 기본 키를 추가하도록 선택합니다. 다음을 클릭한 다음 완료합니다.
이제 데이터베이스 도구를 선택하고 관계로 이동하며 모든 테이블을 보드로 드래그하여 관계를 만듭니다. 그런 다음 관계 편집으로 이동하여 새 만들기를 선택합니다. 테이블 과 열 이름을 선택한 다음 도우미 테이블을 가리키는 조인 타이핑을 클릭합니다.
원하는 각 관계를 설정한 후 쿼리 디자인 만들기로 이동하여 모든 관련 테이블을 선택하거나 상단 창으로 드래그합니다. 이 예제에서는 셀주, 데이터 값, 데이터 형식 및 패턴 유형이 표시됩니다. 관계는 이전 관계 설계에 따라 자동으로 설정되어야 합니다.
이제 원하는 결과를 위해 쿼리 열을 작성합니다. 이 데이터 집합의 경우 합계를 표시하고 선택합니다. 여기에 표시된 첫 번째 열, 두 번째 열 및 세 번째 열을 작성합니다.
네 번째 열, 다섯 번째 열 및 여섯 번째 열도 작성합니다. 열을 작성하면 쿼리를 저장하고 실행합니다. 이 샘플 실험 데이터의 경우 Tukey 테스트를 사용하여 분산의 단방향 분석을 사용하여 다양한 조건 간의 평균 비교를 사용하십시오.
수많은 가능한 확인이 주어지면 수동 데이터 집계 방법을 사용하여 새로운 관계가 존재하는 위치를 식별하기 어려울 수 있습니다. 여기서, 여러 조건에 걸친 세포세포 액틴 필라멘트의 조직은 서로 다른 확인으로 데이터베이스를 쿼리하여 방향 순서의 정도를 사용하여 측정되었다. 이방성 및 등위성 데이터 세트는 섬유네틴 마이크로패터닝이 조직 조직에 큰 영향을 미치기 때문에 예상된 매우 다른 OOP를 보여줍니다.
그러나, 등위 위 조직을 비교할 때 돌연변이 상태 조건 사이 유의한 다름이 없었습니다. 반대로, 패턴 조직은 양성 대조군 세포주에서 통계적으로 덜 조직되었다. 이 관계는 데이터가 서로 다른 가족에 의해 집계된 경우에도 유지되었으며 긍정적이고 부정적인 제어가 가능합니다.
필요한 경우 데이터를 더 구문 분석할 수 있습니다. 예를 들어, 여기서 actin OOP는 임상 변수에 대한 응집을 설명하기 위해 돌연변이 상태와 가족에 의해 분리 된 생검 시에 개인의 나이에 대해 플롯되었습니다. 이 데이터 집합에서는 actin 조직과 개인의 나이 사이에는 상관 관계가 없습니다.
이는 동일한 데이터를 서로 다른 조합으로 분석할 수 있는 방법과 여러 클래스에 속하는 데이터를 집계하는 데 일반적으로 어려운 작업이 데이터베이스를 사용하여 얼마나 쉽게 수행할 수 있는지를 보여줍니다. 데이터 조직 파이프라인을 만들고 데이터베이스를 생성하는 이 프로토콜은 대량 데이터 수집 시대에 절대적으로 필수적인 과학적 엄격함을 제공합니다.