قواعد البيانات لأداره كفاءه متوسطه الحجم ، والسرعة المنخفضة ، والمعطيات متعددة الابعاد في هندسه الانسجه

Alexander  R. Ochs; Mehrsa Mehrabi; Danielle Becker; Mira  N. Asad; Jing Zhao; Michael  V. Zaragoza; Anna Grosberg

doi:10.3791/60038

A subscription to JoVE is required to view this content. Sign in or start your free trial.

Summary

ويولد العديد من الباحثين بيانات "متوسطه الحجم" ، ومنخفضه السرعة ، ومتعددة الابعاد ، والتي يمكن ادارتها بكفاءة أكبر باستخدام قواعد بيانات بدلا من جداول للبيانات. هنا نقدم نظره عامه مفاهيمية لقواعد البيانات بما في ذلك تصور المعطيات متعددة الابعاد وربط الجداول في هياكل قاعده البيانات العلائقية وتخطيط خطوط أنابيب البيانات شبه المؤتمتة واستخدام قاعده بيانات لتوضيح معني البيانات.

Abstract

يعتمد العلم علي مجموعات البيانات المعقدة بشكل متزايد من أجل التقدم ، ولكن أساليب أداره البيانات الشائعة مثل برامج الجداول الكترونيه غير كافيه لزيادة حجم هذه المعلومات وتعقيدها. وفي حين ان نظم أداره قواعد البيانات لديها القدرة علي تصحيح هذه المسائل ، فانها لا تستخدم عاده خارج مجالات الاعمال التجارية والمعلوماتية. ومع ذلك ، فان العديد من مختبرات البحوث تولد بالفعل "متوسطه الحجم" ، والسرعة المنخفضة ، والبيانات متعددة الابعاد التي يمكن ان تستفيد كثيرا من تنفيذ أنظمه مماثله. في هذه المقالة ، نقدم نظره عامه مفاهيمية تشرح كيفيه عمل قواعد البيانات والمزايا التي توفرها في تطبيقات هندسه الانسجه. واستخدمت بيانات الخلايا الليفية الهيكلية من الافراد الذين لديهم طفرة في التكييف لتوضيح الامثله في سياق تجريبي محدد. وتشمل الامثله تصور البيانات المتعددة الابعاد ، وربط الجداول في بنيه قاعده بيانات علائقية ، وتعيين خط أنابيب بيانات شبه مؤتمت لتحويل البيانات الاوليه إلى تنسيقات مهيكله ، وشرح بناء الجملة الأساسي للاستعلام. وقد استخدمت النتائج المستمدة من تحليل البيانات لإنشاء قطع من الترتيبات المختلفة والدلالة في تنظيم الخلية في بيئات الانحياز بين السيطرة الايجابيه من هاتشينسون-Gilford progeria ، واعتلال الصفيحة المعروفة ، وجميع المجموعات التجريبية الأخرى. المقارنة مع جداول البيانات ، كانت أساليب قاعده المعطيات فعاله بشكل كبير ، وسهله الاستخدام بمجرد اعدادها ، وسمحت بالوصول الفوري إلى مواقع الملفات الاصليه ، وزيادة صرامة البيانات. واستجابه لتركيز المعاهد الوطنية للصحة علي الصرامة التجريبية ، من المرجح ان العديد من المجالات العلمية ستعتمد في نهاية المطاف قواعد بيانات كممارسه شائعه بسبب قدرتها القوية علي تنظيم البيانات المعقدة بفعالية.

Introduction

وفي عصر يكون فيه التقدم العلمي مدفوعا بالتكنولوجيا ، أصبح التعامل مع كميات كبيره من البيانات جزءا لا يتجزا من البحوث في جميع التخصصات. ويبرز ظهور مجالات جديده مثل البيولوجيا الحسابية وعلم الجينوم مدي اهميه الاستخدام الاستباقي للتكنولوجيا. هذه الاتجاات من المؤكد ان تستمر بسبب قانون مور والتقدم المطرد المكتسبة من التقدم التكنولوجي¹^,². بيد ان أحدي النتائج هي الكميات المتزايدة من البيانات المتولدة التي تتجاوز قدرات أساليب التنظيم التي كانت صالحه من قبل. علي الرغم من ان معظم المختبرات الاكاديميه لديها موارد حسابيه كافيه للتعامل مع مجموعات البيانات المعقدة ، فان العديد من المجموعات تفتقر إلى الخبرة الفنية اللازمة لبناء أنظمه مخصصه مناسبه لتطوير الاحتياجات³. ويظل الحصول علي المهارات الضرورية لأداره وتحديث مجموعات البيانات هذه أمرا بالغ الاهميه لكفاءة سير العمل والمخرجات. ومن المهم سد الفجوة بين البيانات والخبرات من أجل المعالجة الفعالة لمجموعه واسعه من البيانات المتعددة الأوجه وأعاده تحديثها وتحليلها.

تعد قابليه التحجيم اعتبارا أساسيا عند معالجه مجموعات البيانات الكبيرة. البيانات الكبيرة ، علي سبيل المثال ، هي منطقه مزدهرة من البحوث التي تنطوي علي الكشف عن رؤى جديده من معالجه البيانات التي تتميز باحجام ضخمه ، وعدم التجانس الكبير ، ومعدلات عاليه من الجيل ، مثل الصوت والفيديو⁴^،⁵. استخدام الأساليب المؤتمتة للتنظيم والتحليل إلزامي لهذا الحقل لمعالجه السيول من البيانات بشكل مناسب. غير ان العديد من المصطلحات التقنية المستخدمة في البيانات الضخمة ليست محدده بوضوح ، ويمكن ان تكون مربكه ؛ فعلي سبيل المثال ، غالبا ما تقترن بيانات "السرعة العالية" بملايين الإدخالات الجديدة في اليوم الواحد ، في حين ان بيانات "السرعة المنخفضة" قد تكون فقط مئات الإدخالات في اليوم ، كما هو الحال في اعداد المختبر الأكاديمي. علي الرغم من ان هناك العديد من النتائج المثيرة حتى الآن ليتم اكتشافها باستخدام البيانات الكبيرة, معظم المختبرات الاكاديميه لا تتطلب نطاق, قوه, وتعقيد هذه الأساليب لمعالجه الاسئله العلمية الخاصة بهم⁵. وفي حين انه من المشكوك في ان البيانات العلمية تزداد تعقيدا مع الوقت⁶، فان العديد من العلماء يواصلون استخدام أساليب التنظيم التي لم تعد تلبي احتياجاتهم من البيانات الاخذه في الاتساع. علي سبيل المثال ، تستخدم برامج جداول البيانات الملائمة بشكل متكرر لتنظيم المعلومات العلمية ، ولكن علي حساب كونها غير قابله للتطوير ، وعرضه للخطا ، والوقت غير فعال في المدى الطويل⁷^،⁸. وعلي العكس من ذلك ، فان قواعد البيانات هي حل فعال للمشكلة لأنها قابله للتطوير ورخيصه نسبيا وسهله الاستخدام في معالجه مجموعات البيانات المتنوعة للمشاريع الجارية.

المخاوف الفورية التي تنشا عند النظر في مخططات تنظيم البيانات هي التكلفة ، وامكانيه الوصول ، والاستثمار في الوقت للتدريب والاستخدام. كثيرا ما تستخدم في إعدادات الاعمال, برامج قاعده البيانات هي أكثر اقتصادا, كونها اما غير مكلفه نسبيا أو مجانية, من التمويل المطلوب لدعم استخدام نظم البيانات الكبيرة. في الواقع ، توجد مجموعه متنوعة من البرامج المتاحة تجاريا والمفتوحة المصدر لإنشاء قواعد بيانات والحفاظ عليها ، مثل قاعده بيانات Oracle و MySQL و Microsoft (MS) الوصول⁹. كما سيتم تشجيع العديد من الباحثين لمعرفه ان العديد من الحزم الاكاديميه MS اوفيس تاتي مع MS الوصول وشملت, زيادة التقليل من الاعتبارات التكلفة. وعلاوة علي ذلك ، ما يقرب من جميع المطورين توفير وثائق واسعه علي الإنترنت وهناك عدد كبير من الموارد علي الإنترنت مجانا مثل Codecاديم ، W3Schools ، و SQLBolt لمساعده الباحثين علي فهم واستخدام لغة الاستعلام المهيكلة (SQL)¹⁰^،¹¹^،¹². مثل اي لغة برمجه ، تعلم كيفيه استخدام قواعد البيانات والتعليمات البرمجية باستخدام SQL يستغرق وقتا لإتقان ، ولكن مع الموارد وافره المتاحة عمليه واضحة وتستحق الجهد المستثمر.

ويمكن ان تكون قواعد البيانات أدوات قويه لزيادة امكانيه الوصول إلى البيانات وسهوله التجميع ، ولكن من المهم التمييز بين البيانات التي يمكن ان تستفيد أكثر من التحكم الأكبر في التنظيم. تشير الابعاد المتعددة إلى عدد الشروط التي يمكن تجميع القياس ضدها ، وقواعد البيانات هي الأكثر قوه عند أداره العديد من الشروط المختلفة¹³. وعلي العكس من ذلك ، المعلومات ذات الابعاد المنخفضة هي ابسط للتعامل باستخدام برنامج جداول البيانات; علي سبيل المثال ، تحتوي مجموعه البيانات التي تحتوي علي سنوات وقيمه لكل سنه علي تجميع واحد ممكن فقط (قياسات مقارنه بالسنوات). البيانات عاليه الابعاد مثل من الإعدادات السريرية تتطلب درجه كبيره من التنظيم اليدوي من أجل الحفاظ علي نحو فعال ، عمليه مملة وعرضه للخطا خارج نطاق برامج جداول البيانات¹³. قواعد بيانات غير علائقية (NoSQL) أيضا الوفاء مجموعه متنوعة من الأدوار ، في المقام الأول في التطبيقات حيث لا تنظم البيانات بشكل جيد في الصفوف والاعمده¹⁴. بالاضافه إلى كونها مفتوحة المصدر بشكل متكرر ، تتضمن هذه المخططات التنظيمية الاقترانات الرسوميه أو بيانات السلاسل الزمنيه أو البيانات المستندة. تتفوق NoSQL في قابليه التحجيم أفضل من SQL ولكن لا يمكن إنشاء استعلامات معقده بحيث تكون قواعد البيانات العلائقية أفضل في الحالات التي تتطلب التناسق والتوحيد والتغييرات غير المنتظمة واسعه النطاق¹⁵. قواعد البيانات هي الأفضل في تجميع وأعاده تحديث البيانات بشكل فعال في المجموعة الكبيرة من التشكيلات التي غالبا ما تكون مطلوبه في الإعدادات العلمية¹³^,¹⁶.

وتشمل التطبيقات المماثلة الأخرى البيانات الجغرافية المكانية لأسره النهر ، والاستبيانات من الدراسات السريرية الطولية ، وظروف النمو الميكروبي في وسائل الاعلام النمو¹⁷^،¹⁸^،¹⁹. ويسلط هذا العمل الضوء علي الاعتبارات المشتركة وفائدة إنشاء قاعده بيانات مقرونة بخط أنابيب بيانات ضروري لتحويل البيانات الاوليه إلى اشكال منظمه. يتم توفير أساسيات واجات قاعده البيانات والترميز لقواعد البيانات في SQL وتوضيحها مع أمثله للسماح للآخرين للحصول علي المعرفة التي تنطبق علي بناء الأطر الاساسيه. وأخيرا ، فان عينه من مجموعه البيانات التجريبية تبين مدي سهوله وفعالية تصميم قواعد بيانات لتجميع البيانات المتعددة الأوجه بطرق متنوعة. وتوفر هذه المعلومات سياقا وتعليقا ونماذج لمساعده زملائنا العلماء علي الطريق نحو تنفيذ قواعد البيانات لتلبيه احتياجاتهم التجريبية الخاصة.

لأغراض إنشاء قاعده بيانات قابله للتطوير في المختبرات البحثية ، تم جمع البيانات من التجارب التي تستخدم خلايا الورم الليفي البشري علي مدي السنوات الثلاث الماضية. وينصب التركيز الرئيسي لهذا البروتوكول علي الإبلاغ عن تنظيم برامج حاسوبيه لتمكين المستخدم من تجميع البيانات وتحديثها وأدارتها باقصي قدر ممكن من التكلفة والوقت ، ولكن يتم توفير الطرق التجريبية ذات الصلة أيضا سياق.

الاعداد التجريبي
وقد تم وصف البروتوكول التجريبي لاعداد العينات سابقا²⁰^،²¹، وهو معروض بإيجاز هنا. وقد أعدت الثوابت بواسطة الطلاء الزجاجي مستطيله الشكل الشفتين مع خليط 10:1 من polydiميثيل siloxane (PDMS) وعامل العلاج ، ثم تطبيق 0.05 mg/mL fibronectin ، في اما غير المنظم (الانسيابية) أو 20 ميكرومتر خطوط مع 5 μm الفجوة ميكرومنقوشه الترتيبات (خطوط). تم البذر الخلايا الليفية في مرور 7 (أو مرور 16 للضوابط الايجابيه) علي الشفتين في الكثافات المثلي واليسار إلى النمو ل 48 h مع وسائل الاعلام التي يجري تغييرها بعد 24 ساعة. ثم تم إصلاح الخلايا باستخدام 4 ٪ بارافورمالدهيد (PFA) الحل و 0.0005 ٪ غير أيوني السطحي ، تليها الشفتين المناعية لنواه الخلية (4 ' ، 6 '-diaminodino-2-فينيليندولول [dapi]) ، الاكتين (اليكسا فلور 488 phalloidin) ، وفيبرونكتين (الأرنب بوليكلوكال المضادة للإنسان الفيبرونكتين جنيني). وصمه عار الثانوية ل الفيبرونكتين جنيني باستخدام الماعز مكافحه الأرنب الأجسام المضادة الأرانب (اليكسا فلور 750 الماعز المضادة للأرنب) تم تطبيقها وشنت وكيل الحفاظ علي جميع الشفتين لمنع يتلاشى الفلورسنت. واستخدم طلاء الأظافر لختم الشفتين علي الشرائح المجهر ثم غادر لتجف لمده 24 ساعة.

تم الحصول علي الصور الفلورية كما هو موضح سابقا²⁰ باستخدام 40x النفط الغمر الهدف إلى جانب تهمه الرقمية إلى جانب الجهاز (CCD) الكاميرا التي شنت علي المجهر الميكانيكية مقلوب. وكانت عشره مجالات مختاره عشوائيا من العرض لكل كوفيرسليب في التكبير 40x ، المقابلة 6.22 بكسل/ميكرومتر القرار. واستخدمت رموز مكتوبه حسب العرف لقياس المتغيرات المختلفة من الصور التي تصف النوى ، وخيوط الإبطين ، وفيبرونكتين ؛ قيم المناظرة ، بالاضافه إلى معلمات التنظيم والهندسة ، تم حفظها تلقائيا في ملفات البيانات.

خطوط الخلايا
ويمكن الاطلاع علي وثائق أكثر شمولا بشان جميع خطوط خلايا البيانات النموذجية في المنشورات السابقة²⁰. ولوصفها بإيجاز ، تمت الموافقة علي جمع البيانات وتمت الموافقة المستنيرة وفقا لمجلس المراجعة المؤسسية التابع لجامعه اوك ايرفين (2014-1253). تم جمع الخلايا الليفية البشرية من ثلاث عائلات من مختلف الاختلافات في الطفرة الجينية للامين A/C (Lmna): الطفرة الوراثية لموقع اللصق ( c. 357-2a > G)²² (الاسره الف) ؛ الطفرة هراء lmna (c. 736 c > T ، pQ246X) في اكسون 4²³ (الاسره ب) ؛ والطفرة lmna مغلط (c. 1003c > T, pR335W) في اكسون 6²⁴ (الاسره c). كما تم جمع الخلايا الليفية من الافراد الآخرين في كل أسره كعناصر التحكم السلبية المتعلقة بالطفرات ، والمشار اليها باسم "الضوابط" ، وتم شراء الآخرين كضوابط سلبيه غير ذات صله بالطفرات ، يشار اليها باسم "المانحين". كعنصر تحكم إيجابي ، تم شراء الخلايا الليفية من فرد مع هاتشينسون-غليفورد بروجيريا (hgps) ونميت من خزعة الجلد الماخوذه من المريض الإناث البالغ من العمر 8 سنوات مع hgps التي تمتلك الطفرة lmna G608G نقطه²⁵. في المجموع ، تم اختبار الخلايا الليفية من 22 فردا واستخدامها كبيانات في هذا العمل.

أنواع البيانات
هذه المعلمة مساويه للقيمة القصوى لقيمه الطلب المتوسط لكل متجات التوجيه ، ويتم تعريفها بالتفصيل في المنشورات السابقة²⁶^،²⁸. يتم تجميع هذه القيم في مجموعه متنوعة من التشكيلات المحتملة ، مثل القيم ضد العمر ، والجنس ، وحاله المرض ، وجود اعراض معينه ، الخ. يمكن العثور علي أمثله حول كيفيه استخدام هذه المتغيرات في قسم النتائج.

أمثله الرموز والملفات
يمكن تحميل رموز المثال والملفات الأخرى المستندة إلى البيانات أعلاه مع هذه الورقة ، ويتم تلخيص أسمائها وأنواعها في الجدول 1.

Protocol

ملاحظه: راجع جدول المواد لإصدارات البرامج المستخدمة في هذا البروتوكول.

1-تقييم ما إذا كانت البيانات ستستفيد من نظام تنظيم قاعده بيانات

قم بتنزيل رموز المثال وقواعد البيانات (راجع ملفات الترميز الاضافيه، والتي يتم تلخيصها في الجدول 1).
استخدم الشكل 1 لتقييم ما إذا كانت مجموعه بيانات الفائدة "متعددة الابعاد".
ملاحظه: الشكل 1 تمثيل رسوميه لقاعده بيانات متعددة الابعاد المتوفرة لمجموعه البيانات المثال.
إذا كان يمكن تصور البيانات في شكل "متعدد الابعاد" مثل المثال وإذا كانت القدرة علي ربط نتيجة تجريبية محدده إلى اي من الابعاد (اي الظروف) من شانها ان تسمح لمزيد من التبصر العلمي في البيانات المتاحة ، والمضي قدما إلى إنشاء قاعده بيانات علائقية.

2. تنظيم بنيه قاعده البيانات

ملاحظه: قواعد البيانات العلائقية تخزين المعلومات في شكل جداول. يتم تنظيم الجداول في مخطط الصفوف والاعمده ، علي غرار جداول البيانات ، ويمكن استخدامها لربط معلومات التعريف داخل قاعده المعلومات.

تنظيم ملفات البيانات ، لذلك لديهم مدروسه بشكل جيد من أسماء فريدة من نوعها. الممارسة الجيدة مع اصطلاحات تسميه الملفات وهياكل المجلدات الفرعية ، عند القيام بذلك بشكل جيد ، تسمح بتوسيع قاعده البيانات الواسعة دون المساس بقابليه الوصول إلى الملفات يدويا. أضافه ملفات التاريخ بتنسيق متناسق ، مثل "20XX-YY-ZZ" ، واسم المجلدات الفرعية وفقا لبيانات التعريف هو أحد هذه الامثله.
ومع تصميم بنيه قاعده البيانات ، ارسم علاقات بين الحقول في جداول مختلفه. التالي ، تتم معالجه الابعاد المتعددة عن طريق الربط بين الحقول المختلفة (اي الاعمده في الجداول) في الجداول الفردية لبعضها البعض.
إنشاء وثائق الملف التمهيدي الذي يصف قاعده البيانات والعلاقات التي تم إنشاؤها في الخطوة 2.2. بمجرد ربط الإدخال بين الجداول المختلفة ، تكون كافة المعلومات المقترنة مرتبطة بهذا الإدخال ويمكن استخدامها لاستدعاء الاستعلامات المعقدة للتصفية إلى المعلومات المطلوبة.
ملاحظه: المستندات التمهيدي حل شائع لتوفير معلومات اضافيه ومعلومات هيكليه قاعده بيانات حول مشروع دون أضافه بيانات غير موحده إلى البنية.
وفي أعقاب الخطوات من 2-1 إلى 2-3 ، فان النتيجة النهائية مماثله لهذا المثال حيث ترتبط الخصائص المختلفة للافراد (الشكل 2ا) بالبيانات التجريبية المرتبطة بهؤلاء الافراد (الشكل 2ب). وقد تم القيام بذلك من خلال ربط أعمده أنواع الأنماط (الشكل 2ج) وأنواع البيانات (الشكل 2د) بمطابقه الإدخالات في جدول قيم البيانات الرئيسية لشرح مختلف التدوينات المختزلة (الشكل 2ب).
تحديد جميع نقاط البيانات الاساسيه والمفيدة التي تحتاج إلى تسجيل لجمع البيانات بعيده المدى.
ملاحظه: ميزه رئيسيه لاستخدام قواعد البيانات عبر برامج جداول البيانات ، كما ذكر سابقا ، هي قابليه التحجيم: يمكن أضافه نقاط بيانات اضافيه بشكل تافه في اي نقطه ويتم تحديث الحسابات ، مثل المتوسطات ، علي الفور لتعكس نقاط البيانات المضافة حديثا.
1. تحديد المعلومات الضرورية لإنشاء نقاط بيانات مميزه قبل البدء. ترك البيانات الخام لم يمسها ، بدلا من تعديل أو حفظ أكثر من ذلك ، حتى ان أعاده التحليل هو ممكن ويمكن الوصول اليها.
  ملاحظه: بالنسبة لمثال معين (الشكل 2) ، "التسمية" المطابق للفرد ، "نوع النقش" ، "Coverslip #" ، و "نوع متغير" كانت كافة الحقول الحيوية لمميز القيمة المقترنة.
2. إذا رغبت في ذلك ، قم باضافه معلومات أخرى مفيده وغير حيوية مثل "الإجمالي # للشفاه" للاشاره إلى عدد مرات التكرار التي تم اجراؤها والمساعدة في تحديد ما إذا كانت نقاط البيانات مفقوده في هذا المثال.

3. اعداد وتنظيم خط الأنابيب

تحديد جميع التجارب المختلفة وأساليب تحليل البيانات التي قد تؤدي إلى جمع البيانات مع ممارسات تخزين البيانات العادية لكل نوع من أنواع البيانات. العمل مع برنامج التحكم في الإصدار مفتوح المصدر مثل جيثب لضمان الاتساق الضروري والتحكم في الإصدار مع تقليل عبء المستخدم.
إذا كان ذلك ممكنا ، قم بإنشاء اجراء لتسميه وتخزين البيانات بشكل متناسق للسماح بخط أنابيب مؤتمت.
ملاحظه: في المثال ، كانت كافة المخرجات المسمية باستمرار ، التالي إنشاء خط أنابيب بيانات التي بحثت عن سمات معينه كانت مباشره بمجرد تحديد الملفات. إذا كانت التسمية متناسقة غير ممكن ، ستحتاج الجداول في قاعده البيانات إلى تعبئة يدويا ، وهو غير مستحسن.
استخدم اي لغة برمجه ملائمة لإنشاء إدخالات بيانات جديده لقاعده البيانات.
1. إنشاء جداول صغيره "المساعد" (الملفات #8 − #10 في الجدول 1) في ملفات منفصلة التي يمكن توجيه الاختيار الألى للبيانات. هذه الملفات بمثابه قالب من الاحتمالات لخط الأنابيب للعمل تحت وسهله لتحرير.
2. لإنشاء إدخالات بيانات جديده لخط أنابيب البيانات (الشكل 3D) ، برنامج التعليمات البرمجية (المنشانالمؤشر. m ، #1 الملف في الجدول 1) لاستخدام الجداول المساعد كمدخلات ليتم تحديدها من قبل المستخدم (الملفات #8 − #10 في الجدول 1).
3. من هنا ، تجميع جدول بيانات جديده من مواقع الملفات عن طريق الجمع بين الإدخالات الجديدة مع الإدخالات السابقة (الشكل 3E). إنشاء تعليمات برمجيه لاتمته هذه الخطوة كما هو موضح في LocationPointerCompile. m (#2 الملفات في الجدول 1).
4. بعد ذلك ، تحقق من جدول البيانات المدمج هذا للتكرارات ، والتي يجب ازالتها تلقائيا. إنشاء تعليمات برمجيه لاتمته هذه الخطوة كما هو موضح في LocationPointer_Remove_Duplicates (ملف #3 في الجدول 1).
5. بالاضافه إلى ذلك ، تحقق من جدول البيانات عن الأخطاء ، واعلام المستخدم من السبب والموقع (الشكل 3و). إنشاء تعليمات برمجيه لاتمته هذه الخطوة كما هو موضح في BadPointerCheck. m (ملف #4 في الجدول 1). بدلا من ذلك ، اكتب التعليمات البرمجية التي سيتم التحقق من قاعده البيانات المترجمة وتعريف التكرارات في خطوه واحده كما هو موضح في LocationPointer_Check (ملف #5 في الجدول 1).
6. إنشاء تعليمات برمجيه للسماح للمستخدم بازاله النقاط السيئة يدويا دون فقدان تكامل قاعده البيانات كما هو موضح في Manual_Pointer_Removal (ملف #6 في الجدول 1).
7. ثم استخدم مواقع الملفات لإنشاء جدول بيانات قيمه للبيانات (الشكل 3G، #12 الملف في الجدول 1) وكذلك لإنشاء قائمه محدثه من الإدخالات التي يمكن الوصول اليها للتعرف علي مواقع الملفات أو دمجها مع الإدخالات المستقبلية (الشكل 3H). إنشاء تعليمات برمجيه لاتمته هذه الخطوة كما هو موضح في Database_Generate (ملف #7 في الجدول 1).
التحقق المزدوج من ان خط الأنابيب يضيف إلى الصرامة التجريبية عن طريق التحقق من ادراج اصطلاحات التسمية الدقيقة ورموز تجميع الملفات المؤتمتة والتحقق من الأخطاء التلقائية كما هو موضح سابقا.

4. إنشاء قاعده البيانات والاستعلامات

ملاحظه: إذا كانت الجداول تخزن المعلومات في قواعد البيانات ، فان الاستعلامات هي طلبات إلى قاعده البيانات للحصول علي المعلومات المعطية لمعايير معينه. هناك طريقتان لإنشاء قاعده البيانات: بدءا من مستند فارغ أو بدءا من الملفات الموجودة. يظهر الشكل 4 استعلام نموذج باستخدام بناء جمله SQL الذي تم تصميمه للتشغيل باستخدام علاقات قاعده البيانات الموضحة في الشكل 2.

الأسلوب 1: بدءا من البداية في إنشاء قاعده البيانات والاستعلامات
1. إنشاء مستند قاعده بيانات فارغه.
2. تحميل الجداول المساعدة (الملفات #8 − #10 في الجدول 1) عن طريق تحديد البيانات الخارجية | استيراد ملف نصي | اختر ملف (ملفات #8 − #10) | محدد | يحتوي الصف الأول علي رؤوس ، فاصله | ترك الافتراضي | اختر المفتاح الأساسي الخاص بي (التسمية لملف خطوط الخلايا #8 ، اسم المتغير لملف أنواع البيانات #9 ، اسم بات لملف نوع النقش #10) | ترك الافتراضي | إنهاء.
3. تحميل جدول قيمه البيانات (#12 الملفات في الجدول 1) عن طريق تحديد البيانات الخارجية | استيراد ملف نصي | اختر ملف (ملف #12) | محدد | يحتوي الصف الأول علي رؤوس ، فاصله | ترك الافتراضي | السماح للوصول أضافه مفتاح أساسي | استيراد إلى جدول: DataValues | إنهاء.
4. إنشاء العلاقات عن طريق تحديد أدوات قاعده البيانات | علاقات | اسحب كافة الجداول إلى اللوحة | تحرير العلاقات | إنشاء جديد | تطابق حقول DataValue مع الجداول مساعد تسميات | النوع المشترك 3.
5. اختر إنشاء | تصميم الاستعلام.
6. حدد أو اسحب كافة الجداول ذات الصلة إلى الإطار العلوي. في هذا المثال ' خطوط الخلايا ' ، ' قيم البيانات ' ، ' أنواع البيانات ' ، و ' نوع النقش '. يجب ان يتم اعداد العلاقات تلقائيا استنادا إلى تصميم العلاقة السابق.
7. أملا أعمده الاستعلام للنتائج المرجوة ، علي سبيل المثال:
  1. انقر علي عرض | مجاميع.
  2. أملا العمود الأول (الجدول: DataValues ، الحقل: DataVar ، المجموع: GroupBy ، المعايير: "Act_OOP") ، العمود الثاني (الجدول: DataValues ، الحقل: PatVar ، المجموع: GroupBy ، المعايير: "خطوط") ، والعمود الثالث (الجدول: Cell_Lines GroupBy ، فرز: تصاعدي).
  3. أملا العمود الرابع (الجدول: DataValues ، الحقل: المعلمة ، المجموع: Ave) ، العمود الخامس (الجدول: DataValues ، الحقل: المعلمة ، المجموع: StDev) ، والعمود السادس (الجدول: DataValues ، الحقل: المعلمة ، المجموع: Count).
8. تشغيل الاستعلام.
بدلا من ذلك ، استخدم قاعده بيانات المثال المتوفر كاساس للحصول علي أمثله. فتح ملف قاعده البيانات Database_Queries. accdb (ملف #13 في الجدول 1) التي تم تحميلها سابقا. استخدمه كقالب عن طريق استبدال الجداول الموجودة ببيانات الفائدة.

5-نقل جداول المخرجات إلى برنامج إحصائي لتحليل الاهميه

بالنسبة لهذه العينة من البيانات التجريبية ، استخدم تحليل الاتجاه الواحد للتباين (ANOVA) باستخدام اختبار Tukey للمقارنة المتوسطة بين الظروف المختلفة.
ملاحظه: قيم p < 0.05 كانت تعتبر ذات دلاله احصائيه.

النتائج

ابعاد متعددة للبيانات
في سياق المثال مجموعه البيانات المعروضة هنا ، المواضيع ، الموصوفة في قسم الأساليب ، يمكن تجميع النتائج من الضوابط والجهات المانحة معا كمجموعه السيطرة السلبية الشاملة (نورث كارولاينا) ، نظرا لافتقارها الجماعي إلى طفرات Lmna . وكان لكل...

Discussion

المناقشة التقنية للبروتوكول
والخطوة الاولي عند النظر في استخدام قواعد البيانات هي تقييم ما إذا كانت البيانات ستستفيد من هذه المنظمة.

الخطوة الاساسيه التالية هي إنشاء تعليمات برمجيه مؤتمتة ستطلب الحد الأدنى من المدخلات من المستخدم وإنشاء بنيه بيانات الجدول. في ?...

Disclosures

وليس لدي المؤلفين ما يفصحون عنه.

Acknowledgements

ويدعم هذا العمل معهد القلب الوطني ، والرئة ، والدم في المعاهد الوطنية للصحة ، ومنح عدد R01 HL129008. ويشكر المؤلفون بشكل خاص أعضاء عائله الطفرة الجينية لل Lmna علي مشاركتهم في الدراسة. ونود أيضا ان نشكر ليندا مكارثي علي مساعدتها في مجال ثقافة الخلايا والحفاظ علي مساحات المختبرات ، ناسام شكري لمشاركتها في تصوير الخلايا وتحليل البيانات النوى ، ومايكل ا. غروبرغ لنصيحته ذات الصلة مع إنشاء قاعده بيانات Microsoft Access الاوليه ، فضلا عن الاجابه علي الاسئله التقنية الأخرى.

Materials

Name	Company	Catalog Number	Comments
4',6'-diaminodino-2-phenylinodole (DAPI)	Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin	Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit	Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B	Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin	Corning, Corning, NY
IX-83 inverted motorized microscope	Olympus America, Center Valley, PA
Matlab R2018b	Mathworks, Natick, MA
MS Access	Microsoft, Redmond, WA
paraformaldehyde (PFA)	Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin	Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS)	Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade	Life Technologies, Carlsbad, CA
rectangular glass coverslips	Fisher Scientific Company, Hanover Park, IL
Triton-X	Sigma Aldrich Inc., Saint Louis, MO

References

Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, 1720-1749 (2012).
Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
. Learn SQL - Codeacademy Available from: https://www.codecademy.com/learn/learn-sql (2018)
. SQL Tutorial - w3schools.com Available from: https://www.w3schools.com/sql (2018)
. Introduction to SQL - SQLBolt Available from: https://sqlbolt.com (2018)
Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
Hamley, I. W. . Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , (2013).
Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
Hey, T., Trefethen, A., Berman, F., Fox, G., Hey, A. J. G. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. , (2003).
Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
Enhancing Reproducibility through Rigor and Transparency. NIH Available from: https://grants.nih.gov/reproducibility/index.htm (2018)
Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
. SQL Training and Tutorials - Lynda.com Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018)

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Explore More Articles

153 LMNA

This article has been published

Video Coming Soon

Keep me updated: