Nuestro protocolo proporciona una medida paso a paso para construir una plataforma de minería de frases basada en la nube para la asociación de categorías de entidades definidas por el usuario, para evaluar la asociación de proteínas, genomas o productos químicos con enfermedades específicas. Las principales ventajas de esta técnica son su mayor eficiencia en comparación con la evaluación manual de la asociación de categorías de entidades, la accesibilidad mejorada y el uso de herramientas de minería de frases para aplicaciones de investigación biomédica generalizadas. Los usuarios pueden seleccionar entidades y categorías de interés dentro de publicaciones biomédicas, o dentro de documentos de texto asociados con palabras clave específicas.
Los nuevos usuarios pueden seguir nuestro protocolo y las referencias proporcionadas en el manuscrito, y pueden plantear problemas técnicos dentro de nuestro repositorio GitHub. La demostración visual de esta materia añade más claridad a cómo realizar el protocolo y fomenta la implementación de nuevas herramientas de minería de texto. Para crear un cubo de texto, primero descargue los últimos encabezados de asunto médicos disponibles o el árbol de malla.
El código para el árbol de malla 2018 es MESHTree2018. bin, y debe introducirse en el directorio de entrada. Defina las categorías de interés utilizando uno o varios descriptores de malla y recopile los ID de malla para una categoría.
Guarde los nombres de las categorías en el textcube_config. json en el directorio config y agregue las categorías recopiladas de los identificadores de malla en una línea separada por un espacio. Guarde el archivo de categoría como categorías.
txt en el directorio de entrada. Este algoritmo selecciona automáticamente todos los descriptores de malla descendientes. Asegúrese de que mesh2pmid.
json está en el directorio de datos. Si el árbol de malla se ha actualizado con un nombre diferente en el directorio de entrada, asegúrese de que se representa correctamente en la ruta de acceso de datos de entrada en el run_textcube. archivo py.
Para crear una estructura de documento denominada text-cube, escriba python run_textcube. py en el terminal para crear una colección de documentos para cada categoría. Un solo documento puede estar comprendido en varias categorías.
Una vez completado el paso de creación de cubo de texto, asegúrese de que una celda de la tabla PMID se guarda en el directorio de datos como textcube_cell2pmid.json. Un PMID a la tabla de asignación de celdas se guarda en el directorio de datos como textcube_pmid2cell.json. Una colección de todos los términos de malla descendientes para una celda se guarda en el directorio de datos como meshterms_per_cat.json.
Y las estadísticas de datos de cubo de texto se guardan en el directorio de datos como textcube_stat.txt. A continuación, vaya al directorio de registro para leer los mensajes de registro en textcube_log. txt, en caso de que este proceso falle.
Si el proceso se completa correctamente, los mensajes de depuración de la creación de cubo de texto se imprimirán en el archivo de registro. Para un recuento de entidades, cree entidades definidas por el usuario, colocando una entidad y sus abreviaturas en una sola línea, separadas por el símbolo de línea vertical. Guarde el archivo de entidad como entidades.
txt en el directorio de entrada y asegúrese de que el servidor Elasticsearch se está ejecutando. Si una base de datos indizada denominada PubMed está presente en el servidor Elasticsearch, confirme la presencia del textcube_pmid2cell. json en el directorio de datos e introduzca python run_entitycount.
py en el terminal para realizar una operación de recuento de entidades. Cuando se hayan contado todos los documentos de la base de datos de índices y el número de entidades de cada documento y se hayan recopilado los PMID en los que se han encontrado entidades, guarde los resultados finales como recuento de entidades. txt y entityfound_pmid2cell.
json en el directorio de datos. A continuación, abra el directorio de registro para leer los mensajes de registro en el entitycount_log. txt, en caso de que este proceso falle.
Si el proceso se completa correctamente, los mensajes de depuración del recuento de entidades se imprimirán en el archivo de registro. Asegúrese de que todos los datos de entrada están en el directorio de datos. Estos son los datos de entrada para la actualización de metadatos.
Para preparar una colección de metadatos, escriba python run_metadata_update. py en el terminal para actualizar los metadatos. Una vez completada la actualización de metadatos, asegúrese de que el metadata_pmid2pcount.
json y metadata_cell2pmid. los archivos json se guardan en el directorio de datos. Vaya al directorio de registro para leer los mensajes de registro en el metadata_update_log.
txt, en caso de que este proceso falle. Si el proceso se completa correctamente, los mensajes de depuración de la actualización de metadatos se imprimirán en el archivo de registro. Para el cálculo de la puntuación de procesamiento analítico en línea semántico consciente del contexto, confirme la presencia del metadata_pmid2pcount.
json y metadata_cell2pmid. json en el directorio de datos. Estos son los datos de entrada para el cálculo de la puntuación.
Introduzca python run_caseolap_score. py en el terminal para realizar un cálculo de la puntuación de procesamiento analítico en línea semántico consciente del contexto de las entidades basadas en categorías definidas por el usuario. La partitura es el producto de la integridad, popularidad y distinción.
Una vez completado el cálculo de la puntuación, confirme que los resultados se guardan en el directorio de resultados. A continuación, acceda al directorio de registro para leer los mensajes de registro en el caseolab_score_log. txt, en caso de que este proceso falle.
Si el proceso se completa correctamente, los mensajes de depuración del cálculo de la puntuación caseolab se imprimirán en el archivo de registro. Utilizando los metadatos y estadísticas obtenidos de las cuatro subcategorías de grupos de edad para lactantes, niños, adolescentes y adultos, se puede mostrar una comparación del número de documentos entre las celdas de cubo de texto. Aquí, la subcategoría para adultos contiene el número más alto en todas las celdas, con las subcategorías para adultos y adolescentes que tienen el mayor número de documentos compartidos y que contienen la entidad de interés para este análisis representativo.
La evaluación de la asociación del grupo de edad proteica como una puntuación de procesamiento analítico en línea semántica consciente del contexto, las 10 proteínas principales asociadas con las subcategorías de lactantes, niños, adolescentes y adultos pudieron determinarse. Aquí se muestran los metadatos y estadísticas obtenidos para las subcategorías de enfermedades nutricionales y metabólicas. La subcategoría enfermedad metabólica contiene casi tres veces más documentos que la subcategoría de trastornos nutricionales.
Las subcategorías de enfermedades metabólicas y trastornos nutricionales tienen 7.101 documentos compartidos. En particular, estos documentos incluían la entidad de interés para el estudio representativo. Más de la mitad de todas las proteínas se reparte entre las subcategorías, con casi la mitad de todas las proteínas asociadas en la subcategoría de enfermedad metabólica exclusiva de esa subcategoría, y con la subcategoría de trastornos nutricionales que exhibe sólo unas pocas proteínas únicas.
Categorías independientes y distintas, y una colección de todos los sinónimos y abreviaturas de una entidad proporcionarán los mejores resultados. Dado que la asociación de categoría de entidad se presenta como un valor numérico, esto abre la puerta a implementar técnicas de aprendizaje que faltan, como la agrupación en clústeres y el análisis de componentes de principios. Esta técnica facilita el descubrimiento de relaciones ocultas o previamente no identificadas dentro de estas asociaciones, allanando el camino para una comprensión más profunda de los procesos biológicos.