Unser Protokoll bietet eine schrittweise Maßnahme zum Aufbau einer Cloud-basierten Phrasen-Mining-Plattform für die benutzerdefinierte Entitätskategorie-Assoziation, um die Assoziation von Proteinen, Genomen oder Chemikalien mit bestimmten Krankheiten zu bewerten. Die Hauptvorteile dieser Technik sind die verbesserte Effizienz gegenüber der Bewertung der manuellen Entitätskategorie, die verbesserte Zugänglichkeit und der Einsatz von Phrasen-Mining-Tools für weit verbreitete biomedizinische Forschungsanwendungen. Benutzer können Entitäten und Kategorien von Interesse in biomedizinischen Publikationen oder in Textdokumenten auswählen, die bestimmten Schlüsselwörtern zugeordnet sind.
Neue Benutzer können unserem Protokoll und den im Manuskript bereitgestellten Referenzen folgen und technische Probleme in unserem GitHub-Repository aufwerfen. Die visuelle Demonstration dieses Themas erhöht die Ausführung des Protokolls und fördert die Implementierung neuartiger Textminingtools. Um einen Textwürfel zu erstellen, laden Sie zuerst die neuesten verfügbaren medizinischen Themenüberschriften oder Netzstruktur herunter.
Der Code für Mesh Tree 2018 ist MESHTree2018. und sollte in das Eingabeverzeichnis eingegeben werden. Definieren Sie die Interessenkategorien mithilfe eines oder mehrerer Netzdeskriptoren, und sammeln Sie Netz-IDs für eine Kategorie.
Speichern Sie die Namen der Kategorien im textcube_config. json-Datei im Konfigurationsverzeichnis, und fügen Sie die gesammelten Kategorien der Netz-IDs in einer Durcheinraumung getrennten Zeile hinzu. Speichern Sie die Kategoriedatei als Kategorien.
txt im Eingabeverzeichnis. Dieser Algorithmus wählt automatisch alle nachkommenden Netzdeskriptoren aus. Stellen Sie sicher, dass mesh2pmid.
json befindet sich im Datenverzeichnis. Wenn die Netzstruktur mit einem anderen Namen im Eingabeverzeichnis aktualisiert wurde, stellen Sie sicher, dass diese im Eingabedatenpfad im run_textcube ordnungsgemäß dargestellt wird. py-Datei.
Um eine Dokumentstruktur namens Textcube zu erstellen, geben Sie Python-run_textcube ein. py im Terminal, um eine Sammlung von Dokumenten für jede Kategorie zu erstellen. Ein einzelnes Dokument kann unter mehrere Kategorien fallen.
Stellen Sie nach Abschluss des Textcubeerstellungsschritts sicher, dass eine Zelle in der PMID-Tabelle als textcube_cell2pmid.json im Datenverzeichnis gespeichert wird. Eine PMID zur Zellenzuordnungstabelle wird im Datenverzeichnis als textcube_pmid2cell.json gespeichert. Eine Auflistung aller abhängigen Netzbegriffe für eine Zelle wird im Datenverzeichnis als meshterms_per_cat.json gespeichert.
Und die Textcube-Datenstatistiken werden im Datenverzeichnis als textcube_stat.txt gespeichert. Wechseln Sie dann zum Protokollverzeichnis, um die Protokollnachrichten in textcube_log zu lesen. txt, falls dieser Prozess fehlschlägt.
Wenn der Vorgang erfolgreich abgeschlossen wurde, werden die Debugnachrichten der Textcubeerstellung in der Protokolldatei ausgedruckt. Erstellen Sie für eine Entitätsanzahl benutzerdefinierte Entitäten, indem Sie eine Entität und ihre Abkürzungen in einer einzelnen Zeile platzieren, die durch das vertikale Liniensymbol getrennt ist. Speichern Sie die Entitätsdatei als Entitäten.
txt im Eingabeverzeichnis, und stellen Sie sicher, dass der Elasticsearch-Server ausgeführt wird. Wenn eine indizierte Datenbank namens PubMed im Elasticsearch-Server vorhanden ist, bestätigen Sie das Vorhandensein der textcube_pmid2cell. json-Datei im Datenverzeichnis, und geben Sie python run_entitycount ein.
py im Terminal, um einen Entitätszählvorgang auszuführen. Wenn alle Dokumente aus der Indexdatenbank und die Anzahl der Entitäten in jedem Dokument gezählt wurden und die PMIDs, in denen Entitäten gefunden wurden, gesammelt wurden, speichern Sie die endgültigen Ergebnisse als Entitätsanzahl. txt und entityfound_pmid2cell.
json im Datenverzeichnis. Öffnen Sie dann das Protokollverzeichnis, um die Protokollnachrichten im entitycount_log zu lesen. txt, falls dieser Prozess fehlschlägt.
Wenn der Vorgang erfolgreich abgeschlossen wurde, werden die Debugnachrichten der Entitätsanzahl in der Protokolldatei ausgedruckt. Stellen Sie sicher, dass sich alle Eingabedaten im Datenverzeichnis befinden. Dies sind die Eingabedaten für die Metadatenaktualisierung.
Um eine Sammlung von Metadaten vorzubereiten, geben Sie Python run_metadata_update ein. py im Terminal, um die Metadaten zu aktualisieren. Stellen Sie nach Abschluss der Metadatenaktualisierung sicher, dass die metadata_pmid2pcount.
json und metadata_cell2pmid. json-Dateien werden im Datenverzeichnis gespeichert. Wechseln Sie zum Protokollverzeichnis, um die Protokollnachrichten im metadata_update_log zu lesen.
txt-Datei, falls dieser Vorgang fehlschlägt. Wenn der Vorgang erfolgreich abgeschlossen wurde, werden die Debugnachrichten der Metadatenaktualisierung in der Protokolldatei ausgedruckt. Bestätigen Sie für die kontextbezogene semantische Online-Analyse-Score-Berechnung das Vorhandensein der metadata_pmid2pcount.
json und metadata_cell2pmid. json-Dateien im Datenverzeichnis. Dies sind die Eingabedaten für die Score-Berechnung.
Geben Sie Python run_caseolap_score ein. py im Terminal, um eine kontextbezogene semantische Online-Analyse-Verarbeitungsbewertung der Entitäten basierend auf benutzerdefinierten Kategorien durchzuführen. Die Partitur ist das Produkt von Integrität, Popularität und Unterscheidungskraft.
Sobald die Ergebnisberechnung abgeschlossen ist, vergewissern Sie sich, dass die Ergebnisse im Ergebnisverzeichnis gespeichert sind. Greifen Sie dann auf das Protokollverzeichnis zu, um die Protokollnachrichten im caseolab_score_log zu lesen. txt-Datei, falls dieser Vorgang fehlschlägt.
Wenn der Vorgang erfolgreich abgeschlossen wurde, werden die Debug-Meldungen der Caseolab-Score-Berechnung in der Protokolldatei ausgedruckt. Anhand der erhaltenen Metadaten und Statistiken aus den vier Unterkategorien Säuglings-, Kleinkind-, Jugend- und Erwachsenenalter kann ein Vergleich der Anzahl der Dokumente zwischen den Textwürfelzellen angezeigt werden. Hier enthält die Unterkategorie Für Erwachsene die höchste Zahl in allen Zellen, wobei die Unterkategorien für Erwachsene und Jugendliche die höchste Anzahl freigegebener Dokumente aufweisen und die für diese repräsentative Analyse von Interesse sind.
Die Beurteilung der Protein-Altersgruppen-Assoziation als kontextbewusster semantischer Online-Analyse-Verarbeitungsscore konnten die Top-10-Proteine der Unterkategorien Säugling, Kind, Jugendliche und Erwachsene ermittelt werden. Hier werden erhaltene Metadaten und Statistiken zu den Unterkategorien Ernährungs- und Stoffwechselkrankheiten dargestellt. Die Unterkategorie Stoffwechselkrankheit enthält fast dreimal so viele Dokumente wie die Unterkategorie Ernährungsstörungen.
Die Metabolischen Erkrankungen und Ernährungsstörungen Unterkategorien haben 7, 101 gemeinsame Dokumente. Insbesondere enthielten diese Dokumente die für die repräsentative Studie von Interesse sindde Stelle. Mehr als die Hälfte aller Proteine werden zwischen den Unterkategorien aufgeteilt, wobei fast die Hälfte aller assoziierten Proteine in der Unterkategorie Der Stoffwechselkrankheit, die für diese Unterkategorie eindeutig ist, und mit der Unterkategorie Ernährungsstörungen, die nur wenige einzigartige Proteine aufweist.
Unabhängige und unterschiedliche Kategorien und eine Sammlung aller Synonyme und Abkürzungen einer Entität liefern die besten Ergebnisse. Da die Entitätskategoriezuordnung als numerischer Wert dargestellt wird, öffnet dies die Tür zur Implementierung fehlender Lerntechniken wie Clustering und Prinzipkomponentenanalyse. Diese Technik erleichtert die Entdeckung verborgener oder bisher nicht identifizierter Beziehungen innerhalb dieser Assoziationen und ebnet den Weg für ein tieferes Verständnis biologischer Prozesse.