Essa medida pode ajudar a responder a perguntas-chave no campo de detecção biomédica sobre a geração de múltiplas soluções. A principal vantagem dessa técnica é que ela fornece uma interface de usuário gráfico fácil de usar para auxiliar pesquisadores biomédicos na detecção de múltiplos subsídios de recursos. Comece carregando os dados Matrix e as etiquetas de classe no software.
Clique na matriz de dados de carga para selecionar o arquivo de métricas de dados especificado pelo usuário e carregar etiquetas de classe para selecionar o arquivo de etiqueta de classe correspondente. Para determinar os rótulos de classe no número de recursos mais bem classificados, selecione os nomes das classes positiva e negativa nas caixas suspensas apropriadas e selecione 10 como o número de recursos mais bem classificados na caixa de drop down X superior para uma tela abrangente do subconjunto do recurso. Para ajustar os parâmetros do sistema para diferentes desempenhos, selecione a precisão de medição de desempenho como a caixa de queda de precisão equilibrada de precisão para o classificador de máquina de aprendizagem extremo selecionado.
Em seguida, selecione um valor de corte de 0,7 para a medição de desempenho especificada na caixa de entrada de corte de desempenho. Para executar o pipeline, clique em analisar e selecione 0.7 como o valor padrão da medição de desempenho cortado. E, 10 como o número padrão dos melhores subconjuntos de recursos.
Em seguida, colete e interprete os recursos detectados pelo software. Para gerar um gráfico de dispersão 3D dos 10 principais recursos dos subconjuntos com os melhores desempenhos de classificação detectados pelo software, clique em analisar e classificar os três recursos em um subconjunto de recursos em ordem ascendente de suas fileiras, usando as fileiras dos três recursos como os eixos F1, F2 e F3. Altere o valor de corte de desempenho para 0,7 e clique em analisar para gerar um gráfico de dispersão 3D dos subconjuntos de recurso com um valor de medição de desempenho maior ou igual ao decoramento de desempenho.
Em seguida, clique em sintonizar 3D para abrir uma nova janela para ajuste manual dos ângulos de visão do gráfico de dispersão 3D e reduzir para reduzir a redundância dos subconjuntos de recurso detectados. Para anotar um gene nos níveis de sequência de DNA e proteína, abra a página web do banco de dados david e clique no link de conversão de ID do gene para inserir os IDs de recurso do primeiro subconjunto biomarcador do conjunto de dados preparados. Clique no link da lista de genes e clique em enviar lista para recuperar as anotações de interesse e mostrar a lista gene para obter a lista de símbolos gene.
Em seguida, abra a página web do banco de dados GeneCards e insira o nome do gene de interesse na caixa de entrada de consulta de banco de dados para encontrar as anotações desse gene. Abra o banco de dados Online Mendelian Hereditria em Homem e procure o gene para encontrar as anotações desse gene a partir do banco de dados. Para anotar as proteínas codificadas, abra a página do banco de dados da base de conhecimento do UniProt e pesquise as anotações do gene a partir deste banco de dados.
Abra o sistema de predição baseado em grupo, ou servidor web GPS, e recupere a sequência de proteínas codificada pelo gene biomarcador do banco de dados da base de conhecimento UniProt e use a ferramenta GPS on-line para prever os resíduos de modificação pós-transição das proteínas. Para anotar as interações proteína-proteína e haver módulos funcionais enriquecidos, abra a página do servidor web string e use o banco de dados de strings para pesquisar o elevador para os genes de interesse para encontrar suas propriedades orquestradas. Para exportar os subconjuntos biomarcadores detectados para análise posterior, clique em exportar a tabela e selecione o formato de texto apropriado para salvar os arquivos.
Em seguida, exporte os plots de visualização como arquivos de imagem individuais, clicando em salvar em cada parcela e selecionando o formato de imagem apropriado para salvar cada arquivo. Neste experimento representativo, dois conjuntos de dados foram formatados como arquivos CSV e carregados no software como demonstrado. No primeiro conjunto de dados, 128 amostras com 12.625 características e rótulos de classe individuais foram carregadas com os dados finais Matrix contendo 95 amostras negativas e 33 amostras positivas.
Operações semelhantes também foram realizadas para o segundo conjunto de dados difíceis. A busca por uma palavra-chave específica do usuário nos nomes dos recursos revela um histograma dos recursos para cada conjunto de dados. Após a execução do algoritmo de pipeline para cada conjunto de dados, foram detectados 120 subconjuntos biomarcadores qualificados para o conjunto de dados fácil de discriminar, com 57 subconjuntos de biomarcadores trigêmeos demonstrando uma precisão de 100%.
Apenas 76 subconjuntos biomarcadores onde detectados para o conjunto de dados difícil, no entanto. E, com uma menor precisão do subconjunto dos biomarcadores sugerindo que os biomarcadores são específicos do fenótipo, outro grande desafio na detecção de biomarcadores. Ao usar este procedimento, é importante lembrar que um futuro problema de seleção tem múltiplas soluções.
Leia o SIM melhor desempenho. Após seu desenvolvimento, essa técnica abriu caminho para pesquisadores biomédicos explorarem a detecção biomédica com múltiplas soluções.