Sign In

A subscription to JoVE is required to view this content. Sign in or start your free trial.

In This Article

  • Summary
  • Abstract
  • Introduction
  • Protocol
  • Representative Results
  • Discussion
  • Acknowledgements
  • Materials
  • References
  • Reprints and Permissions

Summary

Il presente protocollo descrive un nuovo algoritmo end-to-end di rilevamento di oggetti salienti. Sfrutta le reti neurali profonde per migliorare la precisione del rilevamento di oggetti salienti all'interno di contesti ambientali intricati.

Abstract

Il rilevamento di oggetti salienti è emerso come una fiorente area di interesse nell'ambito della visione artificiale. Tuttavia, gli algoritmi prevalenti mostrano una precisione ridotta quando hanno il compito di rilevare oggetti salienti all'interno di ambienti intricati e sfaccettati. Alla luce di questa pressante preoccupazione, questo articolo presenta una rete neurale profonda end-to-end che mira a rilevare oggetti salienti all'interno di ambienti complessi. Lo studio introduce una rete neurale profonda end-to-end che mira a rilevare oggetti salienti all'interno di ambienti complessi. Comprendendo due componenti interconnesse, vale a dire una rete convoluzionale completa multiscala a livello di pixel e una rete di codificatori-decodificatori profondi, la rete proposta integra la semantica contestuale per produrre contrasto visivo attraverso mappe di caratteristiche multiscala, impiegando al contempo caratteristiche di immagini profonde e poco profonde per migliorare l'accuratezza dell'identificazione dei confini degli oggetti. L'integrazione di un modello di campo casuale condizionale (CRF) completamente connesso migliora ulteriormente la coerenza spaziale e la delineazione dei contorni delle mappe salienti. L'algoritmo proposto è ampiamente valutato rispetto a 10 algoritmi contemporanei sui database SOD e ECSSD. I risultati della valutazione dimostrano che l'algoritmo proposto supera altri approcci in termini di precisione e accuratezza, stabilendo così la sua efficacia nel rilevamento di oggetti salienti all'interno di ambienti complessi.

Introduction

Il rilevamento di oggetti salienti imita l'attenzione visiva umana, identificando rapidamente le regioni chiave dell'immagine e sopprimendo le informazioni di sfondo. Questa tecnica è ampiamente impiegata come strumento di pre-elaborazione in attività come il ritaglio delle immagini1, la segmentazione semantica2 e l'editing delle immagini3. Semplifica attività come la sostituzione dello sfondo e l'estrazione del primo piano, migliorando l'efficienza e la precisione dell'editing. Inoltre, aiuta nella segmentazione semantica migliorando la localizzazione del target. Il potenziale del rilevamento di ....

Protocol

1. Impostazione e procedura sperimentale

  1. Caricare il modello VGG16 pre-addestrato.
    NOTA: Il primo passaggio consiste nel caricare il modello VGG16 pre-addestrato dalla libreria Keras6.
    1. Per caricare un modello VGG16 pre-addestrato in Python utilizzando le librerie di deep learning più diffuse come PyTorch (vedi Tabella dei materiali), segui questi passaggi generali:
      1. Importa torcia. Importate torchvision.models

Representative Results

Questo studio introduce una rete neurale profonda end-to-end che comprende due reti complementari: una rete multiscala a livello di pixel completamente convoluzionale e una rete di codificatori-decodificatori profondi. La prima rete integra la semantica contestuale per derivare i contrasti visivi dalle mappe delle caratteristiche multiscala, affrontando la sfida dei campi recettivi fissi nelle reti neurali profonde su diversi livelli. La seconda rete utilizza le caratteristiche delle immagini profonde e poco profonde per.......

Discussion

L'articolo introduce una rete neurale profonda end-to-end specificamente progettata per il rilevamento di oggetti salienti in ambienti complessi. La rete è composta da due componenti interconnessi: una rete multiscala completamente convoluzionale (DCL) a livello di pixel e una rete di codifica-decodificatore profondo (DEDN). Questi componenti lavorano in sinergia, incorporando la semantica contestuale per generare contrasti visivi all'interno di mappe di caratteristiche multiscala. Inoltre, sfruttano le caratteristiche .......

Acknowledgements

Questo lavoro è supportato dall'istituzione del programma di finanziamento del progetto di finanziamento del progetto di ricerca scientifica chiave degli istituti di istruzione superiore provinciali dell'Henan del 2024 (numero di progetto: 24A520053). Questo studio è supportato anche dalla costruzione di corsi dimostrativi caratteristici per la creazione e l'integrazione specializzata nella provincia di Henan.

....

Materials

NameCompanyCatalog NumberComments
MatlabMathWorksMatlab R2016aMATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance.
It provides tools for building applications using custom graphical interfaces.
It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor Intel11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz64-bit Win11 processor 
PycharmJetBrainsPyCharm 3.0PyCharm is a Python IDE (Integrated Development Environment)
a list of required python:
modulesmatplotlib
skimage
torch
os
time
pydensecrf
opencv
glob
PIL
torchvision
numpy
tkinter
PyTorch FacebookPyTorch 1.4 PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

References

  1. Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
  2. Wang, W. G., Sun, G. L., Gool, L. V.

Explore More Articles

Ingegneriaambienti complessiend to endreti neurali profonderilevamento di oggetti salienti

This article has been published

Video Coming Soon

JoVE Logo

Privacy

Terms of Use

Policies

Research

Education

ABOUT JoVE

Copyright © 2025 MyJoVE Corporation. All rights reserved