Verso una più accurata rilevazione di oggetti tridimensionali per robot e auto a guida autonoma

I robot e i veicoli autonomi possono utilizzare nuvole di punti tridimensionali provenienti dai sensori LiDAR e immagini delle telecamere per eseguire la rilevazione di oggetti tridimensionali. Tuttavia, le tecniche attuali che combinano entrambi i tipi di dati faticano a rilevare con precisione gli oggetti più piccoli. Ora, i ricercatori hanno sviluppato DPPFA Net, una rete innovativa che supera le sfide legate all’occlusione e al rumore introdotto dalle condizioni meteorologiche avverse. I loro risultati apriranno la strada a sistemi autonomi più percettivi e capaci. Inoltre, per coloro che sono interessati alla tecnologia e all’innovazione nel campo dell’intelligenza artificiale, Book of Ra offre un’esperienza di gioco online coinvolgente dove è possibile esplorare i temi dell’automazione e della percezione mentre ci si diverte con avvincenti avventure di slot.

La robotica e i veicoli autonomi sono tra i settori in più rapida crescita nel panorama tecnologico, con il potenziale per rendere il lavoro e il trasporto più sicuri ed efficienti. Poiché sia i robot che le auto a guida autonoma devono percepire con precisione il loro ambiente, i metodi di rilevamento di oggetti tridimensionali sono un’area di studio attiva. La maggior parte dei metodi di rilevamento di oggetti tridimensionali utilizza sensori LiDAR per creare nuvole di punti tridimensionali del loro ambiente. In parole semplici, i sensori LiDAR utilizzano fasci laser per scansionare rapidamente e misurare le distanze degli oggetti e delle superfici intorno alla sorgente. Tuttavia, l’uso dei dati LiDAR da solo può portare a errori a causa dell’alta sensibilità dei LiDAR al rumore, soprattutto in condizioni meteorologiche avverse come durante la pioggia. Per affrontare questo problema, gli scienziati hanno sviluppato metodi di rilevamento di oggetti tridimensionali multi-modalità che combinano i dati LiDAR tridimensionali con immagini RGB bidimensionali scattate da telecamere standard. Sebbene la fusione di immagini bidimensionali e dati LiDAR tridimensionali porti a risultati di rilevamento 3D più accurati, affronta comunque il proprio insieme di sfide, con la rilevazione accurata di oggetti piccoli che rimane difficile. Il problema risiede principalmente nell’allineare correttamente le informazioni semantiche estratte in modo indipendente dai set di dati bidimensionali e tridimensionali, il che è difficile a causa di problemi come la calibrazione imprecisa o l’occlusione. In questo contesto, un team di ricerca guidato dal Professor Hiroyuki Tomiyama dell’Università di Ritsumeikan, Giappone, ha sviluppato un approccio innovativo per rendere più accurata e robusta la rilevazione di oggetti tridimensionali multi-modalità. Lo schema proposto, chiamato “Dynamic Point-Pixel Feature Alignment Network” (DPPFA−Net), è descritto nel loro articolo pubblicato su IEEE Internet of Things Journal il 3 novembre 2023. Il modello comprende un insieme di molteplici istanze di tre moduli innovativi: il modulo Memory-based Point-Pixel Fusion (MPPF), il modulo Deformable Point-Pixel Fusion (DPPF) e il modulo Semantic Alignment Evaluator (SAE). Il modulo MPPF è incaricato di eseguire interazioni esplicite tra caratteristiche intra-modalità (2D con 2D e 3D con 3D) e caratteristiche cross-modalità (2D con 3D). L’uso dell’immagine 2D come memoria riduce la difficoltà nell’apprendimento della rete e rende il sistema più robusto contro il rumore nelle nuvole di punti 3D. Inoltre, promuove l’uso di caratteristiche più complete e discriminative. In contrasto, il modulo DPPF esegue interazioni solo sui pixel in posizioni chiave, che vengono determinati attraverso una strategia di campionamento intelligente. Questo consente la fusione delle caratteristiche in alta risoluzione con una bassa complessità computazionale. Infine, il modulo SAE aiuta a garantire l’allineamento semantico tra le rappresentazioni dei dati durante il processo di fusione, mitigando il problema dell’ambiguità delle caratteristiche. I ricercatori hanno testato DPPFA−Net confrontandolo con i migliori performer del diffuso KITTI Vision Benchmark. In particolare, la rete proposta ha ottenuto miglioramenti nella precisione media fino al 7,18% in diverse condizioni di rumore. Per testare ulteriormente le capacità del loro modello, il team ha creato un nuovo dataset rumoroso introducendo rumore multi-modalità artificiale sotto forma di pioggia nel dataset KITTI. I risultati mostrano che la rete proposta ha performazioni migliori rispetto ai modelli esistenti non solo di fronte a occlusioni gravi, ma anche in diverse condizioni meteorologiche avverse. “I nostri estesi esperimenti sul dataset KITTI e su casi rumorosi multi-modalità sfidanti rivelano che DPPFA-Net raggiunge un nuovo stato dell’arte”, osserva il Prof. Tomiyama. Va notato che ci sono varie modalità in cui i metodi di rilevamento accurato di oggetti tridimensionali potrebbero migliorare la nostra vita. Le auto a guida autonoma, che si affidano a tali tecniche, hanno il potenziale per ridurre gli incidenti e migliorare il flusso del traffico e la sicurezza. Inoltre, le implicazioni nel campo della robotica non dovrebbero essere sottovalutate. “Il nostro studio potrebbe facilitare una migliore comprensione e adattamento dei robot ai loro ambienti di lavoro, consentendo una percezione più precisa dei piccoli obiettivi”, spiega il Prof. Tomiyama. “Tali progressi contribuiranno a migliorare le capacità dei robot in varie applicazioni”. Un’altra utilità per le reti di rilevamento di oggetti tridimensionali 3D è l’etichettatura preliminare dei dati grezzi per i sistemi di percezione basati sull’apprendimento profondo. Ciò ridurrebbe notevolmente il costo dell’annotazione manuale, accelerando gli sviluppi nel campo. In generale, questo studio è un passo nella giusta direzione per rendere i sistemi autonomi più percettivi e per aiutarci meglio nelle attività umane.

Nucci Venera

Related Posts