Funding period: 2000-2003
URL:
Giacomo.M. BISIO
Department of Biophysical and Electronic Engineering University of Genoa Via Opera Pia, 11a I-16145 Genova, ITALY tel: (+39) 010 353 2756 fax: (+39) 010 353 2777 e-mail: bisio@dibe.unige.it
Coordinator:
Elsag S.p.a. I
Partners:
STMicroelectronics S.r.l. I
Istituto Trentino di Cultura I
Istituto per le Ricerche di Tecnologia Meccanica e per l'Automazione S.p.a. I
DIBE - University of Genoa I
Italian National Research Council I
University of Siena I
Istituto Nazionale Biostrutture e Biosistemi I
Consorzio U.L.I.S.S.E. I
1.3.1.1 Analisi di fattibilità
di architetture neuronali
A)
Analisi architetture
neurali da implementare per lo sviluppo dei due sistemi applicativi.
A3.
Analisi
architetture neurali cooperative per funzionalità di visione a basso
livello
Modelli tipo BCS per feature enhancement e conseguente segregazione di regioni
Il primo stadio di un sistema di visione artificiale deve essere in grado
di estrarre velocemente ed efficientemente l'informazione saliente nell'immagine,
rappresentata, in scene naturali, da linee, contorni e tessiture, ottenendo
una rappresentazione intermedia su cui basare stadi più complessi
di elaborazione per la segmentazione, la classificazione
e il riconoscimento. Nell'ambito della visione
artificiale, rivestono particolare interesse l'estrazione di bordi e l'analisi
di tessitura, quindi lo sviluppo di un'architettura capace di integrare
entrambe le operazioni migliorerebbe sensibilmente
le prestazioni di successivi moduli di elaborazione di un sistema di visione
completo. In questo contesto,
estrapolando le caratteristiche essenziali delle reti cooperative presenti
in letteratura, abbiamo proposto un'architettura per funzionalità
di visione "low-level" di tipo semplificato:
(i) gli schemi di interconnessione sono più semplici; (ii) le equazioni del sistema non sono dinamiche;
(iii) occorre un numero inferiore di parametri
da controllare.
Contributo alla definizione delle metodologie
di implementazione dei componenti neurali basati su moduli software
Con riferimento all'architettura proposta al punto A3. si sono considerate le reti neurali cellulari (CNN),
dato che sono molto efficienti in diversi compiti di "image processing". In particolare per compiti visivi
esprimibili come interazioni locali tra unità di elaborazione disposte su griglie bidimensionali.
Infatti le CNN sono strutture intrinsecamente parallele
ed analogiche e pertanto possono essere considerate come strumenti di elaborazione
veloci per sistemi organizzati a matrice, come le immagini. In particolare, partendo da una riformulazione generalizzata
delle CNN multi-strato, si
sono considerati le problematiche implementative dell'architettura proposta,
considerando sia gli aspetti di programmabilità
sia gli aspetti di efficienza.
E)
Proposta di soluzioni architetturali
alternative.
E2. Soluzioni architetturali alternative
in base alle specifiche prestazionali.
Contributo alla proposta di architetture alternative basate su schemi di elaborazione
neuromorfi
Abbiamo proposto l'architettura
di un microsistema percettivo utilizzabile nell'ambito di elaborazioni
visive in tempo reale. Il sistema è basato su una matrice di fotosensori
retinomorfi utilizzata non per la riproduzione della scena dinamica (come
si ottiene da una videocamera convenzionale), ma per estrarre informazioni
salienti in tempo reale. L'attività ha lo scopo di sviluppare un modulo
sensoriale analogico VLSI con integrate capacità di elaborazione percettiva dinamica. I principi computazionali di questo modulo VLSI dedicato sono
studiate sull'ipotesi che l'implementazione più efficiente
di questi compiti percettivi può essere basata su matrici strutturate
(lattice network) di semplici elaboratori analogici che reagiscono collettivamente
a stimolazioni spazio-temporali, interpretata come il comportamento collettivo
di sistemi di reazione e diffusione. Di conseguenza, i processi percettivi
dell'"early vision" sono interpretati come una operazione di "misura" sul segnale visivo e operatori
relazionali locali sono introdotti per estrarre proprietà strutturali
dei dati visivi (orientamento, tessitura, movimento, etc.) analizzando un
singolo punto del campo visivo in termini di come è legato a ciò
che lo circonda nello spazio e nel tempo. In particolare per caratterizzare
l'essenza di una rete discreta di reazione e diffusione, si è introdotto
e studiato un blocco cooperativo di base (il "Motore Percettivo"), descrivendone
le prestazioni e le limitazioni con riferimento ai compiti visivi prescelti.
1.3.1.2 Sviluppo della concezione architetturale, sia
hardware che software, di almeno due sistemi di
applicazione completi
D) Definizione specifiche
funzionali e prestazionali del sistema di visione (“outdoor”).
D4. Specifiche prestazionali del sistema “outdoor”
Specifiche prestazionali di sistemi
out-door che impieghino architetture di elaborazione
neuromorfe
Nell'ambito dei compiti visivi per applicazioni reali, riveste un ruolo
fondamentale la "misura" delle informazioni visive tridimensionali (3-D) e
della loro dinamica. Tali informazioni sono ottenute
da sequenza bidimensionali (2-D) di immagini
che sono acquisite tramite viste binoculari: una coppia di telecamere stereo
in cui ogni telecamera acquisisce da punti di vista differenti la proiezione
2-D della scena 3-D. In particolare la percezione della profondità,
cioè della distanza
degli oggetti nella scena dall'osservatore, e la percezione del moto-in-profondità, cioè la capacità
di discriminare tra movimenti di avvicinamento e di allontanamento dall'osservatore,
hanno importanti implicazioni per compiti di manipolazione automatica, per
la navigazione robotica autonoma e per la sorveglianza di ambienti dinamici. Si sono, inoltre, affrontate problematiche legate
alla progettazione di architetture basate su microsistemi
percettivi: per esempio, la scelta dei filtri in relazione ai compiti visivi
prescelti e i vincoli legati al sistema ottico.
E) Sviluppo
concezione architetturale del sistema di visione ("outdoor").
E4. Proposta soluzioni architetturali alternative
Sviluppo delle concezioni architetturali
basate su schemi di elaborazione neuromorfi
Sulla base di quanto esposto al punto
D4. abbiamo proposto un modello architetturale per la discriminazione della
direzione e verso del moto in profondità e una stima della sua velocità,
basato sulle variazioni temporali della disparità. In particolare,
si è dimostrato analiticamente che l'informazione contenuta nella
differenza di velocità interoculare è la stessa che si ricava
dal calcolo della variazione totale di disparità binoculare, se la
disparità viene stimata attraverso l'informazione
di fase. Questo risultato risolve in parte l'apparente dicotomia sul meccanismo
strutturale alla base della percezione del moto in 3-D, suggerendo che il
calcolo della disparità statica e quello del moto in profondità
possono poggiare sulle stesse primitive di elaborazione,
riconducibili a filtri spazio-temporali il cui profilo approssima quello
dei campi recettivi delle cellule corticali. L'approssimazione delle operazioni
di derivazione con operazioni di filtraggio temporale
dà luogo a soluzioni "regolarizzanti", in cui è ridotta la
sensibilità al rumore.