Quali sono i passaggi che rendono la tecnologia di riconoscimento visuale interoperabile? Scopriamoloattraverso l’analisi del “Compact Descriptors for Visual Search”, uno standard ideato dal gruppo Mpeg.
Quello della ricerca visuale rappresenta, oggi, uno degli obiettivi più ambiziosi nel mondo della tecnologia, sia in termini tecnici che culturali. Nell’accezione più comune, infatti, quando si avvia una ricerca avvalendosi di uno strumento tecnologico, la mente spesso associa un testo da digitare come metodo d’accesso ad una serie di informazioni disponibili. L’abitudine piuttosto frequente, dunque, è quella di interrogare la rete attraverso l’utilizzo delle sole parole. Pensiamo invece quanti scenari potrebbero aprirsi se si desse vita ad un processo di ricerca visuale, da avviare utilizzando le immagini e servendosi di opportune applicazioni interoperabili. È quanto sta facendo il gruppo Mpeg che, attraverso il coinvolgimento di diverse aziende, sta finalizzando il CDVS (Compact Descriptors for Visual Search), un nuovo standard di ricerca visuale. Un metodo già sperimentato, in realtà, da alcune società, ma solo con tecnologie proprietarie. Il progetto a cui sta lavorando Mpeg, invece, è quello di standardizzare questa tecnologia in modo che tutti possano farne uso consultando dei database interoperabili; creare, dunque, una sorta di alfabeto globale in termini visuali che possa rappresentare una base comune di ricerca delle informazioni attraverso il solo ausilio delle immagini.
Comitato di standardizzazione
Sono diverse le società coinvolte nello sviluppo del CDVS, raggruppate in un comitato di ricerca e sviluppo che vede la partecipazione di realtà di respiro nazionale ed internazionale. Un gruppo che annovera, tra gli altri, anche istituti universitari, e che vedrà finalizzato il processo di standardizzazione entro la fine del 2014. Ogni azienda che ne prende parte fornisce il proprio contributo adducendo dei perfezionamenti in quella che è considerata la fase più importante per la definizione dello standard; un impegno significativo per entrare nel cuore di un’operazione così delicata che tra l’altro rappresenta, per le aziende, un’opportunità rilevante per acquisire know how nel campo della ricerca visuale. In questo contesto, a fornire il proprio contributo, molti centri di ricerca italiani hanno preso parte al comitato di standardizzazione mettendo a disposizione un pool di esperti professionisti. Ma entriamo nel dettaglio della tecnologia, cercando di capire quali sono i principi sui quali si basa.
Keypoint e descrittori dell’immagine
Gli elementi fondamentali per riuscire a creare dei codici visuali di comunicazione vanno naturalmente individuati all’interno delle stesse immagini. La progettazione e lo sviluppo del CDVS affronta la standardizzazione della tecnologia di riconoscimento, che fa leva sul rilevamento dei punti chiave dell’immagine, detti “Keypoint”, i quali rappresentano i cosiddetti descrittori della figura presa in considerazione. Ogni singolo Keypoint viene opportunamente scelto e deve essere invariante a tutta una serie di trasformazioni geometriche come potrebbe esserlo la rotazione, il cambiamento di scala, l’inclinazione, ecc. Ovviamente, i punti chiave non devono essere nemmeno sensibili al cambiamento di illuminazione. È necessario poter individuare la figura rappresentata dall’immagine a prescindere che questa venga catturata di giorno oppure di notte, in una giornata particolarmente soleggiata oppure una più offuscata a causa del maltempo. L’unione di tutti i Keypoint messi insieme genera una sorta di codice dell’immagine e permette, dunque, di rappresentarla attraverso dei descrittori.
Ricerca attraverso il matching
La tecnologia permette di confrontare in maniera rapida l’immagine da analizzare con quelle inserite negli opportuni database. Si effettua quello che in gergo viene definito “matching”, attraverso il quale vengono comparate due immagini simili, attraverso i loro descrittori. L’algoritmo opera su una serie di descrittori locali dell’immagine e su un descrittore globale che rappresenta la stessa nella sua interezza. Se una determinata percentuale di Keypoint è corrispondente e la coerenza geometrica è verificata attraverso un’analisi di consistenza, viene riconosciuto l’effettivo matching tra le immagini. Un processo sicuramente complesso e articolato ma che va portato a termine in modo rapido ed efficiente.
Infiniti contesti applicativi
La tecnologia permette di confrontare in maniera rapida l’immagine da analizzare con quelle inserite negli opportuni database. Si effettua quello che in gergo viene definito “matching”, attraverso il quale vengono comparate due immagini simili, attraverso i loro descrittori. L’algoritmo opera su una serie di descrittori locali dell’immagine e su un descrittore globale che rappresenta la stessa nella sua interezza. Se una determinata percentuale di Keypoint è corrispondente e la coerenza geometrica è verificata attraverso un’analisi di consistenza, viene riconosciuto l’effettivo matching tra le immagini. Un processo sicuramente complesso e articolato ma che va portato a termine in modo rapido ed efficiente.
Movie on the road
Lo scenario applicativo al quale Sisvel Technology sta lavorando si chiama “Movie on the road” e parte da un progetto già esistente, sviluppato dall’Associazione Museo Nazionale del Cinema di Torino, che ha individuato su una mappa cartacea del capoluogo piemontese diverse “location” ove sono state girate scene di film, raggruppandole in differenti percorsi tematici. Un’iniziativa nata per far riscoprire Torino come Città del Cinema e promossa attraverso la distribuzione delle mappe in tutti i punti informativi turistici della città. L’idea ha rappresentato l’occasione ideale per estendere il progetto originario all’applicazione di tecnologie di ricerca visuale. Niente di più innovativo per creare un connubio tra cultura, arte e tecnologia, e permettere al turista quanto al cinefilo di approfondire la Torino cinematografica mediante la fotocamera del proprio smartphone. Unitamente alla collaborazione di Film Commission Torino Piemonte e della stessa Associazione Museo Nazionale del Cinema, Sisvel Technology sta realizzando delle tecnologie per terminali mobili, che consentono all’utente di visitare la città e reperire delle informazioni in merito ai film girati a Torino, “interrogando” i luoghi teatro delle riprese cinematografiche. In che modo? Semplicemente fotografando le location di interesse e consultando un server appositamente caricato dei vari contenuti informativi. In questo caso, il descrittore calcola i Keypoint relativi al luogo preso in considerazione, riconosce la location e restituisce tutte le informazioni relative al film in questione. Il progetto “Movie on the road” ha visto tra l’atro il coinvolgimento di vari enti ed associazioni, tra cui gli assessorati alla cultura della Regione Piemonte e della Città di Torino e la Fondazione CRT. Quando sarà ultimato il progetto permetterà di accedere a spezzoni di film, piuttosto che a contenuti extra, oltre ad immagini di backstage e altre riprese inedite. Naturalmente, se Torino è la prima città ad applicare il progetto sotto questa forma, non v’è dubbio che l’idea possa essere estesa anche ad altre città italiane. Attualmente, infatti, Movie on the road è un format e quando l’applicazione sarà definitivamente pronta potrà essere scalabile e modulabile su tutte le città, naturalmente modificandone il database. Non solo, per come è stato concepito il format, può essere utilizzato in diversi scenari applicativi: sport, musica, cibo, musei, ecc.
Come individuare un Keypoint
Il punto di partenza per creare in modo quanto più dettagliato un descrittore dell’immagine è rappresentato dalla corretta individuazione dei Keypoint. Ma quali sono i criteri di scelta di questi punti chiave? Un buon Keypoint deve rappresentare un connotato distintivo, una sorta di “segno particolare” che renda quasi esclusiva l’immagine. Non può essere, quindi, scelto in una zona piatta dell’immagine; in questo modo non veicolerebbe alcuna informazione utile al riconoscimento di quanto rappresentato. Lo stesso effetto negativo potrebbe verificarsi se scegliessimo un Keypoint lungo il bordo di un oggetto presente nella figura riprodotta. Senza dubbio, la scelta ottimale è rappresentata dai punti che prevedono un cambiamento significativo in tutte le direzioni, come potrebbe essere un angolo, una cuspide oppure uno spigolo.