Temporal videomosaics [Romanian]

Original publication

Video mosaic temporal

Tilke Judd

Proiect final pentru Camera Cultura MAS 964 predat de Ramesh Raskar

Rezumat

Am scopul de a face un nou tip de videomosaic prin înlocuirea fiecărui cadru al unui video de intrare de-a lungul axei timpului cu o imagine nouă găsită din bază de date de imagini imensă. Deşi videomosaicul se face din conţinutul complet diferit decît video original, forma şi mişcarea obiectelor în video original ar trebui să fie încă evidentă.

Motivaţie

photomosaic

Photomosaicul este un montaj 2D atrăgător care imbină tehnologie, artă şi imaginaţie.Este oare posibil un similar concept în 3D? Apariţia a vectorului caracteristicilor esențiale de la Oliva şi Torralba [1] a permis noi posibilităţi de a găsi imagini care sunt similare în conţinut semantic şi schematic. Introducerea bazei de date LabelMe de la Russell și alții [2] conţine peste 74k de obiecte umane etichetate din 25k de scene de imagini. Ambele permit noi posibilităţi în potrivirea conţinutului şi aspectului între imagini şi potenţialul de a face videomosaicuri posibile.

Lucru de referință

Încercările anterioare de a face videomozaicuri au împărţit adesea planul imaginei 2D a lui video în pătrate mici şi înlocuitde fiecare patrat cu noul minivideo de o asemenea culoare şi  fluxul optic. Rezultatele de acest tip pot fi vazute pe web-pagina  lui Steve Martin sau în lucrarea lui Klein și alții despre videomozaicuri [5].

sfgsdf kayak videomosaic

Eu am scopul de a crea un videomozaic printr-o metodă diferită: împărţind video de-a lungul axei timpului în loc de axa plană 2D a imaginei. Un proiect care se deplasează într-un spațiu similar este descries de Ronit Slyer în Flickrbooks unde el încearcă să transforme imagini consecutive.

Abordare

Idee principală:

depiction of approach

1) Culegem o bază de date mare de imagini de la Flickr şi / sau LabelMe

2) Pentru fiecare cadru al video-ului de intrare, alegem un cadru de replasare de la baza de date prin găsirea celei mai asemănătoare imagini folosind fie vectorul caracteristicilor esențiale, suma diferenţelor pătrate (SDP), pe o versiune în tonuri de gri 32x32 a imaginii, sau folosind obiecte etichetate  din baza de date LabelMe, cadrînd  şi centrînd obiectul dorit.

Rezultate

Aici vom prezenta rezultatele videomosaicului primit de către folosirea vectorului sintezei caracteristicilor şi SDF pentru a găsi cadre de înlocuire.

Esenţa  scenei este o reprezentare acesteia introdusă în [8] ca un vector cu lungime caracteristică de 512. Ea găseşte prin calcularea caracteristici orientate spre filtru pe o grilă 4x4 a imaginii. În general, esenţa unei imagini reprezintă structura spațială acesteia; două imagini cu sinteza vectorilor  similară au aspecte similare şi, adesea, scene similare.

Suma diferenţelor pătrate a coincidențelor  sunt gasite prin compararea valorilor de luminanţă a  versiunii tonurilor gri 32x32 a imaginii în baza de date. În general, valorile luminanţei fiecărei imagini ar trebuie să fie normalizată în mediu la 1 (cu toate acestea, mai jos exemplul care nu a luat în aceasta considerare).

Acest exemplu de cadrurile a videomosaic provine dintr-o bază de date de 130k imaginili din Flickr. În scopul de a obţine rezultate de coincidență mai bune sau mai aproapiate baza de date trebuie să fie mai mare (pentru milioane de imagini).

video de intrare Tilke

video de intrare în mers

SSD meciuri

De mers pe jos video de intrare

Sinteza meciuri

In general, ceea ce este vizibil în aceste videomosaic este o formă generală ce se deplasează pe scena: obiectele în coincidențele esenţiale  înlocuiesc  video de intrare Tilke cu tendința să apară şi să crească de la stânga la dreapta a scenei, şi videomosaicul în mers ce are obiecte care se mişcă de la la dreapta la stânga. Eu numesc aceasta  continuitate spaţială. Deşi există o un număr mare de continuități spaţiale în aceste coincideri, aici e puţin sau nu există continuitate semantice. Acest lucru este evident în special în videomosaicul ceasului de mai jos.

Intrare Video

GIST Top meciuri (nu replici permis)

Alesi meciuri

Reţineţi că pentru cele mai esenţiale coincideri din ceasul arătat mai jos cîteva coicnideri sunt de formă circulară (verificați cadrele în primul rînd individual). Chiar dacă coincideri sunt circulare ele nu sunt ceasuri. Videomosaicul nostru ar fi mai puternică dacă aș fi utilizate imaginile ceasului. Pentru a testa acest lucru, am ales imagini de ceas de la Flickr pentru  a primi rezultate din dreapta sus. Ceasuri sunt vizibile şi uşor percepute pentru un vizualizator, dar ele nu sunt aliniate spaţial. Noi chiar aș dori cu adevărat să avem pe ambele.

În scopul de a obţine rezultate care au consistenţă atât spaţială cît şi semantică, am folosit baza de date LabelMe. Această bază de date constă din 74k de obiecte umane etichetate din scene de 25k  de imagini.  Eu introduce interogarea pentru un obiect (de exemplu, "ceasul") şi apoi în deplasez la creez scară cum este necesar.

"Faţă" de la LabelMe

LabelME "ceas"

LabelME "ceas"

LabelME "masina az90deg"

Rezultate mai puternice încă mai pot fi gasite prin combinarea imaginilor de LabelMe cu  măsurărea consistenței utilizînd esența. Dacă am folosi imaginile întoarse dintr- o singură interogare de "mașina" la labelMe, rămîn cu o secvenţă de cartele în diferite aranjamente una peste alta. Dacă, pe de altă parte, n-am constrains o imagine n+1 să aibă o structură similară vectororului de characteristic esențiale la imaginea n, atunci imagini cu consistență spaţială puternică v-or vin una după alta aşa cum se vede mai jos:

KISSR (film de scurt metraj)

Colaj de imagini reale, împreună cu videomosaicuri pentru a povesti o istorie simplă dar universală

direcţii viitoare

- Utilizarea unei baze de date Flickr mai mari. Exemplele actuale sunt realizate cu o bază de date de imagini de 130k. Aş dori în loc de asta să utilizez 6 milioane de imagini. În primul eu voi porni analiza componentelor principale 6 milioane vectorilor de esență pentru a reduce lungimea lor de la 512 la ~ 128 sau și mai puţin.

- Folosiţi interogări labelMe mai bune. LabelMe este capabil de a produce interogări foarte specifice, cum ar fi "maşină+constructie+drum" ('car+building+road').

aplicații pentru societate și impactul în viitor

Videomosaicuri  ar putea fi folosite ca piese de artă, exponate pentru muzee, reclame video unice. Alte aplicaţii planificate pe viitor includ:

Refacerea video-ului de amatori

Schimbarea videoul meu deo calitate scăzută în ceva mai bum (rezoluţie mai mare videomosaicului de rezoluție videocamerei mai mici, versiunea celebrită a unui video de amator personal, "Be Kind, Rewind", remake-ul unui film celebru). Transformați videoclipurile folosind imagini din diferite culturi sau epoci sau genuri de filme pentru a obţine o istorie simplă în mai multe stiluri diferite.

Hibriduri de video

În spiritul imaginilor hibride lui Aude Oliva şi Antonio Torralba, ar fi posibil de facut hybrid de video prin fuzionarea video-ului original şi remake-ul videomosaicului împreună cu acesta. Luați informaţiile de frecvenţă joasă din filmul original şi puneţi-l cu informaţiile de frecvență înaltă don videomosaic pentru a crea o imagine surprinzătoare: de departe video arată ca originalul, şi din apropiere video arată ar fi complet diferite de imagine.

Utilizaţi video de intrare pentru a ”manupula” cu video de ieşire

De exemplu, luați o mulţime de imagini de  peşte într-un acvarium - suficient pentru a acoperă spaţiul tuturor locaţiilor posibile şi poziţiilor pe peştele poate fi. Aceasta va fi baza de date pentru aplicarea videomosaicului. Apoi luaţi un video de intrare simplu a unor obiecte în mişcare - ca o privire din sus unei maşini mişcînduse prin strazile orasului. Înlocuiţi fiecare imagine de automobile de video cu cea mai apropiată imagine de peşte: videomosaicul rezultat v-or fi peştii ce se mișcă pe calea mașinii.

Oprire automată a animaţie în mişcare dintr-un video da amatori.

Pe primul cadru al unui videoclip, utilizatorul prezintă obiecte de interes principale. Apoi video în mod automat trasează obiectul pentru a găsi calcula unde obiectele obiectele curg prin video. Pentru a face remake, filmul se face prin traducerea cadrul statică de obiecte prin fundal cu unele obstacole într-o cale care urmează după mişcarea obiectul original.

Două video clipuri într-un singur

Deoarece telespectatori diferiți (oameni contra camerei video) văd clipuri video la frecvenţe diferite, ar fi posibil să arătăm filme separate pentru telespectatorii separați utilizînd principiul videomosaicului temporal. Un video ar fi video primar şi el este ceea ce oamenii ar vedea. Alt video ar fi intercalat în primul la o rată care îl face imperceptibil pentru ochiul uman, dar care ar fi preluat de către camerele video ce fac șablonuri din cadre video. Acest lucru ar putea fi un mod alternativ de a trimite mesaje codate în interiorul unui video.

Referinte

[1] A. Oliva, A. Torralba, The role of context in object recognition, Trends in Cognitive Sciences, vol. 11(12), pp. 520-527. December 2007.

[2] B. C. Russell, A. Torralba, K. P. Murphy, W. T. Freeman, LabelMe: a database and web-based tool for image annotation. MIT AI Lab Memo AIM-2005-025, September, 2005.

[3] J. Sivic, B Kaneva, A Torralba, S Avidan, B Freeman, Creating and Exploring a Large Photorealistic Virtual Space Presentation at Scene Understanding Symposium 2008 MIT

[4] Robert Silvers, Photomosaics, Editor Michael Hawley, Henry Holt and Company, Inc.

[5] Allison W. Klein , Tyler Grant , Adam Finkelstein , Michael F. Cohen, Video mosaics, Proceedings of the 2nd international symposium on Non-photorealistic animation and rendering, June 03-05, 2002, Annecy, France

[6] Steve Martin, Video Mosaics, Berkeley 2004, Final Project for CS283 Graduate Graphics with Prof James O'Brien, http://stevezero.com/eecs/mosaic/index.htm

[7] Ronit Slyer, Flickrbooks Final project for Computational Photography Fall 2007 CMU pagina proiectului

[8] Oliva, A. and Torralba, A. (2001) Modeling the shape of the scene: a holistic representation of the spatial envelope. Int. J. Comput. Vis. 42, 145–175