AI ay Maiintindihan Na Ang Iyong Mga Video Sa Panonood ng Mga Ito

AI ay Maiintindihan Na Ang Iyong Mga Video Sa Panonood ng Mga Ito
AI ay Maiintindihan Na Ang Iyong Mga Video Sa Panonood ng Mga Ito
Anonim

Mga Key Takeaway

  • Sinasabi ng mga mananaliksik na maaari nilang turuan ang AI na mag-label ng mga video sa pamamagitan ng panonood at pakikinig.
  • Natututo ang AI system na kumatawan sa data para makuha ang mga konseptong ibinabahagi sa pagitan ng visual at audio data.
  • Bahagi ito ng pagsisikap na turuan ang AI na maunawaan ang mga konseptong hindi nahihirapan ang mga tao sa pag-aaral ngunit nahihirapang maunawaan ng mga computer.

Image
Image

Ang isang bagong artificial intelligence system (AI) ay maaaring manood at makinig sa iyong mga video at lagyan ng label ang mga bagay na nangyayari.

Ang MIT researcher ay nakabuo ng technique na nagtuturo sa AI na makuha ang mga aksyon na ibinabahagi sa pagitan ng video at audio. Halimbawa, mauunawaan ng kanilang pamamaraan na ang pagkilos ng isang sanggol na umiiyak sa isang video ay nauugnay sa sinasalitang salitang "umiiyak" sa isang sound clip. Bahagi ito ng pagsisikap na turuan ang AI kung paano unawain ang mga konsepto na hindi nahihirapang matutunan ng mga tao, ngunit nahihirapang maunawaan ng mga computer.

"Ang laganap na paradigm sa pag-aaral, pinangangasiwaang pag-aaral, ay gumagana nang maayos kapag mayroon kang mga dataset na mahusay na inilarawan at kumpleto," sinabi ng eksperto sa AI na si Phil Winder sa Lifewire sa isang panayam sa email. "Sa kasamaang palad, ang mga dataset ay bihirang kumpleto dahil ang totoong mundo ay may masamang ugali ng pagpapakita ng mga bagong sitwasyon."

Mas matalinong AI

Nahihirapan ang mga computer na alamin ang mga pang-araw-araw na senaryo dahil kailangan nilang mag-crunch ng data kaysa sa tunog at mga larawan tulad ng mga tao. Kapag "nakita" ng isang makina ang isang larawan, dapat nitong i-encode ang larawang iyon sa data na magagamit nito upang magsagawa ng isang gawain tulad ng pag-uuri ng larawan. Maaaring magulo ang AI kapag ang mga input ay dumating sa maraming format, tulad ng mga video, audio clip, at mga larawan.

"Ang pangunahing hamon dito ay, paano maihahanay ng isang makina ang iba't ibang modalidad na iyon? Bilang tao, madali ito para sa atin," sabi ni Alexander Liu, isang mananaliksik sa MIT at unang may-akda ng isang papel tungkol sa paksa, sa isang Paglabas ng balita. "Nakikita namin ang isang kotse at pagkatapos ay nakarinig kami ng tunog ng sasakyang dumaraan, at alam naming pareho ang mga ito. Ngunit para sa machine learning, hindi ito ganoon kadali."

Ang team ni Liu ay bumuo ng isang AI technique na sinasabi nilang natututong kumatawan ng data para makuha ang mga konseptong ibinabahagi sa pagitan ng visual at audio na data. Gamit ang kaalamang ito, matutukoy ng kanilang modelo ng machine-learning kung saan nagaganap ang isang partikular na aksyon sa isang video at lagyan ng label ito.

Ang bagong modelo ay kumukuha ng hilaw na data, gaya ng mga video at ang kanilang mga kaukulang text caption, at ine-encode ang mga ito sa pamamagitan ng pagkuha ng mga feature o obserbasyon tungkol sa mga bagay at aksyon sa video. Pagkatapos ay imamapa nito ang mga punto ng data na iyon sa isang grid, na kilala bilang isang espasyo sa pag-embed. Pinagsasama-sama ng modelo ang magkatulad na data bilang mga solong punto sa grid; bawat isa sa mga punto ng data na ito, o mga vector, ay kinakatawan ng isang indibidwal na salita.

Halimbawa, ang isang video clip ng isang taong nag-juggling ay maaaring ma-map sa isang vector na may label na "juggling."

Idinisenyo ng mga mananaliksik ang modelo upang maaari lamang itong gumamit ng 1, 000 salita upang lagyan ng label ang mga vector. Maaaring magpasya ang modelo kung aling mga aksyon o konsepto ang gusto nitong i-encode sa isang vector, ngunit maaari lamang itong gumamit ng 1, 000 vectors. Pinipili ng modelo ang mga salitang sa tingin nito ay pinakamahusay na kumakatawan sa data.

"Kung may video tungkol sa mga baboy, maaaring italaga ng modelo ang salitang 'baboy' sa isa sa 1, 000 vectors. Pagkatapos, kung marinig ng modelo ang isang tao na nagsasabi ng salitang 'baboy' sa isang audio clip, dapat pa rin itong gumamit ng parehong vector para i-encode iyon, " paliwanag ni Liu.

Iyong Mga Video, Na-decode

Maaaring makatulong ang mas mahusay na mga sistema ng pag-label tulad ng binuo ng MIT na mabawasan ang bias sa AI, sinabi ni Marian Beszedes, pinuno ng pananaliksik at pag-unlad sa biometrics firm na Innovatrics, sa Lifewire sa isang panayam sa email. Iminungkahi ni Beszedes na maaaring tingnan ng industriya ng data ang mga AI system mula sa perspektibo ng proseso ng pagmamanupaktura.

"Tinatanggap ng mga system ang hilaw na data bilang input (mga hilaw na materyales), i-preprocess ito, i-ingest ito, gumawa ng mga desisyon o hula at output analytics (finished goods), " sabi ni Beszedes. "Tinatawag namin ang daloy ng prosesong ito na "pabrika ng data," at tulad ng iba pang mga proseso ng pagmamanupaktura, dapat itong sumailalim sa mga kontrol sa kalidad. Kailangang ituring ng industriya ng data ang AI bias bilang isang problema sa kalidad.

"Mula sa pananaw ng consumer, ang maling label na data ay nagpapahirap hal. online na paghahanap para sa mga partikular na larawan/video," dagdag ni Beszedes. "Sa wastong binuong AI, magagawa mong awtomatikong mag-label, mas mabilis at mas neutral kaysa sa manu-manong pag-label."

Image
Image

Ngunit may ilang limitasyon pa rin ang modelo ng MIT. Una sa lahat, ang kanilang pananaliksik ay nakatuon sa data mula sa dalawang mapagkukunan sa isang pagkakataon, ngunit sa totoong mundo, ang mga tao ay nakakaharap ng maraming uri ng impormasyon nang sabay-sabay, sabi ni Liu

"At alam naming gumagana ang 1, 000 salita sa ganitong uri ng dataset, ngunit hindi namin alam kung maaari itong gawing pangkalahatan sa isang problema sa totoong mundo," dagdag ni Liu.

Sinasabi ng mga mananaliksik ng MIT na ang kanilang bagong pamamaraan ay higit na mahusay sa maraming katulad na mga modelo. Kung ang AI ay maaaring sanayin upang maunawaan ang mga video, sa kalaunan ay maaari mong laktawan ang panonood ng mga video sa bakasyon ng iyong kaibigan at sa halip ay makakuha ng isang computer-generated na ulat.

Inirerekumendang: