Mga Key Takeaway
- Ang DALL·E ay isang bagong neural network na maaaring gumuhit ng mga larawan batay sa text.
- Ang network ay isa sa dumaraming bilang ng mga proyekto ng AI na maaaring gayahin ang malikhaing output ng mga tao.
- Sabi ng mga eksperto, ang mga larawang iginuhit ng AI ay hindi orihinal na mga likha.
Ilipat, Picasso. Ang isang bagong neural network ay maaaring gumuhit ng mga larawan batay sa text.
Ang DALL·E, isang portmanteau ng mga pangalan ng artist na si Salvador Dalí at ng WALL·E ng Pixar, ay maaaring kumuha ng anumang text at lumikha ng larawan mula rito. Gumagamit ang system ng neural network na sinanay sa bilyun-bilyong larawan at mga halimbawa ng teksto. Isa ito sa dumaraming bilang ng mga proyekto ng AI na maaaring gayahin, ngunit hindi gayahin, ang malikhaing output ng tao.
"Dahil ang natural na wika ay patuloy na umuunlad, at lubos na nakadepende sa kontekstwal na nuance, ang pagtuturo sa isang makina na maunawaan ang wika nang sapat upang gumuhit ng larawan ay isang napaka makabuluhang tagumpay, " Tamara Schwartz, propesor ng cybersecurity sa York College of Pennsylvania, sinabi sa isang panayam sa email. "Isipin ang isang police sketch artist, iyon ay isang bihirang talento, na may kakayahang lumikha ng isang larawan batay sa paglalarawan ng isang saksi."
Paggamit ng Malaking Data para Gumawa ng Mga Larawan
Ang DALL-E ay ginawa ng AI research company na OpenAI at gumagana sa pamamagitan ng pag-iipon ng napakaraming data mula sa internet. Ang data ay pinoproseso ng isang natural na modelo ng wika at sinasanay upang makagawa ng mga larawan mula sa teksto. Ang DALL-E ay gumagana nang katulad sa kamakailang inilabas na GPT-3, isang modelo ng wika na nilikha ng OpenAI na maaaring i-prompt na bumuo ng mga orihinal na sipi ng teksto. Ang GPT-3 ay sinanay gamit ang kalahating trilyong salita ng internet text at maaaring makagawa ng nakakagulat na parang buhay na text.
Ang pagtuturo sa isang makina na maunawaan ang wika nang sapat upang gumuhit ng larawan ay isang napakahalagang tagumpay.
Michael Yurushkin, tagapagtatag at CTO ng BroutonLab, isang kumpanya ng data science, ay nagsabi sa isang panayam sa email na ang DALL-E ay "isa sa ilang matagumpay na jabs ng sangkatauhan sa pagtulad sa ating pagkamalikhain at imahinasyon." Idinagdag niya, "Mas madaling mapagtanto kung paano hinuhulaan ng AI ang isang bagay sa pamamagitan ng pagdaan sa may-katuturang data, ngunit ang pag-unawa kung paano ito nakakagawa ng mga guhit mula sa mga bagay na hindi pa `narinig' noon ay mas mahirap."
Schwartz ay maingat na tandaan na ang AI ay hindi gumagawa ng impormasyon, ngunit sa halip ay kumukuha ng data ng wika at ginagawa itong mga imahe.
"Ang paunang pagkamalikhain ay nagmumula sa taong gumawa ng gawain," sabi ni Schwartz. "Mayroong ilang `pagkamalikhain' sa bahagi ng AI, dahil nag-eeksperimento ito sa iba't ibang kumbinasyon ng data at pagkatapos ay pumipili mula sa isang bilang ng mga potensyal na output. Gayunpaman, sinusuri ng isang tao ang mga output at tinuturuan ang AI kung paano pumili mula sa maraming kumbinasyon."
Robot Detective Work?
Maaaring mag-eksperimento ang isang makina sa data na ito at kumbinasyon ng object nang mas mabilis kaysa sa isang tao na artist. Nabanggit ni Schwartz na ang DALL-E balang araw ay maaaring makipagsosyo sa isang detektib na sumusubok na buuin muli ang isang pinangyarihan ng krimen sa pamamagitan ng isang sketch, batay sa testimonya ng nakasaksi.
"Habang ibinibigay ng mga saksi ang kanilang mga pahayag, maaaring kunin ng computer ang pasalitang iyon, natural na impormasyon ng wika at lumikha ng guhit ng eksena, o maraming guhit ng eksena," sabi niya. "Maaaring isama ang mga visualization na ito upang lumikha ng isang mas tumpak na larawan ng nawalang ebidensya. Maaaring pagyamanin ang visualization na ito sa pamamagitan ng pagsasama ng nakaraang imahe ng lokasyon bago ang krimen."
Maraming iba pang programang hinimok ng AI ang maaaring makagawa ng sining. Halimbawa, gumagamit ang Ai-Da ng robotic arm system at facial recognition technology na ipinares sa artificial intelligence upang lumikha ng sining. Masusuri ng system ang isang imaheng inilagay sa harap ng makina, na pumapasok sa isang algorithm para makagawa ng mga galaw ng braso ng robot.
Gayunpaman, hindi dapat mag-alala ang mga taong artista na papalitan sila ng mga robotic overlord, ang argumento ni Ahmed Elgammal, ang direktor ng Art and Artificial Intelligence Lab sa Rutgers University, sa The New York Times noong nakaraang taon.
"Habang ang kahulugan ng sining ay patuloy na umuunlad, sa kaibuturan nito, ito ay isang anyo ng komunikasyon sa mga tao," isinulat niya. "Kung walang tao na artist sa likod ng makina, ang AI ay maaaring gumawa ng higit pa kaysa sa paglalaro ng anyo, nangangahulugan man iyon ng pagmamanipula ng mga pixel sa isang screen o mga tala sa isang musical ledger. Ang mga aktibidad na ito ay maaaring nakakaengganyo at nakakaintriga, ngunit wala silang kahulugan nang walang interaksyon sa pagitan artist at audience."
Pagkatapos tingnan ang gawa ng DALL-E, naiintindihan ko ang punto ni Elgammal na ang mga larawang ginawa ng AI ay hindi sining. Sa kabilang banda, mas mahusay sila kaysa sa anumang sining na magagawa ko. Kaya, talaga, ano ang pagkakaiba?