Mga Key Takeaway
- Mabilis na lumalapit ang araw na hindi mo masasabi ang computer-generated speech mula sa totoong bagay.
- Inilabas kamakailan ng Google ang LaMDA, isang modelong maaaring magbigay-daan para sa mas natural na pag-uusap.
- Ang paggawa ng mala-tao na pananalita ay nangangailangan din ng napakaraming lakas sa pagproseso.
Sa ngayon, madaling sabihin kapag nakikipag-usap ka sa isang computer, ngunit maaaring magbago iyon sa lalong madaling panahon salamat sa mga kamakailang pag-unlad sa AI.
Inilabas kamakailan ng Google ang LaMDA, isang pang-eksperimentong modelo na sinasabi ng kumpanya na maaaring mapalakas ang kakayahan ng mga katulong na AI nito sa pakikipag-usap at magbigay-daan para sa mas natural na mga pag-uusap. Nilalayon ng LaMDA na sa huli ay makipag-usap nang normal tungkol sa halos anumang bagay nang walang anumang uri ng paunang pagsasanay.
Isa ito sa dumaraming bilang ng mga proyekto ng AI na maaaring makapag-isip sa iyo kung tao ang kausap mo.
"Ang tantiya ko ay sa loob ng susunod na 12 buwan, magsisimulang malantad at masasanay ang mga user sa mga bago, mas emosyonal na boses na ito," James Kaplan, ang CEO ng MeetKai, isang nakakausap na AI virtual voice assistant at paghahanap engine, sinabi sa isang panayam sa email.
"Kapag nangyari ito, ang synthesize na pananalita ngayon ay magiging tunog sa mga user tulad ng pananalita noong unang bahagi ng 2000s na tunog sa atin ngayon."
Mga Voice Assistant na May Character
Ang LaMDA ng Google ay binuo sa Transformer, isang neural network architecture na naimbento ng Google Research. Hindi tulad ng ibang mga modelo ng wika, ang LaMDA ng Google ay sinanay sa totoong pag-uusap.
Bahagi ng hamon sa paggawa ng natural-sounding AI speech ay ang bukas na katangian ng mga pag-uusap, isinulat ni Eli Collins ng Google sa isang blog post.
"Ang isang pakikipag-chat sa isang kaibigan tungkol sa isang palabas sa TV ay maaaring mauwi sa isang talakayan tungkol sa bansa kung saan kinunan ang palabas bago tumira sa isang debate tungkol sa pinakamahusay na rehiyonal na lutuin ng bansang iyon," dagdag niya.
Mabilis ang paggalaw ng mga bagay gamit ang robot na pagsasalita. Eric Rosenblum, isang managing partner sa Tsingyuan Ventures, na namumuhunan sa pakikipag-usap na AI, ay nagsabi na ang ilan sa mga pinakapangunahing problema sa computer-aided speech ay halos nareresolba.
Halimbawa, ang rate ng katumpakan sa pag-unawa sa pagsasalita ay napakataas na sa mga serbisyo tulad ng mga transkripsyon na ginawa ng software na Otter.ai o mga medikal na tala na kinuha ng DeepScribe.
"Gayunpaman, mas mahirap ang susunod na hangganan," dagdag niya.
"Ang pagpapanatili ng pag-unawa sa konteksto, na isang problemang higit pa sa natural na pagproseso ng wika, at ang empatiya, gaya ng mga computer na nakikipag-ugnayan sa mga tao ay kailangang maunawaan ang pagkabigo, galit, pagkainip, atbp. Parehong inaayos ang mga isyung ito, ngunit parehong malayo sa kasiya-siya."
Mga Neural Network ang Susi
Para makabuo ng mga boses na parang buhay, ang mga kumpanya ay gumagamit ng teknolohiya tulad ng mga deep neural network, isang anyo ng machine learning na nag-uuri ng data sa pamamagitan ng mga layer, Matt Muldoon, North American president sa ReadSpeaker, isang kumpanyang gumagawa ng text to speech software, sinabi sa isang panayam sa email.
"Pinapino ng mga layer na ito ang signal, pinagbubukod-bukod ito sa mas kumplikadong mga klasipikasyon," dagdag niya. "Ang resulta ay sintetikong pananalita na parang tao."
Ang isa pang teknolohiyang pinapaunlad ay ang Prosody Transfer, na kinabibilangan ng pagsasama-sama ng tunog ng isang text-to-speech na boses sa istilo ng pagsasalita ng isa pa, sabi ni Muldoon. Mayroon ding transfer learning, na binabawasan ang dami ng data ng pagsasanay na kailangan para makagawa ng bagong neural text-to-speech na boses.
Sinabi ni Kaplan na ang paggawa ng mala-tao na pananalita ay nangangailangan din ng napakalaking lakas sa pagproseso. Gumagawa ang mga kumpanya ng neural accelerator chips, na mga custom na module na gumagana kasabay ng mga regular na processor.
"Ang susunod na yugto nito ay ang paglalagay ng mga chips na ito sa mas maliit na hardware, dahil sa kasalukuyan ay ginagawa na ito para sa mga camera kapag kinakailangan ang AI para sa paningin," dagdag niya. "Hindi magtatagal bago ang ganitong uri ng kakayahan sa pag-compute ay magagamit sa mga headphone mismo."
Ang isang hamon sa pagbuo ng AI-driven na pananalita ay ang lahat ng tao ay magkaiba ng pagsasalita, kaya ang mga computer ay malamang na nahihirapang unawain tayo.
"Isipin ang Georgia vs. Boston vs. North Dakota accent, at kung English ang iyong pangunahing wika," sabi ni Monica Dema, na nagtatrabaho sa voice search analytics sa MDinc, sa isang email. "Kung iisipin sa buong mundo, magastos na gawin ito para sa lahat ng rehiyon ng Germany, China, at India, ngunit hindi iyon nangangahulugan na hindi ito magagawa o hindi magagawa."