Ang mga Pag-uusap sa Iyong Computer ay Maaaring Maging Mas Makatotohanan

Talaan ng mga Nilalaman:

Ang mga Pag-uusap sa Iyong Computer ay Maaaring Maging Mas Makatotohanan
Ang mga Pag-uusap sa Iyong Computer ay Maaaring Maging Mas Makatotohanan
Anonim

Mga Key Takeaway

  • Gumagamit ang Meta ng AI para gumawa ng mga program na makapagpapahayag ng emosyon sa pagsasalita.
  • Sinabi ng AI team ng kumpanya na gumawa ito ng mga pag-unlad sa pagmomodelo ng mga nagpapahayag na vocalization, gaya ng pagtawa, paghikab, pag-iyak, at "spontaneous chit-chat" sa real-time.
  • Ang AI ay ginagamit din para pahusayin ang speech recognition.
Image
Image

Maaaring malapit ka nang magkaroon ng mas natural na pakikipag-chat sa iyong computer, salamat sa kapangyarihan ng artificial intelligence (AI).

Sinabi ng Meta na gumawa ito ng makabuluhang pag-unlad sa pagsisikap nitong lumikha ng mas makatotohanang mga sistema ng pagsasalita na binuo ng AI. Sinabi ng AI team ng kumpanya na nakagawa ito ng mga pag-unlad sa kakayahang mag-modelo ng mga nagpapahayag na vocalization, tulad ng pagtawa, paghikab, at pag-iyak, bilang karagdagan sa "spontaneous chit-chat" sa real-time.

"Sa anumang partikular na pag-uusap, ang mga tao ay nagpapalitan ng punung-puno ng mga di-berbal na senyales, tulad ng mga intonasyon, emosyonal na pagpapahayag, pag-pause, accent, ritmo-na lahat ay mahalaga sa mga pakikipag-ugnayan ng tao, " isinulat ng koponan sa kamakailang post sa blog. "Ngunit nabigo ang mga AI system ngayon na makuha ang mayaman at nagpapahayag na mga senyales na ito dahil natututo lang sila mula sa nakasulat na teksto, na nakukuha ang sinasabi natin ngunit hindi kung paano natin ito sinasabi."

Mas matalinong Pagsasalita

Sa blog post, sinabi ng team ng Meta AI na nagsusumikap silang malampasan ang mga limitasyon ng mga tradisyunal na AI system na hindi nakakaintindi ng mga non-verbal na signal sa pagsasalita, gaya ng mga intonasyon, emosyonal na expression, pause, accent, at ritmo. Ang mga system ay pinipigilan dahil maaari lamang silang matuto mula sa nakasulat na teksto.

Ngunit ang gawain ng Meta ay naiiba sa mga nakaraang pagsisikap dahil ang mga modelo ng AI nito ay maaaring gumamit ng mga natural na modelo ng pagpoproseso ng wika upang makuha ang buong kalikasan ng sinasalitang wika. Sinasabi ng mga meta researcher na maaaring payagan ng mga bagong modelo ang mga AI system na ihatid ang damdaming gusto nilang iparating-gaya ng pagkabagot o kabalintunaan.

"Sa malapit na hinaharap, tututukan namin ang paglalapat ng mga diskarteng walang text upang bumuo ng mga kapaki-pakinabang na downstream na application nang hindi nangangailangan ng alinman sa resource-intensive na text label o automatic speech recognition system (ASR), gaya ng pagsagot sa tanong (hal., "Kumusta ang weather?"), " isinulat ng koponan sa post sa blog. "Naniniwala kami na ang prosody sa pagsasalita ay makakatulong sa mas mahusay na pag-parse ng isang pangungusap, na kung saan ay nagpapadali sa pag-unawa sa layunin at nagpapahusay sa pagganap ng pagsagot sa tanong."

AI Powers Comprehension

Hindi lamang ang mga computer ay nagiging mas mahusay sa pakikipag-usap ng kahulugan, ngunit ang AI ay ginagamit din upang palakasin ang mga pagpapabuti sa speech recognition.

Ang mga computer scientist ay nagtatrabaho sa computer speech recognition mula noong hindi bababa sa 1952, nang ang tatlong mananaliksik sa Bell Labs ay lumikha ng isang system na maaaring makilala ang mga solong numero, ang punong opisyal ng teknolohiya ng AI Dynamics, Ryan Monsurate, sinabi sa isang email sa Lifewire. Pagsapit ng 1990s, ang mga speech recognition system ay available na sa komersyo ngunit mayroon pa ring rate ng error na sapat na mataas upang pigilan ang paggamit sa labas ng mga partikular na domain ng application gaya ng pangangalagang pangkalusugan.

"Ngayong na-enable na ng mga deep learning model ang ensemble models (tulad ng mga mula sa Microsoft) na makamit ang superhuman performance sa speech recognition, mayroon na kaming teknolohiya para paganahin ang speaker-independent na verbal na komunikasyon sa mga computer sa sukat," sabi ni Monsurate. "Kabilang sa susunod na yugto ang pagpapababa sa gastos upang ang lahat ng gumagamit ng Siri o mga AI assistant ng Google ay magkaroon ng access sa antas na ito ng speech recognition."

Image
Image

Ang AI ay kapaki-pakinabang para sa pagkilala sa pagsasalita dahil maaari itong mapabuti sa paglipas ng panahon sa pamamagitan ng pag-aaral, sinabi ni Ariel Utnik, ang punong opisyal ng kita at pangkalahatang tagapamahala sa kumpanya ng boses ng AI na Verbit.ai, sa Lifewire sa isang panayam sa email. Halimbawa, inaangkin ng Verbit na ang in-house na AI na teknolohiya nito ay nagde-detect at nagpi-filter ng ingay sa background at mga echo at nag-transcribe ng mga speaker anuman ang accent upang makabuo ng mga detalyado at propesyonal na transcript at mga caption mula sa live at recorded na video at audio.

Ngunit sinabi ni Utnik na ang karamihan sa mga kasalukuyang speech recognition platform ay 75-80% lang ang tumpak.

"Hindi kailanman ganap na papalitan ng AI ang mga tao dahil kailangan ang personal na pagsusuri ng mga transcriber, proofreader, at editor upang matiyak ang isang mataas na kalidad at pinakamataas na katumpakan na final transcript," dagdag niya.

Maaari ding gamitin ang mas mahusay na voice recognition para maiwasan ang mga hacker, sinabi ni Sanjay Gupta, ang vice president global head ng product at corporate development sa voice recognition company na Mitek Systems, sa isang email. Isinasaad ng pananaliksik na sa loob ng dalawang taon, 20 porsiyento ng lahat ng matagumpay na pag-atake sa pagkuha ng account ay gagamit ng synthetic na voice augmentation, idinagdag niya.

"Ito ay nangangahulugan na habang nagiging mas sopistikado ang malalim na pekeng teknolohiya, kailangan nating sabay-sabay na lumikha ng advanced na seguridad na maaaring labanan ang mga taktikang ito kasama ng mga malalim na pekeng larawan at video," sabi ni Gupta. "Ang paglaban sa voice spoofing ay nangangailangan ng liveness detection technology, na may kakayahang makilala sa pagitan ng live na boses at isang recorded, synthetic o computer-generated na bersyon ng boses."

Correction 2022-05-04: Iwasto ang spelling ng pangalan ni Ryan Monsurate sa paragraph 9.

Inirerekumendang: