Paano Nagagawa ng AI na Mas Natural ang Pagsasalita sa Computer

Talaan ng mga Nilalaman:

Paano Nagagawa ng AI na Mas Natural ang Pagsasalita sa Computer
Paano Nagagawa ng AI na Mas Natural ang Pagsasalita sa Computer
Anonim

Mga Key Takeaway

  • Ang mga kumpanya ay nakikipagkarera sa paghahanap ng mga paraan upang gawing mas makatotohanan ang pagsasalita na binuo ng computer.
  • Ang NVIDIA kamakailan ay naglabas ng mga tool na maaaring makuha ang tunog ng natural na pananalita sa pamamagitan ng pagpayag sa iyong magsanay ng AI gamit ang sarili mong boses.
  • Intonasyon, emosyon, at musikal ang mga feature na kulang pa rin sa boses ng computer, sabi ng isang eksperto.
Image
Image

Computer-generated speech ay maaaring maging mas tao sa lalong madaling panahon.

Ang Computer parts maker NVIDIA kamakailan ay naglabas ng mga tool na maaaring makuha ang tunog ng natural na pananalita sa pamamagitan ng pagbibigay-daan sa iyong sanayin ang isang AI gamit ang iyong boses. Ang software ay maaari ding maghatid ng mga salita ng isang tagapagsalita gamit ang boses ng ibang tao. Bahagi ito ng umuusbong na pagtulak upang gawing mas makatotohanan ang pagsasalita sa computer.

"Ang advanced na teknolohiya ng voice AI ay nagbibigay-daan sa mga user na magsalita nang natural, na pinagsasama ang maraming mga katanungan sa isang pangungusap at inaalis ang pangangailangan na paulit-ulit ang mga detalye mula sa orihinal na query nang palagian," Michael Zagorsek, ang punong operating officer ng kumpanya sa pagkilala sa pagsasalita na SoundHound, sinabi sa Lifewire sa isang panayam sa email.

"Ang pagdaragdag ng maraming wika, na available na ngayon sa karamihan ng mga voice AI platform, ay ginagawang naa-access ang mga digital voice assistant sa mas maraming heograpiya at para sa mas maraming populasyon," dagdag niya.

Robospeech Rising

Mas maganda ang tunog ng Alexa ng Amazon at Siri ng Apple kaysa sa pagsasalita sa computer kahit isang dekada na ang nakalipas, ngunit hindi sila mapagkakamalang tunay na boses ng tao sa lalong madaling panahon.

Upang gawing mas natural ang artificial speech, ang text-to-speech research team ng NVIDIA ay bumuo ng isang RAD-TTS na modelo. Binibigyang-daan ng system ang mga indibidwal na magturo ng text-to-speech (TTS) na modelo gamit ang kanilang boses, kabilang ang pacing, tonality, timbre, at iba pang mga salik.

Ginamit ng kumpanya ang bago nitong modelo para bumuo ng mas nakakausap na voice narration para sa I Am AI video series nito.

"Gamit ang interface na ito, maaaring i-record ng aming video producer ang kanyang sarili sa pagbabasa ng script ng video at pagkatapos ay gamitin ang modelo ng AI para i-convert ang kanyang pagsasalita sa boses ng babaeng tagapagsalaysay. Gamit ang baseline narration na ito, maaaring idirekta ng producer ang AI tulad ng isang voice actor-tweaking ang synthesized speech para bigyang-diin ang mga partikular na salita at baguhin ang pacing ng pagsasalaysay para mas maipahayag ang tono ng video, " isinulat ng NVIDIA sa website nito.

Mahirap Sa Tunog Nito

Ang paggawa ng computer-generated speech sound natural ay isang nakakalito na problema, sabi ng mga eksperto.

"Kailangan mong mag-record ng daan-daang oras ng boses ng isang tao upang makagawa ng bersyon nito sa computer," sinabi ni Nazim Ragimov, ang CEO ng kumpanya ng text to speech software na Kukarella, sa Lifewire sa isang panayam sa email. "At ang pag-record ay dapat na may mataas na kalidad, naitala sa isang propesyonal na studio. Ang mas maraming oras ng kalidad ng pagsasalita na na-load at naproseso, mas maganda ang resulta."

Maaaring gamitin ang text-to-speech sa paglalaro, upang tulungan ang mga indibidwal na may kapansanan sa boses, o upang tulungan ang mga user na magsalin sa pagitan ng mga wika sa kanilang sariling boses.

Intonasyon, emosyon, at musikal ang mga feature na kulang pa rin sa boses ng computer, sabi ni Ragimov.

Kung maidaragdag ng AI ang mga nawawalang link na ito, ang computer-generated na pagsasalita ay magiging "hindi makilala sa mga boses ng mga tunay na aktor," dagdag niya. "Iyon ay isang gawain sa pag-unlad. Ang ibang mga boses ay magagawang makipagkumpitensya sa mga host ng radyo. Sa lalong madaling panahon makikita mo ang mga boses na maaaring kumanta at magbasa ng mga audiobook."

Ang teknolohiya ng pagsasalita ay nagiging mas sikat sa isang malawak na hanay ng mga negosyo.

"Ang industriya ng sasakyan ay naging kamakailang gumagamit ng voice AI bilang isang paraan upang lumikha ng mas ligtas at mas konektadong mga karanasan sa pagmamaneho," sabi ni Zagorsek.

"Mula noon, ang mga voice assistant ay lalong naging ubiquitous dahil ang mga brand ay naghahanap ng mga paraan upang mapahusay ang mga karanasan ng customer at matugunan ang pangangailangan para sa mas madali, mas ligtas, mas maginhawa, mahusay, at malinis na paraan ng pakikipag-ugnayan sa kanilang mga produkto at serbisyo."

Karaniwan, ang voice AI ay nagko-convert ng mga query sa mga tugon sa isang dalawang-hakbang na proseso na nagsisimula sa pamamagitan ng pag-transcribe ng speech sa text gamit ang awtomatikong speech recognition (ASR) at pagkatapos ay pagpapakain sa text na iyon sa isang natural na language understanding (NLU) na modelo.

Image
Image

Pinagsasama ng diskarte ng SoundHound ang dalawang hakbang na ito sa isang proseso para subaybayan ang pagsasalita nang real-time. Sinasabi ng kumpanya na ang diskarteng ito ay nagbibigay-daan sa mga voice assistant na maunawaan ang kahulugan ng mga query ng user, bago pa man matapos magsalita ang tao.

Ang mga hinaharap na pagsulong sa pagsasalita sa computer, kabilang ang pagkakaroon ng iba't ibang opsyon sa pagkakakonekta mula sa naka-embed-only (walang koneksyon sa cloud na kinakailangan) hanggang sa hybrid (naka-embed at cloud) at cloud-only "ay magbibigay ng mas maraming pagpipilian sa mga kumpanya sa mga industriya sa mga tuntunin ng gastos, privacy, at pagkakaroon ng kapangyarihan sa pagpoproseso," sabi ni Zagoresk.

NVIDIA sinabi nito na ang mga modelo ng AI nito ay higit pa sa voiceover work.

"Maaaring gamitin ang text-to-speech sa paglalaro, upang tulungan ang mga indibidwal na may kapansanan sa boses, o upang tulungan ang mga user na magsalin sa pagitan ng mga wika sa kanilang sariling boses," isinulat ng kumpanya. "Maaari pa nitong muling likhain ang mga pagtatanghal ng mga iconic na mang-aawit, na tumutugma hindi lamang sa himig ng isang kanta kundi pati na rin sa emosyonal na pagpapahayag sa likod ng mga vocal."

Inirerekumendang: