Mtindo mpya wa sauti wa AI wa Nvidia unaweza kuunganisha sauti ambazo hazijawahi kuwepo

Kwa wakati huu, mtu yeyote ambaye amekuwa akifuata utafiti wa AI kwa muda mrefu anafahamu mifano ya uzalishaji ambayo inaweza kuunganisha hotuba au muziki wa sauti kutoka kwa chochote isipokuwa uhamasishaji wa maandishi. Mtindo mpya wa Nvidia “Fugatto” uliofichuliwa unaonekana kwenda hatua zaidi, kwa kutumia mbinu mpya za mafunzo ya sintetiki na mbinu za mchanganyiko wa kiwango cha uelekezaji ili “kubadilisha mchanganyiko wowote wa muziki, sauti na sauti,” ikiwa ni pamoja na usanisi wa sauti ambazo hazijawahi kuwepo. Ingawa Fugatto bado haipatikani kwa majaribio ya umma, tovuti iliyojazwa sampuli inaonyesha jinsi Fugatto inaweza kutumika kupiga idadi ya sifa na maelezo mahususi ya sauti juu au chini, na hivyo kusababisha kila kitu kutoka kwa sauti za saksafoni zinazobweka hadi watu wanaozungumza chini ya maji. ving’ora vya gari la wagonjwa vikiimba katika aina ya kwaya. Ingawa matokeo kwenye onyesho yanaweza kugongwa au kukosa, safu kubwa ya uwezo inayoonyeshwa hapa inasaidia kuunga mkono maelezo ya Nvidia kuhusu Fugatto kama “kisu cha Jeshi la Uswizi kwa sauti.” Wewe ni mzuri tu kama data yako Katika karatasi ya maelezo ya utafiti, zaidi ya watafiti kadhaa wa Nvidia wanaelezea ugumu wa kuunda mkusanyiko wa data wa mafunzo ambao unaweza “kufichua uhusiano wa maana kati ya sauti na lugha.” Ingawa miundo ya kawaida ya lugha mara nyingi inaweza kudokeza jinsi ya kushughulikia maagizo mbalimbali kutoka kwa data inayotegemea maandishi yenyewe, inaweza kuwa vigumu kujumlisha maelezo na sifa kutoka kwa sauti bila mwongozo ulio wazi zaidi. Kwa maana hiyo, watafiti huanza kwa kutumia LLM kutengeneza hati ya Python ambayo inaweza kuunda idadi kubwa ya maagizo ya msingi wa kiolezo na fomu ya bure inayoelezea “watu” tofauti wa sauti (kwa mfano, “kiwango, umati wa vijana, thelathini na kitu.” , mtaalamu”). Kisha hutoa seti ya zote mbili kamili (kwa mfano, “unganisha sauti ya furaha”) na jamaa (kwa mfano, “ongeza furaha ya sauti hii”) maagizo ambayo yanaweza kutumika kwa watu hao. Mkusanyiko mpana wa seti huria za sauti zinazotumika kama msingi wa Fugatto kwa ujumla hazina aina hizi za vipimo vya sifa zilizopachikwa humo kwa chaguomsingi. Lakini watafiti hutumia miundo iliyopo ya uelewaji wa sauti kuunda “manukuu ya maandishi” kwa klipu zao za mafunzo kulingana na maongozi yao, na kuunda maelezo ya lugha asilia ambayo yanaweza kukadiria kiotomatiki sifa kama vile jinsia, hisia na ubora wa usemi. Zana za uchakataji wa sauti pia hutumika kuelezea na kukadiria klipu za mafunzo kwa kiwango cha akustika zaidi (km “tofauti za kimsingi za masafa” au “kitenzi”).