Kazalo:
- Kako globoko učenje ustvarja človeške glasove
- Ponovno ustvarjanje glasu osebe brez glasa
- Uravnoteženje negativnih uporab sintetizatorjev AI
Video: Dabro - Мне глаза ее нравятся (концертный клип, official) (November 2024)
Leta 2017 je amiotrofična lateralna skleroza (ALS), uničujoča nevrološka motnja, oropala Pat Quinna, ustanovitelja slovitega izziva Ice Bucket Challenge, njegove sposobnosti govora.
Zahvaljujoč napredku strojnega učenja in globokega učenja so algoritmi umetne inteligence postali zelo dobri pri posnemanju ljudi. A čeprav so bila številna vidna dogajanja v vesolju negativna, je bila AI-jeva imitacijska moč za Quinna sila pozitivne spremembe.
"Večina ljudi, ki živijo z ALS (znano tudi kot bolezen motoričnih nevronov), končno ohromi in ne more komunicirati z nič drugega, razen z umetnimi" računalniškimi "glasovi, " pravi Oskar Westerdal, soustanovitelj Project Revoice, pobude, katere cilj je pomagati bolnikom z ALS, kot je Quinn.
Za poustvarjanje Quinnovega glasu je Project Revoice sodeloval z Lyrebirdom, eno izmed peščice podjetij, ki uporabljajo AI za kloniranje glasu osebe - skupino, ki vključuje tudi Googlove zaganjalnike WaveNet in Voicery, ki jih podpira Y Combinator, ki AI uporablja za ustvarjanje sintetiziranih glasovnih posnetkov.
Kako globoko učenje ustvarja človeške glasove
Za temi aplikacijami so algoritmi za globoko učenje, priljubljena veja AI, ki pregledujejo velike nabore podatkov za vpogled in vzorce, ki jih ni mogoče zajeti s tradicionalno programsko opremo, ki temelji na pravilih. Ko izpopolnjujete sintetizator govora z dovolj učenja z dovolj zvočnih posnetkov, ustvarite digitalni model, ki predstavlja glas osebe in lahko ustvari nove glasovne vzorce.
Pred pojavom tehnologije za sintezo govora z AI, so morali bolniki z ALS uporabljati generične digitalne glasove, ki niso bili njihovi. Druge tehnologije bi lahko sestavile vnaprej posnete stavke z bolnikovim glasom, vendar so bili rezultati preveč umetni in so potrebovali desetine ur posnetkov glasu, da bi bili minimalni.
Programi za poglobljeno učenje na drugi strani zahtevajo veliko manj podatkov in zagotavljajo boljše rezultate. "To, kar Lyrebird lahko doseže s samo nekaj ur zvoka, je izjemno - ljudem daje popoln digitalni glasovni klon, tako da lahko rečejo, kar hočejo, " pravi Westerdal.
Ponovno ustvarjanje glasu osebe brez glasa
Ena od omejitev aplikacij za globoko učenje je njihova odvisnost od visokokakovostnih vzorcev podatkov za usposabljanje njihovih nevronskih mrež. Težava bolnikov z ALS je, da ko izgubijo glas, snemanje glasovnih vzorcev ni mogoče. Na srečo je Quinn imel ure posnetih glavnih zapisov in intervjujev.
"Največji izziv je bila kakovost. Ta tehnologija je popolnoma odvisna od konsistentnih, visokokakovostnih posnetkov, ki sledijo tudi natančnemu scenariju - zato smo morali sodelovati z zvočnim studiem, da smo ročno" ponovno pripravili "in prepisali vsako vrstico dialoga, ki smo jo lahko našli o Patu, "pravi Westerdal.
"Nekoliko smo se ustrašili, da nam ne bo uspelo zagotoviti odlične kakovosti, da bi ustvarili Patin glas, " pravi Jose Sotelo, soustanovitelj podjetja Lyrebird. "Ker nismo mogli dobiti čistih posnetkov, končna kakovost umetnega glasu ni popolna. Menimo, da lahko s čistimi posnetki naredimo veliko boljše delo."
Rezultati še vedno zvenijo nekoliko nenaravno in sintetično. Toda za Quinn, ki je za komuniciranje uporabljala generični glas, je bila razlika dramatična. "Po tem, ko sem s pomočjo te nove tehnologije zaslišal svoj glas, so me odpihnili! Če bodo pacienti vedeli, da lahko imajo svoj glas, ko ga odvzame ALS, se bo spremenil način življenja ljudi z ALS, " pravi.
Quinn priporoča, da bolniki z ALS zapišejo svoj glas, preden bo prepozno. "Potem ko ponovno zaslišim svoj glas, potrebujem bolnike z ALS, da vem, da je snemanje njihovega glasu neverjetno pomembno, " pravi.
Uravnoteženje negativnih uporab sintetizatorjev AI
V začetku letošnjega leta je FakeApp, AI-jeva aplikacija za zamenjavo obrazov, sprožila napad lažnih pornografskih video posnetkov z zvezdniki in politiki. Skrbi, da bodo aplikacije, kot sta FakeApp in Lyrebird, uvedle novo dobo lažnih novic, goljufij in ponarejanja.
Stran etike na spletnem mestu Lyrebird je že prej priznala, da lahko tehnologija "povzroči nevarne posledice, kot so zavajanje diplomatov, goljufije in na splošno kakršen koli drug problem, ki ga povzroči kraja identitete nekoga drugega."
Za dosego cilja je na spletnem mestu družbe več sintetiziranih posnetkov, ustvarjenih z glasovima Donalda Trumpa in Baracka Obame.
@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI (@LyrebirdAi) 4. septembra 2017
Quinnova zgodba bi lahko pomagala osvetliti pozitivne vidike industrije, ki se je močno lotila potencialno grozljive in neetične uporabe svojih aplikacij. "Pomembno je, da ljudje spoznajo svetle plati te tehnologije, " opozarja Lyrebirdlova Sotelo.
Poleg medicinske uporabe lahko aplikacije AI sintetizatorja služijo tudi drugim produktivnim ciljem. Voicery ponuja blagovnim znamkam prilagojene digitalizirane glasove, ki jih poganjajo AI algoritmi. Google prav tako eksperimentira z WaveNetom, da bi uporabnikom naprav, ki jih poganja Google Assistant, zagotovil bolj naravno izkušnjo. Druga področja, kjer je tehnologija uporabna, vključujejo avtomatizacijo zvočnih knjig ali olajšanje posnetka glasu v filmih.
Etične in pravne ovire bodo nedvomno nastale in razprave se bodo nadaljevale. Toda za Quinn je AI sila za dobro. "Nočem se slišati kot računalnik, " pravi. "Želim se slišati kot jaz."