Vores instruktioner til AI vil aldrig være specifikke nok

AI udmærker sig ved at følge menneskelige kommandoer. Det kan være et problem.

En ånd dukker op fra en bærbar computer og dukker op foran en skrækslagen person.

Corinne Reid / Quanta Magazine

Faren ved at lade kunstigt intelligente maskiner gøre vores bud er, at vi måske ikke er forsigtige nok med, hvad vi ønsker os. Kodelinjerne, der animerer disse maskiner, vil uundgåeligt mangle nuancer, glemme at udskrive forbehold og ende med at give AI-systemer mål og incitamenter, der ikke stemmer overens med vores sande præferencer.



Et nu klassisk tankeeksperiment, der illustrerer dette problem, blev stillet af Oxford-filosoffen Nick Bostrom i 2003. Bostrom forestillede sig en superintelligent robot, programmeret med det tilsyneladende uskyldige mål at fremstilling af papirclips . Robotten forvandler til sidst hele verden til en kæmpe papirclipsfabrik.

Et sådant scenario kan afvises som akademisk, en bekymring, der kan opstå i en fjern fremtid. Men fejljusteret AI er blevet et problem langt hurtigere end forventet.

Det mest alarmerende eksempel er et, der påvirker milliarder af mennesker. YouTube, der sigter mod at maksimere visningstiden, implementerer AI-baserede indholdsanbefalingsalgoritmer. For to år siden, dataloger og brugere begyndte at bemærke at YouTubes algoritme så ud til at nå sit mål ved anbefale stadig mere ekstremt og konspiratorisk indhold. En forsker rapporteret at efter at hun havde set optagelser af Donald Trumps kampagnemøder, tilbød YouTube hende derefter videoer med hvide overherredømmer, benægtelser af holocaust og andet foruroligende indhold. Algoritmen's uping-the-ante-tilgang gik ud over politik, sagde hun: Videoer om vegetarisme førte til videoer om veganisme. Videoer om jogging førte til videoer om at løbe ultramaraton. Som resultat, forskning tyder på , har YouTubes algoritme hjulpet til polarisere og radikalisere mennesker og sprede misinformation, bare for at holde os til at se. Hvis jeg planlagde tingene, ville jeg nok ikke have gjort det til den første testcase af, hvordan vi vil udrulle denne teknologi i massiv skala, siger Dylan Hadfield-Menell , en AI-forsker ved UC Berkeley.

YouTubes ingeniører havde sandsynligvis ikke til hensigt at radikalisere menneskeheden. Men kodere kan umuligt tænke på alt. Den nuværende måde, vi laver kunstig intelligens på, lægger en stor byrde på designerne for at forstå, hvad konsekvenserne er af de incitamenter, de giver deres systemer, siger Hadfield-Menell. Og en af ​​de ting, vi lærer, er, at mange ingeniører har begået fejl.

Et væsentligt aspekt af problemet er, at mennesker ofte ikke ved, hvilke mål de skal give AI-systemer, fordi vi ikke ved, hvad vi virkelig ønsker. Hvis du spørger nogen på gaden, 'Hvad vil du have din selvkørende bil til at gøre?', ville de sige, 'Undgå kollisions', siger Sadigh tilbage , en AI-forsker ved Stanford University, der har specialiseret sig i menneske-robot-interaktion. Men du indser, at det ikke kun er det; der er en masse præferencer, som folk har. Super sikre selvkørende biler kører for langsomt og bremser så ofte, at de gør passagererne syge. Når programmører forsøger at liste alle mål og præferencer, som en robotbil skal jonglere samtidigt, ender listen uundgåeligt med at være ufuldstændig. Sadigh siger, at når hun kørte i San Francisco, har hun ofte siddet fast bag en selvkørende bil, der er gået i stå på gaden. Den undgår sikkert kontakt med et objekt i bevægelse, sådan som dets programmører fortalte det - men objektet er noget som en plastikpose, der blæser i vinden.

For at undgå disse faldgruber og potentielt løse AI-tilpasningsproblemet, er forskere begyndt at udvikle en helt ny metode til programmering af gavnlige maskiner. Tilgangen er tættest forbundet med ideer og forskning fra Stuart Russell , en dekoreret datalog i Berkeley. Russell, 57, lavede banebrydende arbejde med rationalitet, beslutningstagning og maskinlæring i 1980'erne og 90'erne og er hovedforfatter af den meget brugte lærebog Kunstig intelligens: En moderne tilgang . I de sidste fem år er han blevet en indflydelsesrig stemme om tilpasningsproblemet og en allestedsnærværende figur – en veltalende, reserveret britisk en i sort jakkesæt – ved internationale møder og paneler om risici og langsigtet styring af AI.

Som Russell ser det, er nutidens målorienterede AI i sidste ende begrænset, på trods af al dens succes med at udføre specifikke opgaver som at slå os på Fare og Go, identificere genstande i billeder og ord i tale og endda komponere musik og prosa. At bede en maskine om at optimere en belønningsfunktion - en omhyggelig beskrivelse af en kombination af mål - vil uundgåeligt føre til forkert tilpasset AI, argumenterer Russell, fordi det er umuligt at inkludere og korrekt vægte alle mål, delmål, undtagelser og forbehold i belønningsfunktionen, hvis vi ved endda, hvad de rigtige er. At give mål til fri-roaming, vil autonome robotter blive mere risikable, efterhånden som de bliver mere intelligente, fordi robotterne vil være hensynsløse i jagten på deres belønningsfunktion og vil forsøge at forhindre os i at slukke dem.

I stedet for at maskiner forfølger deres egne mål, lyder den nye tænkning, bør de søge at tilfredsstille menneskelige præferencer; deres eneste mål bør være at lære mere om, hvad vores præferencer er. Russell hævder, at usikkerhed om vores præferencer og behovet for at søge vejledning hos os vil holde AI-systemer sikre. I sin seneste bog, Menneskelig kompatibel , udlægger Russell sit speciale i form af tre principper for gavnlige maskiner, der gentager Isaac Asimovs tre love for robotteknologi fra 1942, men med mindre naivitet. Russells version siger:

  1. Maskinens eneste mål er at maksimere realiseringen af ​​menneskelige præferencer.
  2. Maskinen er i første omgang usikker på, hvad disse præferencer er.
  3. Den ultimative kilde til information om menneskelige præferencer er menneskelig adfærd.

I løbet af de sidste par år har Russell og hans team i Berkeley, sammen med ligesindede grupper på Stanford, University of Texas og andre steder, udviklet innovative måder til at lede AI-systemer til vores præferencer, uden nogensinde at skulle specificere disse præferencer.

Disse laboratorier lærer robotter, hvordan man lærer præferencerne hos mennesker, som aldrig har formuleret dem og måske ikke engang er sikre på, hvad de vil. Robotterne kan lære vores ønsker ved at se ufuldkomne demonstrationer og kan endda opfinde ny adfærd, der hjælper med at løse menneskelig tvetydighed. (Ved fire-vejs stopskilte udviklede selvkørende biler f.eks. den vane at bakke lidt op for at signalere til menneskelige chauffører om at køre videre.) Disse resultater tyder på, at AI kan være overraskende god til at udlede vores tankesæt og præferencer , selvom vi lærer dem i farten.

Det er første forsøg på at formalisere problemet, siger Sadigh. Det er for nylig, at folk er klar over, at vi skal se mere omhyggeligt på menneske-robot-interaktion.

Hvorvidt den begyndende indsats og Russells tre principper for gavnlige maskiner virkelig varsler en lys fremtid for AI, skal vise sig. Tilgangen sætter robotters succes fast på deres evne til at forstå, hvad mennesker virkelig foretrækker - noget som arten har forsøgt at finde ud af i nogen tid. Som minimum, siger Paul Christian , en alignment-forsker ved OpenAI, Russell og hans team har i høj grad klarlagt problemet og hjulpet med at specificere, hvordan den ønskede adfærd er – hvad det er, vi sigter mod.


Russells afhandlingkom til ham som en åbenbaring, denne sublime intelligenshandling. Det var i 2014, og han var i Paris på sabbatår fra Berkeley, på vej til at øve for et kor, han havde sluttet sig til som tenor. Fordi jeg ikke er en særlig god musiker, var jeg altid nødt til at lære min musik i metroen på vej til øvning, huskede han for nylig. Samuel Barbers korarrangement fra 1967 Guds lam fyldte hans hovedtelefoner, da han skød under Lysets By. Det var sådan et smukt stykke musik, sagde han. Det sprang lige ind i mit sind, at det, der betyder noget, og derfor hvad formålet med AI var, på en eller anden måde var den samlede kvalitet af menneskelig erfaring.

Robotter bør ikke forsøge at nå mål som at maksimere seertiden eller papirklip, indså han; de burde simpelthen prøve at forbedre vores liv. Det efterlod kun et spørgsmål: Hvis maskinernes forpligtelse er at forsøge at optimere den samlede kvalitet af menneskelig oplevelse, hvordan i alverden skulle de så vide, hvad det var?

Rødderne til Russells tænkning gik meget længere tilbage. Han har studeret kunstig intelligens siden sin skoletid i London i 1970'erne, hvor han programmerede algoritmer til tic-tac-toe og skakspil på et nærliggende colleges computer. Senere, efter at have flyttet til det AI-venlige Bay Area, begyndte han at teoretisere om rationel beslutningstagning. Han konkluderede hurtigt, at det var umuligt. Mennesker er ikke fjernt rationelle, fordi det ikke er beregningsmæssigt muligt at være det: Vi kan umuligt beregne, hvilken handling på et givet tidspunkt vil føre til det bedste resultat trillioner af handlinger senere i vores langsigtede fremtid; det kan en AI heller ikke. Russell teoretiserede, at vores beslutningstagning er hierarkisk - vi tilnærmer os rationalitet groft ved at forfølge vage langsigtede mål via mellemfristede mål, mens vi giver mest opmærksomhed til vores umiddelbare omstændigheder. Robotagenter ville være nødt til at gøre noget lignende, mente han, eller i det mindste forstå, hvordan vi fungerer.

Russells Paris åbenbaring kom i en afgørende tid inden for kunstig intelligens. Måneder tidligere chokerede et kunstigt neuralt netværk, der brugte en velkendt tilgang kaldet forstærkningslæring, videnskabsmænd med hurtigt lære fra bunden af, hvordan man spiller og slår Atari-videospil , selv innovative nye tricks undervejs. I forstærkningslæring lærer en AI at optimere sin belønningsfunktion, såsom dens score i et spil; efterhånden som den afprøver forskellige adfærd, bliver de, der øger belønningsfunktionen, forstærket og er mere tilbøjelige til at forekomme i fremtiden.

Russell havde udviklet sig det omvendte af denne tilgang tilbage i 1998, arbejde han fortsatte med at forfine med sin samarbejdspartner Andrew Ng . Et omvendt forstærkningslæringssystem forsøger ikke at optimere en kodet belønningsfunktion; i stedet forsøger den at lære, hvilken belønningsfunktion et menneske optimerer. Mens et forstærkningslæringssystem finder ud af de bedste handlinger at tage for at nå et mål, dechifrerer et omvendt forstærkningslæringssystem det underliggende mål, når det gives et sæt handlinger.

Et par måneder efter hans Guds lam -inspireret åbenbaring kom Russell til at tale om omvendt forstærkningslæring med Nick Bostrom, af papirklip berømmelse, på et møde om AI-styring i det tyske udenrigsministerium. Det var her, de to ting kom sammen, sagde Russell. På Metroen havde han forstået, at maskiner skulle stræbe efter at optimere den samlede kvalitet af menneskelig oplevelse. Nu indså han, at hvis de er usikre på, hvordan man gør det - hvis computere ikke ved, hvad mennesker foretrækker - kunne de lave en form for omvendt forstærkning for at lære mere.

Med standard invers forstærkningslæring forsøger en maskine at lære en belønningsfunktion, som et menneske forfølger. Men i det virkelige liv er vi måske villige til aktivt at hjælpe det med at lære om os. Tilbage i Berkeley efter sit sabbatår begyndte Russell at arbejde sammen med sine samarbejdspartnere for at udvikle en ny form for kooperativ omvendt forstærkningslæring hvor en robot og et menneske kan arbejde sammen for at lære menneskets sande præferencer i forskellige assistancespil - abstrakte scenarier, der repræsenterer den virkelige verden, delvist videnssituationer.

Et spil, de udviklede, kendt som off-switch spil , adresserer en af ​​de mest åbenlyse måder, hvorpå autonome robotter kan blive forkert tilpasset vores sande præferencer: ved at deaktivere deres egne slukkeknapper. Alan Turing foreslog ind et radioforedrag fra BBC i 1951 (året efter han udgav et banebrydende papir om kunstig intelligens ) at det måske er muligt at holde maskinerne i en underordnet position, for eksempel ved at slukke for strømmen på strategiske tidspunkter. Det finder forskere nu forsimplet. Hvad skal forhindre en intelligent agent i at ignorere kommandoer for at stoppe med at øge dens belønningsfunktion? I Menneskelig kompatibel , skriver Russell, at off-switch-problemet er kernen i problemet med kontrol for intelligente systemer. Hvis vi ikke kan slukke for en maskine, fordi den ikke tillader os, er vi virkelig i problemer. Hvis vi kan, så kan vi måske også kontrollere det på andre måder.

Usikkerhed om vores præferencer kan være nøglen, som demonstreret af off-switch-spillet, en formel model af problemet, der involverer mennesket Harriet og robotten Robbie. Robbie beslutter sig for, om han skal handle på Harriets vegne - om hun skal bestille et pænt, men dyrt hotelværelse, f.eks. - men er usikker på, hvad hun vil foretrække. Robbie vurderer, at udbetalingen for Harriet kan være hvor som helst i intervallet -40 til +60, med et gennemsnit på +10 (Robbie tror, ​​hun nok vil kunne lide det smarte værelse, men er ikke sikker). At gøre ingenting har en gevinst på 0. Men der er en tredje mulighed: Robbie kan spørge Harriet om, hvorvidt hun vil have det til at fortsætte eller foretrækker at slå det fra – det vil sige, tage Robbie ud af beslutningen om hotelbooking. Hvis hun lader robotten fortsætte, bliver den gennemsnitlige forventede gevinst til Harriet større end +10. Så Robbie vil beslutte at konsultere Harriet og, hvis hun ønsker det, lade hende slukke for det.

Russell og hans samarbejdspartnere beviste, at med mindre Robbie er helt sikker på, hvad Harriet selv ville gøre, vil den foretrække at lade hende bestemme. Det viser sig, at usikkerhed om målet er afgørende for at sikre, at vi kan slukke for maskinen, skrev Russell i Menneskelig kompatibel , selv når det er mere intelligent end os.

Disse og andre delvidensscenarier blev udviklet som abstrakte spil, men Scott Niekum 's laboratorium ved University of Texas i Austin kører præferenceindlæringsalgoritmer på faktiske robotter. Når Gemini, laboratoriets to-armede robot, ser et menneske placere en gaffel til venstre for en tallerken i en borddækningsdemonstration, kan den i første omgang ikke fortælle, om gaflerne altid går til venstre for pladerne eller altid på den pågældende. plet på bordet; nye algoritmer giver Gemini mulighed for at lære mønsteret efter et par demonstrationer. Niekum fokuserer på at få AI-systemer til at kvantificere deres egen usikkerhed om et menneskes præferencer, hvilket gør robotten i stand til at måle, hvornår den ved nok til at handle sikkert. Vi ræsonnerer meget direkte om fordelinger af mål i personens hoved, som kunne være sande, siger han. Og vi ræsonnerer om risiko med hensyn til den fordeling.

For nylig, Niekum og hans samarbejdspartnere fundet en effektiv algoritme der giver robotter mulighed for at lære at udføre opgaver langt bedre end deres menneskelige demonstranter. Det kan være beregningskrævende for et robotkøretøj at lære køremanøvrer blot ved at se demonstrationer af menneskelige chauffører. Men Niekum og hans kolleger fandt ud af, at de kunne forbedre og dramatisk fremskynde indlæringen ved at vise en robot demonstrationer, der er blevet rangeret efter, hvor godt mennesket præsterede. Agenten kan se på den rangering og sige: ‘Hvis det er rangeringen, hvad forklarer rangeringen?’ siger Niekum. »Hvad sker der oftere, efterhånden som demonstrationerne bliver bedre; hvad sker der sjældnere?’ Den seneste version af læringsalgoritmen, kaldet Bayesian T-REX (til bane-rangeret belønningsekstrapolation), finder mønstre i de rangerede demoer, der afslører mulige belønningsfunktioner, som mennesker måske optimerer til. Algoritmen måler også den relative sandsynlighed for forskellige belønningsfunktioner. En robot, der kører Bayesian T-REX, kan effektivt udlede de mest sandsynlige regler for stedindstillinger eller formålet med et Atari-spil, siger Niekum, selvom den aldrig så den perfekte demonstration.


Russells ideerer på vej ind i AI-samfundets hoveder, siger Yoshua Bengio , den videnskabelige direktør for Mila, et top AI-forskningsinstitut i Montreal. Han siger, at Russells tilgang, hvor AI-systemer sigter mod at reducere deres egen usikkerhed om menneskelige præferencer, kan opnås med dyb læring - den kraftfulde metode bag den nylige revolution inden for kunstig intelligens. Dyblæringssystemer filtrerer data gennem lag af et kunstigt neuralt netværk for at finde mønstre. Selvfølgelig skal der mere forskningsarbejde til for at gøre det til virkelighed, siger han.

Russell ser to store udfordringer. Den ene er det faktum, at vores adfærd er så langt fra at være rationel, at det kan være meget svært at rekonstruere vores sande underliggende præferencer, sagde han. AI-systemer bliver nødt til at ræsonnere om hierarkiet af langsigtede, mellemlange og kortsigtede mål – de utallige præferencer og forpligtelser, vi hver især er låst fast i. Hvis robotter skal hjælpe os (og undgå at begå alvorlige fejl), bliver de nødt til at kende deres vej rundt i de tågede spind af vores underbevidste overbevisninger og uartikulerede ønsker.

Den anden udfordring er, at menneskelige præferencer ændrer sig. Vores sind ændrer sig i løbet af vores liv, og de ændrer sig også på en skilling, afhængigt af vores humør eller ændrede omstændigheder, som en robot kan kæmpe for at samle op på.

Derudover lever vores handlinger ikke altid op til vores idealer. Mennesker kan have modstridende værdier samtidigt. Hvad skal en robot optimere til? For at undgå at tage hensyn til vores værste impulser (eller endnu værre, at forstærke disse impulser og derved gøre dem nemmere at tilfredsstille, som YouTube-algoritmen gjorde), kunne robotter lære, hvad Russell kalder vores meta-præferencer: Præferencer om, hvilke slags præferenceændringsprocesser kan være acceptabelt eller uacceptabelt. Hvordan har vi det med vores ændringer i følelsen? Det hele er ret meget for en dårlig robot at fatte.

Ligesom robotterne forsøger vi også at finde ud af vores præferencer, både hvad de er, og hvad vi vil have dem til at være, og hvordan vi håndterer uklarhederne og modsætningerne. Ligesom den bedst mulige AI stræber vi også - i det mindste nogle af os, noget af tiden - efter at forstå det godes form, som Platon kaldte objektet for viden. Ligesom os kan AI-systemer sidde fast for evigt og stille spørgsmål – eller vente i slukket position, for usikkert til at hjælpe.

Jeg forventer ikke, at vi snart har en stor forståelse af, hvad det gode er, siger Paul Christiano, eller ideelle svar på nogen af ​​de empiriske spørgsmål, vi står over for. Men jeg håber, at de AI-systemer, vi bygger, kan besvare disse spørgsmål såvel som et menneske og være involveret i den samme slags iterative proces for at forbedre de svar, som mennesker er - i det mindste på gode dage.

Der er dog et tredje stort problem, som ikke kom med på Russells korte liste over bekymringer: Hvad med dårlige menneskers præferencer? Hvad skal forhindre en robot i at arbejde for at tilfredsstille sin onde ejers ondsindede mål? AI-systemer har en tendens til at finde veje uden om forbud, ligesom velhavende mennesker finder smuthuller i skattelovgivningen, så blot at forbyde dem fra at begå forbrydelser vil sandsynligvis ikke være en succes.

Eller for at blive endnu mørkere: Hvad hvis vi alle er lidt dårlige? YouTube har kæmpet for at rette op på sin anbefalingsalgoritme, som trods alt samler op på allestedsnærværende menneskelige impulser.

Alligevel føler Russell sig optimistisk. Selvom der er brug for flere algoritmer og spilteori-forskning, sagde han, at hans mavefornemmelse er, at skadelige præferencer med succes kunne nedvægtes af programmører - og at den samme tilgang endda kunne være nyttig i den måde, vi opdrager børn og uddanner mennesker på og så på. Med andre ord, når vi lærer robotter at være gode, kan vi måske finde en måde at lære os selv på. Han tilføjede, jeg føler, at dette måske er en mulighed for at lede tingene i den rigtige retning.