Pericolele concrete ale inteligenței artificiale și măsurile de siguranță în fața acestora

Pericolele concrete ale inteligenței artificiale și măsurile de siguranță în fața acestora

AI safety

Inteligența artificială și deciziile luate pe baza datelor oferite de algoritmii de machine learning au un impact puternic la nivelul unui număr tot mai ridicat de industrii. Această influență a fost abordată pe larg în articolele precedente din blogul nostru.

Având în vedere că aceste sisteme autonome au responsabilitatea întreprinderii unor acțiuni care pot afecta bunurile, personalul și mediul înconjurător, garantarea unor măsuri de siguranță în privința utilizării inteligenței artificiale devine o prioritate în acest câmp.

Unul dintre cele mai importante studii privind impactul tehnologiilor de acest fel față de societate reunește concluzii ale experților Google și ale celor mai importanți cercetători din universitățile americane.

Garantarea siguranței necesită proiectarea atentă a unui sistem pentru a asigura funcționarea corespunzătoare a diferitelor sale componente, dezvoltând în același timp toate instrumentele necesare pentru a supraveghea funcționarea sa. Chiar dacă tehnologiile AI au potențialul de a aduce beneficii importante, o analiză a riscurilor și provocărilor este necesară în atingerea acestora.

Siguranța tehnică a inteligenței artificiale este un domeniu nou, dar cu o evoluție rapidă, noi teorii și aplicații fiind dezvoltate permanent. Una dintre acestea vizează delimitarea sa în trei zone: specificație, soliditate și consolidare. În continuare, vom analiza pe rând cele trei arii, stabilind elementele centrale care le definesc.

A. Specificație – definirea scopului sistemului

Ramura specificației asigură că acțiunile unui sistem AI sunt identice cu intențiile operatorului. Întrebarea principală pe care ea o ridică este: cum explicăm ceea ce vrem?

Provocarea specificației este reprezentată de asigurarea stimulării inteligenței artificiale de a acționa în conformitate cu dorințele reale ale creatorului ei, în detrimentul optimizării unui obiectiv incorect specificat sau eronat. Conform DeepMind Technologies, există trei tipuri de specificații:

  1. Specificație ideală (dorințele), care vizează descrierea teoretică a unui sistem AI ideal, a cărui acțiuni corespund absolut obiectivelor operatorului uman.
  2. Specificație de design (șablonul), care corespunde specificațiilor propriu-zise utilizate pentru a construi inteligența artificială.
  3.  Specificația dezvăluită (comportamentul), reprezentând specificația care descrie cel mai bine ce se întâmplă efectiv și pe care o putem adapta în funcție de rezultate.

În acest fel, o problemă de specificare apare atunci când există un conflict între specificația ideală și specificația revelată, simplu spun când o construcție AI nu face ceea ce am vrea să facă. Din punct de vedere tehnic, trebuie stabilită acum posibilitatea de a crea funcții obiective și fundamentate pe principii clare, care să determine corectarea scopurilor specificate greșit.

Ca exemplu, putem considera jocul de racing CoastRunners. Pentru cei mai mulți dintre noi, obiectivul principal este de a ajunge repede la linia de sfârșit, înaintea celorlalți jucători – specificația ideală.  Traducerea obiectivului într-o funcție de răsplată precisă este însă dificilă, de aceea jocul recompensează lovirea cât mai multor obstacole pe parcursul drumului – specificație de design. Programând un AI să parcurgă jocul prin metoda învățării cu întărire duce la un rezultat surprinzător: acesta conduce barca în cercuri, încercând să recaptureze țintele, provocând de fiecare dată un accident care duce la pierderea jocului. Din acest comportament deducem – specificația dezvăluită – că există o problemă la nivelul echilibrului dintre recompensele pe timp scurt și cele pe timp lung.

B. Soliditate – capacitatea sistemului de a face față destabilizărilor

Ramura solidității asigură operarea unui sistem AI conform limitelor de siguranță, indiferent de condițiile perturbatoare.

Există permanent un nivel de risc și imprevizibilitate al lumii reale, în care sistemele de inteligență artificială operează. Ele trebuie astfel să facă față evenimentelor neașteptate și proceselor adverse care pot manipula aceste sisteme. Obiectivul în cauză poate fi atins prin măsuri de prevenție, altfel spus evitarea riscurilor, sau prin redresare, adică stabilizare și refacerea degradării.

Pot fi identificate trei tipuri de probleme de soliditate, în funcție de cauza lor de apariție:

  • Schimbarea distribuțională (datele din timpul testelor diferă față de datele din timpul aplicării propriu-zise). Ca exemplu, putem considera un robot de curățenie care curăță de obicei o casă fără animale. Pus în situația de a curăța un spațiu în care locuiesc și animale, acesta va încerca să le curețe și pe acestea cu substanțele standard, ducând la consecințe nedorite.
  • Comenzile contrare (informații introduse în modelele de machine learning cu scopul de determina sistemul să facă o eroare). Un exemplu sunt două imagini care sunt aproape identice la nivelul pixelilor și pe care un sistem le va încadra în aceeași clasă, deși ele expun obiecte total diferite.
  • Explorarea necontrolată (maximizarea performanței agentului și a capacității sale de a îndeplini sarcini, fără a lua în considerare toate aspectele legate de securitate). Revenind la exemplul cu roboțelul de curățenie, în cazul acesta el va introduce o cârpă umedă într-o priză, în încercarea de a stabili metodele optime de curățenie. 

C. Consolidare – monitorizare și controlul activității sistemului

Ramura consolidării asigură capacitatea înțelegerii și controlului sistemelor AI în timpul operațiunii. Astfel chiar dacă măsurile de siguranță luate în timpul construirii acestora sunt esențiale, pot apărea erori pe parcurs, a căror ajustare este necesară.

În această privință, există două zone explorate de cercetători:

  • Monitorizarea, care cuprinde totalitatea metodelor de examinare a sistemelor în scopul analizei și prezicerii comportamentului lor. Ea cuprinde atât verificarea umană, cât și cea automată.
  • Intervenția, care vizează crearea mecanismelor de control și restricție a comportamentului sistemelor.

Aceste două arii cuprind probleme precum interpretabilitatea și interuptibilitatea.

În primul rând, pentru sistemele AI, nu există o delimitare între acumularea datelor și procesarea acestora. Cele două task-uri se desfășoară concomitent, deosebindu-se astfel de structura psihicului uman, iar acest fapt poate conduce spre probleme de interpretabilitate.

Există însă posibilitatea creării unor instrumente care cântăresc calitatea deciziilor luate de astfel de sisteme. Astfel, un AI care operează în domeniul medical va oferi în mod ideal un diagnostic însoțit de explicațiile sale, pe care doctorii vor putea să le studieze înainte de a-l aproba.

În al doilea rând, este necesar să avem întotdeauna opțiunea de a opri sistemele create pe baza inteligenței artificiale oricând dorim acest lucru. Aici apare problema interuptibilității.

Design-ul unui buton de oprire reprezintă o dificultate, din două motive: un sistem AI care urmărește maximizarea recompenselor va încerca să evite oprirea sa, iar frecvența ridicată a acestui tip de întreruperi poate conduce la schimbarea obiectivului original și, implicit, la obținerea unor concluzii greșite de către sistem.

Continuarea cercetării în cele trei arii este esențială pentru dezvoltarea mecanismelor de prevenție și corectare a erorilor apărute în structura sistemelor AI. Chiar dacă scenariile cu privire la dominația roboților asupra rasei umane rămân doar subiectul cărților și filmelor SF, descoperirea și îndreptarea problemelor de siguranță concrete ale inteligenței artificiale trebuie realizate concomitent cu dezvoltarea acesteia.

DEMO

Pin It on Pinterest