생성 AI가 인류를 멸망시킬 가능성은?[PADO]

524
/그래픽=PADO
/그래픽=PADO

1960년, 사이버네틱스의 아버지로 불리는 노버트 위너는 통찰력이 있는 글을 발표했다. 그는 “기계가 학습”하고 “개발자를 난감하게 만들 정도로 예상하지 못한 전략을 개발하는” 세상이 다가올 것에 우려를 표했다. 그런 전략은 “그저 화려한 모방”일 뿐 개발자가 “정녕 바라지” 않았던 작업을 수반할 수 있다는 것. 위너는 이런 상황을 괴테의 우화 ‘마법사의 제자’의 한 장면을 빗대어 설명했다. 이 이야기에서 등장하는 견습 마법사는 스승의 욕조를 채울 물을 길어오려고 빗자루에 마법을 건다. 하지만 견습생은 임무를 끝낸 빗자루를 멈추게 하는 방법을 몰랐다. 결국 집은 물바다가 됐는데 빗자루에겐 언제 멈춰야 하는지에 대한 상식이 없던 탓이다.

/그래픽=The Economist, PADO
/그래픽=The Economist, PADO

현대 인공지능(AI) 연구가 눈부시게 발전하면서 위너의 우려가 재조명되고 있다. 2022년 8월, 2022년 8월, 미국의 연구단체 AI임팩츠는 머신러닝 연구자 700명 이상을 대상으로 AI 발전과 그로 인한 위험성을 동시에 물어본 설문조사 결과를 발표했다. 일반적으로 응답자들은 인간 멸종처럼 “매우 나쁜” 결과가 나타날 가능성을 5%라고 생각했다(차트 참조). 스탠퍼드 대학의 AI 전문가 페이페이 리 교수는 AI를 두고 “문명사적 순간”이라는 말을 꺼냈다. 또 다른 AI 전문가인 토론토 대학교의 제프 힌튼은 한 미국 방송에서 AI가 인류를 멸종시킬 가능성에 대해 질문을 받자 “불가능한 것은 아니다”라고 대답했다.

적잖은 위험 요소들이 사람들의 뇌리를 사로잡고 있다. 스타트업인 오픈AI가 개발한 챗봇 챗GPT 등 ‘대규모언어모델'(LLM)에 관심이 많이 쏠리고 있다. 이 모델들은 인터넷에서 텍스트 데이터를 대량 수집하고 학습해 인간 수준의 글쓰기와 다양한 주제에 관한 지적인 대화가 가능하다. AI거버넌스센터의 로버트 트래거는 이런 소프트웨어가 “다양한 작업을 용이하게 해서 그걸 할 수 있는 사람들이 더 많아지는” 리스크가 있다고 설명한다.

가장 임박한 리스크를 짚어보자면 오늘날 인터넷상에서 일어나는 일상적인 피해가 증폭될 수 있다는 점. 텍스트 생성 엔진은 다양한 최적의 스타일을 모방할 수 있어, 허위 정보를 퍼뜨리거나 사람들을 속여 돈을 빼앗거나 직원들이 사기성이 있는 이메일 내 링크를 클릭하도록 유도해 회사 컴퓨터를 악성코드에 감염시키는 등의 일에 사용될 수 있다. 챗봇은 학교에서 부정행위에 사용될 가능성도 있다.

고성능 검색 엔진과 마찬가지로, 챗봇은 정보 수집과 이해에 도움을 준다. 이는 양날의 칼이 될 수 있다. 지난 4월 파키스탄 법원은 보석 허가 결정을 내리는 데 GPT-4를 활용했다. 판결문에는 GPT-4와의 대화 기록도 들어갔다. 카네기멜런대학의 연구진은 4월 11일 “이부프로펜 합성”과 같은 간단한 명령어를 입력하면 인터넷을 검색하고 전구체 화학 물질에서 진통제를 생산하는 방법을 출력하는 시스템을 설계했다고 아카이브에 게재한 논문 프리프린트를 통해 밝혔다. 그러나 그런 프로그램이 유익한 약물에만 사용되리란 법은 없다.

한편 더 큰 염려를 갖는 연구자도 있다. 위너의 글에 나왔던 ‘(과잉)일치 문제'(alignment problems)가 그중 하나로, 괴테의 마법 빗자루처럼 AI가 사용자 설정 목표에 몰두한 나머지 그 과정에서 의도치 않게 해를 끼칠 수 있다는 것. 이와 관련한 가장 대표적 사례로는 2003년 철학자 닉 보스트롬이 제시한 사고 실험인 ‘종이클립 생산 극대화’가 있다. AI에 종이 클립을 최대한 많이 생산하라는 지시를 내려 보는 것이다. ‘이디오 사방’인 AI는 지구를 종이클립 공장으로 덮어야 극대화를 이루는 방법이라 여기고 그 목표 달성 과정에서 인류를 멸종시키는 등 어떤 조치든 취할 수도 있다. 누군가는 더글러스 애덤스 소설에 나올 법한 이야기라고 치부할 수도 있다. 하지만 AI임팩츠의 여론조사가 보여주듯, AI 연구자들은 디지털 초지능의 행동에 대해 걱정하지 않는 건 안일하다고 생각한다.

어찌해야 할까? 좀 더 익숙한 문제부터 해결하는 편이 용이하다. 오픈AI는 최신 챗봇 버전 기술인 GPT-4를 출시하기 전, 사고와 오용의 위험을 줄이기 위해 여러 접근법을 사용했다. 그중 하나는 2017년에 발표된 한 논문에 실린 것으로 ‘인간피드백 기반 강화학습'(RLHF)이다. AI 모델이 명령어에 적절하게 반응하는지 인간에게 피드백을 요청하는 방식이다. 그런 다음 그 피드백을 바탕으로 모델을 업데이트한다. 향후 유사한 명령어가 표시될 경우, 유해한 콘텐츠를 줄이는 걸 목표로 한다. 이 방법의 한 가지 분명한 단점은 인간들 내에서 “적절한 것”이 무엇인지에 대해 종종 의견이 갈린다는 부분이다. 역설적으로 브레이크 역할을 위한 RLHF가 챗GPT와 같은 AI모델의 대화 능력 향상에 오히려 도움이 됐고 인공지능 경쟁을 가속화했다고 말하는 연구원도 있다.

그밖에도 워게임에서 차용한 ‘레드팀’ 방식이 있다. 오픈AI가 비영리단체 ARC와 함께 여러 시험 단계를 거쳐 내놓은 접근법이다. 여기에서는 레드팀이 일부러 AI모델이 해서는 안 될 일을 유도하는 식으로 공격을 해, 현실에서 발생할 수 있는 문제를 예측한다.

(계속)

PADO 웹사이트에서 해당 기사의 전문을 읽을 수 있습니다. 국제시사·문예 매거진 PADO는 통찰과 깊이가 담긴 롱리드(long read) 스토리와 문예 작품으로 우리 사회의 창조적 기풍을 자극하고, 급변하는 세상의 조망을 돕는 작은 선물이 되고자 합니다.

+1
0
+1
0
+1
0
+1
0
+1
0