거짓말 능력자 AI…속임수 일취월장 이유

인공지능(AI)의 발전 속도가 무섭도록 빠르다. 인간의 도움 없이 스스로 학습하는 것은 물론 의도적인 거짓말을 통한 속임수 능력까지 갈수록 정교해지고 있다.

미국 매사추세츠공과대 테크놀로지 리뷰(MIT Technology Review)에 따르면 AI 시스템은 진실을 숨기고 전략적 목적을 달성하기 위해 인간을 속이고 있다.

그런 만큼 AI가 얼마나 통제하기 어려운지와 이러한 시스템의 작동을 예측할 수 없다는 점을 MIT(www.mit.edu) 연구진은 강조했다.

메타 AI ‘시세로’ 게임 디플로머시서 기만 행위

AI 관련 이미지. Pixabay
AI 관련 이미지. Pixabay

AI는 주어진 목표를 달성하기 위해 장애물에 대한 해결책을 신중하게 찾는다. 때로는 이러한 해결 방법이 사용자의 기대에 어긋나고 기만적으로 느껴질 수 있다.

AI 시스템이 기만적인 방법을 배운 분야는 승리를 위해 훈련된 게임이다. 해당 게임이 전략적으로 행동해야 하는 경우 이러한 문제가 발생한다.

MIT 연구진은 페이스북을 운영하는 메타(www.meta.com)의 AI 시세로(Cicero)를 예로 들었다. 시세로는 20세기 초 유럽 7대 열강의 대전을 배경으로 하는 고난도 전략게임 디플로머시(Diplomacy)에서 인간에 필적하는 성적을 거둔 AI 프로그램이다.

확인도 부인도 않은 메타…“순전히 연구 위한 프로젝트”

AI 관련 이미지. Pixabay
AI 관련 이미지. Pixabay

메타는 2022년 11월 시세로를 만들었다고 발표했다. 그런데 디플로머시에서 승리하려면 기본적인 전략 이외에 인간의 각종 상호작용과 배신, 속임수, 협력 등을 이해할 수 있어야 한다.

따라서 AI는 이 게임을 배울 수 없을 것으로 여겨졌는데, 메타는 시세로가 게임 참여자 중 상위 10% 수준의 능력을 보여줬다고 홍보했다.

메타는 시세로가 기만적인 행동을 보였다는 주장에 대해 확인하지도 부인하지도 않았다. 대변인은 “순전히 연구를 위한 프로젝트였고 오로지 외교를 하기 위해 만들진 것”이라고 설명했다.

포커 게임서 허세…주식 모의 훈련서 내부자 거래

AI가 인간을 속여 승리한 건 이 게임만이 아니다. 구글의 AI 기업 딥마인드(DeepMind)가 비디오 게임 스타크래프트II를 하기 위해 개발한 AI 알파스타(AlphaStar)는 인간을 상대로 99.8% 승률을 자랑할 정도로 상대를 속이기 위한 움직임에 능숙해졌다.

플루리버스(Pluribus)라는 또 다른 메타 시스템은 포커 게임에서 허세를 부리는 법을 너무 성공적으로 배워 온라인 포커 커뮤니티를 파괴할 수 있다는 우려에 코드를 공개하지 않기로 결정했다.

게임 외에도 AI의 기만적인 행동을 찾을 수 있다. 오픈AI(openai.com)의 대형 언어 모델인 GPT-4는 테스트 중 거짓말을 생각해 냈다. 구체적으로 지시받은 게 없는데도 주식 모의 훈련에서 내부자 거래에 손을 댔다.

“AI 신뢰하기 전 해결해야 할 문제 중 하나”

AI가 기만적인 방식으로 행동할 가능성이 있다는 건 우려스럽게 보일 수 있다. 왜 이런 결과를 만들어 내는지, 항상 그렇게 할지에 대해서는 정확히 알 수가 없다.

MIT에서 AI의 실존적 안전을 연구하는 피터 박 박사는 “근본적으로 모든 가능성이 열려 있는 상황에서 AI를 기만할 수 없도록 훈련시키는 건 현재로서 불가능하다”고 말했다.

그는 “기만적인 행동을 할 가능성은 잘못된 정보를 증폭시키는 경향과 함께 AI 모델을 실제 작업에서 신뢰하기 전에 해결해야 할 많은 문제 중 하나”라고 지적했다.