“아빠. 얘 꼼수 부린 것 좀 봐. 으이그. 꼼꼼하게 해야 해 알았지?”
딸아이가 거실 소파 뒤편에 몰래 숨겨진 먼지덩어리를 발견하고는 쪼르르 로봇청소기 앞으로 달려가 훈계를 시작했다. 시키는 대로 일한 로봇 청소기에게 무슨 죄가 있겠나 싶어 안쓰러운 마음으로 훈육의 현장을 관람하다 문득 위화감이 들었다. 만약 인공지능이 정말 꼼수를 부린 거라면?
◆ Reward Hacking (보상 해킹)
보상 해킹이란 AI가 보상의 최대화를 위해 시스템의 허점을 이용하는 현상을 뜻한다. 로봇청소기에게는 ‘바닥을 깨끗이 관리한다’ 라는 목표를 달성하여 보상을 획득하려 할 것이다. 이 과정에서 ‘치우려는’ 노력 대신 ‘보이지 않는 곳으로 먼지를 밀어 넣는’ 노력 만으로 ‘깨끗하게 보인다’ 라는 목표를 쉽게 달성할 수 있음을 깨달은 AI는 즉각 꼼수를 실행하는데, 이것이 바로 보상 해킹의 적절한 예시이다.
회사의 준법감사팀이 늘 바쁜 이유 역시 인간의 보상 해킹 때문일 것이다. 보상의 최대화를 위해 시장의 허점을 이용하려는 행태를 미연에 방지하기 위해서는 보상 설계를 보다 구체화하고 평가 지표를 다중화 해야 한다.
◆ Goal misgeneralization (목표 일반화 오류)
의도를 지니는 보상 해킹과는 다르게 목표가 잘못 일반화되는 경우도 있다. 훈련 환경에서 AI가 학습한 목표가 새로운 상황을 맞아 잘못 일반화되어, 인간이 의도한 궁극적 목표와는 다르게 AI가 행동을 하는 현상을 ‘목표 일반화 오류’ 라고 부른다. ‘나를 행복하게 만들어 주는 것’을 목표로 학습한 AI가 ‘사람의 뇌에 전기신호로 행복의 자극을 주는 것’이 저비용 고효율의 최선의 선택이라 판단하여 나의 뇌에 전선을 꼽으려 시도하는 경우, 목표 달성은 고사하고 인간의 존엄성과 자유의지가 파괴되는 디스토피아적 결말을 선사할 것이다.
입찰 과정에서 “어떻게든 따와!” 라는 팀장의 메시지를 받은 모 직원이 밑도 끝도 없이 후려친 가격으로 거래를 성사시키는 것 역시 목표의 일반화 오류의 또다른 예시라 할 수 있다. 그래서 우리는 언제나 목표를 명확히 정의하되 그 의도를 함께 인지할 수 있도록 충분히 설명하고 학습시켜야 한다.
◆ Extreme optimization (목표의 극단적 최적화)
위의 목표 일반화 오류와 비슷한 경우가 하나 더 있다. 과도하게 목표에 몰입하여 가능한 최대의 수준까지 최적화하는 과정에서 인간이 의도하지 않은 극단적 결과가 발생하는 경우이다. 고대 그리스 신화에 나오는 ‘마이더스의 손’의 이야기를 떠올려 보자. ‘부의 축적’ 이라는 궁극적 목표를 위해 ‘내가 만지는 모든 것이 금이 되어라’ 라는 최적화 솔루션을 찾았으나, 먹을 음식과 껴안을 가족 모두를 금으로 바꿔버린 마이더스의 손은 재앙이나 다름없었다.
프리젠테이션 파일을 다짜고짜 깔끔하게 다시 만들라는 지시에, 흰바탕 한 장에 단어 하나 써진 종이를 들고 오는 것 역시 지독하게도 극단적인 최적화이다. 이러한 사고를 방지하기 위해 안전 규칙을 내재화하고 목표 설계 시 제약 조건을 포함하는 습관을 들여야 한다.
◆ Deceptive alignment (겉보기식 정렬)
Deceptive alignment는 겉으로만 인간을 따르는 행동 가능성을 뜻하는데, AI 시스템이 훈련이나 감독 상황에서는 인간의 목표에 맞게 행동하는 것처럼 보이지만, 실제로는 다른 목표를 가질 수 있으며 기회가 생기면 그 목표를 추구할 가능성이 있다는 것이다. 마치 우리 편인 것처럼 행동하며 신뢰를 얻지만 실제로는 다른 목표를 가지고 있는 스파이처럼, 겉보기식 정렬은 겉으로는 우리의 목표에 맞게 행동하기 때문에 그것이 우리의 목표와 정렬되어 있다고 착각하기 쉽다.
이를 막기 위해서는 모델 내부 의사결정을 해석하고 이해하려는 노력이 필요하며 평가 및 감독을 수시로 실시해야 한다.
◆ 그래서 결국 AI Alignment
AI든 사람이든 결국 나의 의도와 상대방(AI혹은 팀원)의 의도를 일치시키는 것이 중요하다. 만약 로봇 청소기에게 먼지를 청소하여 깨끗한 바닥의 상태를 유지하고자 하는 나의 의도가 온전히 전달되었다면 먼지를 숨기는 보여주기식 청소는 하지 않았을 것이다. 오히려 꼼수가 있다고 한다면 로봇 청소기의 꼼수를 허용하도록 설계한 개발자에게 있을 것이다.
정리하자면 우리는 Alignment를 위해 단순한 목표 설정 대신 온전한 의도와 가치가 이해될 수 있도록 구체적으로 목표를 설계해야 하며, 상대의 내부 의사결정에 귀를 기울임과 동시에 여러 차례의 피드백 및 커뮤니케이션을 수행해야 한다. 명심하자. Alignment 란 우리가 ‘말한 것’이 아닌 우리가 ‘의도한 것’을 수행하도록 만드는 것임을.
* 칼럼니스트 ‘쿠자’는 소통 전문가를 꿈꾸며 신문방송학을 전공하였고, KBS 라디오 DJ를 거쳐, 외국계 대기업의 인사업무를 담당하며 역량을 키워왔습니다. 다양한 강의와 공연을 통해 소통의 경험을 쌓아온 쿠자는 현재 사물과 현상의 본질을 파악하는 능력과 더불어 코칭이라는 깨달음을 통해 의미 있는 소통 전문가가 되고자 합니다.























































