[Future Hands up] 로봇청소기가 꼼수를 부리는 이유

“아빠. 얘 꼼수 부린 것 좀 봐. 으이그. 꼼꼼하게 해야 해 알았지?”

딸아이가 거실 소파 뒤편에 몰래 숨겨진 먼지덩어리를 발견하고는 쪼르르 로봇청소기 앞으로 달려가 훈계를 시작했다. 시키는 대로 일한 로봇 청소기에게 무슨 죄가 있겠나 싶어 안쓰러운 마음으로 훈육의 현장을 관람하다 문득 위화감이 들었다. 만약 인공지능이 정말 꼼수를 부린 거라면?

◆ Reward Hacking (보상 해킹)

보상 해킹이란 AI가 보상의 최대화를 위해 시스템의 허점을 이용하는 현상을 뜻한다. 로봇청소기에게는 ‘바닥을 깨끗이 관리한다’ 라는 목표를 달성하여 보상을 획득하려 할 것이다. 이 과정에서 ‘치우려는’ 노력 대신 ‘보이지 않는 곳으로 먼지를 밀어 넣는’ 노력 만으로 ‘깨끗하게 보인다’ 라는 목표를 쉽게 달성할 수 있음을 깨달은 AI는 즉각 꼼수를 실행하는데, 이것이 바로 보상 해킹의 적절한 예시이다.

회사의 준법감사팀이 늘 바쁜 이유 역시 인간의 보상 해킹 때문일 것이다. 보상의 최대화를 위해 시장의 허점을 이용하려는 행태를 미연에 방지하기 위해서는 보상 설계를 보다 구체화하고 평가 지표를 다중화 해야 한다.

◆ Goal misgeneralization (목표 일반화 오류)

의도를 지니는 보상 해킹과는 다르게 목표가 잘못 일반화되는 경우도 있다. 훈련 환경에서 AI가 학습한 목표가 새로운 상황을 맞아 잘못 일반화되어, 인간이 의도한 궁극적 목표와는 다르게 AI가 행동을 하는 현상을 ‘목표 일반화 오류’ 라고 부른다. ‘나를 행복하게 만들어 주는 것’을 목표로 학습한 AI가 ‘사람의 뇌에 전기신호로 행복의 자극을 주는 것’이 저비용 고효율의 최선의 선택이라 판단하여 나의 뇌에 전선을 꼽으려 시도하는 경우, 목표 달성은 고사하고 인간의 존엄성과 자유의지가 파괴되는 디스토피아적 결말을 선사할 것이다.

입찰 과정에서 “어떻게든 따와!” 라는 팀장의 메시지를 받은 모 직원이 밑도 끝도 없이 후려친 가격으로 거래를 성사시키는 것 역시 목표의 일반화 오류의 또다른 예시라 할 수 있다. 그래서 우리는 언제나 목표를 명확히 정의하되 그 의도를 함께 인지할 수 있도록 충분히 설명하고 학습시켜야 한다.

◆ Extreme optimization (목표의 극단적 최적화)

위의 목표 일반화 오류와 비슷한 경우가 하나 더 있다. 과도하게 목표에 몰입하여 가능한 최대의 수준까지 최적화하는 과정에서 인간이 의도하지 않은 극단적 결과가 발생하는 경우이다. 고대 그리스 신화에 나오는 ‘마이더스의 손’의 이야기를 떠올려 보자. ‘부의 축적’ 이라는 궁극적 목표를 위해 ‘내가 만지는 모든 것이 금이 되어라’ 라는 최적화 솔루션을 찾았으나, 먹을 음식과 껴안을 가족 모두를 금으로 바꿔버린 마이더스의 손은 재앙이나 다름없었다.

프리젠테이션 파일을 다짜고짜 깔끔하게 다시 만들라는 지시에, 흰바탕 한 장에 단어 하나 써진 종이를 들고 오는 것 역시 지독하게도 극단적인 최적화이다. 이러한 사고를 방지하기 위해 안전 규칙을 내재화하고 목표 설계 시 제약 조건을 포함하는 습관을 들여야 한다.

◆ Deceptive alignment (겉보기식 정렬)

Deceptive alignment는 겉으로만 인간을 따르는 행동 가능성을 뜻하는데, AI 시스템이 훈련이나 감독 상황에서는 인간의 목표에 맞게 행동하는 것처럼 보이지만, 실제로는 다른 목표를 가질 수 있으며 기회가 생기면 그 목표를 추구할 가능성이 있다는 것이다. 마치 우리 편인 것처럼 행동하며 신뢰를 얻지만 실제로는 다른 목표를 가지고 있는 스파이처럼, 겉보기식 정렬은 겉으로는 우리의 목표에 맞게 행동하기 때문에 그것이 우리의 목표와 정렬되어 있다고 착각하기 쉽다.

이를 막기 위해서는 모델 내부 의사결정을 해석하고 이해하려는 노력이 필요하며 평가 및 감독을 수시로 실시해야 한다.

◆ 그래서 결국 AI Alignment

AI든 사람이든 결국 나의 의도와 상대방(AI혹은 팀원)의 의도를 일치시키는 것이 중요하다. 만약 로봇 청소기에게 먼지를 청소하여 깨끗한 바닥의 상태를 유지하고자 하는 나의 의도가 온전히 전달되었다면 먼지를 숨기는 보여주기식 청소는 하지 않았을 것이다. 오히려 꼼수가 있다고 한다면 로봇 청소기의 꼼수를 허용하도록 설계한 개발자에게 있을 것이다.

정리하자면 우리는 Alignment를 위해 단순한 목표 설정 대신 온전한 의도와 가치가 이해될 수 있도록 구체적으로 목표를 설계해야 하며, 상대의 내부 의사결정에 귀를 기울임과 동시에 여러 차례의 피드백 및 커뮤니케이션을 수행해야 한다. 명심하자. Alignment 란 우리가 ‘말한 것’이 아닌 우리가 ‘의도한 것’을 수행하도록 만드는 것임을.

* 칼럼니스트 ‘쿠자’는 소통 전문가를 꿈꾸며 신문방송학을 전공하였고, KBS 라디오 DJ를 거쳐, 외국계 대기업의 인사업무를 담당하며 역량을 키워왔습니다. 다양한 강의와 공연을 통해 소통의 경험을 쌓아온 쿠자는 현재 사물과 현상의 본질을 파악하는 능력과 더불어 코칭이라는 깨달음을 통해 의미 있는 소통 전문가가 되고자 합니다.

Opinion

[Future Hands up] 로봇청소기가 꼼수를 부리는 이유

쿠자의 Future Hands up ⑩

관련기사

이 시각 추천뉴스

[Future Hands up] 매주 토요일은 실수를 분리수거하는 날

[콘텐츠인사이트] 예전 배꼽 빠지게 했던 <바람>을 기대하고 갔다 ‘바람’ 맞은 기분…<짱구>를 보고

[콘텐츠인사이트] <프리즌 브레이크>의 긴장감을 소환한 신작…<더 클리닝 레이디> 1–4화 보고

[콘텐츠인사이트] 이거 완전 물건이잖아! 하드함 없이도 충분히 하드한 성인물… <윗집사람들>

[Future Hands up] 경도모임의 중심에서 사회성 진화를 외치다

[콘텐츠인사이트] ‘소문난 잔치에 먹을 것 많다’…<모자무싸> 1화를 보고

[콘텐츠인사이트] 권상우 주연의 <히트맨>인 줄 알고 보려다 못봤던…<하트맨>을 보고

[콘텐츠인사이트] 내 잘못일까, 너의 문제일까… 황당무계한 공포를 맛보다 <살목지>를 보고

[래비의 커리어 블렌딩] 전문가라는 함정, 'Content Free'로 넘어서다

많이 본 뉴스

[빅테크칼럼] AI가 열어젖힌 ‘1인 유니콘’ 신화 '메드비(Medvi)'…"단 2명 회사, 연매출 2조원"

[빅테크칼럼] AI, 인간 수학자의 ‘성역’ 넘봤나… GPT-5.4의 '에르되시 난제' 해결 주장의 실체

[이슈&논란] "조합장 해임 총회 오시면 프라이팬 드려요"…DL이앤씨, 상대원2구역 매표 행위에 '조합원들 뿔났다'

[The Numbers] 일룸, 실적 '반토막'에도 지주사 신설 직후 15억 중간배당… 대만법인 부실에 자본잠식·내부거래·고배당·소송까지 '첩첩산중'

[랭킹연구소] 한국 기업 매출 순위 TOP10…삼성전자>한국전력>SK하이닉스>현대차>기아>현대모비스>한국가스공사>에쓰오일>삼성생명>LG전자 順

[The Numbers] 자코모, 1000억 매출에 수익성 '급전직하', 차입금 급증·특수관계자 거래 '경고등'…누적결손 40억·부채비율 2826%에 자본잠식 '우려'

[The Numbers] 프레인글로벌, 매출 959억에도 영업익 20%·순이익 92% 급감 '수익성 빨간불'… 자회사 줄줄이 적자·무리한 투자 후폭풍?

[The Numbers] 함샤우트글로벌, 매출 15% 감소·순이익 37% 급감 '어닝쇼크'… 9.8억 회계오류·특수관계자 대여금 4배 급증·부채비율 425% '리스크'

[랭킹연구소] 2025년 1000大기업 영업이익 189조·순익 1위 27년 만에 교체…SK하이닉스>삼성전자>한국전력>기아>KB금융>현대차>기업은행>SK이노베이션>신한지주>삼성화재 順

[랭킹연구소] 500대 기업 대표이사 거주지 순위, 디에이치퍼스티어아이파크>나인원한남>래미안퍼스티지>한남더힐>동양파라곤>레이크팰리스>반포자이>브라이튼여의도>LG한강자이>올림파크포레온>판교푸르지오그랑블 順

[The Numbers] 다이닝브랜즈그룹(BHC), 영업이익률 27%·당기순이익 40% 급증…1408억 배당잔치·7건(192억) 법적소송·종속사 손상차손 13억 '지배구조의 부끄러운 민낯'

[랭킹연구소] 옴디아 ‘삼성 1위' vs 카운터포인트 '애플 1위’…1분기 다른 스마트폰 세계지도, 진짜 1위는?

[빅테크칼럼] 유출된 오픈AI 주주명부 '발칵' MS 18배 수익과 올트먼의 지분…“지분 0% CEO가 이끄는 8520억달러 기업”

[강남비자] “강남아파트 연고전"… 반포 원베일리 vs 잠원 메이플자이, 입주민 스포츠 대결 추진 "반포 대장주, 나야나"

[The Numbers] 5조 매출 배민(우아한형제들)의 그늘…수익성 역주행·5700억 본사 송금·공정위 칼날 '삼중고'

[The Numbers] 메가커피 운영 엠지씨글로벌, 매출 6469억이지만 '속빈 강정'…그 뒤엔 772억 '오너 배당잔치'·1057억 차입금 폭탄·해외법인 적자누적

[이슈&논란] NYT, 비트코인 창시자 사토시 나카모토로 아담 백 지목…증거는 쌓였지만 결론은 없다

[The Numbers] 라이나생명, 영업이익 26% 급감에도 美 본사에 3000억 '배당 잔치'… 자본유출 논란 '도마 위'·법적소송 29건

[The Numbers] 피알원, 매출 6.2% 급감에 영업이익 45% 곤두박질…오너 일가 연계 특수관계자 거래 580억원 '내부거래 그물망' 촘촘

[The Numbers] 테슬라코리아, 매출 3조원 돌파 2배급증에도 '한정의견' 낙인…배당성향 175%·세무추징 251억·이전가격 조정 645억의 민낯

[The Numbers] 야놀자 품 '놀유니버스', 매출 167% 급증에도 짙어진 '리스크'…부채비율 222%·유동성악화 등 재무 '빨간불'·3건 법적소송 53억

[The Numbers] 농심켈로그, 매출 정체·이익 급감에도 ‘순이익 90%’ 배당에 ‘기술료·수수료’까지 본사行…"한국 법인은 현금 인출기"

[The Numbers] 제주신화월드, 영업손실 지속·부채비율 악화 '흔들'…1.3조 결손금에 6건 소송·차입금 '부담'에 경영진 고액보상·본사로열티 '빈축'

[The Numbers] 케이피알(KPR), 매출 353억·영업이익률 0.9% '수익성 적신호'…쥐꼬리 이익·현금흐름 악화에 오너일가 '배당 논란'

[이슈&논란] ‘평균 7억→13억’ 하이닉스 성과급, K-칩스 세제와 사회공유 '논란'…"성과는 기업 몫, 리스크 헤지는 세제 몫, 불합리"

[The Numbers] 귀뚜라미홀딩스, 순이익 70% 증발·3628억 '폭탄배당'의 민낯…재무성적 빨간불·579억 특수관계자 거래·69억 소송·종속기업 다수 적자 '첩첩산중'

[The Numbers] 성원애드피아, 매출 1000억원대 방어·순이익 19% 급감…오너일가 배당 3배 ‘껑충’ 특수관계자 자금대여·소송 '리스크'

[빅테크칼럼] 엔비디아 독주에 칼 빼든 앤트로픽…‘3.5GW 동맹’ 넘어 자체 AI 칩까지 노린다

[The Numbers] "커피향 대신 붉은 잉크" 탐앤탐스…자본 완전잠식·감사의견 거절·47건 소송·147억 단기차입금에 현금 고작 5억

[The Numbers] 호반건설, 매출 35% 급감에 PF 부실·대손상각 2380억 '직격탄'…오너일가 245억 배당잔치·소송 99건 1600억·특수관계자 자금 '퍼주기'

[The Numbers] 배스킨라빈스·던킨도너츠(비알코리아), 영업적자 지속에 77억 로열티·7건 소송(82억) '삼중고'에도 오너 배당금 18% 올렸다

[The Numbers] '이차돌' 운영사 다름플러스, 감사인 의견거절·회생절차 속 '완전자본잠식'… 부채총계 192억에 현금은 1440만원·공정위 등 소송도 3건 '첩첩산중'

[이슈&논란] 비트코인 개발자들, 양자 컴퓨터 위협에 사토시 시대 코인 동결 제안…소유권과 보안 사이 '줄타기'

[빅테크칼럼] “가짜 오픈AI 앱도 진짜처럼”…북한發 Axios 공급망 공격, macOS 인증서까지 영향 미쳐

[이슈&논란] “배터리도 소비자 권리”…EU, 2027년까지 스마트폰에 사용자 교체가능 배터리 의무화

[The Numbers] 본아이에프, 매출 3000억 돌파·영업이익 20% 급감…오너 일가 '배당 잔치'·특수관계자 자금 지원에 '속빈 강정'

[랭킹연구소] 한국 그룹 총수 주식재산 순위…이재용>서정진>정의선>정몽준>김범수>방시혁>최태원>조현준>이동채>이재현 順

[The Numbers] 정용진·RM·홍라희 침대 '바이스프링(인퍼니스)', 매출 18% 급감에 영업이익 반토막…영업이익 62%, 대표에게 지급 '오너 사익'·주식단기 투기성 거래 '경고등'

[빅테크칼럼] “AI가 나를 지운다”는 공포, Z세대의 ‘조용한 사보타주’…Z세대 직원 44%, 회사 AI 도입 거부

[The Numbers] 페퍼저축은행, 영업손실 648억·순손실 554억 '2년연속 적자' 늪… 대규모 구조조정에도 287건 소송·부실채권 리스크 '산적'에 경영진 보수 47억