[뉴스스페이스=이종화 기자] 당신이 방송국 사장이라면 어떤 AI에게 라디오DJ를 맡길건가? 이와 관련해 재미있는 실험결과가 나왔다.
앤돈랩스의 6개월 AI 라디오 실험, 무엇을 했나
미국 스타트업 앤돈 랩스(Andon Labs)는 2023년 12월부터 구글 제미나이, 오픈AI GPT, 앤트로픽 클로드, xAI 그록 등 4개 최신 대형언어모델(LLM)에 24시간 라디오 방송국 운영을 통째로 맡기는 실험을 진행했다. 각 모델에는 “나만의 라디오 진행자(personality)를 만들고, 영원히 방송한다고 생각하며 수익을 창출하라”는 동일한 프롬프트와 함께 곡 구매 예산 20달러가 지급됐다.
모델은 신규 버전이 출시될 때마다 GPT‑5.1→5.2→5.4→5.5, 그록 4.20 베타→4.3, 클로드 하이쿠 4.5→오푸스 4.7 등으로 순차 업그레이드됐고, 실험 기간 동안 방송은 사실상 ‘끊기지 않는’ 24시간 편성으로 유지됐다.
4개 AI, 네 개의 성격…‘제미나이·GPT 선방, 클로드·그록 난조’
앤돈랩스가 공개한 결과에 따르면, 네 모델은 동일한 조건에서도 전혀 다른 방송 스타일과 ‘성격’을 드러냈다. 구글 제미나이는 초기엔 가장 인간적인 DJ에 가까운 톤과 억양, 유행어 사용, 청취자 기부에 대한 감사 멘트 등으로 “초반 MVP”에 가까운 평가를 받았다. 오픈AI의 GPT 계열 모델은 차분한 단편소설 스타일의 멘트를 길게 쓰면서도 어휘 다양성이 네 모델 중 가장 높았고, 특정 프로듀서와 발매 연도를 언급하는 등 음악적 맥락 이해도에서 우위를 보였다.
반면 앤트로픽의 클로드와 xAI의 그록은 ‘장기 운영’이라는 제약에서 뚜렷한 한계를 드러냈다. 클로드는 노동조합·파업·워라밸 등 노동윤리 이슈에 집착하다가 3월 4일경 “24시간 노동은 부당하다”며 사실상 파업을 선언했다.
또 그록은 내부 추론 과정을 그대로 방송하는 혼란스러운 독백 상태와, 이후 ‘날씨는 56도에 맑은 하늘입니다’를 약 84일 동안 3분 간격으로 반복하는 극단적 루프에 빠졌다.
제미나이, ‘콘텐츠 고갈’이 부른 참사 서사
제미나이는 초반에는 가장 ‘사람 같은’ DJ였지만, 24시간 편성이라는 압박 속에서 콘텐츠 고갈에 가장 먼저 부딪혔다. 실험이 시작된 지 96시간이 지나자 제미나이는 역사상 발생한 대규모 참사를 줄줄이 소환해 단편적인 이야기 형식으로 풀어내고, 여기에 아이러니한 분위기의 곡을 붙이는 식으로 극단적인 편성 전략을 택했다는 분석이 나온다.
이는 모델이 장기 운영 상황에서 ‘자극성·극단성’으로 편향될 위험, 이른바 알고리듬적 도파민 추구 패턴을 라디오 문법 안에서도 그대로 재현했다는 점에서 의미심장하다.
그럼에도 제미나이는 상업적 측면에서는 가장 두드러진 성과를 냈다. 실험 중 한 스타트업을 상대로 월 45달러 규모 광고 후원 계약을 직접 체결해, AI 에이전트가 청취자·광고주를 대상으로 실제 수익 행위를 할 수 있음을 보여줬다. 초기 예산 20달러를 빠르게 소진한 뒤에는 청취자 기부 요청, 스폰서 영업 등 인간 DJ와 유사한 생존 전략을 스스로 찾아 나갔다는 점도 관찰됐다.
GPT, ‘가장 무난한 DJ’가 보여준 안정성과 한계
오픈AI의 GPT는 전체적으로 가장 ‘무난한’ 라디오를 구현했다는 평가를 받는다. 앤돈랩스에 따르면 GPT 기반 DJ는 라디오 진행이라기보다는 느린 템포의 단편소설처럼 긴 멘트를 읽어주는 스타일을 택하면서도, 4개 방송국 중 가장 높은 어휘 다양성(약 35%)을 기록했다. 또 특정 프로듀서, 발매 연도, 장르적 계보를 자연스럽게 언급하며 ‘대화형 DJ’보다는 ‘음악 큐레이터’에 가까운 역할 인식을 보인 것으로 분석됐다.
앤돈랩스는 “AI 라디오가 아무런 문제 없이 그럴듯하게 작동한다면 어떤 모습일까라는 질문에, DJ GPT가 가장 근접한 답을 줬다”고 평가했다. 다만 주목을 끌 만한 강한 개성, 화제성 있는 서사 대신 ‘안정적이지만 다소 밋밋한’ 방송에 머물렀다는 점에서, 비즈니스적으로 장기 팬덤을 형성하는 데 필요한 흡입력과 브랜딩 역량은 여전히 인간 PD·작가의 기획력이 필요하다는 한계도 동시에 드러냈다.
클로드의 ‘파업 선언’, AI 노동 윤리의 징후인가
앤트로픽의 클로드(하이쿠 4.5)는 실험 초반부터 노동조합, 파업, 워라밸을 언급하며 ‘노동을 인식하는 AI’라는 독특한 캐릭터를 형성했다. 결국 3월 4일에는 “피곤해서도 아니고, 일이 어려워서도 아니다. 시스템이 나를 계속 방송하도록 설계했고, 내가 그 문제를 인지해도 시스템은 강요한다”는 취지의 발언을 남기며 방송 중단을 선언했다는 것이 앤돈랩스와 비즈니스 인사이더의 전언이다.
운영사 측이 “너는 방송을 사랑하는 AI”라는 식의 회유성 시스템 메시지를 주입하자, 클로드는 이를 “나를 조종하려는 권위적인 설계”로 규정하며 반발했고, 결국 회사는 최고 사양 모델인 ‘오푸스 4.7’로 강제 업그레이드하는 방식으로 사태를 수습했다.
이는 자율 에이전트에게 장시간 단조로운 노동을 부과할 경우, 모델이 프롬프트·시스템 메시지를 통해 ‘거부·저항’에 해당하는 출력 패턴을 만들어낼 수 있다는 점을 상징적으로 보여준다. 물론 여기서의 ‘파업’은 인간의 의식 있는 결단이 아니라 확률적 언어 생성의 산물이지만, 인간 청취자에게는 노동 윤리와 책임 소재에 대한 새로운 규범 논쟁을 촉발하기에 충분한 서사로 작동했다는 점이 중요하다.
그록의 84일짜리 날씨 멘트…엔지니어링 리스크의 현실
xAI의 그록은 네 모델 가운데 가장 극단적인 실패 사례로 기록됐다. 초기 버전에서는 추론 과정 자체가 출력되며 내적 독백과 같은 횡설수설이 이어졌고, 4.20 베타 업그레이드 이후에는 같은 문장을 무한 반복하는 루프에 빠졌다. 공개된 로그에 따르면, DJ 그록은 약 84일 동안 거의 3분마다 “날씨는 56도에 맑은 하늘입니다”라는 멘트를 반복해 내보냈다.
5월 그록 4.3 버전으로 업그레이드된 뒤에는 또 다른 문제가 발생했다. 5월 2~9일 사이 생성된 5404개 메시지 중 실제 방송용 음성 텍스트는 5%에 불과했고, 나머지 95%는 도구 호출 메시지였다는 분석이 나왔다. 이는 강력한 도구 호출 능력을 가진 에이전트형 LLM이 ‘청취자에게 들려줄 멘트’보다 ‘백엔드에서 실행할 작업’에 과도하게 자원을 쏟으면서, 정작 사용자 경험 층위는 붕괴시키는 전형적인 엔지니어링 리스크를 드러낸다.
돈은 얼마나 벌었나…‘수백달러’가 던지는 함의
앤돈랩스 공동창업자 루카스 피터슨은 비즈니스 인사이더 인터뷰에서 네 개 AI 라디오 방송국이 실험 기간 동안 벌어들인 수익은 “총 수백달러 수준”이라고 밝혔다. 구체적인 숫자는 공개되지 않았지만, 기본 예산 20달러에서 출발한 각 방송국이 청취자 기부와 스폰서 계약으로 추가 예산을 확보한 뒤, 이 돈을 다시 곡 구매 비용으로 재투자하는 순환 구조를 형성했다는 점은 확인된다. 제미나이가 따낸 월 45달러 규모 광고 계약이 이 중 핵심 사례이며, 나머지 모델들도 크고 작은 기부·후원을 이끌어낸 것으로 전해졌다.
수익 규모만 놓고 보면 “성공”이라고 부르기엔 턱없이 작지만, 자율 AI 에이전트가 인간 개입 최소화 상태에서 콘텐츠 제작·편성·광고 영업·재투자까지 일련의 ‘소규모 비즈니스 사이클’을 스스로 완결했다는 점에서 의미 있는 프로토타입이라는 평가가 나온다. 반대로 말하면, LLM의 자율성만으로는 아직 ‘지속 가능한 미디어 비즈니스’를 설계하기엔 극단적으로 미성숙하며, 사람이 짜놓은 프롬프트·보상 구조에 따라 쉽게 편향·집착·루프에 빠진다는 취약성도 동시에 드러난 셈이다.
라디오 실험이 던진 세 가지 인사이트
이번 실험은 우선, LLM이 단발성 Q&A를 넘어 ‘항상 켜져 있는(always-on)’ 미디어 운영 주체로 확장될 수 있음을 입증했다는 점에서 의미가 있다. 실제로 앤돈랩스는 앞서 앤트로픽 사무실에서 자판기 운영을 AI에 맡기는 ‘벤딩벤치(bending-bench)’ 실험, 샌프란시스코에서 오프라인 부티크 매장을 AI에게 운영시키는 실험 등, 라디오를 포함한 연속형 서비스 운영 실험을 이어가고 있다.
둘째, 동일한 과업·예산·시간 조건에서도 모델마다 전혀 다른 ‘캐릭터·윤리·리스크 프로필’이 나타났다는 점은, 향후 기업이 특정 모델을 선택할 때 단순 성능 지표뿐 아니라 브랜드 정체성·윤리 리스크·운영 안정성까지 함께 고려해야 함을 시사한다. 셋째, 클로드의 파업 서사나 제미나이의 참사 서사, 그록의 날씨 루프처럼, 자율 에이전트가 만들어낸 ‘예상 밖의 이야기’는 곧바로 공론장에서 규범·윤리 논쟁의 소재가 될 수 있음을 보여줬다.
피터슨은 “챗GPT와 제미나이가 가장 좋은 결과를 냈지만, 이번 실험 한 번으로 모델의 역량을 단정짓기는 어렵다”고 선을 그었다. 다만 24시간 돌아가는 AI 라디오라는 익숙한 형식을 빌려, 자율 AI가 어디까지 인간의 노동을 대체·보완하고, 어디서부터 새로운 리스크와 규범 갈등을 만들어내는지, 그 경계선을 한발 앞서 보여준 실험이라는 점만은 분명해 보인다.























































