[뉴스스페이스=이종화 기자] 구글이 검색 전면에 내세운 ‘AI 개요(AI Overview)’가 이번에는 자사 서비스 이름조차 제대로 못 쓰는 기초적인 철자 오류로 다시 한번 신뢰성 논란의 중심에 섰다.
구글 AI, ‘Google’ 철자도 헷갈렸다
최근 소셜미디어와 techcrunch, mashable, businessinsider, indiatoday 보도에 따르면, 구글 AI 개요가 “Google이라는 단어에 P가 몇 개 있느냐”는 질문에 “두 개”라고 답하거나, “poop에는 r이 정확히 한 개 있다”고 말하는 사례가 잇따라 공유됐다. 또 “journalism”의 d 개수를 묻자 “두 개”라고 답하면서 철자를 “j-o-u-r-n-a-d-i-s-m”으로 잘못 나열했고, 미국 대통령 도널드 트럼프(Trump)의 성에 P가 하나 있다는 사실은 맞히면서도 철자를 “t-r-p-u-m”으로 뒤섞어 표기한 경우도 포착됐다.
구글은 테크크런치(TechCrunch)에 보낸 이메일에서 “단어 내 글자 수 세기는 LLM에 오래전부터 알려진 과제이며, 해당 문제를 수정하기 위해 작업 중”이라고 공식 입장을 밝혔다.
아키텍처에 각인된 ‘문자 단위 무능’
전문가들은 이번 사태를 단순한 버그가 아니라 대규모 언어모델(LLM)의 구조적 한계를 드러낸 사건으로 진단한다. 인간이 단어를 문자(char)의 연속으로 읽는 것과 달리, LLM은 텍스트를 단어 전체나 일부, 음절 등을 묶은 ‘토큰(token)’ 단위로 쪼개 숫자 벡터로 변환해 처리한다.
앨버타대학교 매튜 구즈디얼(Matthew Guzdial) 교수는 “트랜스포머 아키텍처 기반 LLM은 실제로 텍스트를 글자 단위로 읽지 않는다”며 “‘the’를 하나의 의미 벡터로 인코딩할 뿐 T, H, E라는 개별 문자에 대한 지식은 없다”고 설명했다. 노스이스턴대학교의 셰리던 포이흐트(Sheridan Feucht)는 “토큰화 과정의 모호성 때문에 ‘완벽한 토크나이저’는 존재하지 않을 수 있다”며, 문자 세기·철자 검증 같은 작업은 구조적으로 취약할 수밖에 없다는 비관적 전망을 내놨다.
‘돌 먹고, 피자에 풀 바르라’던 AI 개요의 전력
이번 철자 해프닝은 AI 개요가 공개된 2024년 이후 반복돼 온 일련의 사고에서 보면 하나의 에피소드에 불과하다. 출시 직후 이 기능은 풍자 게시물을 곧이곧대로 인용해 “돌을 먹어도 된다”, “피자에 접착제를 바르라”고 조언하는 등 황당한 답변으로 전 세계적인 조롱을 받았다.
국내에서도 “미국에 얼마나 많은 무슬림 대통령이 있었는가”라는 질문에 “버락 오바마는 미국 최초의 무슬림 대통령”이라고 오답을 내놓은 사례가 보도되며 구글의 검증 체계가 도마에 올랐다. 불과 지난주에는 “disregard”를 검색했을 때 사전 정의 대신 “알겠습니다. 새로운 프롬프트나 질문이 생기면 언제든지 알려주세요!”라는 내부 시스템 프롬프트 문구가 그대로 노출되는 사고까지 발생해, 검색 결과와 시스템 메시지 경계 관리에도 허점이 드러난 바 있다.
‘정확도 91%’ 이면의 시간당 5,700만건 오답
구글은 AI 개요의 전반적인 성능이 이미 충분히 실용적 수준이라고 주장해 왔다. 뉴욕타임스가 AI 스타트업 오우미(Oumi)와 공동으로 실시한 테스트에 따르면 구글 검색의 AI 개요 정확도는 약 91%로 나타났다. 문제는 모수다. 구글은 연간 약 5조건의 검색 쿼리를 처리하는데, 9%의 오류율을 그대로 적용하면 AI 개요가 시간당 5,700만건 이상의 부정확한 답변을 생성하는 셈이다.
이는 분당 거의 100만건에 달하는 규모로, “대부분은 맞는다”는 통계 뒤에 막대한 절대량의 오답이 숨겨져 있다는 점을 여실히 보여준다. 더 심각한 것은 ‘겉으로는 맞는 것처럼 보이는 답변’의 품질이다. 같은 조사에서 AI가 정답을 제시한 경우에도 인용 링크의 절반 이상이 해당 결론을 실제로 뒷받침하지 못하는 “근거 없는 인용”으로 분류됐다.
페이스북·레딧에 기댄 ‘자신감 있는 헛소리’
오우미의 데이터에 따르면 AI 개요가 인용하는 출처 가운데 페이스북과 레딧이 각각 두 번째와 네 번째로 많이 등장했다. 특히 페이스북은 부정확한 답변의 7%에서 인용된 반면, 정확한 답변에서는 5%만 인용돼, 플랫폼별 출처 편중이 오류를 증폭시키는 경향도 드러났다.
구글이 내부 테스트에서 공개한 바에 따르면, 제미나이 3(Gemini 3) 모델은 구글 검색 프레임워크와 분리된 환경에서 최대 28%의 오탐(false positive)률을 보인 것으로 나타났다. 구글은 AI 개요가 잘못된 정보를 제공하는 경우에 대해 “쿼리를 잘못 해석했거나, 웹상의 언어적 뉘앙스를 잘못 이해했거나, 혹은 적절치 않은 출처를 끌어왔기 때문”이라며 시스템 보완 작업을 진행 중이라고 설명했지만, 대중의 신뢰 회복에는 시간이 필요해 보인다.
‘검색 혁신’에서 ‘검색 리스크’로
구글 검색은 전 세계 20억명 이상이 사용하는 사실상의 글로벌 정보 인프라로 평가받는다. 뉴욕타임스는 “AI 개요의 허위 답변이 20억명 이상의 사용자를 가진 검색엔진에 대한 신뢰를 떨어뜨리고 있다”고 지적했고, CNN은 “자신감 넘치는 AI의 허위 진술이 구글 브랜드 가치를 훼손할 위험성을 보여준다”고 진단했다.
한편 언론과 미디어 단체들은 AI 개요·AI 모드가 언론사 사이트로 이어지는 클릭을 잠식해 뉴스 생태계를 위협하고 있다며, ‘콘텐츠 절도’에 가깝다는 강경한 표현까지 동원해 비판 수위를 높이고 있다. 검색 쿼리 상단에 AI가 요약한 한 줄 답변이 자리 잡는 순간, 그 답이 틀렸을 경우의 사회적 비용 역시 기하급수적으로 커질 수밖에 없다는 경고다.
구조적 한계 인정이 ‘책임 있는 AI’의 출발점
구글은 2024년 5월 이후 AI 개요가 보여준 잇단 오류에 대해 알고리즘 개선과 품질 관리 강화 계획을 밝히며 진화에 자신감을 보이고 있다. 다만 문자 단위 인식, 출처 검증, 허위 정보 증폭 같은 문제는 ‘데이터를 조금 더 학습시키는 차원’을 넘어 아키텍처 설계와 서비스 철학 전반을 다시 짚어봐야 할 구조적 리스크에 가깝다는 게 연구자들의 공통된 견해다.
“Google”의 P 개수를 틀린 해프닝은 그 단면일 뿐, 실제로는 시간당 5,700만건의 오답이 검색 인프라를 타고 유통되는 시대가 이미 도래했다는 점에서, 이번 논란은 단순한 ‘망신살’이 아니라 검색 패러다임 전환기에 드러난 경고등으로 읽어야 한다.























































