2026.01.15 (목)

  • 흐림동두천 -1.4℃
  • 구름많음강릉 3.0℃
  • 흐림서울 0.8℃
  • 흐림대전 2.0℃
  • 구름많음대구 -0.6℃
  • 흐림울산 3.6℃
  • 흐림광주 7.2℃
  • 흐림부산 6.8℃
  • 구름많음고창 7.7℃
  • 맑음제주 9.7℃
  • 흐림강화 -0.9℃
  • 흐림보은 0.8℃
  • 흐림금산 1.3℃
  • 흐림강진군 3.1℃
  • 맑음경주시 -2.2℃
  • 흐림거제 3.9℃
기상청 제공

빅테크

[빅테크칼럼] 구글, 비공개 AI 모델 ‘볼트젬마(VaultGemma)’ 공개…프라이버시 보호와 AI 성능 '새 기준'

 

[뉴스스페이스=김시민 기자] 구글 AI 리서치와 딥마인드는 10억 매개변수 규모의 차등 프라이버시(Differential Privacy, DP)를 완전 적용해 처음부터 학습한 오픈소스 언어모델 ‘볼트젬마(VaultGemma)’를 9월 13일(현지시간) 공식 발표했다.

 

이는 지금까지 공개된 모델 중 가장 큰 규모의 DP 적용 LLM(대규모 언어 모델)으로, AI 민감 정보 보호·암기 공격 방지의 새로운 기준을 제시한다.

 

research.google, MarkTechPost AI Media Inc, VaultGemma: A Differentially Private Gemma Model, Huggingface, therift.ai, StartupHub.ai, Best AI Tools, Theme Bazar BD에 따르면, 볼트젬마는 Gemma 2 모델과 동일한 13조 토큰 규모 데이터셋을 활용했으며, 웹문서·코드·과학 논문 등 영어 텍스트를 주로 학습 대상으로 삼았다.

 

차등 프라이버시 기법의 핵심인 DP-SGD(확률적 경사 하강법에 노이즈 추가 및 그래디언트 클리핑 결합)를 활용해, 훈련 데이터 내 개별 레코드가 모델에 미치는 영향을 극소화하는 공식적인 시퀀스 수준 프라이버시 보장(ε ≤ 2.0, δ ≤ 1.1e-10)을 달성했다. 이 과정은 2048대의 TPUv6e 클러스터를 활용해 대규모 병렬처리로 진행됐다.

 

구글 연구팀은 최초로 차등 프라이버시 학습에 특화된 스케일링 법칙을 개발, 컴퓨팅 자원과 프라이버시 수준, 모델 성능 간의 균형을 과학적으로 예측하고 최적화했다. 이 덕분에 볼트젬마는 DP 기반 훈련에서 흔히 발생하는 학습 불안정성 문제를 완화하고, 효율적인 자원 배분과 훈련 시간 단축이 가능해졌다.

 

다만 성능 측면에서 볼트젬마는 비공개 모델 대비 어느 정도 격차가 있다. 대표적으로 학술 벤치마크 ARC-C 점수는 볼트젬마가 26.45점, Gemma-3 1B는 38.31점으로, 약 5년 전 비공개 GPT-2 수준의 성능을 보인다. PIQA, TriviaQA 등 여러 평가에서 성능 저하는 존재하나, 이는 강력한 프라이버시 보장과 맞바꾼 실용적 타협으로 분석된다. 특히 암기율 분석 실험에서는 훈련 데이터의 구체적 문장 재생산이 전혀 발견되지 않아 볼트젬마의 프라이버시 보호 효과가 실증됐다.

 

구글은 볼트젬마 모델 가중치와 기술 보고서, 연구 논문을 공개해 연구자와 개발자가 직접 접근하고 실험할 수 있도록 했다. 이는 민감 분야(의료, 금융, 정부 등)에서 AI 활용 시 개인정보 보호 문제를 해소하고, 글로벌 데이터 규제 강화에 대응하려는 전략적 의도로 풀이된다. 경쟁사들도 이와 같은 프라이버시 중심 AI 개발에 속도를 내고 있어, AI산업 전반에 의미 있는 파급 효과를 예고한다.

 

이번 볼트젬마 출시는 AI 학계와 산업계에서 프라이버시 보호를 필수로 요구하는 환경 변화 속에서도, 강력한 AI 능력과 보안성을 함께 달성할 수 있음을 입증한 중요한 이정표로 평가된다. 구글이 공개한 차등 프라이버시 스케일링 법칙은 후속 연구와 개발에 있어 핵심 가이드라인 역할을 할 전망이다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[이슈&논란] 이란 '전자전' 돌입…스타링크 패킷 80% 차단, 반정부 시위 영상 유포 막기 '안간힘'

[뉴스스페이스=김정영 기자] 이란 정부가 반정부 시위 진압 과정에서 일론 머스크의 스타링크 위성 인터넷을 겨냥한 군용 전파 교란을 강화하며 '전자전'에 돌입했다. 수도 테헤란 서부 지역에서 드론을 동원해 지붕 위 스타링크 안테나를 수색·압수하는 대규모 작전을 펼치고 있다. 인터넷 감시단체 넷블록스에 따르면, 1월 8일부터 이란 전역 인터넷 접속률이 평소 수준의 1% 또는 5%까지 급락하며 100시간 이상 '디지털 블랙아웃' 상태가 지속되고 있다. ​ 스타링크, 밀수입 단말기 10만대…시위 영상 외부 유포 '라이프라인' 이란 내 스타링크 사용자 수는 10만명을 초과하며, 지난 1년간 20배 증가한 것으로 추정된다. 전자상거래협회 관계자는 고유 사용자 3만명 이상이 월 700~2,000달러를 지불하며 위성 인터넷을 이용한다고 밝혔다. 시위 현장에서 촬영된 영상을 스타링크로 외부 제3자에게 전송해 소셜미디어에 게시하는 방식으로 정보가 전 세계에 확산되고 있다. ​ 미안그룹의 아미르 라시디 디지털권리 전문가는 "시위 집중 지역에서 스타링크 패킷 손실률이 30%에서 80%까지 치솟았다"며 정부의 이동식 재머 사용을 지적했다. 스페이스X는 소프트웨어 업데이트로 테헤란