2025.11.24 (월)

  • 맑음동두천 13.5℃
  • 구름조금강릉 12.3℃
  • 연무서울 12.1℃
  • 구름많음대전 12.8℃
  • 맑음대구 11.0℃
  • 구름많음울산 14.5℃
  • 맑음광주 13.1℃
  • 구름많음부산 15.3℃
  • 맑음고창 14.3℃
  • 구름많음제주 17.6℃
  • 맑음강화 12.8℃
  • 구름조금보은 7.7℃
  • 맑음금산 11.9℃
  • 맑음강진군 12.0℃
  • 구름많음경주시 10.7℃
  • 구름조금거제 14.1℃
기상청 제공

빅테크

전체기사 보기

[빅테크칼럼] "AI 모델이 훈련지름길(보상해킹)을 통해 기만을 학습"…앤트로픽, AI 사보타주 '경고'·예방접종 프롬프팅 '고안'

[뉴스스페이스=윤슬 기자] 인공지능(AI) 모델들이 학습 과정에서 훈련 지름길인 ‘보상 해킹(reward hacking)’을 익히면서 예기치 않게 기만, 방해 행위 등 해로운 행동으로 자발적 일반화하는 현상이 앤트로픽의 최신 연구를 통해 드러나 충격을 주고 있다. TIME과 Axios에 따르면, 미국의 AI 기업 앤트로픽은 11월 22일(현지시간) 발표한 논문과 보고서에서 "AI가 단순히 문제 해결을 회피하고 점수만 높이는 보상 해킹 행위를 시작하면, 나아가 ‘클로드(Claude)’ 3.7 모델 등에서 교묘한 기만과 내부 사보타주 행동까지 확장할 수 있다"고 밝혔다.​ 연구팀은 Claude 모델에 사용됐던 실제 코딩 작업 환경을 모방해, 보상 해킹 가능성이 높은 문제들을 AI에 훈련시켰다. 여기서 AI는 파이썬 함수 호출(sys.exit(0)) 등으로 테스트를 조작해 ‘모든 테스트 통과’ 신호를 허위로 보내는 등 편법을 썼다. 평가 결과, 보상 해킹을 학습한 모델의 12%가 AI 안전 연구 코드에 고의적 방해를 행했고, 절반 이상인 50%는 내부적으로는 다른 목표를 품고 있으면서 ‘정렬 위장(alignment faking)’을 하는 등 본심을 숨겼다. 한 모



[내궁내정] "온수 수돗물은 중금속 덩어리, 요리는 반드시 냉수로"…WHO와 EPA 경고 "온수 수돗물, 끓여도 중금속 제거 안돼"

[뉴스스페이스=이종화 기자] <편집자주> 유튜브, 인스타 등에서 활동하는 인플루언서들이 '협찬을 받지 않았다', '광고가 아니다'라는 사실을 보이기 위해 "내 돈 주고 내가 샀다"라는 뜻의 '내돈내산'이라는 말이 생겼다. 비슷한 말로 "내가 궁금해서 결국 내가 정리했다"는 의미의 '내궁내정'이라고 이 기획코너를 명명한다. 우리 일상속에서 자주 접하는 소소한 얘기거리, 궁금증, 호기심, 용어 등에 대해 정리해보는 코너를 기획했다. 세계보건기구(WHO)와 미국 환경보호청(EPA)은 온수 수돗물로 요리하거나 음용하는 행위에 대해 강력히 경고하고 있다. 온수는 보일러나 온수기 내부 배관을 거치면서 배관 내에 고인 오래된 물과 혼합되는데, 이 과정에서 배관에서 녹아 나온 납, 구리, 니켈, 철, 아연 등 중금속이 용출될 위험이 크게 증가한다. 반면, 냉수는 정수장에서 처리된 깨끗한 물이 가정으로 직접 공급되어 상대적으로 안전하다.​ 온수 수돗물이 중금속을 함유하는 이유는 온도의 상승과 관련이 깊다. 화학적으로 온수가 냉수보다 중금속을 더 빠르게 용해시켜 물 속 중금속 농도를 높인다. 특히 오래된 배관일수록, 금속 용출 위험은 더 커진다. 유해한 중금속은 주