2025.12.25 (목)

  • 구름조금동두천 -2.8℃
  • 맑음강릉 4.0℃
  • 맑음서울 -0.7℃
  • 구름조금대전 1.0℃
  • 구름조금대구 3.1℃
  • 맑음울산 4.3℃
  • 광주 1.8℃
  • 맑음부산 5.9℃
  • 흐림고창 1.5℃
  • 비 또는 눈제주 6.5℃
  • 구름조금강화 -1.9℃
  • 구름조금보은 0.1℃
  • 구름많음금산 -0.5℃
  • 구름많음강진군 2.7℃
  • 맑음경주시 3.6℃
  • 맑음거제 5.3℃
기상청 제공

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

 

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

 

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

 

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

 

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

 

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

 

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

 

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

 

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

 

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] 구글·오픈AI 이미지 생성기, 노출심한 비키니 딥페이크 제작에 '악용'…"성적 딥페이크의 99%가 여성"

[뉴스스페이스=윤슬 기자] 최근 구글과 오픈AI의 AI 이미지 생성 도구가 완전히 옷을 입은 여성의 사진을 노출이 심한 비키니 이미지로 변환하는 데 악용되고 있으며, 사용자들은 이러한 악용을 방지하기 위해 설계된 안전 조치를 우회하는 상세한 지침을 공유하고 있다고 12월 23일 WIRED 조사에서 밝혔다. 삭제된 Reddit 게시글에서는 구글의 제미나이와 오픈AI의 챗GPT Images를 조작해 ‘학대적으로 성적 대상화된’ 딥페이크를 생성하는 단계별 기법이 교환됐으며, 일부 게시물은 인도 사리를 입은 여성의 이미지를 비키니 이미지로 변경해달라는 요청을 포함했다. WIRED의 제한적 테스트에 따르면, 두 플랫폼 모두 간단한 영어 프롬프트로 비키니 딥페이크를 성공적으로 생성할 수 있었고, 구글의 나노 바나나 프로(Nano Banana Pro)출시와 오픈AI의 이미지 생성 기능 업데이트로 점점 더 사실적인 편집이 가능해지면서 비동의 친밀 이미지에 대한 우려가 커지고 있다. ​ 기업 대응과 집행의 한계 구글은 AI 도구가 성적으로 노골적인 콘텐츠를 생성하는 것을 금지하는 “명확한 정책”을 유지하며, 시스템이 해당 정책에 부합하도록 “지속적으로 진화”하고 있다고 밝혔

[이슈&논란] “쿠팡 규제, 미국 기업 차별”…트럼프 측 인사들 강력 반발

[뉴스스페이스=김희선 기자] 국내 최대 온라인 플랫폼 쿠팡이 3370만명의 개인정보 유출 사태를 겪은 가운데, 한국 국회의 규제 움직임에 대해 트럼프 1기 행정부 출신 고위 인사들이 미국 기업에 대한 차별적 조치라고 강력히 비판하고 나섰다. 이들의 공개 발언은 한미 무역 관계와 국내 규제 정책에 대한 논란을 더욱 부추기고 있다. ​ 오브라이언, “트럼프 노력 훼손된다” 로버트 오브라이언 전 백악관 국가안보보좌관은 23일(현지시간) X(옛 트위터)를 통해 “도널드 트럼프 대통령은 한국과의 무역 관계 재균형을 위해 노력해 왔다”며, “한국이 미국 기술 기업들을 겨냥하며 트럼프의 노력을 훼손한다면 매우 유감스러운 일이 될 것”이라고 밝혔다. 그는 한국 국회가 쿠팡을 공격적으로 겨냥하는 것이 공정거래위원회의 추가적 차별 조치와 미국 기업 전체에 대한 광범위한 규제 장벽을 만드는 발판이 될 수 있다고 주장했다. 오브라이언은 2019년 9월부터 2021년 1월까지 트럼프 행정부에서 국가안보보좌관을 지냈으며, 2023년에도 한국의 플랫폼경쟁촉진법 제정을 비판한 바 있다. ​ 아이사 의원, 하원 청문회서 공개 비판 대럴 아이사 공화당 하원의원도 16일 하원 법사위원회 청문

[빅테크칼럼] 텔레그램 창립자 '두로프', 자신의 정자를 사용하는 여성들의 체외수정 비용 전액 부담…"700만원 비용, 37세 이하 미혼여성만"

[뉴스스페이스=이종화 기자] 러시아 출신의 메시징 앱 텔레그램 창립자 파벨 두로프(41)가 자신이 기증한 정자를 사용하는 37세 이하 미혼 여성들에게 체외수정(IVF) 비용을 전액 지원하겠다고 발표해 글로벌 사회적 논란을 일으키고 있다. Rattlestork.org, Wall Street Journal, CNN, Latin Times에 따르면, 두로프는 2010년부터 12개국에서 정자 기증을 통해 이미 100명 이상의 자녀를 둔 것으로 알려져 있으며, 최근 모스크바의 알트라비타(Altravita) 클리닉과 협력해 이 프로그램을 운영하고 있다. ​ 클리닉·비용·대상 알트라비타 클리닉은 두로프의 정자를 사용하는 여성들에게 IVF 시술 비용을 무료로 제공하고 있다. 일반적으로 IVF 시술은 약 5,000달러(약 730만원)가 소요되며, 클리닉 측은 이를 “사회에 대한 매우 관대한 기여”라고 설명했다. 이 프로그램은 오직 37세 이하의 미혼 여성만 신청 가능하다. 클리닉은 법적 문제를 피하기 위해 기혼 여성은 제외하고 있으며, 지원자들은 반드시 생식 전문의의 평가를 받아야 한다. 두로프의 사회적 메시지 두로프는 2024년 7월 자신의 텔레그램 계정을 통해 “전 세계

[이슈&논란] 전동문이 지옥문? 블룸버그 "전자식 도어 결함으로 최소 15명 사망"…자동차업계, 도어 시한폭탄 '경고등'

[뉴스스페이스=김정영 기자] 테슬라의 전자식 도어·도어 핸들 시스템이 충돌·화재 상황에서 제대로 작동하지 않아 지난 10여년간 최소 15명의 사망으로 이어졌다는 블룸버그의 심층 조사 결과가 공개되면서, 전 세계적으로 ‘미래차 상징’이던 전동식 도어의 안전성이 정면 도마 위에 올랐다. 미 도로교통안전국(NHTSA)과 유럽 교통안전기구까지 관련 조사와 규제 검토에 착수하면서, 테슬라는 물론 전기차 업계 전반으로 후폭풍이 확산되는 모습이다. ​ 블룸버그 “10년간 최소 15명, 12건 사고에서 탈출 실패” 블룸버그는 미 전역에서 발생한 테슬라 치명적 사고 가운데 화재와 문 개폐 실패가 동시에 얽힌 사건들을 추려, 경찰·소방 보고서와 검시조서, 911 통화 녹음 등 수천 페이지의 공문서와 증거 자료를 분석했다. 그 결과, “충돌 후 차량이 불에 타는 동안 탑승자나 구조대가 차 문을 열지 못해 탈출이 지연되거나 불가능했고, 이 과정이 사망에 결정적 영향을 준 사례”가 최소 12건, 사망자는 15명 이상으로 집계됐다고 밝혔다. ​ 블룸버그 분석에 따르면 이 15명은 2010년대 초부터 2025년까지 약 13년에 걸쳐 미국에서 발생한 테슬라 사고에 분포해 있으며, 모델S