2025.12.21 (일)

  • 구름조금동두천 -2.1℃
  • 구름조금강릉 5.6℃
  • 구름많음서울 -0.8℃
  • 구름많음대전 2.2℃
  • 흐림대구 2.6℃
  • 흐림울산 3.4℃
  • 구름많음광주 2.6℃
  • 흐림부산 5.0℃
  • 흐림고창 1.8℃
  • 흐림제주 7.5℃
  • 맑음강화 -1.6℃
  • 구름많음보은 0.5℃
  • 흐림금산 1.1℃
  • 흐림강진군 2.9℃
  • 흐림경주시 3.2℃
  • 흐림거제 4.9℃
기상청 제공

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

 

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

 

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

 

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

 

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

 

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

 

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

 

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

 

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

 

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] 구글, AI 경쟁사 견제 위한 검색결과 크롤링 업체 소송…“기생충 같은 사업모델” 비판

[뉴스스페이스=김정영 기자] 세계 최대 검색업체 구글이 자사 검색 결과를 무단으로 긁어가는 크롤링(crawling) 업체 ‘서프Api(SerpApi)’를 상대로 캘리포니아 북부 연방지법에 소송을 제기했다고 12월 19일(현지시간) 밝혔다. 구글은 서프Api가 웹사이트 소유자가 설정한 크롤링 지침을 무시하고, 보안 조치까지 우회해 콘텐츠를 무단 수집해 왔다고 주장하며, 이에 대해 각 위반사항에 대해 200~2,500달러의 손해배상액을 산정했다. 특히 구글은 서프Api가 구글이 라이선스를 취득해 제공하는 콘텐츠를 가져가 유료로 재판매하는 등 ‘기생충 같은 사업모델’이라고 비판했다. 크롤링(Crawling)이란 수많은 인터넷 페이지의 내용을 대량 복제해 저장하는 것을 말한다. 이렇게 저장된 페이지는 검색 결과 생성, AI 모델 훈련을 비롯한 여러 분석 작업에 사용된다. ​ 서프Api는 2017년 설립된 텍사스주 오스틴 소재 스타트업으로, 초기에는 고객들의 구글 검색 상위 노출을 돕는 SEO 분석 서비스를 제공했다. 그러나 최근 생성형 인공지능(AI) 시장이 급성장하면서, 서프Api는 그간 수집한 검색 결과 데이터를 오픈AI, 메타 등 AI 개발사에 판매하는 새로운

[빅테크칼럼] 머스크, 200조원대 보상안 부활…테슬라 지배력 강화와 천문학적 자산가치의 시대 개막

[뉴스스페이스=김정영 기자] 미국 델라웨어주 대법원이 2018년 일론 머스크 테슬라 CEO에게 약속된 초대형 스톡옵션 보상안을 복원하는 판결을 내리면서, 머스크가 200조원이 넘는 천문학적 성과급을 받을 수 있게 됐다. 이 보상안은 지난해 소액주주 리처드 토네타의 소송으로 델라웨어주 법원에서 무효화된 바 있으나, 이번 대법원 상고심에서 원심이 뒤집히며 다시 유효해졌다. ​ 보상안 핵심 내용과 판결의 의미 2018년 체결된 머스크 보상 패키지는 3억400만주의 스톡옵션을 포함하고 있다. 이는 테슬라 전체 발행주식의 약 9%에 해당하며, 행사가격은 주당 23.34달러다. 테슬라 주가가 7년 전 20달러 수준에서 현재 500달러 가까이로 급등하면서, 이 스톡옵션의 현재 가치는 블룸버그 기준 약 1400억 달러(207조원)에 달한다. 델라웨어주 대법원은 이번 판결에서 “머스크가 6년간의 경영 성과에 대해 보상받지 못하게 하는 것은 부당하고 불공평하다”며, 보상안의 정당성을 인정했다. ​ 머스크의 테슬라 지분율 확대와 추가 보상안 머스크가 이번 스톡옵션을 모두 행사할 경우, 테슬라 지분율은 현재 약 13%에서 20%를 넘는 수준으로 뛰어오를 전망이다. 더불어 테슬라는

[이슈&논란] 女교사 딥페이크 성범죄, 10대에 징역 3년 중형 선고…AI 범죄 ‘강력 처벌’ 신호탄

[뉴스스페이스=윤슬 기자] 한국의 한 10대가 고등학교 교사들의 얼굴을 딥페이크 기술로 합성해 성적 착취 이미지를 제작·유포한 혐의로 징역 3년을 선고받았다. 이는 원래 선고된 12~18개월의 부정기형보다 두 배 이상 늘어난 중형으로, AI를 이용한 성적 학대물에 대한 한국의 엄격한 처벌 기조를 보여주는 판결이다.​ 교사 대상 딥페이크, 심리적 충격과 사회적 파장 인천지방법원 형사항소부는 이번 사건에서 피고인이 항소 과정 중 만 19세가 되어 소년법의 관대한 양형 기준에서 벗어나면서 더 긴 징역형을 선고했다. 최성배 판사는 “교사들의 얼굴을 나체 이미지로 조작해 소셜미디어에 선정적 문구와 함께 게시하는 행위는 인격 살인에 가까운 악의적 범죄”라며, 피해자들의 심리적 충격과 소셜미디어의 빠른 전파력으로 인해 피해 회복이 극히 어렵다고 강조했다.​ 10대, 딥페이크 성범죄의 중심에 이번 사건은 한국에서 딥페이크 성범죄가 10대를 중심으로 급증하는 현실을 반영한다. 국가수사본부에 따르면, 2024년 11월부터 2025년 10월까지 3,557명이 사이버 성폭력 혐의로 검거됐으며, 이 중 1,553건이 딥페이크 관련 범죄로 가장 큰 비중을 차지했다. 딥페이크 성범죄