2025.12.17 (수)

  • 구름조금동두천 4.3℃
  • 구름많음강릉 8.2℃
  • 박무서울 5.6℃
  • 구름조금대전 7.8℃
  • 맑음대구 10.3℃
  • 맑음울산 10.9℃
  • 맑음광주 8.4℃
  • 맑음부산 11.5℃
  • 구름많음고창 8.5℃
  • 흐림제주 11.0℃
  • 맑음강화 5.2℃
  • 구름조금보은 6.8℃
  • 구름많음금산 7.0℃
  • 구름조금강진군 9.6℃
  • 맑음경주시 10.4℃
  • 구름많음거제 12.2℃
기상청 제공

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

 

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

 

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

 

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

 

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

 

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

 

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

 

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

 

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

 

배너
배너
배너

관련기사

93건의 관련기사 더보기


[The Numbers] 테슬라, 최악 판매 속에도 시장점유율은 ‘역주행’…로보택시 무인 운행에 사상 최고가 '재도전'

[뉴스스페이스=이종화 기자] 테슬라가 미국 텍사스주에서 안전 요원 없이 로보택시를 운행하기 시작했다는 소식과 함께, 미국 전기차 시장 점유율 반등 효과가 겹치며 주가가 장중 사상 최고가를 갈아치우는 랠리를 연출했다. 11월 판매량은 3년 만의 최악 부진을 기록했지만, 미국 전기차 시장 전체가 더 큰 폭으로 얼어붙으면서 테슬라만 홀로 점유율을 키우는 ‘기형적 역전’이 연출됐다는 분석이 나온다.​ 사상 최고가 재도전한 테슬라 15일(현지시간) 뉴욕증시에서 테슬라 주가는 장중 7% 이상 급등하며 481.37달러까지 치솟아, 전일 대비 7.71% 급등한 수준에서 올해 들어 가장 높은 가격을 기록했다. 이는 2024년 12월 18일 기록한 장중 사상 최고가 488.54달러에 불과 1.5%포인트가량 못 미치는 수준으로, 테슬라 주가가 사실상 사상 최고 박스권을 다시 두드리기 시작했다는 상징성을 지닌다. 같은 날 종가는 475달러 안팎에서 형성되며 연간 고점에 바짝 다가섰고, 연초 이후 상승률도 약 18%로 확대됐다.​ 콕스 오토모티브, 블룸버그, 야후파이낸스, Teslarati 등에 따르면, 월가에서는 이번 랠리의 1차 동인으로 ‘무인 로보택시’ 현실화를, 2차 동인으

[이슈&논란] 머스크 영향? 중국 억만장자들, 미국 대리모로 '수백명 자녀 출산' 논란…"중국인 대상 대리모 산업까지"

[뉴스스페이스=윤슬 기자] 최근 중국의 억만장자들이 미국에서 대리모를 통해 수십 명에서 100명이 넘는 자녀를 출산하며 시민권 획득과 윤리적 논란을 일으키고 있다. 월스트리트저널(WSJ)을 비롯한 해외 주요 매체들은 온라인 게임 업체 둬이네트워크 창업자 쉬보(徐波)의 사례를 중심으로, 중국 부유층이 미국 대리모 제도를 활용해 대규모 가족을 구성하려는 시도가 증가하고 있다고 보도했다.​​ 쉬보 사례와 자녀 수 논란 쉬보는 2023년 로스앤젤레스 가정법원에서 대리모를 통해 출산한 4명의 자녀에 대한 친권을 신청했으나, 법원 조사 결과 이미 8명 이상의 자녀를 대리모를 통해 두고 있었다는 사실이 밝혀졌다. 쉬보는 “가업을 물려주기 위해 미국 태생 아들 20명을 원한다”고 진술했고, 법원은 “일반적인 양육이라기보다 아이를 수집하는 행위에 가깝다”고 판단했다. 그의 회사는 “수년간 노력한 끝에 100명 조금 넘는 자녀”를 두고 있다고 밝혔으며, 2022년 공개된 영상에서는 10명 이상의 아이들이 “아빠”라고 외치는 장면이 담겼다.​​ 머스크의 출산 장려주의와 영향 최소 14명의 자녀를 둔 일론 머스크는 “지능이 높은 사람이 늘어나야 문명을 지킬 수 있다”며 적극적인