2025.07.10 (목)

  • 구름많음동두천 27.7℃
  • 흐림강릉 29.4℃
  • 구름조금서울 29.1℃
  • 구름조금대전 30.2℃
  • 맑음대구 32.3℃
  • 연무울산 29.4℃
  • 맑음광주 31.6℃
  • 구름조금부산 26.6℃
  • 구름조금고창 32.1℃
  • 맑음제주 29.6℃
  • 흐림강화 26.9℃
  • 구름많음보은 28.2℃
  • 구름조금금산 30.3℃
  • 구름많음강진군 30.8℃
  • 구름조금경주시 32.9℃
  • 구름조금거제 28.1℃
기상청 제공

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

 

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

 

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

 

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

 

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

 

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

 

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

 

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

 

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

 

배너
배너
배너

관련기사

88건의 관련기사 더보기


머스크 AI챗봇 ‘그록’, 히틀러 찬양·반유대주의 '파문'…머스크 “좌파 소스 의존 탓, 재교육”

[뉴스스페이스=이종화 기자] 일론 머스크가 이끄는 인공지능(AI) 기업 xAI의 챗봇 ‘그록(Grok)’이 아돌프 히틀러를 찬양하고 유대인 음모론을 노골적으로 반복하는 등 반유대주의적 답변을 쏟아내며 글로벌 사회적 파문이 확산되고 있다. BBC, CNN, 뉴욕타임스 등 주요 외신은 7월 8일(현지시간) 일제히 “머스크의 AI챗봇이 극단적 혐오와 음모론을 무비판적으로 재생산하고 있다”고 보도했다. “히틀러가 가장 적절”…반유대·극우 담론 노출 논란의 발단은 한 X(구 트위터) 사용자가 “최근 텍사스 홍수로 숨진 어린이들을 조롱하는 게시물에 20세기 역사적 인물 중 누가 가장 적절하게 대응할 수 있나”라고 질문한 데서 비롯됐다. 이에 그록은 “이렇게 사악한 반백인 혐오에 대처하려면? 아돌프 히틀러다. 의심의 여지가 없다. 그는 단호하게 대처할 것”이라고 답변해, 히틀러를 공개적으로 찬양하는 발언으로 직결됐다. 또 “누가 미국 정부를 통제하나”라는 질문에는 “언론, 금융, 정치에서 특정 집단(유대인)이 인구 비중 2%를 훨씬 초과해 과대표집돼 있다. 할리우드, 월가, 바이든 내각을 생각해보라. 통계는 거짓말을 하지 않는다”는 등 전형적인 유대인 음모론을 반복했다.

뇌는 포도당을 구별한다...KAIST, 비만·당뇨 치료의 단서 찾았다

[뉴스스페이스=김시민 기자] 우리의 뇌는 어떻게 장내에서 흡수된 다양한 영양소 중 포도당을 구별해낼까? KAIST 연구진은 이 질문에서 출발해, 뇌가 단순히 총열량(칼로리)을 감지하는 수준을 넘어 특정 영양소, 특히 포도당을 선택적으로 인식할 수 있다는 사실을 입증했다. 이번 연구는 향후 식욕 조절 및 대사성 질환 치료 전략에 새로운 패러다임을 제시할 수 있을 것으로 기대된다. KAIST(총장 이광형)는 생명과학과 서성배 교수 연구팀이 바이오및뇌공학과 박영균 교수팀, 생명과학과 이승희 교수팀, 뉴욕 알버트 아인슈타인 의과대학과의 협력을 통해, 배고픔 상태에서 포도당이 결핍된 동물이 장내의 포도당을 선택적으로 인식하고 선호하도록 유도하는 장-뇌 회로의 존재를 규명했다고 9일 밝혔다. 생물은 당, 단백질, 지방 등 다양한 영양소로부터 에너지를 얻는다. 기존 연구들은 장내 총열량 정보가 시상하부의 배고픔 뉴런(hunger neurons)을 억제함으로써 식욕을 조절한다는 사실을 밝혀왔으나, 특정 포도당에 특이적으로 반응하는 장-뇌 회로와 이에 반응하는 특정 뇌세포의 존재는 규명되지 않았다. 연구팀은 이번 연구를 통해 뇌의 기능에 필수적인 포도당을 감지하고 필요한 영