2025.07.02 (수)

  • 구름많음동두천 27.7℃
  • 흐림강릉 29.4℃
  • 구름조금서울 29.1℃
  • 구름조금대전 30.2℃
  • 맑음대구 32.3℃
  • 연무울산 29.4℃
  • 맑음광주 31.6℃
  • 구름조금부산 26.6℃
  • 구름조금고창 32.1℃
  • 맑음제주 29.6℃
  • 흐림강화 26.9℃
  • 구름많음보은 28.2℃
  • 구름조금금산 30.3℃
  • 구름많음강진군 30.8℃
  • 구름조금경주시 32.9℃
  • 구름조금거제 28.1℃
기상청 제공

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

 

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

 

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

 

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

 

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

 

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

 

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

 

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

 

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

 

배너
배너
배너

관련기사

88건의 관련기사 더보기


텔레그램, ‘추적 불가’ 신화 깨졌다…한국경찰에 95% 정보제공, 디지털범죄 검거 급증

[뉴스스페이스=김시민 기자] ‘추적당하지 않는 메신저’로 악명 높았던 텔레그램이 2024년 8월 창업자 파벨 두로프 체포 이후 정책을 전면 수정, 한국 경찰의 수사 요청에 95% 이상 응답하며 디지털 범죄 검거에 결정적 역할을 하고 있다. 가입자 정보·IP 기록 등 핵심 자료가 제공되며, 딥페이크·마약·성착취 등 각종 범죄 검거 사례가 급증하고 있다. 텔레그램, ‘범죄 안전지대’에서 ‘수사 협조’로 급선회 2024년 8월, 텔레그램 창업자 겸 CEO 파벨 두로프가 프랑스에서 아동 음란물 유포, 마약 밀매, 자금 세탁 방치 등 혐의로 체포된 것이 결정적 전환점이 됐다. 이후 텔레그램은 개인정보 보호 정책을 변경하고, 한국 경찰 등 수사기관의 자료 요청에 적극적으로 응답하기 시작했다. 경찰청에 따르면, 2024년 10월 이후 텔레그램은 한국 경찰의 자료 요청에 95% 이상 응답하고 있다. 실제로 2025년 6월 기준, 경찰이 제공받은 자료는 1000여 건에 달한다. 요청이 들어오면 텔레그램은 자사 정책 및 국제법 위반 여부를 검토한 뒤, 가입자 정보와 IP 기록 등을 제공하는 방식이다. 나머지 5%도 요청서를 보내고 기다리는 상태로, 사실상 거의 모든 요청이 받

[공간사회학] 148년 역사 윔블던, AI 심판 도입…'전통 상징' 테니스 ‘혁신의 서막’ 열다

[뉴스스페이스=이종화 기자] 6월 30일(현지시간) 영국 런던 올잉글랜드클럽에서 개막한 ‘윔블던 챔피언십’이 148년 만에 사상 최초로 ‘AI 심판’ 시스템을 전면 도입했다. 1877년 창설 이래 ‘전통의 상징’이었던 윔블던이 인공지능 기술을 도입하며 스포츠 혁신의 한복판에 섰다. AI 심판, 148년 만에 선심을 대체하다 BBC, Sky News의 보도에 따르면, 올해 윔블던의 가장 큰 변화는 ‘인간 선심’이 완전히 사라지고, AI 기반 라인 판독 시스템이 모든 코트에서 인·아웃 판정을 맡는다는 점이다. AI 심판은 코트 주변에 설치된 고성능 카메라와 센서를 통해 공의 궤적을 실시간으로 추적, 인공지능 알고리즘이 ‘인’과 ‘아웃’을 즉각적으로 판정한다. BBC와의 인터뷰에서 윔블던 조직위원회는 “기술의 발전이 경기의 공정성과 신속성을 높일 수 있다는 점에서, AI 심판 도입은 불가피한 선택이었다”고 밝혔다. 이 시스템은 이미 2023년 US오픈, 2024년 호주오픈 등 일부 메이저 대회에서 부분적으로 도입된 바 있으나, 윔블던처럼 모든 코트에서 선심을 완전히 대체하는 것은 이번이 처음이다. AI 심판은 판정의 일관성과 신속성, 그리고 인간 오심 논란을 원천