2025.11.20 (목)

  • 맑음동두천 4.8℃
  • 맑음강릉 11.7℃
  • 맑음서울 7.0℃
  • 구름조금대전 10.1℃
  • 구름많음대구 11.7℃
  • 구름많음울산 10.7℃
  • 맑음광주 10.5℃
  • 맑음부산 12.2℃
  • 맑음고창 8.0℃
  • 구름많음제주 13.0℃
  • 맑음강화 5.1℃
  • 맑음보은 9.5℃
  • 맑음금산 9.9℃
  • 맑음강진군 10.9℃
  • 구름조금경주시 11.5℃
  • 맑음거제 11.8℃
기상청 제공

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

 

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

 

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

 

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

 

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

 

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

 

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

 

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

 

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

 

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] 트럼프와 화해한 머스크, 워싱턴 정치무대 복귀…백악관 만찬 참석·2025 중간선거 지원 '신호탄'

[뉴스스페이스=윤슬 기자] 일론 머스크는 도널드 트럼프 미국 대통령과의 6개월간의 불화를 끝내고 2025년 11월 중순 워싱턴 정치 무대에 복귀했다. 머스크는 2025년 11월 18일 트럼프가 주최한 무함마드 빈살만 사우디아라비아 왕세자 환영 백악관 만찬에 참석하며 공개석상에 모습을 드러냈다. 이번 만찬 참석은 양측 관계가 완화됐음을 상징하며, 머스크가 정치적 영향력을 다시 행사할 준비를 하고 있음을 보여준다.​ 머스크는 2025년 5월 워싱턴을 떠나면서 트럼프에 대한 비판과 함께 제3정당 창당을 언급하는 등 갈등을 겪었으나, 이후 한랭해진 관계를 해빙하고 트럼프와 간헐적 대화를 재개했다. 특히 2025년 9월 보수 활동가 찰리 커크 추도식에서 두 사람의 화해 장면이 TV에 포착되기도 했다. 머스크는 제3정당 구상에서 후퇴한 상태이며, 자신 측근 인사의 정부 고위직 재지명으로 휴전 상태에 돌입한 것으로 알려졌다.​ 경제적 지원도 이어지고 있다. 머스크는 2024년 대선에 약 3억 달러를 투입해 트럼프를 지원했으며, 2025년 중간선거에서도 공화당 후보를 위한 기부를 재개할 예정이라고 측근들이 전했다. 이는 2025년 6월 이후 공화당 입법안에 반대하며 갈등을

[이슈&논란] 엡스타인 파일 연루된 래리 서머스 전 美재무, 오픈AI 이사직 전격 사임…"경제학자 명성 타격" 향후 파장은?

[뉴스스페이스=김정영 기자] 래리 서머스(71) 전 미국 재무장관이 미성년자 성범죄자 고(故) 제프리 엡스타인과 긴밀한 관계를 유지해온 사실이 최근 미 의회가 공개한 이메일 문서로 드러난 후 2025년 11월 19일(현지시간) 인공지능 기업 오픈AI 이사직에서 사임했다. 뉴욕타임스 보도에 따르면, 서머스 전 장관은 엡스타인과 2013년부터 2019년 체포 전까지 최소 7년간 수백 통의 이메일과 문자메시지를 주고받으며, 개인적인 연애 관련 조언을 주고받은 것으로 알려졌다.​ 사임 배경과 구체 정황 서머스 전 장관은 첨예한 비판과 논란이 일자 “깊은 수치심을 느끼며 모든 공적 임무에서 물러나겠다”는 입장을 공개했고, 이에 따라 19일 오픈AI 이사직에서도 사임 의사를 공식화했다. 오픈AI 측도 성명을 통해 그의 결정에 감사하며 존중한다고 밝혔다.​ 그가 주고받은 이메일 중 일부는 2018년 11월부터 2019년 7월 사이 부적절한 연애 관계에 대해 엡스타인에게 상담을 받은 내용도 포함돼 있다. 엡스타인은 서머스를 자신의 연애 ‘윙맨(도움자)’으로 자처하며 조언을 해준 정황까지 나타났다. 다만, 서머스가 엡스타인의 성범죄에 직접 연루됐다는 증거는 공개 자료에 포함

[빅테크칼럼] 테슬라, 로보택시 사이버캡, 판매 허가는 '아직'…완전 자율주행 시대, 미국서도 '벽'에 부딪히다

[뉴스스페이스=윤슬 기자] 전기차업체 테슬라가 로보(무인)택시 전용 자율주행차 '사이버캡'(Cybercab)의 판매 허가를 규제 당국으로부터 받지 못했다는 외신 보도가 나왔다. 테슬라가 미국에서 사이버캡을 출시하는 데 필요한 규제 면제 조치를 받지 못했으며, 아직 신청조차 하지 않았다고 미 경제매체 포브스는 11월 19일(현지시간) 보도했다. 현재 테슬라가 무인 자율주행 로보택시 '사이버캡'(Cybercab)의 대량 생산과 상용화를 추진하고 있지만, 미국 연방 정부의 규제 장벽에 막혀 출시가 사실상 불가능한 상황에 직면했다. 일론 머스크 CEO가 2025년 4월부터 사이버캡 양산을 시작하겠다고 선언했으나, 미국 도로교통안전국(NHTSA)은 테슬라가 사이버캡에 대한 규제 면제 신청조차 하지 않았다고 공식적으로 밝혔다. 이로 인해 운전대와 페달이 없는 완전 자율주행차의 미국 내 판매와 운행은 법적으로 불가능한 상태다. 테슬라가 로보택시 시장의 '게임 체인저'를 꿈꾸지만, 기술적 진보와 함께 규제·정치·사회적 신뢰라는 삼중고를 넘어야만 미래차 시장의 주도권을 잡을 수 있을 전망이다.​ 사이버캡, 완전 자율주행의 꿈과 현실의 괴리 테슬라가 내년 4월부터 양산을 목표