대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’ 아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼 정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

관련기사

이 시각 추천뉴스

[빅테크칼럼] 마이크로소프트, 아마존-오픈AI 클라우드 계약 놓고 '소송' 검토…클라우드 AI 패권 쟁탈전 본격화

[이슈&논란] AI 대량 해고 와중에 감사인사한 올트먼, 기술 노동자 분노 폭발

[빅테크칼럼] 로드스터 10년의 약속, ‘최종 시험대' 서나… 머스크, 4월 말로 또 연기

[빅테크칼럼] 앤트로픽 추격전 속 오픈AI, '기업 AI 전쟁'으로 대반격…사이드 프로젝트 대거 정리

[빅테크칼럼] "월 10만원에 마케팅팀 통째로 고용"...Okara가 몰고 온 AI CMO '폭풍'

[이슈&논란] 최태원 "SK하이닉스 美 ADR 상장 검토" 첫 언급…마이크론·TSMC와 같은 트랙에 선다

[빅테크칼럼] 엔비디아의 DLSS 5 공개, 'AI 쓰레기' 논란…게이머 99% 부정 여론

[빅테크칼럼] AI 콘텐츠 무단 학습에 브리태니커 칼 빼들었다…10만건 저작권 침해로 오픈AI 제소

[빅테크칼럼] 아내 잃은 남편, 치매·우울 폭증…남편 잃은 아내, '해방감'으로 행복 UP?

많이 본 뉴스

[이슈&논란] 핀란드 전 정보국장 "벨라루스 배치된 러시아 오레시니크 미사일, 오히려 파괴 위험에 더 노출됐다" 경고

[이슈&논란] 삼성전자, 모바일사업부 위기 속 임원들 이코노미석 탑승 지시…메모리 쇼크 속 '긴축' 돌입

[지구칼럼] 남극 심층 미스터리 풀렸다…블러드 폭포의 붉은 분출과 7000만년 '중력 구멍' 기원

[빅테크칼럼] 쥐 뇌활동으로 '영화관' 재현…UCL, 시각 피질 단일세포로 10초 영상 재구성 '성공'

[우주칼럼] 36년 만에 정월대보름과 겹친 개기월식, 3월 3일 저녁 전국서 관측…붉은 보름달의 귀환

[빅테크칼럼] 챗GPT '야한 대화' 모드 코드 유출…성인 콘텐츠 시대 본격 개막하나

[우주칼럼] 지구인의 화성 정착, 인간 DNA를 영원히 바꿀 '진화의 덫'…"되돌릴 수 없는 생물학적 변화" 가능성 제기

[The Numbers] XRP '운명의 5주' 폭등 카운트다운?…머스크 X머니·日금리·리플 제휴 '초호재' 총출동

[이슈&논란] 이란 초등학교 '폭격’으로 100명이상 사망…유네스코, ‘중대한 인도주의법 위반’이라 규정한 이유

[공간사회학] 이란공습 보복으로 아부다비 공항 사망자 발생

[빅테크칼럼] '아동포르노 천국' 애플 아이클라우드, 방치로 소송 폭탄…"아동포르노 유통 최적 플랫폼"

[빅테크칼럼] K배터리 LG엔솔·삼성SDI·SK온, 인터배터리 2026서 AI·ESS '전력 제국' 구축 선언

[The Numbers] 삼성SDI, 삼성디스플레이 지분 매각 추진…10원 현금 확보로 배터리 부활 노린다

[The Numbers] 코스피 6200 돌파의 비결…뱅크오브아메리카 분석한 '한국 강세장 4대 불꽃'

[내궁내정] 이란, 중동 전역 공격 속 터키 제외한 이유…NATO 핵기지·외교 생명줄 지킨 '고차원 계산'

[The Numbers] 메모리 호황, 전쟁에도 '불사조' 날개…삼성전자·SK하이닉스 "중동 위기, 반도체 호황 꺾지 못할 것"

[빅테크칼럼] "월 10만원에 마케팅팀 통째로 고용"...Okara가 몰고 온 AI CMO '폭풍'

[The Numbers] 보스턴다이내믹스 100조 상장설, 정의선에 ‘20조 탄환’…현대차 순환출자 끊는 초대형 승계 시나리오

[빅테크칼럼] AI 칩 열풍에 TSMC 최대고객 판도 대변혁…애플 제치고 엔비디아 '왕좌 등극'

[빅테크칼럼] ‘트래픽 괴물’ 된 구글 제미나이…1년 새 643% 폭증, 챗GPT와의 성장 격차 벌렸다

[빅테크칼럼] AI 추론 시대, 낸드플래시 '황금알' 부화…삼성전자 영업익 14배 폭등 예고

[The Numbers] 글로벌 리스크 뚫고 코스피 5677…반도체 6.7배·증권 ETF 70% ‘괴물 랠리’

[The Numbers] 마이크로소프트 AI 거품 붕괴 신호?…닷컴 이후 최악 실적에 투자자 '패닉'

[빅테크칼럼] Grok AI, 美 이란 공습 정확한 날짜 맞췄다… 챗GPT·클로드·제미나이·Grok에게 물었더니

[The Numbers] SK㈜ 5.1조 자사주 소각 폭탄, 최태원 지배력 '강화' 신호…SK하이닉스·SK스퀘어 '동반 랠리' 촉발하나

[영웅시대] 한국-영국 '컬링 로맨스' 설예은♥바비 래미…밀라노 올림픽서 '동반 금메달' 노린다

[랭킹연구소] 삼성전자, AI 메모리 '황금 슈퍼사이클'로 시총 세계 14위 부상…아시아 기업 중 TSMC 이어 2위

[The Numbers] 한국 자살률, 3년 만에 꺾인 '희망 신호'…OECD 1위에서 7.4% 급감한 이유

[The Numbers] 최태원 "SK하이닉스, 영업이익 1000억달러 돌파" 예고…AI 괴물칩 HBM이 삼킨 반도체 제국

[The Numbers] 삼성전자 사장단, 의무 폐지에도 성과급 자사주로 수령…'주가상승 및 책임경영' 재확인

[The Numbers] AI 호황 타고 삼성전자·SK하이닉스, 법인세 8.5조로 국가재정 견인

[빅테크칼럼] 클로드 코드 창시자 "소프트웨어 엔지니어 직함 사라질 것" 예측…AI 코딩혁명 속 생산성 50% 폭증

[The Numbers] "테슬라 FSD에 문제 있다" 빨간불 켜졌다 …3% 급락, 400달러 붕괴

[내궁내정] '모텔 살인' 20대女, '사이코패스' 판정한 PCL-R검사…한국 사이코패스 범죄자 점수는?

[The Numbers] 엔비디아 실적 '대박' 터뜨릴까…AI 공포 속 2월 26일 '블랙웰 쇼크' 예의주시

[랭킹연구소] 상위 0.01% 기업 31곳 어디?…SKT·네이버클라우드·현대모비스 ‘급여·복지’ 최상위

[The Numbers] 'SK하이닉스 키오시아 베팅' 최태원 결단, 15조원 결실로…인텔·솔리다임 등 'SK 낸드제국 건설' 가속

[빅테크칼럼] 올트먼 "머스크와의 우정 회복보다 TSMC의 패권붕괴가 현실적"…AI 거물의 냉전 속 날카로운 농담

[빅테크칼럼] 메타의 AI 안전 책임자 "OpenClaw 에이전트 제어권 상실" 통제불능…AI 자율제어의 경고등

[빅테크칼럼] AI의 칼날, 과학자의 자리까지 위협…뇌 삼키는 기계 속 인간 창조성 살아남을까?

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가