대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’ 아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼 정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

관련기사

이 시각 추천뉴스

[빅테크칼럼] 스포티파이의 군사AI 투자 조치에 아티스트 등돌렸다…"음악이 전쟁·죽음에 사용되는 것 반대"

[빅테크칼럼] 클로드 AI 장애로 개발자들 ‘석기시대 코딩’ 체험…현대 개발자의 AI의존도 '심각'

[빅테크칼럼] 아마존, 2026년 ‘Jayhawk’ AR 안경으로 메타에 도전장…AR 글래스 시장 애플·메타·아마존·삼성 '4파전'

[빅테크칼럼] 오라클, 오픈AI와 3000억 달러 '역대 최대' 클라우드 계약 체결…데이터센터 신화 다시 쓴다

[빅테크칼럼] 에어비앤비 CEO "AI 시대의 인력 대피소로 변신중…인간 손길은 여전히 필수"

[이슈&논란] 오라클, AI 클라우드 매출 폭증에 주가 36% '급등'…엘리슨, 머스크 제치고 세계 최고 부자 '등극'

[빅테크칼럼] MS, 2026년 2월부터 ‘주 3일 출근’ 의무화…"잠재적 구조조정의 신호" 직원반발

[이슈&논란] 머독, 33억 달러로 상속 분쟁 '종료'…보수 장남이 미디어 제국 단독 통제권 확보

[빅테크칼럼] 클로드, AI 비서에서 '문서 제작의 명수'로 진화…앤트로픽, 엑셀·워드·파워포인트 파일생성 기능 도입

많이 본 뉴스

[이슈&논란] LG전자發 희망퇴직 쇼크…'늙어가는' 대기업·'밀려나는' 중견·고연차 "LG 구조조정의 민낯"

[지구칼럼] "숨겨진 해저 세계는 지상만큼이나 복잡"…지구 해양 지하의 거대한 담수층과 숨겨진 생명계

[빅테크칼럼] 엔비디아, 8월 25일 로보틱스 새 두뇌 '젯슨 토르' 공개한다...휴머노이드 로봇혁신 선도

[이슈&논란] 테슬라 대형 SUV 나오면 이런 느낌? 군용차 분위기 '열광'…차세대 오프로더 시장 판도 흔들까?

[영상] “오모가리 라면 만들면 퇴출”…GS25의 ‘오모리김치찌개라면’ 성공 뒤 가려진 '불공정' 의혹

[이슈&논란] “오모가리 라면 만들면 퇴출”…GS25의 ‘오모리김치찌개라면’ 성공 뒤 가려진 '불공정' 의혹

[이슈&논란] 967만명 회원보유한 롯데카드 해킹…"역대급 보안사고"에 금융업계 비상

[랭킹연구소] 서울에서 가장 행복한 동네? 25개구 행복지수 순위…동작구 1위·강북구 '꼴찌'

빌 게이츠, 3년 만에 방한…‘275조원 백신 프로젝트’로 K-바이오와 글로벌 공익 동행

[이슈&논란] 프랑스 ‘에비앙’ 불법 정수처리 '스캔들'…무너진 청정 신화·정부-기업 유착 '의혹'

[이슈&논란] 유령법인 통한 50억 리베이트‧입찰담합…단국대 장호성 이사장·안병광 유니온약품 회장 등 비리 전방위 수사

[이슈&논란] 트럼프-푸틴 만나자, 美 폭격기가 머리 위로…"트럼프의 심리전, 푸틴 氣 죽이기"

[이슈&논란] 배달의민족, BBQ치킨 쿠폰 ‘무한 반복’ 악용 논란…‘7000원에 치킨 10번’ 꼼수에 ‘발칵’

[이슈&논란] "5년새 16명 사망" 롯데건설 김해 아파트 근로자 또 사망…대통령 경고에도 '안전관리' 비난

[빅테크칼럼] 이더리움 창립자 "100배 가격 급등해 44만 달러 간다"…기관투자 폭발에 파격적 예측

[핫픽] 개기월식…2025년 9월 8일 영천시 보현산천문대 촬영

[이슈&논란] 엔씨소프트 "15분 PC 무동작시 근무시간 산정 정지"…포괄임금제 폐지 따른 '초정밀 근태관리' 도입 붐

[빅테크칼럼] 中 유비테크, 사상 최대 3500만 달러 휴머노이드 로봇 계약 체결…테슬라 옵티머스와 한판승부

[빅테크칼럼] 이더리움의 부테린 "2030년까지 양자컴퓨터가 암호화를 무너뜨릴 수 있다" 경고

[우주AtoZ] 소행성 베누, 태양보다 오래된 고대 별먼지 품은 우주 타임캡슐…수십억년 전 물과 유기물의 비밀 풀렸다

[우주AtoZ] "GPS 시스템 대체하는 기술 나온다"…미 국방부, 우주에서 양자 항법 기술 검증한다

[이슈&논란] 해커에게 협박받은 구글 "핵심 보안 인재 두 명 해고해라"…‘세일즈포스 유출’ 후폭풍에 범죄수법 '진화'

[빅테크칼럼] 타임스퀘어를 뒤흔든 제미나이·리플의 광고 그리고 XRP 마스터카드…암호화폐 결제의 대중화 '신호탄'

[공간혁신] 가을을 먼저 느낄 수 있는 '정원 품은 스타벅스' TOP5

워렌 버핏, 기록적 현금 축적 속 애플 2000만주 추가 매각…포트폴리오 지각변동 예고

[내궁내정] 어디까지 먹어봤니?…눈을 의심하게 하는 MZ 신상 먹거리, '환상적 콜라보' 파헤치기

[이슈&논란] 인천공항行 에어아시아, 김포공항에 내렸다고?…미스터리 착륙에 승객 2시간 '진땀'

[우주AtoZ] 로켓랩, 70번째 일렉트론 미션 발사 '임박'…우주 발사 시장 선도 '가속'

[빅테크칼럼] 데이터센터를 우주에? 구글·스타클라우드, 태양광·AI로 '혁신'…“태양광 효율 좋고 냉각도 쉬워”

[이슈&논란] 한화오션 거제 조선소서 브라질 선주 감독관 추락 사망…산재처벌법 적용 여부 조사

[The Numbers] 코인베이스 CEO "비트코인, 2030년까지 100만 달러 간다"…강력한 낙관론 주장의 근거 4가지

[이슈&논란] 추석 항공대란 현실화 임박…전국 15개 공항노동자 19일 첫 총파업 돌입

[빅테크칼럼] "테슬라에겐 올 여름이 겨울" 집단소송 태풍의 한복판…증권사기·개인정보·인종차별 논란 속 흔들리는 EV 리더십

애플, iOS 26로 에어팟에 실시간 다국어 번역 기능 도입…삼성·구글과 격차 좁힌다

[The Numbers] 타이어 '빅3' 2분기 실적, 금호·넥센 '웃고' 한타 '울고'...한국타이어 오너 구속에 순이익까지 45% 급감 '울상'

[이슈&논란] 오라클, AI 클라우드 매출 폭증에 주가 36% '급등'…엘리슨, 머스크 제치고 세계 최고 부자 '등극'

테슬라 6.2% 폭등…난제 산적에도 파월의 '금리인하' 신호가 촉매

[The Numbers] 美 블랙스톤, 준오헤어 최대 8000억원에 인수…"K-뷰티 글로벌 인기 프리미엄"

국세청, AI 중심 세무행정 대전환 본격 추진…"2027년 세수 10조 이상 증대 기대"

[이슈&논란] 삼성 엑시노스 2600, 2년 만에 갤럭시 S26 플래그십 복귀…2nm 공정 기술과 열관리 혁신으로 퀄컴과 '맞짱'

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가