2024.06.27 (목)

  • 맑음동두천 27.4℃
  • 구름많음강릉 31.2℃
  • 구름많음서울 27.5℃
  • 흐림대전 25.0℃
  • 흐림대구 23.8℃
  • 흐림울산 23.7℃
  • 흐림광주 22.4℃
  • 흐림부산 22.8℃
  • 흐림고창 21.9℃
  • 제주 22.6℃
  • 맑음강화 26.3℃
  • 흐림보은 22.9℃
  • 흐림금산 23.3℃
  • 흐림강진군 22.2℃
  • 흐림경주시 24.0℃
  • 흐림거제 21.7℃
기상청 제공

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

 

[뉴스스페이스=이현주 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

 

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

 

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

 

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

 

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

 

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

 

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

 

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

 

배너

관련기사

73건의 관련기사 더보기


멀린다 게이츠, 바이든 지지 표명…"여성에 큰 결과, 여성 위해 노력하는 후보"

[뉴스스페이스=윤슬 기자] 마이크로소프트(MS) 창업자 빌 게이츠의 전 아내 멀린다 프렌치 게이츠가 오는 11월 미국 대선에서 조 바이든 대통령 지지를 표명했다. 바이든 대통령처럼 여성·가족에 대한 문제의식을 지닌 지도자가 미국에 필요하다는 입장이다. 멀린다 게이츠는 20일(현지시간) 엑스(X·옛 트위터)에 "나는 지금까지 한 번도 어떤 대선 후보를 지지해본 적이 없다"며 "그러나 올해 선거는 여성과 가족들에게 매우 큰 결과를 가져올 수 있기 때문에 가만히 있을 수가 없다"고 썼다. 이어 "나는 바이든 대통령에게 투표할 것"이라며 "여성들은 그들이 직면한 문제에 관심을 갖고 그들의 안전, 건강, 경제권, 재생산권은 물론 자유롭고 안전한 민주주의 참여를 위해 노력하는 지도자를 가질 자격이 있다"고 주장했다. 반면 도널드 트럼프 전 대통령에 대해선 비판의 목소리를 높였다. 멀린다 게이츠는 이날 CNN 홈페이지에 기고한 글에서 "트럼프 전 대통령이 첫 임기 동안 여성의 건강을 위험에 빠뜨렸을 뿐만 아니라 안전과 필수적인 자유를 강탈했다"고 주장했다. 또 타이틀 엑스(Title X·연방 정부의 가족 계획 프로그램) 제한, 분열적·폭력적 수사로 인한 여성 공직자에 대

中心 잡은 머스크 모친…아들 '비밀병기' 역할 맡아 '테슬라 홍보대사' 자처

[뉴스스페이스=김정영 기자] 올해 76세인 일론 머스크의 어머니인 메이 머스크가 중국에서 큰 인기를 누리고 있다고 20일(현지시간) 월스트리트저널(WSJ)이 보도했다. 이 보도에 따르면 메이가 펴낸 2020년 중국어판 자서전 "계획을 세운 한 여성'(A Woman Makes a Plan)이 중국 베스트셀러 정상까지 올라갔다. 메이의 강연에 중국 사람들의 폭발적인 수요는 물론 중국 정부 인사들까지 그녀의 강연에 관심을 갖고 있을 정도. 모델 출신인 메이는 눈부신 은색 머리카락에 눈길을 끄는 외모에 흥미로운 인생 이야기까지 갖췄다. 1948년 캐나다에서 태어난 메이는 10대 때 모델로 데뷔했고, 미스 남아프리카공화국 선발대회 결선에도 진출했다. 일 론 머스크 뒤로 두 자녀를 두었는데, 그중에 킴벌은 테슬라와 스페이스X의 이사회 구성원으로 있고 토스카는 영화감독이다. 자서전에서는 가정 폭력과 이혼에 직면한 젊은 엄마의 어려움을 털어놓기도 했다. 그러나 나중에 2개의 석사 학위를 취득하고 영양사 자격증을 따기도 했다. 아예 자사 중국 제품을 홍보해 달라는 기업들도 줄을 섰다. 스마트폰에서 펜 모양의 번역기까지 다양하다. 다만 WSJ은 "메이를 향한 중국인들의 호감이

아마존창업자 '워싱턴포스트'에 쓴소리…"신문도 변해야 산다" 주문

[뉴스스페이스=김정영 기자] 미국을 대표하는 일간지 중 하나인 워싱턴포스트(WP) 소유주 제프 베이조스 아마존 CEO가 최근 일어난 사내 갈등과 혼란에 대해 침묵을 깨고 신문 사업의 변화를 주문했다. WP는 최근 WP 최초 여성 편집국장이 돌연 사임하면서 그동안 곪았던 갈등과 내홍이 가시화되는 게 아니냐는 관측이 나왔다. 특히 WP의 신임 발행인 겸 CEO인 윌리엄 루이스가 취재윤리 논란에 휘말린 가운데 WP의 소유주인 제프 베이조스 아마존 창업자가 루이스에 대한 지지를 표시하면서 던진 얘기라 더욱 관심이 모아졌다. 18일(현지 시각) CNN에 따르면 베이조스는 WP 뉴스룸의 고위 간부들에게 이메일을 보내 “WP의 저널리즘 기준과 윤리는 변하지 않을 것이다. 취재를 이끌어온 뉴스룸의 리더로서 여러분은 WP의 기준이 항상 매우 높았다는 것을 알고 있으며 이는 바뀔 수도 없고 앞으로 변하지 않을 것”이라며 “우리가 믿는 품질, 윤리, 기준을 유지하기 위해 최선을 다하고 있다. 하지만 세상은 빠르게 발전하고 있고 우리도 비즈니스적으로 변화해야 한다. 평소처럼 사업을 할 수 없다”고 말했다. 이는 최근 불거진 루이스 발행인을 둘러싼 윤리 문제를 의식한 발언으로 보인

기업 의사결정 도출기술 나왔다…카이스트, 거대언어모델 'PlanRAG' 개발

[뉴스스페이스=이종화 기자] 기업 내외의 상황에 따라 끊임없이 새롭게 결정해야 하는 기업 의사결정 문제는 지난 수십 년간 기업들이 전문적인 데이터 분석팀과 고가의 상용 데이터베이스 솔루션들을 통해 해결해 왔는데, 국내 연구진이 최초로 거대언어모델을 이용하여 풀어내어 화제다. KAIST(총장 이광형)는 전산학부 김민수 교수 연구팀이 의사결정 문제, 기업 데이터베이스, 비즈니스 규칙 집합 세 가지가 주어졌을 때 거대언어모델을 이용해 의사결정에 필요한 정보를 데이터베이스로부터 찾고, 비즈니스 규칙에 부합하는 최적의 의사결정을 도출할 수 있는 기술(일명 계획 RAG, PlanRAG)을 개발했다고 19일 밝혔다. 거대언어모델은 매우 방대한 데이터를 학습했기 때문에 학습에 사용된 바 없는 데이터를 바탕으로 답변할 때나 오래전 데이터를 바탕으로 답변하는 등 문제점들이 지적됐다. 이런 문제들을 해결하기 위해 거대언어모델이 학습된 내용만으로 답변하는 것 대신, 데이터베이스를 검색해 답변을 생성하는 검색 증강 생성(Retrieval-Augmented Generation; 이하 RAG) 기술이 최근 각광받고 있다. 그러나, 사용자의 질문이 복잡할 경우 다양한 검색 결과를 바탕으