2024.12.08 (일)

  • 맑음동두천 -3.0℃
  • 맑음강릉 2.2℃
  • 맑음서울 0.2℃
  • 맑음대전 -0.8℃
  • 맑음대구 1.8℃
  • 맑음울산 1.4℃
  • 맑음광주 1.4℃
  • 맑음부산 3.3℃
  • 구름많음고창 -0.6℃
  • 구름많음제주 8.0℃
  • 맑음강화 -1.7℃
  • 맑음보은 -2.6℃
  • 맑음금산 -2.6℃
  • 맑음강진군 2.0℃
  • 맑음경주시 2.1℃
  • 맑음거제 4.8℃
기상청 제공

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

 

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

 

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

 

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

 

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

 

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

 

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

 

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

 

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

 

배너
배너
배너

관련기사

82건의 관련기사 더보기


아들 목마태우고 의회 찾은 머스크 "전기차 보조금 모두 없앨 것"…韓 자동차·배터리 '비상'

[뉴스스페이스=김정영 기자] 차기 도널드 트럼프 2기 행정부에서 정부효율부(DOGE) 수장을 맡는 일론 머스크 테슬라 최고경영자(CEO)가 의회를 찾아 전기차 보조금 관련 모든 공제를 폐지하겠다고 말했다. 또 머스크는 아들 ‘엑스 애시 에이트웰브(X Æ A-12)’를 목마 태워 의회에 나타나 눈길을 끌었다. 5일(현지시각) 월스트리트저널(WSJ), 데일리메일, 폴리티코 등 외신보도에 따르면 머스크는 이날 정부효율부 공동 수장인 비벡 라마스와미와 함께 워싱턴DC 의회를 찾아 연방 기관 및 프로그램 규모와 지출 감소, 정부 생산성 제고 계획 등을 논의했다. 머스크는 존 튠 공화당 상원 원내대표와 면담한 뒤 만난 취재진에 "우린 국민의 돈을 잘 쓰면 된다고 생각한다"면서 전기차 구매에 대한 7500달러 규모 세금 공제를 폐지할 것인지 질문엔 "모든 공제를 없애야 한다"고 답했다. 앞서 머스크는 대선 과정에서 자신이 소유한 소셜미디어(SNS) 엑스(X, 옛 트위터)를 통해 정부가 세금 공제를 폐지해야 한다고 제기한 바 있다. 바이든 행정부는 3690억 달러 규모의 초당적 인플레이션 감축법(IRA)을 통해 청정에너지 전환 강화를 위한 보조금, 대출 및 세금 공제를 추

'머스크 앙숙' 올트먼, 머스크에 일갈 "정치권력 사업이용은 미국적이지 않은 일"

[뉴스스페이스=김시민 기자] 도널드 트럼프 미 대통령 당선인의 ‘절친(퍼스트 버디)’으로 부상한 일론 머스크 테슬라 최고경영자(CEO)가 막강해진 정치적 영향력을 이용해 경쟁사에 압박할 수 있다는 우려가 제기되는 가운데 샘 올트먼 오픈AI CEO는 이를 일축했다. 4일(현지시간) 올트먼 CEO는 뉴욕타임스(NYT)의 딜북 콘퍼런스에서 한때 협력자였던 머스크 CEO와의 관계에 긴장이 고조되는 것에 대해 “엄청나게 슬프다”면서 “나는 일론과 함께 자랐고, 그에게 나는 ‘엄청난 영웅(mega hero)’”이라고 세간의 우려를 일축했다. 그러면서도 “나는 일론이 옳은 일을 할 것이라고 강하게 믿는다”면서 “일론이 자신의 사익을 추구하기 위해 경쟁자들을 압박하기 위한 수단으로 정치적 영향력을 사용하는 것은 매우 ‘미국적이지 않은(un-American) 일’이다”고 뼈있는 한마디를 던졌다. 머스크는 오픈AI에 대해 “시장을 마비시키는 괴물”이라고 하는 등 여러 차례 적개심을 드러내 왔다. 머스크는 오픈AI의 공동 설립자였지만 오픈AI가 비영리 법인으로서 기술을 오픈소스로 공개한다는 설립 초기 약속을 어겼다며 2018년 오픈AI 이사직에서 물러나고 투자 지분도 모두 처분

[내궁내정] 겨울철 숨겨진 적들, 위험을 읽다…블랙아이스·디아이싱·라인아이싱·씨스프레이·도크아이싱·워터플래닝·스노우슬러시

[뉴스스페이스=김시민 기자, 이종화 기자] <편집자주> 유튜브, 인스타 등에서 활동하는 인플루언서들이 '협찬을 받지 않았다', '광고가 아니다'라는 사실을 보이기 위해 "내 돈 주고 내가 샀다"라는 뜻의 '내돈내산'이라는 말이 생겼다. 비슷한 말로 "내가 궁금해서 결국 내가 정리했다"는 의미의 '내궁내정'이라고 이 기획코너를 명명한다. 우리 일상속에서 자주 접하고 소소한 얘기거리, 궁금증, 호기심, 용어 등에 대해 정리해보는 코너를 기획했다. 겨울이 찾아와 기온이 내려가고 특히 눈이 오면 도로와 하늘, 바다를 누비는 모든 교통수단과 인프라가 숨겨진 적과 맞서야 한다. 얼음과 추위는 단순히 계절적인 불편을 넘어 사고와 피해를 유발하는 주요 원인이다. 도로 위의 블랙아이스, 항공기의 디아이싱, 전력선의 라인 아이싱 등 겨울철 특정 환경에서 발생하는 위험들은 기술과 사전 대비 없이는 치명적인 결과를 초래할 수 있다. 1. 도로 위의 보이지 않는 적 : 블랙아이스(Black Ice) 블랙아이스는 도로 표면에 얇게 형성된 투명한 얼음층으로, 운전자들에게는 치명적인 함정이 될 수 있다. 도로 표면이 검게 보이기 때문에 붙여진 이름이다. 주로 다리 위나 터널

'트럼프 실세' 머스크의 敵, 숙청대상 1호는?…'데스노트'엔 누가 있을까

[뉴스스페이스=윤슬 기자] 트럼프 2기 행정부의 실세로 일론 머스크 테슬라 CEO가 숨은 권력자로서 위세를 떨치자, 그와의 리이벌이자 앙숙관계였던 인물들이 재조명되고 있다. 미국 월스트리트저널(WSJ)이 2일(현지 시간) 샘 올트먼 오픈AI 최고경영자(CEO)가 한때 공동창업 ‘동지’였던 일론 머스크 테슬라 CEO와의 갈등 관계 속에서 “마러라고의 페르소나 논 그라타(기피인물)”로 낙인이 찍혔다고 보도했다. 도널드 트럼프 미 대통령 당선인의 사저인 플로리다주 팜비치 마러라고 리조트에서 매일같이 숙식하며 ‘대통령의 첫 번째 친구(퍼스트 버디)’ 역할을 굳힌 머스크 CEO가 숙적인 올트먼 CEO의 접근을 노골적으로 막으며 경계한다는 것이다. 머스크는 오픈AI를 “시장을 마비시키는 괴물”이라고 하는 등 여러 차례 적개심을 드러낼 정도로 불편한 내색을 피력했다. 머스크는 2015년 오픈AI의 공동 설립자였지만 오픈AI가 비영리 법인으로서 기술을 오픈소스로 공개한다는 설립 초기 약속을 어겼다며 2018년 오픈AI 이사직에서 물러나고 투자 지분도 모두 처분했다. 지난 10월 방송인 터커 칼슨 전 폭스뉴스 진행자와의 인터뷰에서 “오픈AI도, 샘 올트먼도 신뢰하지 않는다”

美법원, 테슬라 ‘머스크 142조원 스톡옵션 보상안' 또 불허…“주총 재승인 법적효력 없다” 2심도 패소

[뉴스스페이스=김시민 기자] 미국 전기자동차 업체 테슬라가 일론 머스크 최고경영자(CEO)에게 주기로 한 100조원대 주식매수선택권(스톡옵션)이 법적으로 인정되지 않는다는 판결이 또 다시 확인됐다. 테슬라와 일론머스크 CEO는 법원 2심 판결에 불복해 델라웨어 대법원에 상고하겠다고 밝혔다. 2일(현지시간) 미국 블룸버그통신, 월스트리트저널(WSJ), 영국 파이낸셜타임스 등에 따르면 캐서린 매코믹 미국 델라웨어법원 판사는 테슬라가 머스크 CEO에게 100조원대 스톡옵션을 주는 것은 지난 1월과 마찬가지로 적법하지 않다고 이날 다시 판결했다. 테슬라 이사회는 이 보상안을 재승인하는 안건을 올해 테슬라 정기 주주총회에 올려 통과시켰지만, 법원은 받아들이지 않았다. 맥코믹 판사는 “테슬라와 머스크의 변호인단이 이전 판결을 뒤집기 위해 ‘창의적’으로 주장을 펼쳤지만 기존 판례나 법적 기준에 근거하지 못했다”고 지적하며 "주주 투표가 효력 있다 해도 소송에서는 그렇지 않다. 패소한 사람이 판결을 뒤집고자 만든 새로운 사실을 법원이 받아들이면 소송은 끝이 없을 것”이라고 말했다. 테슬라 측은 곧바로 소셜미디어(SNS) 엑스(X·옛 트위터)에 법원의 결정은 잘못됐다며 항소

[영상] '날아오는 공까지 잡는' 휴머노이드 로봇…테슬라 옵티머스 발전속도 '와우'

[뉴스스페이스=김시민 기자] 일론 머스크가 경영하는 미국 전기차 업체 테슬라의 휴머노이드(사람 형태의 로봇) 옵티머스가 공을 받아내는 영상이 화제다. 11월 29일 테슬라 옵티머스 X 사회관계망서비스(SNS)에는 옵티머스가 손에 장갑을 끼고 누군가 던진 공을 완벽히 받아내는 영상이 올라왔다. 공을 던지는 방향이나 속도가 계산된 것이 아니었음에도 불구하고 사람들이 '캐치볼' 하듯 공을 자연스럽게 받았다. 로봇이 움직이는 물체를 잡기 위해서는 사물의 위치와 크기, 형태, 움직임 등을 정확하게 인식해야 한다. 이 작업은 첨단 센서와 고도의 기술이 필요해 로봇의 성능이 상당한 수준에 이르렀음을 보여준다. 즉 옵티머스가 단순한 동작을 반복하는데 그치지 않고 직접 사물의 움직임을 판단하고 동작을 제어해 명령을 수행할 수 있는 단계까지 발전한 것이다. 일론 머스크 테슬라 CEO는 "옵티머스는 나만의 개인용 C-3PO 및 RD-D2를 보유하는 것과 같다"라고 설명했다. C-3PO와 RD-D2는 영화 스타워즈에 등장하는 로봇 캐릭터다. 최근에는 옵티머스가 방송인 킴 카다시안과 손가락 하트를 만드는 영상이 화제가 되기도 했다. 카다시안이 옵티머스를 향해 손을 구부려 하트를 만

16세 미만 SNS 금지법, 호주서 '세계 최초' 통과…"플랫폼기업 벌금 450억원" 조치에 '반발'

[뉴스스페이스=윤슬 기자] 내년(2025년)부터 호주에서는 16세 미만 청소년이 사회관계망서비스(SNS)를 이용할 수 없게 된다. 11월 28일(현지시간) 호주 상원은 16세 미만 아동·청소년이 틱톡과 페이스북, 스냅챗, 인스타그램, 레딧, 엑스(옛 트위터) 등 SNS에 계정을 만들 경우 해당 플랫폼에 벌금을 부과하는 내용의 법안을 찬성 34표 대 반대 19표로 통과시켰다. 유튜브나 왓츠앱 등은 교육 및 창작 목적으로 쓰일 수 있다는 이유로 규제에서 제외됐다. 이번 법안에 따르면 법을 위반한 사례가 나오면 16세 미만의 계정이 생성된 플랫폼 기업이 책임을 진다. 플랫폼 기업에 최대 4950만 호주달러(한화 약 450억원)의 벌금이 부과된다. 1월부터 법이 시범운영되며 1년 후 정식으로 시행된다. 이 기간 내에 플랫폼 기업들은 미성년자의 이용을 막을 기술적 장치를 마련해 적용해야 한다. 이 조치가 빅테크들의 강력한 반발에 부딪히자 앤서니 앨버니지 호주 총리는 16세 미만 청소년의 사회관계망서비스(SNS) 이용 전면 금지 법안을 비판한 엑스(X·옛 트위터) 소유주 일론 머스크와 대화할 계획이 있다고 밝혔다. 머스크는 호주의 법안 통과와 관련해 "모든 호주인의 인