2025.04.29 (화)

  • 맑음동두천 13.5℃
  • 맑음강릉 15.6℃
  • 맑음서울 14.5℃
  • 맑음대전 13.4℃
  • 맑음대구 14.1℃
  • 맑음울산 14.7℃
  • 맑음광주 11.8℃
  • 구름조금부산 16.0℃
  • 맑음고창 11.9℃
  • 맑음제주 15.0℃
  • 맑음강화 13.6℃
  • 맑음보은 11.3℃
  • 맑음금산 12.1℃
  • 맑음강진군 13.2℃
  • 맑음경주시 14.3℃
  • 맑음거제 15.2℃
기상청 제공

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

 

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

 

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

 

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

 

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

 

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

 

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

 

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

 

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

 

배너
배너
배너

관련기사

85건의 관련기사 더보기


”로보택시 효과” 테슬라, '자율주행 규제' 완화 방침에 9.8% 급등···美증시 3대 지수 나흘째 동반 강세

[뉴스스페이스=윤슬 기자] 일론 머스크가 경영하는 전기차업체 테슬라 주가가 자율주행 규제를 완화한다는 미국 정부의 방침이 발표되며 급등세를 보였다. 25일(현지시간) 뉴욕증시에서 테슬라 주가는 전날 대비 9.80% 상승한 284.95달러를 기록했다. 특히 테슬라의 이번주 주가는 지난해 11월 이후 주간 기준 최대 18%의 상승을 기록했다. 이러한 주가 급등의 배경에는 미국 교통부의 자율주행차 규제 완화 방침이 거론된다. 이는 테슬라의 자율주행택시(로보택시)인 ‘사이버캡’ 현실화가 한 발 가까워졌다는 의미이기 때문이다. 미 교통부 장관 션 더피는 전날 오후 자율주행 규제 완화 계획을 발표해 이날 테슬라 주가 폭등의 불을 지폈다. 더피 장관은 “새 프레임웍을 통해 불필요한 규제를 없애고, 미국 내 혁신을 촉진하면서도 안전을 최우선으로 하는 단일 국가 기준 마련에 한 발 더 다가가게 될 것”이라고 설명했다. 즉 첨단운전자보조시스템(ADAS)과 자율주행시스템(ADS)을 탑재한 차량의 충돌 사고 보고를 상시 의무화한 규정은 유지하면서 보고 절차를 완화한다는 방침이다. 아울러 연방 자동차 안전기준(FMVSS) 적용이 일부 면제된다. 기존 FMVSS에서는 운전대와 페달

"애플, 26년부터 미국 판매 아이폰은 모두 인도서 생산”…미중 갈등 속 발빠른 대처 '주목'

[뉴스스페이스=김정영 기자] 미중갈등의 관세전쟁속에서 애플의 발빠른 대처가 주목받고 있다. 애플이 2026년부터 미국 시장에서 판매되는 아이폰을 전량 인도에서 조달할 것으로 전해졌다. 25일(현지시간) 파이낸셜타임스(FT)는 소식통을 인용해 "애플이 2026년 말까지 미국에서 매년 판매되는 6000만대 아이폰 전량을 인도에서 조달한다는 목표를 세웠다"고 보도했다. 이는 인도의 아이폰 생산량은 2배로 늘리는 것을 말한다. 관세 전쟁에 애플의 시총은 7000억달러 증발한 상태다. 이 같은 애플의 전략은 공급망을 다변화하려는 것으로 분석하고 있다. 지난 20년간 애플은 중국에 막대한 투자를 하며 세계 최고 수준의 생산라인을 구축해왔으나, 미중 패권경쟁이 고조되는 상황에서 중국 의존도를 줄이기 위한 조치로 해석된다. 애플은 계약 제조업체인 인도의 타타 일렉트로닉스와 대만 폭스콘과 협력해 인도의 생산능력을 꾸준히 늘려왔다. 그럼에도 불구하고 여전히 중국 생산 의존도는 상당하다. 인터네셔널 데이터 코퍼레이션에 따르면, 애플 2024년 아이폰 출하량 2억3210만대 중 미국이 차지하는 비중은 28%인 약 6480만대이다. 트럼프 대통령은 중국산 상품에 대해 145%라는

머스크의 '뉴럴링크' 몸값 12조원·1년반만에 기업가치 2배 이상 '쑥'…7000억원 투자 유치 추진

[뉴스스페이스=이종화 기자] 일론 머스크 테슬라 최고경영자(CEO)가 경영하는 뇌신경과학 스타트업 뉴럴링크의 기업가치가 85억달러(약 12조1300억원)라는 분석이 나왔다. 23일(현지시간) 블룸버그는 "뉴럴링크가 85억달러의 사전 평가액을 바탕으로 약 5억달러(약 7100억원)의 자금을 조달하기 위한 논의를 잠재적 투자자들과 시작했다"면서 "다만 이런 자금 조달 조건이 확정되지 않았으며 추후 변경될 수 있다"고 보도했다. 2023년 11월경 금융시장 정보업체 피치북 기준으로 뉴럴링크의 기업가치는 35억 달러(약 5조원)로 평가됐었다. 하지만 이번 평가가 확정된다면 약 1년 반 만에 무려 2배 이상인 50억달러(약 7조1300억원)가 상승한 셈이다. 이 보도에 대해 뉴럴링크 대변인은 응답하지 않았다. 뉴럴링크는 인간의 두뇌와 컴퓨터를 원격으로 연결하는 뇌-컴퓨터 인터페이스(BCI) 장치를 두뇌에 심는 실험을 해왔다. 신체 손상을 입어 팔다리를 쓰지 못하는 사람이 장치 이식을 통해 각종 기기를 제어할 수 있도록 하는 것을 목표로 한다. 뉴럴링크의 BCI 기술은 의료적 가능성뿐 아니라 미래 사회 전체를 겨냥한다. 머스크는 인공지능(AI)의 급속한 발전이 인류에

프로레슬링처럼 백악관 복도에서 싸웠다…머스크·베센트, 트럼프 앞서 '욕설' 다툼

[뉴스스페이스=윤슬 기자] 일론 머스크 테슬라 최고경영자(CEO)와 스콧 베센트 미국 재무장관이 도널드 트럼프 대통령 앞에서 격렬한 말다툼을 벌인 것으로 알려졌다. 23일(현지시간) 미국 정치매체 악시오스를 인용보도한 경향신문 보도에 따르면 "지난 17일 베센트와 머스크가 백악관에서 심하게 말다툼을 했다"고 보도했다. 베센트 장관과 머스크 CEO는 백악관 회의에서 만나 설전을 벌였다. 베센트 장관은 머스크 CEO가 이끄는 정부효율부(DOGE)가 예산 삭감 관련 과도한 약속을 하고, 실제 성과는 미흡하다고 비판했다. 머스크 CEO 역시 베센트 장관에 대해 “실패한 헤지펀드 운영자”라고 부르며 맞받았다. 이 과정에서 욕설이 오가는 모습을 트럼프 대통령은 지켜봤다. 베센트 장관과 머스크 CEO는 복도로 나와서도 언쟁을 이어갔다. 주변에 있던 목격자는 “두 억만장자 중년 남성이 웨스트윙 복도에서 WWE(프로레슬링)하듯 싸웠다”고 표현했다. 당시 트럼프 대통령과 면담을 위해 백악관을 찾았던 조르자 멜로니 이탈리아 총리도 이 광경을 목격했다. 이 두사람이 싸운 이유는 국세청장 직무대행 임명 문제가 발단이었다. 머스크 CEO가 국체청장 직무대행으로 게리 섀플리를 밀어줬고

머스크 "5월부터 DOGE 업무 줄이고, 테슬라 집중·미래 극도로 낙관적"…내년 로보택시 소식에 시간외서 5% 급등

[뉴스스페이스=김시민 기자] 1분기 테슬라 실적이 시장 예상치에 크게 미달했음에도 테슬라 주가가 시간외거래에서 5% 이상 급등하고 있다. 이유는 테슬라가 올해 상반기에 저가차를, 6월에 텍사스에서 자율 주행을 시작하고, 내년에는 자율주행차(로보택시)를 출시할 것이라고 일론 머스크가 22일(현지시간) 콘퍼런스콜을 통해 밝혔기 때문이다. 머스크는 "테슬라는 대규모 차량을 사용해 자율 주행 차량과 휴머노이드 로봇을 운영할 수 있다"면서 "저비용으로 대규모 로봇을 운영하면 회사의 가치가 크게 상승할 것"이라고 강조했다. 아울러는 머스크는 5월부터 트럼프 행정부 업무를 줄이고 테슬라 경영에 집중하겠다고 밝혔다. 그는 정부효율부(DOGE) 장관을 맡아 도널드 트럼프 미국 대통령과 함께 연방기관 지출 삭감 작업을 주도해 왔다. 머스크는 "정부 내에서 도지(DOGE)가 팀을 구성하는데 필요한 대규모 작업은 대부분 완료됐다"면서 "다음 달 5월부터는 도지(DOGE)에 할애하는 시간이 상당히 줄어들 것"이라고 말했다. 이어 "대통령의 남은 임기 동안 우리가 중단시킨 낭비와 사기가 다시 돌아오지 않도록 해야 하므로 대통령이 원하고 유용하다고 판단되는 한, 매주 1∼2일은 정부

"챗GPT에 고맙다고 하지마"…올트먼 "공손한 사용자 때문에 수백억 비용"

[뉴스스페이스=윤슬 기자] AI이용자들 사이에서는 "AI에게도 공손해라. 그렇지않으면 나중에 AI가 너희를 공격할 것이다"라는 얘기가 돌았다. 이런 이유때문일까. AI이용자들이 챗GPT 등 인공지능(AI) 챗봇을 이용하고 ‘고맙다’는 표현을 하는 경향이 많아지고 있다. 하지만 샘 올트먼 오픈AI 최고경영자(CEO)가 직접 이것만으로 막대한 비용이 발생할 수 있다고 언급해 화제다. 19일(현지시간) 미국 IT매체 퓨처리즘의 보도를 인용해 이데일리와 한국일보 등 여러 매체들은 올트먼이 최근 소셜네트워크서비스(SNS) X(옛 트위터) 계정에서 한 사용자의 질문에 내놓은 답변을 언급했다. 올트먼은 “사람들이 챗GPT에 ‘제발’, ‘고맙습니다’라고 반복하는 것만으로도 오픈AI가 전기 비용이 얼마나 들었을지 궁금하다”는 질문에 “오픈AI에 수천만 달러의 전기요금을 발생시켰다”고 답했다. 이어 “정확히 어떤 일이 벌어질지는 알 수 없다”고 덧붙였다. 즉 사용자가 챗GPT와의 대화에서 많은 단어를 입력할수록, 서버에서 처리해야 할 데이터 양이 증가하고 답변 횟수도 늘어나며 전력 소모 역시 커지기 때문이다. 예를 들어 '답변해 줘서 고마워'라는 단순 인사에도 챗GPT는 "천