2025.12.06 (토)

  • 흐림동두천 1.2℃
  • 구름조금강릉 9.5℃
  • 서울 4.4℃
  • 구름많음대전 9.1℃
  • 맑음대구 10.6℃
  • 맑음울산 10.7℃
  • 흐림광주 10.5℃
  • 맑음부산 10.2℃
  • 구름많음고창 10.5℃
  • 구름조금제주 15.1℃
  • 흐림강화 7.2℃
  • 구름많음보은 7.8℃
  • 구름많음금산 9.2℃
  • 구름조금강진군 9.6℃
  • 맑음경주시 11.0℃
  • 맑음거제 7.7℃
기상청 제공

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

 

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

 

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

 

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

 

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

 

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

 

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

 

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

 

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

 

배너
배너
배너

관련기사

93건의 관련기사 더보기


[The Numbers] 머스크 스페이스X, 기업가치 8000억 달러…오픈AI 넘어 세계 1위 비상장 '등극'

[뉴스스페이스=김정영 기자] 일론 머스크의 우주항공 기업 스페이스X가 최근 내부자 주식 매각을 통해 기업가치가 최대 8000억 달러(약 1180조원)에 달할 것으로 평가받으며, 챗GPT 개발사 오픈AI(5000억 달러)를 넘어 세계에서 가장 가치 있는 비상장 기업으로 등극할 가능성이 높아졌다. 블룸버그, 월스트리트저널(WSJ), 더인포메이션 등 주요 외신들은 스페이스X가 주당 400달러 이상의 가격으로 주식 거래를 진행 중이며, 이는 7월 4000억 달러에서 불과 5개월 만에 두 배로 뛴 수치라고 보도했다.​ IPO 시점과 통합 상장 전략 스페이스X는 내부 회의를 통해 이르면 2026년 하반기 기업공개(IPO)를 목표로 추진하고 있으며, 구체적인 상장 일정과 방식도 논의 중이다. 과거에는 위성 인터넷 사업 스타링크를 분사해 먼저 상장할 것이라는 관측이 많았지만, 최근에는 스타링크를 포함한 전체 회사를 통합 상장하는 방안이 유력시되고 있다. 이는 로켓 발사 사업과 위성 통신 사업의 시너지를 극대화하겠다는 전략으로, 스타링크는 스페이스X 전체 매출의 상당 부분을 차지할 것으로 전망된다.​ 기업가치 변동과 시장 반응 스페이스X의 기업가치는 2025년 7월만 해도

[CEO혜윰] 테슬라는 자동차, 현대차는 수동차?…정의선 "자율주행 기술, 테슬라·中과 격차있지만 안전에 무게중심"

[뉴스스페이스=이종화 기자] 현대자동차그룹 정의선 회장이 12월 5일 기아 80주년 기념 행사에서 “자율주행차 기술 개발은 안전에 중점을 두겠다”고 밝히며, 테슬라와 중국 업체들의 기술 경쟁 속에서도 현대차는 안전 우선의 전략을 고수하겠다는 입장을 분명히 했다. 정 회장은 “중국 업체나 테슬라가 잘 하고 있기 때문에 저희가 조금 늦은 편”이라며, “그 격차보다 더 중요한 것은 안전이기 때문에 저희는 안전 쪽을 우선하려고 생각하고 있다”고 강조했다.​ 테슬라, 자율주행 기술 선도…안전성도 주목 테슬라의 자율주행 기술(FSD, Full Self-Driving)은 2025년 기준으로 미국에서 약 362마일(582km) 구간을 운전자 개입 없이 완전 자율주행으로 주파하는 데 성공했다. 테슬라가 공개한 2025년 2분기 보고서에 따르면, 오토파일럿 및 FSD를 사용한 차량의 사고율은 669만 마일당 1건으로, 미국 평균(70만2000마일당 1건)보다 약 10배 이상 안전하다고 집계됐다. 테슬라는 라이다 센서를 배제하고 주로 카메라와 신경망을 활용한 비전 중심 접근법으로, 수십억 마일에 달하는 실제 도로 데이터를 AI로 학습시켜 기술을 고도화하고 있다.​ 중국, 국가

[빅테크칼럼] 메타, 메타버스에서 AI로 BM 완전 전환…700억 달러 적자 속 30% 예산삭감 및 AI 안경·웨어러블 집중 투자

[뉴스스페이스=김정영 기자] 메타(전 페이스북)가 그동안 미래 성장동력으로 내세웠던 메타버스 사업에 대해 대대적인 예산 삭감 및 조직 축소를 추진하고 있다. 2021년 이후 누적 700억 달러(약 95조원)에 달하는 적자를 기록한 메타버스 사업은 투자자와 감독당국의 압박을 받으며, 마크 저커버그 CEO가 내년도 메타버스 조직의 예산을 최대 30%까지 줄이는 방안을 검토하도록 지시했다. 이에 따라 내년 1월부터 인력 감축이 시작될 가능성도 제기되고 있다.​ 메타버스 사업, 적자와 외부 압박에 직면 메타버스 사업은 2021년 이후로 700억 달러(약 95조원)의 누적 적자를 기록하며 ‘돈 먹는 하마’라는 비판을 받아왔다. 투자자들은 수익 창출이 불가능하다는 우려를 표하며, 감독당국도 어린이·청소년 안전 문제 등으로 메타버스 플랫폼에 대한 규제 압박을 강화하고 있다. 이러한 상황 속에서 메타는 메타버스 그룹의 예산을 최대 30% 삭감하는 한편, 전 부문 10% 비용 절감을 요청하며 구조조정을 본격화했다.​ AI 안경·웨어러블로 전략 전환 메타버스 예산 삭감으로 절감된 자금은 장기 연구개발 조직인 ‘리얼리티 랩스’ 내에서 AI 안경, 웨어러블 등 차세대 디바이스 개