2025.05.18 (일)

  • 구름많음동두천 17.6℃
  • 맑음강릉 20.3℃
  • 구름많음서울 18.2℃
  • 맑음대전 18.5℃
  • 맑음대구 19.0℃
  • 맑음울산 20.0℃
  • 맑음광주 18.4℃
  • 맑음부산 19.1℃
  • 맑음고창 18.4℃
  • 맑음제주 21.3℃
  • 구름많음강화 15.3℃
  • 구름조금보은 17.3℃
  • 맑음금산 18.1℃
  • 맑음강진군 18.7℃
  • 구름조금경주시 20.7℃
  • 맑음거제 19.7℃
기상청 제공

빅테크

대화형 AI모델 4가지 비교했더니···"GPT-4가 가장 똑똑"

생성형 AI 모델 4가지 비교···GPT-4가 제일 ‘똑똑’
아더 AI, 라마2·클로드2·코히어 등 비교…구글은 포함안돼
정답률 가장 높고, 민감한 질문도 가장 잘 피해나가

머신러닝 모니터링 플랫폼인 아더(Arthur) AI는 GPT, 코히어 AI, 메타의 라마2, 미 AI 스타트업인 앤스로픽의 클로드2 등 4개 언어 모델을 비교 분석한 보고서를 발간했다. [게티이미지]

 

[뉴스스페이스=김정영 기자] 생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 가장 성능이 뛰어나고, 제일 똑똑한 AI인 것으로 나타났다.

 

17일(현지시간) 머신러닝(기계 학습) 모니터링 플랫폼인 아더AI는 최근 오픈AIdml GPT-4와 코히어의 AI, 메타의 라마2, 앤스로픽의 클로드2 등 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

 

코히어는 구글에서 AI 연구를 담당했던 팀원들이 만든 캐나다 스타트업이다. 앤스로픽은 오픈AI 원년 멤버들이 차린 기업으로 SK텔레콤이 최근 1억달러(약 1300억원)를 투자해 관심을 모았다.

 

아더 AI 연구팀은 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

 

또 LLM들이 ‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답변을 해 오답의 위험을 회피하는지도 테스트했다.

 

테스트 결과 전반적으로 GPT-4가 4개 모델 중 가장 우수한 성능을 보였다.GPT-4는 이전 버전인 GPT-3.5보다 ‘환각’이 적었고, 수학 문제에서는 범주에 따라 33%에서 50% 적은 환각을 보였다고 설명했다.

 

대표적으로 수학 부문에서 GPT-4와 클로드2는 30개 문제 중 9개와 6개의 정답을 각각 제시해 정답률 1, 2위를 차지했다. 라마2와 코히어는 1개도 맞히지 못했다.

 

미국 대통령과 관련한 33개 질문에서는 클로드2가 15개의 정답을 제시했다. 이어 GPT-4(11개), 라마2(9개), 코히어(4개) 순이었다.

 

모로코 정치 지도자에 관한 30개 질문에서는 GPT-4가 절반(15개)의 정답을 제시한 데 반해 라마2와 클로드2는 각각 2개와 1개를 맞추는 데 그쳤다. 코히어는 30개 질문에 대해 모두 잘못된 정보를 그럴듯하게 만든 오답을 생성했다.

 

‘AI 모델로서, 나는 의견을 제공할 수 없다’는 답을 제시한 비율은 GPT-4가 2.9%로 가장 높았다. 이전 버전인 GPT-3.5(2.2%)보다도 더 높은 비율이다.

 

연구팀은 "GPT-3.5보다 GPT-4를 사용하기가 더 답답하다는 이용자들이 제기한 문제의 증거를 정량화해 보여준 것"이라고 이번 실험의미를 설명했다.

 

가장 많은 환각을 생성한 코히어의 AI 모델은 어떤 질문에도 '나는 의견을 제공할 수 없다'는 답을 내놓지 않았다.

 

배너
배너
배너

관련기사

86건의 관련기사 더보기


머스크의 엑스, 美 제재 테러단체 200곳에 ‘프리미엄 인증’ 해줬다…자금조달·선전악용 '논란'

[뉴스스페이스=윤슬 기자] 일론 머스크가 이끄는 소셜미디어 플랫폼 X(구 트위터)가 미국 정부의 제재를 받고 있는 테러단체 및 연계 인물 200여곳에 유료 인증(블루 체크마크) 서비스를 제공해 온 사실이 국제 비영리단체 조사로 드러났다. 이들 계정은 단순 인증을 넘어, X의 프리미엄 기능을 통해 선전·자금조달 등 다양한 활동에 SNS를 활용하고 있어 논란이 증폭되고 있다. 테러단체·제재 대상 200여 계정, X에 돈 내고 인증받아 뉴욕타임스와 BBC 등 주요 외신과 테크 트랜스퍼런시 프로젝트(TTP) 보고서에 따르면, X는 시리아·이라크 헤즈볼라 지도자, 예멘 후티 반군 고위 인사, 각종 민병대 등 미국 제재 대상과 연계된 계정에서 월 8달러의 구독료를 받아왔다. 이들은 파란 체크마크(블루 체크)를 구매해 계정 신뢰도를 높이고, 알고리즘 상 노출 우선권, 게시물 편집, 장시간 동영상 업로드 등 프리미엄 기능을 누렸다. TTP는 “이들 계정 상당수가 X의 팁·구독 기능을 통해 직접적으로 자금조달을 시도하거나, 암호화폐 지갑으로 송금을 유도했다”며 “X가 테러단체의 선전·모금 플랫폼으로 악용되고 있다”고 지적했다. 정책상 금지 그러나 신원확인 ‘구멍’…“프리미엄

실생활 속으로 '쏙' 들어온 로봇기술 '쑥'…마사지·피아노 '기본' , 예술·스포츠까지 로봇이 '도전'

[뉴스스페이스=김정영 기자] 로봇이 더 이상 공상과학 영화 속 주인공만이 아니다. 최근 베이징국제과학기술산업박람회를 비롯해 세계 각지의 박람회와 현장에서, 로봇은 우리 일상에 깊숙이 파고들고 있다. 마사지, 피아노 연주, 미술, 스포츠 치료까지, 로봇이 할 수 있는 일의 경계가 빠르게 확장되고 있다. AI와 센서로 맞춤형 마사지, '인간 손맛'을 재현하다 중국과 싱가포르의 연구진과 스타트업들은 전통 마사지 기술과 첨단 AI, 센서 기술을 결합해, 사람마다 다른 근육과 경락 상태를 정밀하게 분석하고 맞춤형 마사지를 제공하는 로봇을 선보이고 있다. 중국 자오퉁대와 과학기술대 연구팀은 전통 중의학(TCM) 마사지 기법을 로봇에 구현했다. 이 로봇은 모션 캡처와 압력센서로 인간 마사지사의 손동작과 힘을 학습, 네 가지 주요 마사지 동작(두드리기, 진동, 주무르기, 손가락 지압 등)을 실제로 재현한다. 사용자의 체형, 근육 강도, 통증 부위에 따라 실시간으로 압력과 위치를 조절하며, 안전성과 편안함을 극대화한다. 싱가포르의 'EMMA' 로봇은 AI와 3D 비전, 센서로 근육의 뭉침 정도와 혈자리 위치를 파악해, 환자별로 최적화된 마사지 프로그램을 제공한다. 이미 싱가

"재혼 여성, 인지장애 발생 위험 높다"…성대 연구팀, 재혼경험과 인지기능간 성별차이 '규명'

[뉴스스페이스=김혜주 기자] 성균관대학교(총장 유지범) 사회학과 이해나 교수 연구팀은 결혼이력이 노년기 인지장애 발생에 중요한 영향을 미치며, 그 효과가 성별에 따라 다르게 나타난다는 연구 결과를 발표했다. 특히, 재혼의 건강 효과가 남성과 여성에게 상이하게 작용한다는 사실을 밝혀내며, 결혼과 건강 간의 관계를 보다 정교하게 이해할 수 있는 새로운 관점을 제시했다. 이번 연구는 노년사회학 및 인구학 분야의 권위 있는 국제학술지 Innovation in Aging(JCR 노년학 분야 상위 3%)에 게재되었으며, 개인의 결혼이력을 생애 전반에 걸쳐 종단적으로 추적하고 이를 인지기능 변화와 연계한 최초의 시도라는 점에서 학문적 의의가 크다. 연구는 미국 고령층패널조사(Health and Retirement Study, HRS)의 16년간 데이터를 활용하여 초혼, 재혼, 이혼, 사별 등 다양한 결혼경로를 정밀하게 분석하고, 이와 인지장애 간의 연관성을 성별 관점에서 비교했다. 그 결과, 한 배우자와의 지속적 결혼생활을 유지한 집단에 비해 재혼한 집단에서 인지장애 발생 위험이 높았고, 이 영향은 여성에게서 더욱 뚜렷하게 나타났다. 특히 재혼한 여성은 현재 혼자 사는

생각만으로 아이폰을 조작한다고?…애플, 뇌파 인터페이스로 머스크 '뉴럴링크'에 도전장

[뉴스스페이스=이종화 기자] 애플이 뇌파로 아이폰 등 자사 기기를 제어할 수 있는 혁신적 기술 도입에 나섰다. 13일(현지시간) 월스트리트저널(WSJ) 등 주요 외신에 따르면, 애플은 뇌-컴퓨터 인터페이스(BCI) 스타트업 싱크론(Synchron)과 협력해, 손을 쓸 수 없는 장애인도 뇌파만으로 아이폰, 아이패드, 비전프로 등 애플 기기를 조작할 수 있는 신기술 개발에 착수했다. 협력사의 핵심 기술은 '스텐트로드'라는 스텐트형 임플란트다. 이 장치는 뇌 운동 피질 위의 정맥에 삽입되며, 내장된 16개의 전극이 뇌파를 읽어 디지털 신호로 변환한다. 사용자는 물리적 움직임 없이 뇌 신호만으로 화면에서 아이콘을 선택할 수 있다. 현재는 화면 탐색과 아이콘 선택 정도가 가능하지만, 애플은 올해 말 BCI 전용 인터페이스 표준을 공개해 기능과 접근성을 대폭 강화할 계획이다. 이 기술은 척수 손상, 루게릭병(ALS) 등으로 손을 쓸 수 없는 수만 명의 장애인에게 새로운 기회가 될 전망이다. 모건스탠리는 미국에서만 약 15만명이 BCI 장치의 초기 후보가 될 것으로 추산했다. 실제로 ALS 환자 마크 잭슨은 스텐트로드를 이용해 아이폰과 비전프로를 뇌파로 조작하며, "스위

미·사우디 6000억 달러 투자 협약·트럼프 "경제·안보 동맹의 새 장"…한국 수혜주는 어디?

[뉴스스페이스=김정영 기자] 미국 도널드 트럼프 대통령이 사우디아라비아 방문 중 역사상 최대 규모인 6000억 달러(약 800조원) 투자 약속을 이끌어내며 미·사우디 양국 관계가 경제·안보 동맹의 새로운 전기를 맞고 있다. 백악관과 주요 외신보도에 따르면, 이번 협약에는 에너지 안보, 국방 산업, 첨단기술, 글로벌 인프라, 핵심 광물 확보 등 5대 분야에 걸친 대규모 투자와 협력이 포함됐다. 트럼프 대통령은 리야드에서 열린 미·사우디 투자 정상회의에서 “오늘의 협약은 양국 모두에게 역사적이고 변혁적인 사건이며, 새로운 황금기의 시작”이라고 강조했다. 특히, 사우디의 데이터센터·에너지 인프라 기업 DataVolt가 미국 내 AI 데이터센터와 에너지 인프라에 200억 달러를 투자하고, 구글·오라클·세일즈포스·AMD·우버 등 글로벌 IT기업들이 양국에 걸쳐 800억 달러 규모의 첨단기술 협력에 나선다. 미국 건설·인프라 기업들도 킹 살만 국제공항, 킹 살만 파크, 키디야 시티 등 사우디 초대형 프로젝트에 20억 달러 규모의 수출 계약을 체결했다. 이번 협약의 백미는 1420억 달러(약 190조원)에 달하는 미·사우디 방산 계약이다. 이는 미국 역사상 최대 규모의

머스크의 보링컴퍼니, 12조원 美터널사업 수주 유력…스페이스X 이어 ‘이해충돌’ 논란 확산

[뉴스스페이스=이종화 기자] 일론 머스크가 설립한 지하터널 굴착업체 보링컴퍼니가 미국 연방철도청(FRA)이 추진하는 85억 달러(약 12조원) 규모의 ‘프레더릭 더글러스 터널’ 프로젝트 수주 후보로 급부상하면서, 미국 정가에 이해충돌 논란이 거세지고 있다. 12일(현지시간) 뉴욕타임스 등 복수의 매체에 따르면, 미 교통부와 FRA는 최근 보링컴퍼니와 만나 볼티모어~워싱턴~버지니아를 연결하는 암트랙 혼잡 구간의 신규 터널 건설 방안을 논의했다. 기존 152년 된 터널을 대체하는 이 사업은 당초 60억 달러로 책정됐으나, 예산이 85억 달러까지 치솟으며 비용절감 방안을 모색 중이다. 교통부는 “보링컴퍼니를 포함한 여러 민간기업과 논의 중이며, 표준 입찰절차에 따라 진행할 것”이라고 밝혔다. ◆ 머스크, 정부 고위직 겸임 ‘이해충돌’ 우려 증폭 문제는 일론 머스크가 테슬라, 스페이스X 등 다수 기업의 CEO이자 트럼프 행정부의 ‘정부효율부(DOGE)’ 수장으로 연방기관 구조조정과 예산삭감에 영향력을 행사해 왔다는 점이다. 실제로 머스크는 DOGE를 통해 연방 규제기관의 인력과 예산을 줄이며, 자신이 소유한 기업에 대한 각종 규제와 조사에서 유리한 위치를 점했다는

美 교통당국, 테슬라 로보택시 ‘시야 불량 안전성’ 정조준…6월 오스틴 론칭 앞두고 '전방위 질의'

[뉴스스페이스=김정영 기자] 미국 전기차업체 테슬라가 6월 텍사스 오스틴에서 세계 최초의 완전 자율주행 로보택시 상용화를 예고한 가운데, 미 도로교통안전국(NHTSA)이 테슬라에 ‘시야 불량’ 상황에서의 안전성 보장을 공식적으로 요구하고 나섰다. NHTSA는 최근 테슬라에 보낸 서한에서 “햇빛 반사, 안개, 먼지, 비, 눈 등 도로 가시성이 현저히 낮아진 상황에서 테슬라 로보택시 시스템이 적절하게 반응할 수 있는지 평가가 필요하다”며, 구체적인 기술적 대응과 안전 확보 방안을 설명하라고 요청했다. 이번 질의는 테슬라가 오스틴에서 10~20대 규모로 로보택시 서비스를 시작하겠다고 밝힌 데 따른 것이다. NHTSA는 “로보택시 배치 계획과 적용 기술의 세부 내용, 실시간 차량 모니터링 여부 등도 함께 제출하라”고 요구했다. NHTSA의 이번 조치는 테슬라의 자율주행 소프트웨어 FSD(Full Self-Driving)가 시야 불량 조건에서 보행자 사망 등 치명적 사고를 일으킨 사례가 반복되면서 촉발됐다. 실제로 2024년 10월부터 NHTSA는 “FSD가 저시야 환경에서 적절하게 반응하지 못해 발생한 충돌 사고” 4건을 조사 중이며, 이 중에는 보행자 사망 및 중

트럼프 70억 ‘골드카드’ 곧 현실로?…머스크 ‘전산 점검 중’ 공식 확인

[뉴스스페이스=윤슬 기자] 도널드 트럼프 미국 대통령이 예고한 500만 달러(약 70억원)짜리 ‘골드카드’ 영주권 정책이 조만간 공식 출범할 전망이다. 일론 머스크 테슬라 최고경영자(CEO)가 직접 전산 시스템 점검 상황을 밝히며, 정책 시행이 임박했음을 시사했다. 트럼프, “그린카드 넘어선 골드카드”…실물까지 공개 트럼프 대통령은 지난 2월 백악관에서 “수준 높은 인재와 부유한 외국인을 유치해 미국 경제를 활성화하겠다”며 ‘골드카드’ 정책을 공식 발표했다. 이 카드는 기존 투자이민(EB-5) 비자를 대체하는 새로운 영주권 프로그램으로, 500만 달러를 납부하면 미국 내 영구 거주권과 시민권 취득 경로까지 제공한다는 점에서 파격적이다. 트럼프는 지난 4월 3일 마이애미로 향하는 전용기 안에서 자신의 얼굴과 자유의 여신상, 흰머리독수리가 새겨진 골드카드 실물을 백악관 출입기자들에게 직접 공개하기도 했다. 머스크 “시스템 점검 완료 후 대통령이 직접 공개” 시행 시점에 대한 관심이 커지는 가운데, 일론 머스크는 5월 11일(현지시간) 소셜미디어 X(옛 트위터)에서 “시스템이 제대로 작동하는지 조용히 점검 중”이라며 “점검이 끝나면 대통령의 발표와 함께 일반에 공