2025.09.17 (수)

  • 맑음동두천 25.8℃
  • 구름조금강릉 27.3℃
  • 맑음서울 26.6℃
  • 구름많음대전 25.0℃
  • 흐림대구 22.6℃
  • 흐림울산 23.8℃
  • 구름많음광주 24.8℃
  • 흐림부산 27.2℃
  • 구름조금고창 25.2℃
  • 제주 24.5℃
  • 맑음강화 25.7℃
  • 구름많음보은 24.4℃
  • 구름많음금산 25.9℃
  • 구름많음강진군 26.3℃
  • 흐림경주시 22.1℃
  • 구름많음거제 25.3℃
기상청 제공

산업·유통

AI 학습 가로막던 PDF ‘데이터 감옥’ 해방…한컴, PDF 추출 핵심기술 오픈소스로 공개

 

[뉴스스페이스=조일섭 기자] 한글과컴퓨터(이하 한컴)가 AI 학습 및 활용 과정에서 고질적인 난제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 글로벌 오픈소스로 전격 공개했다.

 

이번에 공개된 ‘오픈데이터로더 PDF(OpenDataLoader PDF)’는 한컴이 오랜 기간 축적한 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진으로, 글로벌 AI 생태계 확산을 위한 기술적 기반을 마련했다.

 

최근 허깅 페이스(Hugging Face)는 PDF 문서를 기반으로 한 약 4억7500만건 규모의 대규모 데이터셋 ‘FinePDFs’를 공개했고, 이를 활용하려는 기업들의 움직임도 본격화되고 있다. PDF는 전 세계적으로 AI 학습에 가장 널리 사용되는 문서 포맷이지만, 복잡한 내부 구조 때문에 학습용 데이터 추출이 쉽지 않다. 이로 인해 ‘데이터 감옥’이라 불릴 만큼 AI 개발 과정에서 큰 제약이 따랐다.

 

이번 오픈소스 프로젝트는 이러한 문제를 해결하기 위해 한컴이 지난 7월 PDF 기술 전문 기업 듀얼랩(Dual Lab)과 체결한 업무협약(MOU)의 첫 결실이다. 양사는 오픈소스 기반 PDF 데이터로더를 공동 개발하며 AI 생태계 확장을 목표로 하고 있으며, 이번 기술 공개를 통해 본격적인 확산에 나섰다.

 

공동 개발한 오픈데이터로더 PDF는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 높은 정확도와 빠른 성능으로 추출해, AI 학습에 즉시 활용할 수 있는 정형화된 데이터(JSON, Markdown, HTML)로 변환한다.

 

특히, 기존 경쟁 오픈소스 기술보다 우수한 성능을 입증했다. 공식 홈페이지에 공개된 벤치마크 테스트 결과, 사람의 읽기 순서를 측정하는 지표인 NID(Normalized Indel Distance)에서 타 기술 대비 85%라는 높은 수치를 기록하는 등 다양한 테스트에서 탁월한 성능을 보여줬다.

 

또한 금융·공공기관 등 민감한 데이터를 다루는 환경에서도 네트워크 연결 없이 완전 오프라인으로 작동해, 데이터 유출과 외부 업로드로 인한 정보 노출 위험을 원천 차단한다. 이러한 오프라인 기반 보안성은 기업과 기관 단위 활용에서 중요한 기술적 장점으로 작용할 전망이다.

 

아울러 최근 AI 산업의 주요 화두로 떠오른 학습 데이터 안전성(AI Safety) 문제에 대응하기 위한 전략도 담았다. 오픈데이터로더 PDF는 악의적인 콘텐츠 삽입을 통한 프롬프트 인젝션(Prompt Injection) 등 보안 위협을 자동 감지·차단하는 기능을 추가로 제공할 예정이며, 이를 통해 AI 학습 데이터의 안정성과 신뢰성을 동시에 보장한다. 이 같은 기능은 보다 안전한 AI 모델 학습 환경을 구축하는 데 기여할 것으로 보인다.

 

한컴은 이번 오픈소스 공개를 단순한 기술 공유에 그치지 않고, AI 생태계 전반의 오픈소스 확산과 기술 고도화를 추진하고 있다. 이를 위해 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동·호환성을 강화하고, 깃허브(GitHub)를 통한 글로벌 개발자 커뮤니티와의 협력을 이어갈 계획이다.

 

정지환 한컴 최고기술책임자(CTO)는 “AI 트랜스포메이션(AX) 시대, 오픈소스는 더 이상 선택이 아닌 기업과 사회 전반의 혁신과 경쟁력 확보를 위한 필수 전략”이라며, “이번 오픈데이터로더 PDF 핵심 기술 공개를 통해 전 세계 개발자들에게 인정받고, 협력을 통해 PDF 데이터 추출 기술을 한 단계 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다”고 말했다.

 

이어 “연말에는 AI 기반 문서 인식 기술을 추가하는 등 오픈소스 프로젝트를 지속적으로 고도화하겠다”고 덧붙였다.

 

오픈데이터로더 PDF 프로젝트에 대한 자세한 정보와 활용 사례는 공식 홈페이지에서 확인할 수 있으며, 오픈소스 코드는 깃허브 공식 저장소를 통해 제공된다.

배너
배너
배너

관련기사

18건의 관련기사 더보기


셀트리온 1000억원 규모 자사주 추가 매입 결정…기업가치 제고 위한 ‘전방위적’ 행보 지속

[뉴스스페이스=김혜주 기자] 셀트리온은 이사회를 통해 약 1000억원 규모의 추가 자사주 매입을 결정했다고 17일 밝혔다. 이번 매입은 이달 18일부터 장내매수 방식으로 진행될 예정으로, 연내 취득을 마무리한다는 계획이다. 셀트리온은 기업의 내재 가치가 성장 잠재성에 비해 시장에서 저평가되고 있다는 판단에 따라 자사주 매입 결정을 이어가고 있다. 주가 안정과 주주가치 제고를 최우선 목표로 삼고 자사주 매입과 소각 등 주주친화 정책을 지속적으로 실행하고 있다. 이번 결정을 포함하면 올해 9차례에 걸친 자사주 매입 규모는 약 8500억원, 자사주 소각 규모는 약 9000억원에 이른다. 최고경영진을 비롯한 지주사와 계열사, 임직원도 적극적으로 힘을 보태며 그룹 차원의 주주가치 제고에 총력을 다하고 있다. 셀트리온홀딩스는 올해 6월 초까지 약 1200억원 규모의 셀트리온 주식 매입을 완료한 후, 추가로 5000억원 규모의 주식 매입을 추진하고 있다. 이중 9월까지 2620억원 규모의 주식 취득을 완료한 데 이어 최근 1250억원 규모의 추가 매입 계획을 발표하고 내달 초부터 취득에 나설 예정이다. 계획된 5000억원 중 남은 약 1250억원 규모 매입도 연내 취득을

[CEO혜윰] 코오롱모빌리티그룹 5거래일 연속 상한가 '승계 작업' 본격화…이규호의 ‘노블레스 오블리주’ 화제

[뉴스스페이스=김희선 기자] 코오롱그룹이 최근 코오롱모빌리티그룹의 완전 자회사 편입을 결정하며, 이규호 부회장의 경영권 승계가 본격화되고 있다. 이 과정에서 코오롱모빌리티그룹의 주가는 5거래일 연속 상한가를 기록하는 등 가파른 상승세를 나타내며 시장의 이목을 집중시키고 있다. 9월 9일 3225원이던 주식 가격이 9월 17일 오전 10시 현재 1만2980원을 기록중이다. 5거래일 연속 상한가로 300%이상의 수익률을 기록중인 셈. 코오롱모빌리티그룹 편입과 주가 급등 현황 코오롱은 올해 8월 초, 코오롱모빌리티그룹 보통주 90.37%, 우선주 73.51%를 공개매수를 통해 확보하며 편입 작업을 사실상 마무리했다. 이사회 결의에 따라 2026년 1월 전 코오롱모빌리티그룹의 상장폐지와 함께 완전 자회사화될 계획으로, 이 과정에서 소액주주들은 코오롱 주식과의 교환 또는 현금 매수 중 하나를 선택할 수 있는 구조다. 공개매수 직후 코오롱모빌리티그룹 주가는 단기간 내 약 300% 상승, 1만2980원까지 치솟았다. 그룹 승계 및 지배구조 개편 이슈가 시장의 기대감을 크게 자극한 결과로, 단기간 트레이딩 매수세가 몰리며 '상한가 행진'이 이어지고 있다. 승계 작업과 사업

LG유플러스, 부산 오시리아 시민 대상 자율주행 개시…9.6㎞ 구간 16인승 전기버스 4대 투입

[뉴스스페이스=조일섭 기자] LG유플러스는 부산 오시리아 관광지구에서 시민이 직접 이용할 수 있는 자율주행버스 서비스를 시작했다고 17일 밝혔다. 지난 7월 10일 개통식 이후 2000㎞의 시운전을 마쳐 안정성과 신뢰성을 검증했다. 자율주행버스는 16인승 전기버스 4대가 투입돼 오시리아역-롯데몰-국립부산과학관-기장해안로를 연결한다. 일반 차량과 같은 도로를 주행하며 신호등과 연동해 자동으로 정차·출발하고, 보행자와 도로 상황을 인식해 안전하게 운행한다. 시민들은 정류장에서 일반버스와 같은 방식으로 탑승할 수 있으며, 당분간 무료로 이용 가능하다. 버스는 매일 동일한 노선을 반복 운행하며, 이용객 의견을 반영해 서비스 품질을 개선할 계획이다. 향후에는 내성~중동 BRT 구간으로 확대한다. 이번 사업은 LG유플러스가 주관하고, 라이드플럭스(자율주행차 제작), ㈜엔제로(관제시스템), ㈜트라콤(교통인프라)과 함께 C-ITS 기반 자율주행 체계를 구축했다. 차량·도로 인프라·관제센터가 실시간으로 데이터를 주고받아 돌발 상황 발생 시 즉각 대응할 수 있으며, 관제센터는 버스 위치와 상태를 실시간 모니터링해 안전성과 효율성을 높인다. LG유플러스는 이번 사업을 계기로 스

[이슈&논란] 해킹조직 스캐터드 랩서스, SK텔레콤 고객 2700만명 개인정보 탈취 주장에 정부 긴급 조사 착수

[뉴스스페이스=조일섭 기자] 국제 해킹조직 스캐터드 랩서스가 SK텔레콤 고객 2700만명의 개인정보를 탈취했다고 주장하며 이를 판매하겠다고 나서면서, 정부가 진위 여부 확인에 착수했다. 과학기술정보통신부와 한국인터넷진흥원(KISA)은 16일 SK텔레콤에 관련 자료 제출을 요구하고 현장점검 등을 통해 사실관계를 빠르게 파악할 계획이라고 밝혔다. 과기정통부 관계자는 “최근 증가하는 사이버 침해 사고로 국민 불안이 커지고 있다”며 “사실관계 확인 결과를 국민에게 투명하게 공개하겠다”고 말했다. 스캐터드 랩서스는 지난해 2022년 엔비디아, 마이크로소프트 등 글로벌 기업들을 공격했으며, 국내에서는 삼성전자, LG전자에 대한 해킹을 시도했다고 주장해 온 국제 해킹 조직이다. 이들은 이번에 SK텔레콤 고객 데이터 100GB 분량의 샘플을 텔레그램 채널에 공개하고, 이를 1만 달러(약 1386만원)에 판매하겠다는 협박을 했다. 탈취 데이터에는 고객 ID, 이름, 전화번호, 이메일, 주소, 생년월일, 가입일 등 고도로 민감한 개인정보가 포함됐다고 주장했다. 또한 SK텔레콤 내부 핵심 시스템 코드도 25만 달러(약 3억4000만원)에 판매하겠다는 내용도 함께 제시했다. 해킹

[The Numbers] 이재용 주식재산 19조 넘어 20조 '초읽기'…삼성전자>삼성물산>삼성생명>삼성SDS 順

[뉴스스페이스=이종화 기자] 국내 주식부자 1위 이재용 삼성전자의 회장의 주식재산 기록이 다시 새롭게 갈아치웠다. 지난주 11일에 18조원을 처음으로 달성한 이후 3거래일만에 19조원을 돌파했기 때문이다. 앞으로 20조원 달성까지는 불과 5% 정도밖에 남아 있지 않아 그 시점을 놓고 관심사가 뜨거워진 모양새다. 그야말로 주식재산 20조원 돌파가 초읽기에 들어간 셈이다. 기업분석전문 한국CXO연구소는 이재용 회장의 주식가치는 이달 16일 기준 19조152억원으로 평가됐다고 밝혔다. 한국CXO연구소에 따르면 이재용 삼성전자 회장은 이달 16일 기준 ▲삼성전자 ▲삼성물산 ▲삼성생명 ▲삼성SDS ▲삼성E&A ▲삼성화재 ▲삼성전자 우선주 이렇게 총 7개의 주식종목을 갖고 있는 것으로 조사됐다. 이들 7개 종목에 대한 이달 11일 기준 주식평가액은 18조1086억원으로 이건희 선대 회장에서 주식을 물려받은 이후 처음으로 18조원을 달성한 바 있다. 공교롭게도 18조원대로 진입한 날은 이재명 대통령이 취임한 이후 100일째 되는 날이어서 의미를 더했다. 18조원을 달성한 다음날이자 금요일인 12일에는 18조1882억원으로 높아졌고, 15일에는 18조7510억원으로