한컴, AI 학습 데이터 추출 기술로 글로벌 오픈소스 생태계 확장한다

프라임경제

[프라임경제] 한글과컴퓨터(030520, 이하 한컴)가 PDF 문서에서 인공지능(AI) 학습 데이터를 추출하는 '오픈데이터로더 PDF'를 유럽 최대 PDF 기술 컨퍼런스인 '2025 PDF Days Europe'에서 선보였다고 19일 밝혔다.

'PDF Days'는 PDF 기술 표준을 제정하는 PDF협회(PDF Association)가 주최하는 세계 최고 권위의 기술 포럼이다. 한컴은 이번 참가를 통해 자사의 기술 경쟁력을 글로벌 시장에 선보이는 한편, 전 세계 기술 전문가들과의 교류를 바탕으로 향후 파트너십을 모색하고 글로벌 오픈소스 생태계를 확장하는 발판을 마련했다.

이번 공개는 단순한 기술 시연을 넘어, AI 시대의 고질적인 데이터 처리 병목 현상을 해결하고 글로벌 AI 생태계의 기술 표준으로 자리매김하겠다는 한컴의 전략적 목표를 담고 있다.

특히 이번 발표는 한컴의 기술 파트너사이자 PDF 오픈소스 분야에서 높은 신뢰도를 자랑하는 듀얼랩(Dual Lab)의 보리스 두브로프(Boris Doubrov) CEO가 직접 진행해 의미를 더했다. 

PDF 협회 이사이기도 한 그의 발표는 기술적 신뢰도 확보는 물론, 글로벌 오픈소스 커뮤니티 내 인지도를 높이고 기술 확산을 가속하는 중요한 계기가 될 것으로 기대된다.

최근 깃허브(GitHub)를 통해 공개한 '오픈데이터로더 PDF'는 한컴이 오랜 기간 축적한 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진이다. 

AI가 문서를 더 잘 이해하고 활용할 수 있도록 JSON, 마크다운(Markdown), HTML 등 최적화된 형태로 데이터를 변환하며, 경량화된 소프트웨어 개발 키트(SDK) 형태로 제공돼 다양한 AI 서비스에 쉽게 연동할 수 있다.

현장에서는 복잡한 문서의 표, 이미지, 레이아웃을 정확하게 분석하는 독보적인 기술력에 대한 호평이 이어졌다. 

또한 금융 및 공공기관 등 고도의 보안이 요구되는 환경에서 네트워크 연결 없이 오프라인으로 구동되는 강력한 보안성은 물론, 향후 AI 업계의 최대 화두인 '프롬프트 인젝션(prompt-injection)' 공격까지 방지하는 AI 안전성(AI-Safety)을 확보하겠다는 기술 로드맵을 제시한 점이 글로벌 전문가들의 이목을 집중시켰다.

정지환 한컴 CTO는 "최근 깃허브에 '오픈데이터로더 PDF'를 공개한 데 이어 이번 'PDF Days'에서 기술 비전을 발표한 것은 한컴의 문서 기술력을 전 세계 개발자들과 공유하고 함께 성장하기 위한 상징적인 첫걸음"이라고 말했다.

이어 "앞으로 라마인덱스(Llamaindex),제미나이 등 주요AI프레임워크와의 호환성을 강화하고 글로벌 커뮤니티와의 협력을 통해 기술을 고도화해 나갈 것"이라고 전했다.

또한 "궁극적인 목표는 복잡하고 비정형화된 PDF 문서를 AI가 가장 잘 이해할 수 있는 데이터로 변환하는 기술 분야에서 글로벌 리더십을 확보하고 전세계 AI 기술 발전에 기여하는 것"이라고 강조했다.

Copyright ⓒ 프라임경제 무단 전재 및 재배포 금지
alert

댓글 쓰기 제목 한컴, AI 학습 데이터 추출 기술로 글로벌 오픈소스 생태계 확장한다

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중