한컴 '오픈데이터로더 PDF', 깃허브 트렌딩 1위... 글로벌 개발자 '열광'

포인트경제

[포인트경제] 한글과컴퓨터(이하 한컴)의 PDF 데이터 추출 오픈소스 프로젝트 ‘오픈데이터로더(OpenDataLoader) PDF v2.0’이 세계 최대 오픈소스 플랫폼 깃허브(GitHub)에서 글로벌 트렌딩 1위를 달성하며 기술력을 인정받았다.

전체 개발 언어 대상으로 깃허브 트렌딩 1위를 달성한 오픈데이터로더 PDF /한컴 제공
전체 개발 언어 대상으로 깃허브 트렌딩 1위를 달성한 오픈데이터로더 PDF /한컴 제공

23일 한컴에 따르면, 해당 프로젝트는 지난 20일 전체 개발 언어 대상 트렌딩 1위에 올라 트렌딩 배지를 획득했다. 깃허브 트렌딩 1위는 전 세계 개발자들이 실시간으로 가장 주목하는 기술임을 증명하는 지표다. 특히 지난 21일 하루에만 1800개 이상의 '스타(Star, 즐겨찾기)'가 추가되며 누적 스타 7000개, 포크(Fork) 500개를 넘어섰다. 이는 글로벌 상위 프로젝트 수준의 이례적인 성장 속도다.

오픈데이터로더 PDF는 AI가 처리하기 까다로운 PDF 문서의 텍스트, 표, 이미지 등을 정교하게 분해해 AI 학습용 데이터로 변환하는 기술이다. 한컴은 2025년 7월 글로벌 PDF 전문 기업 듀얼랩과 협력해 개발에 착수했으며, 지난 12일 한층 강화된 v2.0을 선보였다.

이번 v2.0은 외부 서버 전송 없이 로컬에서 구동되는 하이브리드 엔진을 적용했다. OCR(광학문자인식), 표·수식·차트 분석 등 AI 애드온 4종을 기본 제공하며, 자체 벤치마크 테스트 결과 읽기 순서와 표 추출 등 전 항목에서 동종 오픈소스 대비 최고 정확도를 기록했다.

글로벌 AI 생태계와의 접점도 넓히며 지난해 랭체인(LangChain) 공식 구성요소 등록을 마친 데 이어, 올해는 랭플로우(Langflow), 라마인덱스(LlamaIndex) 등 주요 프레임워크와의 연동을 확대한다. 특히 상업적 이용이 자유로운 '아파치 2.0' 라이선스를 적용해 기업들의 도입 문턱을 대폭 낮췄다.

김연수 한컴 대표는 “이번 성과는 한컴의 문서 데이터 추출 기술이 글로벌 커뮤니티에서 실용성을 검증받은 결과”라며 “전 세계 개발자가 자유롭게 확장할 수 있는 개방형 PDF 데이터 플랫폼으로 발전시켜 나가겠다”고 강조했다.

Copyright ⓒ 포인트경제 무단 전재 및 재배포 금지
alert

댓글 쓰기 제목 한컴 '오픈데이터로더 PDF', 깃허브 트렌딩 1위... 글로벌 개발자 '열광'

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중