한컴, ‘하이브리드 엔진’ 탑재한 오픈데이터로더 PDF v2.0 공개

포인트경제

[포인트경제] 한글과컴퓨터(이하 한컴)가 오픈소스 PDF 데이터 추출 부문에서 벤치마크 1위 성능을 기록한 ‘오픈데이터로더(OpenDataLoader) PDF v2.0’을 12일 공개하며 글로벌 AI 생태계 공략에 나섰다.

글로벌 오픈소스 대비 한컴 오픈데이터로더 PDF 2.0 추출 성능 벤치마크 /한글과컴퓨터 제공
글로벌 오픈소스 대비 한컴 오픈데이터로더 PDF 2.0 추출 성능 벤치마크 /한글과컴퓨터 제공

이번 버전의 핵심은 AI 방식과 직접 추출 방식을 결합한 ‘하이브리드 엔진’이다. 이를 통해 기업과 개발자는 데이터 유출 우려가 없는 로컬 환경에서 고성능 PDF 데이터 추출 기능을 무료로 사용할 수 있다. 특히 이미지 기반 문서의 텍스트 인식률을 높인 OCR, 복잡한 표를 분석하는 초경량 AI 모델, 수식 추출 및 차트 분석 등 무료 AI 애드온 4종이 기본 탑재되어 문서 내 복잡한 요소들을 정밀하게 분석한다.

한컴은 오픈소스의 투명성을 강조하기 위해 벤치마크 테스트 데이터와 상세 코드를 공식 깃허브(GitHub)에 전면 공개했다. 또한 상업적 활용이 자유로운 ‘아파치 2.0(Apache License 2.0)’으로 라이선스를 변경해 외부 개발자와 글로벌 IT 기업의 진입 장벽을 대폭 낮췄다. 이를 통해 웹앱(WebApp)이나 서비스형 소프트웨어(SaaS) 등 다양한 비즈니스 모델로의 확장이 기대된다.

자율형 AI 에이전트 시대에 발맞춘 연동성 강화도 돋보인다. 지난해 랭체인 연동을 마친 데 이어 올해는 랭플로우, 라마인덱스, 제미나이 CLI 등 다양한 AI 프레임워크와의 협업을 확대한다. 하반기에는 독자적인 문서 AI 기술을 집약한 상용 AI 애드온을 선보일 계획이며, 오픈소스 최초로 문서 구조 분석을 통한 ‘접근성 태그 자동 생성 기술’도 탑재한다.

특히 유럽 접근성법(EAA) 시행 등으로 디지털 문서의 접근성 준수가 글로벌 과제로 떠오른 만큼, 한컴은 글로벌 표준(PDF/UA)을 충족하는 솔루션을 통해 시장을 선점한다는 전략이다.

정지환 한컴 최고기술책임자(CTO)는 “오픈데이터로더 PDF v2.0은 누구나 자유롭게 확장할 수 있는 개방형 플랫폼으로 진화했다”며 “향후 상용 애드온과 접근성 솔루션을 통해 전 세계 PDF 문서가 AI에 효율적으로 활용되도록 글로벌 생태계를 선도하겠다”고 강조했다.

Copyright ⓒ 포인트경제 무단 전재 및 재배포 금지
alert

댓글 쓰기 제목 한컴, ‘하이브리드 엔진’ 탑재한 오픈데이터로더 PDF v2.0 공개

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중