▲ 한국인포매티카 임정혜 부장

“빅 데이터를 적극 활용하는 기업에게 현 시대는 전례없는 비즈니스 기회를 제공해줍니다. 반면 데이터로부터 얻을 수 있는 혜택을 완전하게 실현시키는 기업은 드문 실정이죠. 빅 데이터를 활용하기 위해서 기업은, 정형화된 데이터나 산업 표준 데이터는 물론, 소셜 미디어나 웹을 통해 생성되는 다양한 비정형 데이터를 효과적으로 변환하여 활용하는 기술을 적용할 것을 요구받고 있습니다.”

이렇게 밝힌 한국인포매티카의 임정혜 부장은 정형, 비정형 데이터 및 산업 표준 데이터 처리에 대한 인포매티카 제품군에 대해 소상히 소개했다. 설명에 따르면 NT 및 UNIX 환경에선 파워센터 솔루션이 정형데이터를 처리하고 데이터 트렌스포매이션 솔루션은 비정형 및 산업 표준 데이터를 변환해 처리한다. 반면 하둡 환경에선 정형데이터는 ‘파워센터 포 하둡’이, 비정형 및 산업 표준 데이터는 ‘H파서’가 데이터를 변환한다.

임 부장은 “다양한 데이터를 적극 활용해야 비즈니스의 성장을 촉진할 수 있다”며 “인포매티카의 데이터 변환 솔루션은 포괄적인 엔터프라이즈급 솔루션에 기초해 구성했기 때문에 복잡한 파일 및 메시지 형식에 대한 액세스와 변환 기능을 제공한다”고 말했다.

인포매티카의 변환 솔루션은 형식, 복잡성 또는 크기에 관계없이 모든 파일, 문서 또는 메시지에서 데이터를 추출한 후 사용 가능한 형식으로 변환해주는 기능이 우수한 기술로 평가받고 있다.

임 부장은 자사의 데이터 변환 솔루션이 “많은 작업을 수행해야 하고 오류가 발생하기 쉬운 수작업 코딩을 없애 개발 및 구축 기간을 크게 단축하고 IT 유지관리 비용을 줄여준다”고 강조했다.

이어 “문서, 산업 형식 및 복합 XML에 대한 손쉬운 액세스를 통해 의사 결정의 효율성을 높이고 업계 표준 및 규정 요구 사항에 대한 실시간 준수를 통해 규정 미준수로 인한 처벌과 데이터 손실을 막아준다”고 덧붙였다.

설명에 따르면 인포매티카의 제이터 변환 솔루션인 Data Transformation 및 Hparser은 △제조 업계의 EDI △금융 업계의 결제 시스템을 위한 SWIFT, NACHA, SEPA △보험 업계의 ACORD ㅿ통신 업계의 ASN.1 △의료 업계의 HL7 등 다양한 업계 표준을 폭넓게 지원한다.

그런데 이와 같은 특화된 데이터 표준과 형식을 처리하기는 쉬운 일만은 아니다. 보통 산업그룹이나 정부 기관에서 정의하는 이런 표준은 계속 변하고 새롭고 형식으로 바뀌기 때문이다.

임 부장은 이에 대해 “이러한 표준의 대부분은 적어도 1년 마다 새로운 버전이 나와, 다수의 버전과 변동사항을 지원하려면 축적된 빅 데이터 분석 이니셔티브가 필요하다”고 말했다.
이어 “라이브러리, 버전 및 메시지에 대한 광범위한 집합을 보유한 인포매티카는 신규 및 기존 표준 업데이트를 정기적으로 제공해 이러한 문제를 해결하고 있고, 지속적인 업데이트를 통해 새로운 형식의 프로세스가 나타나면 바로 지원할 수 있다”고 말했다.

인포매티카 데이터 변환 솔루션은 워드, 엑셀, PDF와 같은 바이너리 문서를 지원한다.

임 부장은 “기업들은 막대한 양의 데이터로 구성된 법률 파일 및 계약서은 워드 및 PDF로, 그리고 재무 보고서와 예측 보고서는 엑셀 문서로 보관하는 경향이 있다”며 “인포매티카는 사용자가 관련 데이터를 이러한 문서에서 추출해 처리함으로써 바이너리 문서를 신속히 지원할 수 있다”고 말했다.

계층적 데이터에 대한 지원도 우수하다는 평가를 받고 있다. XML 및 JSON과 같은 형식은 계층적 데이터의 복잡성을 증가시키기 때문에, 이처럼 복잡한 데이터를 잘 처리하기 위해선 계층구조로부터 데이터를 효과적으로 처리하고 첨단 스키마와 구조를 지원하는 기능이 필요하다.

임 부장은 “인포매티카는 XML과 JSON에 대하여 기본적으로 지원할 뿐만 아니라 계층 구조로부터 데이터를 추출하는 최적화된 접근을 제공한다”고 말했다.

다양한 로그도 지원한다고 설명했다. 임 부장은 “특허 받은 스펙 중심의 변환 엔진을 활용하는 인포매티카는 계층, 단락, 위치 로그를 포함하여 로그의 스펙에 대한 정의를 촉진한다”며 “이러한 스펙들은 웹 로그, 통화 상세 기록 로그, 메인프레임 로그, 독점 로그 등 다양한 로그로부터 데이터를 파싱하고 추출하는데 활용될 수 있다”고 강조했다.

이어 임 부장은 “인포매티카는 업계의 하둡 플랫폼 제공자 및 파트너와 함께 각각의 플랫폼의 특정 기능에 대한 사용자 경험을 향상시키기 위해 노력하고 있다”며 “클라우드 플랫폼의 경우 Amazon Elastic MapReduce(EMR)에서 사용 가능하고, 기업 내 플랫폼은 클라우데라, 호튼웍스, MapR 등 거의 모든 하둡 환경을 지원한다”고 설명했다.

임 부장은 끝으로 “인포매티카의 HParser는 처리시간을 극적으로 딘축시킬 수 있다”며 “하둡 클러스터에서 대용량의 XML 파일은 HParser로 처리하고, 클러스터 사이즈가 1에서 16 노드로 증가되면 처리시간은 6분에서 50초로 감소된다”고 말했다.

장정희 기자
저작권자 © 데일리그리드 무단전재 및 재배포 금지