기업의 조직은 증가하는 데이터에서 통찰력을 얻고, 새로운 비즈니스 기회를 만들어내기 위해 데이터 레이크를 활용하고 싶지만, 모범 사례 및 데이터 사이언티스트의 부족, 데이터 레이크 정의에 대한 혼동 등 여러 문제들로 인해 많은 어려움을 겪고 있다.

또한, 기술 선택의 문제도 어려움을 배가시킨다. 예를 들어, 데이터 레이크는 전통적으로 하둡과 밀접한 것으로 인식되고 있다. 하둡이 여러 데이터 레이크 워크로드를 위한 적합한 기술인 것은 사실이나, 데이터 레이크는 하둡 외에 NoSQL, 아마존 심플 스토리지 서비스(Amazon Simple Storage Service: Amazon S3), RDBMS(relational database), 또는 이들의 조합 등 다양한 기술을 기반으로 구축할 수 있다.

적합한 기술의 선택이 결과에 매우 중요한 영향을 미치는 만큼, 데이터 레이크가 성공하려면 확실한 계획이 필요하다.

‘데이터 레이크’ 구축을 위한 새로운 “설계 패턴(design pattern)” 접근법을 테라데이터가 최근 발표해 관련 업계의 관심을 끌고 있다. 이 회사는 빅데이터 컨설팅 및 최적화 분야에서 쌓아온 다년간의 경험을 바탕을 기반으로 새 접근법을 제시했고 밝혔다.

설계 패턴은 지속적인 고객 참여를 통해 개발된 제품들과 결합된 엔터프라이즈급 베스트 프랙티스 기반의 지적 재산(intellectual property)으로 구성되어 있다.

설명에 따르면 “설계 패턴” 접근법은 비즈니스 사용자, 데이터 사이언티스트, IT 전문가들이 데이터 레이크를 보다 용이하게 구축하여 비즈니스 가치를 향상시킬 수 있도록 지원한다.

시장조사기관 오범(Ovum)의 선임 애널리스트 토니 베어(Tony Baer)는 “데이터 레이크는 운영 데이터 스토어와는 다르다. 테라데이타의 가치 제안은 이종(heterogeneous) 컴퓨팅 환경에서의 고객들의 데이터 관리를 지원해온 실전 경험을 바탕으로 한 것이다. 테라데이타는 씽크빅(Think Big) 인수를 통해 데이터 레이크를 용이하게 구축할 수 있는 설계 패턴을 제안할 수 있게 되었다”라고 말했다.

테라데이타의 자회사 씽크빅(Think Big) 대표인 론 보드킨(Ron Bodkin)은 “우리는 고객의 상황에 맞게 데이터 레이크 설계 패턴 접근방식을 조정하고 있으며, 이러한 패턴 및 지원 소프트웨어 프레임워크는 강력한 가치 가속기(value accelerators)로서의 역할을 하고 있다"며 "고객들이 위기 모드에서 벗어나도록 돕고, 비즈니스, IT 및 데이터 사이언티스트들이 데이터 레이크를 계획, 실행하여 실제적인 비즈니스 가치를 창출하고 다양한 이점을 얻을 수 있도록 지원한다”라고 말했다.

씽크빅(Think Big)은 설립 초기부터 중립적인 기술 및 플랫폼을 지속적으로 선보여 왔으며, 아파치 하둡(Apache™ Hadoop®), 아파치 스파크(Apache Spark), NoSQL과 같은 오픈 소스 기술을 통해 실제적인 가치를 창출하는데 주력하고 있다.

씽크빅(Think Big)이 제공하는 데이터 레이크 설계 패턴 서비스는 다음과 같다: 데이터 레이크를 막 시작했거나 베스트 프랙티스 컨설팅을 원하는 조직을 위한 ‘데이터 레이크 파운데이션(Data Lake Foundation)’, 데이터 레이크 베스트 프랙티스 및 기술 선택에 대한 조언을 구하는 조직들을 위한 ‘데이터 레이크 아키텍처(Data Lake Architecture)’, 분석 사이클 실행을 위해 데이터 준비(data preparation)를 지원하는 ‘데이터 레이크 분석(Data Lake Analytics)’이 있다.

씽크빅(Think Big)은 HGST, 웨스턴디지털(Western Digital)을 포함해 다수의 글로벌 선두 기업들이 데이터 레이크 및 하둡, 빅데이터를 설계, 실행할 수 있도록 지원하고 있다.

조남욱 기자
저작권자 © 데일리그리드 무단전재 및 재배포 금지