전체 데이터 중 40%가 넘는 파일이 3년 동안 전혀 사용한 흔적이 없는 방치된 데이터인 것으로 나타났다. 이같은 내용을 포함한 베리타스가 최근 발표한 ‘데이터 게놈 지수(Data Genomics Index)’ 보고서에선 최근 데이터 유형이 변화를 읽을 수 있다.

개발자 파일 뜨고, 프레젠테이션 파일 지다=이미지, 개발자 파일 및 압축 파일이 전체 데이터 환경의 약 3분의 1을 차지한다. 파일 수로 보면, 개발자 파일이 전체의 20%를 차지하고 있다. 지난 10년간의 추세를 보면 프레젠테이션 파일은 스프레드시트, 오디오 파일, 텍스트 파일 등 증가세인 파일 유형들과 달리 500%나 감소했다.

파일 생성이 가장 활발한 계절은 가을=파일 생성이 가장 왕성한 계절은 가을로 나타났다. 가을에 생성되는 파일의 최대 증가율을 보면, 텍스트 파일 91%, 스프레드시트 48%, 지리적 파일 및 정보 시스템 파일이 89%나 된다. 주로 여름과 가을에 휴가용 비디오 촬영을 하고 나서 사내 디스크에 저장하는 것으로 보인다. 가을에는 비디오 파일도 68%나 증가했다.

전체 데이터 중 41%는 방치수준=규제나 컴플라이언스 요건을 제외하고, 데이터가 오래되어 방치된 상태로 판단되는 기준은 보통 ‘3년’이다. 놀랍게도 기업 데이터의 41%는 지난 3년간 접속되지 않았거나 변경되지 않은 상태로 남아 있었다.

‘주인 없는 데이터’로 인한 부담 가중=인사 이동이나 직원 퇴사로 소유자가 없는 ‘주인 없는 데이터(orphaned data)’는 동영상, 이미지, 프레젠테이션처럼 콘텐츠가 풍부한 파일 유형인 경향이 있어서 방치해두면 정보 유출 위험이 늘어날 수 있다. 또한 일반 파일보다 200% 이상 디스크 공간을 차지해 관리 측면에서 부담이 가중된다.

작은 변화로 스토리지 비용 대폭 절감=데이터에 대한 인사이트를 확보함으로써 기업은 고유의 데이터 자산 가운데 비즈니스에 중요한 데이터들을 구분해 우선 순위를 정할 수 있다. 일정 기간 이상 접속되지 않은 상태의 오피스 문서들은 기업에 불필요한 비용을 초래하므로 이러한 데이터에는 아키이빙, 삭제, 이전 등의 조치가 필요하다. 기업에서의 평균 데이터 환경이 10 페타바이트(PB)급인 것을 고려하면, 방치된 프레젠테이션 및 문서 파일, 스프레드시트 등만 아카이빙을 해도 무려 연간 2백만 달러(한화 약 24억원)의 스토리지 비용을 절감할 수 있다.

스티브 브라네스(Steve Vranyes) 베리타스 CTO는 “기업 고객들은 항상 서로 상충되는 상황에 직면해 있다. 데이터는 폭발적으로 증가하는데, 이에 대응하기 위한 신규 서버 및 애플리케이션을 위한 자원과 예산은 한정돼 있기 때문”이라며, “베리타스는 주요 메타데이터 특징에 대한 베리타스만의 고유한 역량을 통합시켜 일반적인 데이터 환경을 분석적이고 가시적으로 보여준다. 이러한 베리타스의 인사이트는 기업이 직면한 불균형적인 역학 관계를 해결할 것”이라고 말했다.

한편, 베리타스는 데이터 환경에 대한 연구를 위한 커뮤니티 및 포럼의 장을 마련하고자 업계 최초로 ‘데이터 게놈 프로젝트(Data Genomics Project)’를 출범했다. ‘데이터 게놈 지수’ 보고서는 이 프로젝트의 첫 번째 결과물이다. 이 프로젝트는 기업이 매일 생성하고 저장, 관리하는 비정형 데이터의 실체를 보다 잘 이해하는 것을 목적으로 한다.

데이터 과학자, 업계 전문가 및 권위자 등으로 구성된 커뮤니티로, 정보 관리를 위한 데이터 게놈을 구축하고, 데이터 폭증 문제를 해결하기 위해 노력하고 있는 전세계 기업들과 정보를 공유한다. 베리타스는 이 프로젝트의 창립 회원이자 기여자로 활동하지만, 상업적인 연관성은 없다.

홍민영 기자
저작권자 © 데일리그리드 무단전재 및 재배포 금지