기업들이 정보를 축적하고 이를 활용하는데 많은 시간과 비용을 들이고 있지만, 데이터 정확성을 확보하지 못해 어려움을 겪고 있다.

이는 부정확한 데이터가 여러 곳에서 그리고 여러 가지 이유로 데이터베이스에 저장되기 때문이다.

이에 본지는 데이터포스의 만호 대표 컨설턴트의 허락을 얻어 그가 번역한 ‘데이터 품질(Data Quality, 잭 올슨 지음)’의 내용 중 ‘부정확한 데이터의 원천’을 요약한다.

많은 사람들은 처음 데이터를 입력할 때 잘못된 데이터를 입력했기 때문에 부정확성이 생겼다고 생각한다.

이것은 데이터가 부정확하게 되는 주요 원인이지만, 부정확성은 이것 때문만은 아니다.

부정확한 데이터의 발생은 실수, 데이터 입력 처리 과정의 잘못, 고의성 또는 시스템 장애 등 다양한 이유로 발생한다.

데이터 입력 실수=데이터 부정확성의 일반적인 원인은 데이터를 입력하는 사람들의 실수이다.

입력자는 ‘파랑’이라고 쓰려고 했는데 ‘파람’으로 입력하는 경우처럼 실제 데이터 값을 잘못 입력하면 데이터의 정합성은 떨어진다.

또한 선택목록을 잘못 고르는 경우, 엉뚱한 필드에 값을 입력하는 경우 등과 같이 많은 운영 데이터의 오류가 사람으로부터 시작된다.

사람은 실수를 한다. 100개의 필드를 가진 양식이 있을 때 단 한 개의 실수도 없이 정확한 값을 채워 넣기를 기대하는 것은 어려운 일이다.

데이터 입력 절차의 결함=많은 데이터 입력을 양식에서 출발한다. 누군가가 종이나 컴퓨터 화면으로 된 양식을 작성하는데 양식 설계는 결국 데이터베이스에 귀결되는 부정확한 데이터를 양산하는 데 많은 원인을 제공한다.

이에 따라 양식은 품질에 대한 기본적인 이해를 가지고 설계해야 실수를 피할 수 있다.

예를 들어 어떤 값을 타이핑하는 대신에 유효한 값 목록에서 선택하도록 하면 철자가 틀리는 실수를 방지할 수 있다.

또 흔히 볼 수 있는 문제는 사용자에게 혼란을 주는 양식 때문에 발생한다. 이것은 대개 틀린 정보를 입력하도록 유도한다. 필드 자체가 사용자를 혼동시킬 수 있다.

이에 따라 일반적으로 이해되지 않거나 데이터베이스 정의가 특별한 필드라면 사용자가 그 필드에 값을 입력할 수 있도록 도와줄 수 있는 양식으로 만들어야 한다.

◇ 널(Null)의 문제=필요한 정보를 알 수 없을 때 데이터 입력에 문제가 발생한다. 데이터 요소는 이 레코드의 데이터 요소 값이 없거나 또는 모른다는 뜻을 가지는 지시자 값을 가진다.

양식에 입력해야 하는 값을 입력자가 모를 때 입력이 되는 아무 값이나 필드에 넣어 버리는 경우가 상당히 많다. 선택 목록에서 디폴드 값을 무심코 선택하는 경우도 많다.

트랙젝션 처리에 크게 지장이 없는 데이터 요소에는 ‘NOT KNOWN 또는 ’NOT APPLICABLE 개념을 적용해 양식을 설계하는 것이 좋다.

이것은 최소한 입력자가 알고 있는 것은 정확히 입력되게 하며, 데이터가 어떻게 처리되는지 사용자가 알 수 있게 한다.

어떤 경우엔 NOT KNOWN 값으로 레코드를 초기화 시켜놓고 나중에 데이터가 수집되었을 때 갱신하도록 시스템 트리거를 만들어 주는 것도 의미가 있다.

필드 값이 있던 없던 간에 입력자가 틀린 정보를 넣거나 여백으로 남겨두는 것보다는 이 방법이 훨씬 바람직하다.



저작권자 © 데일리그리드 무단전재 및 재배포 금지