▲ ABLE을 처음 접한 의료진은 이런 시스템을 접할 수 있다는 것 자체가 행운이라는 반응을 보이고 있다. 그도 그럴 것이 연구용 자료를 뽑기 위해 필요했던 기다림과 불편함이 일거에 사라졌기 때문이다.

 국내 주요 대학병원을 포함한 대형 의료원의 경우 암호화를 토대로 규제 준수에 임하고 있다. 하지만 연구 등의 목적으로 사용하는 개인정보의 경우 관련 법령에서 요구하는 수준의 보호를 하는 곳은 사실상 없다. 정형 데이터의 경우 암호화로 대응이 가능하지만 각종 기록지에 적힌 텍스트 데이터나 영상 정보에 포함된 개인 식별 정보까지 모두 보호할 수 있는 곳이 없다는 소리다.

서울아산병원이 국내 최초로 ‘개인정보 보호법’과 ‘생명윤리 및 안전에 관한 법률’ 모두를 충족시키는 규제 대응책을 반영한 ABLE(Asan BiomedicaL research Environment)이라는 연구 정보 검색 시스템을 구축했다. 대부분의 의료기관들은 진료나 경영 목적으로 사용하는 환자정보는 정보보호를 위해 대상 데이터를 암호화 하여 규제에 대응한다.

이런 관점에서 볼 때 서울아산병원은 연구를 목적으로 이용하는 정형, 비정형 개인정보까지 모두 익명화한 국내 첫 사례란 점에서 그 의미가 크다. 서울아산병원은 미국 HIPAA (Health Insurance Portability and Accountability Act)가 제시하는 가이드라인을 참조하여 국내 의료 서비스 현장에 맞는 기준을 정립하였고 이를 Microsoft PDW 기반으로 구축한 ABLE에 반영하였다.

비즈니스 요구사항
서울아산병원이 진료나 경영 목적으로 활용하는 개인정보 외에 의료진이 연구 목적으로 수집 및 분석하는 정보 보호에 관심을 갖게 된 시기는 2012년 초로 거슬러 올라간다. 당시 시점은 개인정보 보호법이 본격 시행된 초기였다. 새로운 규제 등장을 보고 서울아산병원은 이 참에 생명윤리 및 안전에 관한 법률과 개인정보 보호법 모두를 충족시키기 위한 방안을 마련하기로 결심하고 발 빠르게 움직였다.

2012년 초 서울아산병원의 관계자들은 선진 시스템을 직접 보기 위해 미국 스탠포드 의과대학 방문 길에 올랐다. 그리고 선진 사례 검토와 때를 같이해 서울아산병원 관계자들은 관련 논문들과 미국의 의료 정보 관련 규제인 HIPAA, 의료 정보 보호 관련 산업 표준인 ISO 27799, 25237 및 의료 정보 데이터웨어하우스 산업 표준인 ISO 22221, 29585에 대한 문헌 조사를 하였다.

해외 사례와 규제, 표준 등을 두루 살핀 이유는 국내 규제가 갖는 특성 때문이었다. 일례로 개인정보 보호법의 경우 의료 산업에 특화되어 있다기 보다는 모든 업계에 적용되는 보편성을 띄고 있다. 생명윤리 및 안전에 관한 법률의 경우 의료계를 위한 규제이지만 암호화나 익명화 등 기술적 보호 조치에 대한 구체적인 지침이 없다. 따라서 의료계 관계자들이 실무 차원의 규제 대응가이드라인 마련과 시스템 설계가 어려운 실정이다.

▲ Microsoft PDW 상에서 신속하고 정확하게 원하는 데이터를 검색해볼 수 있는 ABLE을 쓰면 신청 후 데이터를 받기 까지 기다려야 했던 시간 없이 자신의 데스크톱 앞에서 바로 처리되고, 필요한 정보를 엑셀 파일로 다운 받아 원하는 결과를 얻기 위한 분석도 원할 때 즉시 할 수 있다.
꼼꼼히 사전 조사를 마친 서울아산병원은 2013년 전담 팀을 꾸려 내부적인 작업에 들어갔다. 이 때 만들어진 것은 실제 시스템 개발에 앞서 제안요청서(RFP) 작성의 기준을 세부적으로 잡기 위한 프로토타입이었다. 더불어 핵심 기술이라 할 수 있는 익명화 모듈에 대한 개념 검증차원의 개발이 이루어졌다.

익명화 모듈을 사전에 간단히 만들어 보고자 한 이유는 일반적인 마스킹(masking) 솔루션으로는 비정형 데이터와 영상 정보를 대상으로 한 익명화 처리가 안되기 때문이었다. 즉, 데이터베이스 컬럼 단위로 특정 문자나 숫자를 특수 기호로 치환하는 것이 아니라 텍스트와 영상 정보 처리가 가능해야 했기 때문이다.

서울아산병원은 익명화에 따른 성능 이슈가 있는지를 확인하기 위해 6,039여개의 서식지로 익명화 방법을 개발하고, 별개의 5,000개 서식지로 검증 작업을 하였다. 서울아산병원은 서식지에 text로 포함된 개인 식별이 가능한 정보를 대상으로 정확도를 확인하였다. 그 결과 서울아산병원이 HIPAA 를 참조해 지정한 개인 식별 정보(Personal Health Identifier)가 ABLE 시스템 상에서 정확하게 제거되는 비율을 뜻하는 정확도가 99.87% 수준으로 나타났다. 한 마디로 대규모 데이터 환경에서 삭제 또는 익명화가 필요한 정보를 빠르고 정확하게 처리할 수 있다는 결과를 얻은 것이다.

데이터 처리 인프라 설계와 마스킹 기술에 대한 개념 검증을 마친 서울아산병원은 2013년 하반기 ABLE(Asan BiomedicaL research Environment)이라 이름 붙여진 새로운 연구 정보 검색 시스템 구축에 대한 제안요청서(RFP)를 공개하였다.

해법
ABLE의 핵심은 크게 두 가지로 익명화 처리 기능과 대규모 정보를 다루기 위한 데이터 플랫폼 구성이었다. 서울아산병원은 이들 두 핵심 요소를 얼마나 조화롭게 구현할 수 있는지를 기준으로 시스템 구축 업체를 선정하였다. 당시 서울아산병원의 요청에 참여한 업체는 총 세 군데로 모두 데이터웨어하우스(DW) 어플라이언스 장비를 토대로 시스템 구축을 제안하였다. 서울아산병원은 이중 Microsoft SQL Server Parallel Data Warehouse (PDW)를 제안한 인브레인을 최종 파트너로 선정하였다.

이와 관련해 서울아산병원 관계자는 “개원 이래 쌓인 모든 의료 데이터를 다루는 시스템이기 때문에 성능, 안정성 등 여러 이유로 DW 어플라이언스 도입이 필요했다”라며 “ABLE은 일반적인 DW 시스템이 아니라 검색을 통해 로우 데이터를 조회하고 추출하는 성격을 띄고 있다. 다른 제품들을 제안한 업체들은 ABLE의 본질을 놓치고 DW 관점에서만 접근하려 한 반면에, 인브레인은 우리의 요구 사항과 의료 정보 익명화에 대한 이해도가 가장 높았다”라고 선정 배경을 설명했다.

서울아산병원은 총 6개월 간의 일정으로 인브레인과 함께 ABLE 구축에 나섰다. 인브레인은 HP 하드웨어 기반의 Microsoft PDW 어플라이언스로 먼저 데이터 처리 인프라를 구성하였다. 그리고 성능 확보를 위한 작업에 나섰다. 어플라이언스 장비의 특성상 최적화를 어떻게 하냐에 따라 데이터 처리 속도가 좌우되기 때문이었다.

참고로 ABLE에는 서울아산병원의 대부분의 정보가 담겼다. 2014년 2월 기준으로 4백만 명의 환자 정보가 저장되어 있다. 이를 좀더 자세히 보자면 6억 건 이상의 오더 정보, 7억 2천만 건 이상의 검사 정보 등이 ABLE 상에서 처리되며 병원 운영계 쪽에서 정기적으로 배치 작업을 통해 계속 데이터 량이 늘어나고 있다. 이처럼 대규모 데이터를 다루는 시스템임에도 서울아산병원은 성능 걱정을 하지 않았다.

마이크로소프트 PDW의 성능이 높다 보니 비정형화된 데이터를 실시간으로 익명화 처리를 해도 전체 시스템 운영에 끼치는 영향이 미미했던 것이다. 한편 서울아산병원은 인브레인과 함께 인프라 조성과 함께 의료진이 이용할 ABLE 사용자 화면과 이들 화면에 데이터를 전달하기 위한 시스템 개발도 진행하였다.

ABLE은 코호트(Cohort) 검색, 익명화 차트 리뷰, 자료 추출 세 가지를 주요 서비스로 제공한다. 코호트 검색은 연구 대상 집단에 대한 조회 서비스로 의료진이 연구 가능성 검토를 위해 쓰는 것이다. 그리고 익명화 차트 리뷰는 연구 대상군에 대한 세부적인 항목을 익명화된 상태로 조회할 때 이용된다. 마지막으로 자료 추출은 필요한 데이터들을 추출하여 의료진이 분석에 활용할 수 있게 돕는 서비스다.

이들 세 가지 서비스의 핵심은 바로 익명화를 위한 마스킹 처리다. 인브레인은 보호 대상 개인정보를 정의한 후 구조화된 데이터의 경우는 삭제 조치를 하였고, 기록지나 영상에 적혀 있는 구조화되지 않은 정보는 마스킹 기법으로 익명화 하였다. 익명화의 경우 사용자에게 보여지는 데이터만 실시간으로 특수 문자로 치환하였는데 텍스트의 경우 정규식 표현 룰을 적용하였고 의료 영상 정보는 DICOM(Digital Imaging and Communications in Medicine) 표준이 활용되었다.

한편 서울아산병원과 인브레인은 데이터 추출 작업을 할 때 IRB(Institutional Review Board) 승인 번호를 사용자가 간편히 연계할 수 있는 기능도 반영하였다. 또한 감사를 위한 목적으로 ABLE 시스템에 어떤 사용자가 언제, 어떤 정보를 살펴보았는지를 로그로 남기는 기능도 구현하였다.

개인정보보호에 세계 의학계의 글로벌 표준 적용
서울아산병원의 ABLE은 국내 의료 업계 최초로 개인정보 보호법과 생명윤리 및 안전에 관한 법률 준수를 위해 글로벌 스탠더드를 적용한 예이다. 의료 정보는 그 특성상 여러 기록물이나 영상물에 흩어져 있는 데이터 조각들을 맞추어 보면 누구의 정보인지 유추해 보는 것이 어렵지 않다. 이런 이유로 통제 대상 개인 건강 정보와 개인 식별 정보 항목을 어느 정도 선까지 세분화할 것인지, 익명화와 관련해 내부 사용자 보안 지침이나 정책은 어떻게 수립할 것인지 등 신경 써야 할 것이 많다.

반면에 현재 국내 규제들은 이런 세부적인 내용에 대한 명확한 지침을 제시하고 있지 않다. 서울아산병원은 HIPAA와 ISO 표준이 제시하는 가이드라인을 참조하여 국내 의료 서비스 현장에 맞는 기준을 정립하였고 이를 ABLE에 반영하였다. 참고로 서울아산병원은 이름, 상세 주소, 전화번호, 환자 등록 번호 등 21가지를 삭제 및 익명화 대상으로 지정하고 있다.

서울아산병원은 의료 연구용 데이터 처리 방식 역시 새로운 혁신의 길을 제시하였다. 이와 관련해 신수용 교수는 “ABLE 개통 후 타 종합 병원, 건강보험공단 등 여기저기서 문의가 왔었다”라며 “비용이 얼마나 들었는지, 의료진의 반응은 어떤지에 대한 질문이 많았는데 서울아산병원은 데이터를 정제하고 분석 마트를 구축하느라 시간과 비용을 허비하지 않았다. 대신 고성능 어플라이언스인 Microsoft PDW 상에서 고속 검색 및 조회 서비스를 제공하는 방식을 택해 6개월 만에 개인정보 보호법과 생명윤리 및 안전에 관한 법률 모두를 만족시키는 ABLE을 완성할 수 있었다”라고 말했다.

연구 정보 실시간 조회 가능
ABLE을 처음 접한 의료진은 이런 시스템을 접할 수 있다는 것 자체가 행운이라는 반응을 보이고 있다. 그도 그럴 것이 연구용 자료를 뽑기 위해 필요했던 기다림과 불편함이 일거에 사라졌기 때문이다.

이와 관련해 아산병원 측은 “의료 연구용 자료를 뽑아주는 전담 조직을 운영하고 있었지만 일년이면 수천 건의 요청이 들어오다 보니 원하는 데이터를 받아보려면 평균 일주에서 길게는 한두 달이 걸리곤 했다”라며 “Microsoft PDW 상에서 신속하고 정확하게 원하는 데이터를 검색해볼 수 있는 ABLE을 쓰면 신청 후 데이터를 받기 까지 기다려야 했던 시간 없이 자신의 데스크톱 앞에서 바로 처리되고, 필요한 정보를 엑셀 파일로 다운 받아 원하는 결과를 얻기 위한 분석도 원할 때 즉시 할 수 있다. 의료진이 ABLE에 호의적인 반응을 보이는 것은 당연한 결과가 아닐까 한다”라고 말했다.

또한 “연구용 자료는 목적에 따라 필요한 정보의 유형과 분석 모델 측면에서 다양성이 크다”라며 “따라서 빅 데이터 분석 모델에 기초해 Microsoft PDW와 같은 고성능 어플라이언스 상에서 원천 데이터를 쉽고 빠르게 찾을 수 있도록 하는 것이 현실적으로 더 유리하다”라고 말했다.

최한기 기자
저작권자 © 데일리그리드 무단전재 및 재배포 금지