김창훈 | KRG 대표
FOCUS
공공과 민간 데이터의
‘효율적 공유와 통합’ 통해 새로운 가치 창출
바야흐로 우리는 ‘데이터 홍수’ 시대에 살고 있다. 전 세계에서 매일 쏟아지는 데이터양은 2.5엑사바이트(EB: 25억GB)에 달하는데, 이는 1GB짜리 영화 250억편에 맞먹는 양이다. 하지만 이처럼 엄청난 양의 데이터 중 90%는 원시 데이터 수준에 그친다. 이런 원시 데이터를 ‘가치 있는(Valuable) 데이터’로 만들기 위해선 유사 데이터 간의 적절한 통합과 효율적인 가공 과정이 반드시 필요하다. 그렇지 않다면, 대부분 원시 데이터는 일정 시일이 경과하면 90%는 ‘무용한 데이터’로 전락할 가능성이 크다.
여기서 우리가 주의깊게 바라봐야 할 것은 신뢰할 수 있는 공적 기관에서 발표한 데이터를 어떻게 적절하게 접목하고 가공, 분류해 우리 삶에 보탬이 되게 하는 소스(Source)로 재탄생하게 만들 것인가이다. 이와 관련해 최근 여러 나라가 공공 데이터와 민간 데이터를 공유하고 결합해 의료나 복지 등 공적 영역에서 의미 있는 데이터를 생성해 정책 또는 제도적으로 반영하는 작업에 나서고 있다.
하나의 단적인 예를 보자. 최근 통계청에서 MZ세대 속성에 관한 통계자료를 발표했는데, 그들 중 절반이 넘는 숫자가 서울, 경기, 인천 등 수도권에 거주하는 것으로 조사됐다. 이 데이터가 아니더라도 지방에 젊은 층이 없다는 것은 누구나 상식적으로 알고 있다. 여기서 정책적으로 고민해야 하는 것은 MZ세대들이 자신이 태어난 지역에 거주할 수 있는 대안을 만들어야 한다는 점이다. 이를 위해선 MZ세대의 현 주거 환경에 관한 기본적인 공공 데이터와 민간에서 보유하고 있는 특정 지역 채용수요나 생활 만족도, 문화 인프라, 취업 환경 등의 데이터를 결합한다면, 수도권 집중화 해소를 위한 정책적 실마리도 제공할 수 있다는 점이다.
개인이나 기업이 보유한 민간 데이터는 공적 영역에서 정책 의사 결정을 내리는 데 유용하게 사용된다. 가령, 코로나19 같은 전염병이 만연할 때 표적 맞춤형 대응이 가능하다. 또한 더 발전된 도시 모델을 연구하거나, 환경보호와 관련된 다양한 정책을 수립하는데 도움을 줄 수도 있다. 또한 시장 경제 체제에서 시장이 제대로 작동되는지 모니터링할 수 있고 이는 소비자 보호로 이어지는 선순환 효과로 이어진다.
공식 통계를 작성할 때도 때로는 민간 데이터를 활용하고, 분석하는 게 비용효율적인 경우도 많다. 인구 이동이나 가격, 인플레이션, 교통 분야 등에서 더 빠르고 현실에 부합되는 결과를 얻을 수 있다. 특히 민간 데이터를 적절하게 활용하면 공공 데이터를 취합하는 데 소요되는 많은 자원과 비용도 절감할 수 있다.
컨설팅 기업 맥킨지(Mckinsey)에 따르면 데이터양은 매년 50% 이상 증가한다. 다만, 공익 목적으로 작성된 공적 데이터와 별개로 개인이 소유한 데이터들은 각기 사용 용도별로 갖고 있기 때문에 굳이 공유의 가치를 느끼지 못한다. 하지만 중요한 것은 이러한 민간 데이터를 현명하게 공유한다면 이 데이터는 풍부한 사회적 자산으로서 그 가치는 더 커질 수 있다는 점이다. 가령 기업들이 보유한 데이터를 상호 공유하게 되면 효과적인 정책 결정에 중요한 모티브가 된다. 특히 ‘공공선’을 위한 민간 데이터 활용은 공공 데이터가 커버하지 못하는 사각지대까지 아우른다.
때문에 전 세계적으로 공공 데이터와 민간 데이터 간의 공유와 결합을 통해 새로운 가치를 창출하는 사례가 점차 많아지고 있다. 공유 사례 가운데, 대표적으로 사회 인프라(SoC) 분야, 교육 분야, 의료 분야, 복지 분야 등의 글로벌 사례를 몇 가지 소개한다.
영국지리공간위원회는 민간 데이터 공유를 통해
전기차 충전 인프라 시설 계획을 수립하고 있다
타 산업에 비해 농업의존도가 높은 미국의 대표적인 주인 캘리포니아는 해마다 ‘물 부족’ 사태에 시달린다. 이를 해소하기 위해 캘리포니아주는 지난 2006년부터 주정부 주도로 수자원 배분 정책을 펼치고 있다. 여기에는 ‘캘리포니아대학교 산하 지구 연구소’, ‘세계식량센터’, ‘반도체 기업 인텔’ 등이 참여하고 이들 기관에서 제공받은 지식 데이터를 신기술 기반의 분석 도구를 활용해 가공작업을 수행하고 있다. 이같은 작업의 결과물을 통해 캘리포니아주정부는 효과적인 수자원 배분 정책을 추진, 가시적인 성과를 거두고 있다.
미국 테네시주 채터누가(Chattanooga)시는 주변에 3개의 주(States)와 16개의 카운티(County)가 있다. 채터누가시는 민간이 보유 중인 운송 데이터베이스에 접근할 수 있는 툴(Tool)을 공유하고 있다. 이 지역에 소재한 20개 이상의 화물 중개인과 운송 회사는 운송 데이터베이스를 공유해 상품의 이동 경로를 추적할 수 있다. 여기에다 해당 지역의 도로 이용자를 정량화하거나 화물 병목 현상에 대한 원인을 파악해 주 정부 차원에서 운송 및 물류 관련한 이슈들에 대해 적절한 대응을 가능하게 한다. 이 데이터베이스는 정부 기관 및 기업이나 교통전문가를 대상으로 무료로 제공된다.
영국의 지리공간위원회(Geospatial Commission)는 공공과 민간 데이터를 공유해 전기자동차가 어떻게 교통 여건을 개선할 수 있는지에 대한 연구 결과를 발표했다. 공유 작업을 통해 지역별 전기자동차 채택률을 결정하는 도구로 활용하는 한편 충전 인프라 시설이 필요한 지역이 어디인지를 조사한다. 더 나아가 특정 지역의 전기자동차 수요를 충족하기 위한 인프라 개발 계획을 사전에 결정하게 된다.
실업이 사회적 문제로 대두되는 유럽에서도 여러 텔레콤 기업에서 제공되는 익명화된 데이터를 통해 통화기록 및 통근 패턴을 분석, 지역별 실업 현황과 해당 지역민들의 심리상태를 분석해 대국민 서비스를 제공하기 위한 통찰력을 얻고 있다.
세계경제포럼(WEF)은 미래 노동환경 변화와 일자리 전망 정책 발굴을 위해
채용 전문 기업인 링크드인이 보유한 데이터를 활용하고 있다.
교육 분야는 민간 데이터가 가장 효과적으로 적용할 수 있는 분야다. 빅테크 기업 구글은 코딩 등 수요가 많을 것으로 예상되는 분야를 포함해 교사와 학생들을 위한 다양한 리소스와 프로그램을 제공한다. 교사들은 다양한 앱을 통해 수집된 정보를 가지고 수업 계획부터 채점까지 이전과 다르게 효율적으로 작업할 수 있다.
대표적인 인력 채용 기업인 링크드인(Linked in)은 IT 관련 일자리 수요 데이터를 미국 노동부에 제공하고 있는데, 이 데이터는 노동부의 공공 데이터와 결합해 인재 양성 프로그램 개발에 활용되고 있다. 또한 세계경제포럼(WEF)은 미래 노동시장 변화와 이에 대응한 일자리 발굴과 교육 영역에서 링크드인이 보유한 미래 기술과 노동시장 변화 등에 관한 데이터를 공유해 미래 기술 발전에 부응하는 인력 양성 정책에 나서고 있다.
의료데이터는 공공 및 민간에서 다양한 데이터가 축적돼 있다. 이처럼 산재된 의료데이터를 민간과 공공이 상호 공유하고 교환하면 공공 의료 영역에서 좋은 성과를 기대할 수 있다. 안전하지 않은 불량 식품이나 코로나 같은 바이러스 발생 등의 건강상 이슈를 국민에게 미리 경고할 수 있다. 민간-공공 데이터 간 상호 공유를 통해 코로나19 팬더믹 상황에서 특정 지역의 코로나 발생 상황을 실시간으로 알려줘 경각심을 제공하는 한편 봉쇄 기간 동안 사람들의 동선을 추적하기 위해 위치 기반 데이터를 활용하기도 했다.
민간과 공공 데이터의 공유는 많은 연구자에게 정보 접근성을 제고시키는 한편 이미 수행한 작업과 결과물에 대한 데이터와 정보를 기반으로 새로운 선진 연구를 진행할 수 있다. 세계보건기구(WHO)는 2022년도에 WHO 주도로 수행된 모든 프로젝트 결과물에 대한 데이터 공유 및 관리 계획을 수립해야 한다는 정책을 발표한 바 있다.
영국의 로체스터대학교는 파킨슨병으로 고통받는 사람들의 손동작, 균형감각이나 보행 등에 관한 데이터를 수집하기 위해 자체 앱을 개발했는데, 6시간 만에 7천여 명 이상의 사람들이 앱을 다운받아 자신의 정보를 기꺼이 제공했다. 만일 일반적인 루트로 이 데이터를 얻으려 했다면 아마도 최소한 수개월이 걸리는 까다로운 작업이었을 것이다. 로체스터대학교는 여기서 얻은 데이터를 다른 연구자와 환자에게도 공유함으로써 파킨슨병을 치유하는 연구에 많은 도움을 주고 있다.
복지 분야에서도 민간과 공공 데이터 공유는 훌륭한 성과를 만들 수 있다. 주거 환경 개선을 위한, 또는 사회 취약층에 관한 공적 데이터도 민간이나 특정 기관에서 보유 중인 데이터와의 상호 연계를 통해 효과적인 대책 수립을 위한 훌륭한 소스가 된다.
인도네시아 텔콤대학의 데디 라만 위자야(Dedy Rahman Wijaya) 교수팀은 개발도상국들이 직면한 과제인 빈곤 타파를 위한 정책개발에 민간 데이터를 활용한 새로운 모델을 제시해 세계적인 과학저널지 네이처에 소개되는 등 많은 주목을 받았다. 인도네시아는 전체 국민의 10% 가량이 빈곤층에 속한다. 문제는 이같은 빈곤층을 조사하기 위해서는 대량의 설문조사와 대면조사가 필요하고, 설령 결과가 발표된다고 하더라도 시기적으로 정책을 개발하기까지 많은 시일이 걸린다는 점이다. 빈곤 정책은 타이밍이 중요하다. 과거 데이터를 가지고 현실을 반영하는 데는 한계가 있다는 점을 인식한 데디 라만 위자야 교수팀은 빈곤층 및 그들의 거주 지역, 소비행태를 조사하기 위해 5년마다 실시하는 대량의 설문조사 대신 기존 데이터를 활용하는 방식을 제안했다. 그것은 인도네시아 최대 통신사가 갖고 있는 e커머스 데이터를 활용하는 것이다. 기존에 빈곤 상태를 추정하는 방식으로 많이 활용된 것은 야간 조명 밝기였다. 일반적으로 빈곤 지역은 중-상류층 지역보다 야간 조명 밝기가 약할 것이란 가정에 착안한 것이다. 하지만 문제는 이같은 가정이 빈곤층을 추정하기에는 한계가 있다는 점.
하지만 e커머스 데이터는 해당 지역의 실질적인 소비 지출 정도를 파악할 수 있기 때문에 빈곤 수준을 추정하는 데 더 효과적인 데이터라고 할 수 있다. 물론 여기에는 머신러닝 같은 신기술 영역이 뒷받침돼야 한다. 데디 라만 위자야 교수팀은 빈곤층을 조사하는 데 필수적인 설문조사와 인구 조사 대신에 더욱 저렴하고 비용효율적인 방법으로 특정 기업이 보유 중인 e커머스 데이터와 머신러닝 알고리즘을 활용하는 방법을 채택했다. 이같은 방식으로 업로드된 정보는 실시간으로 업데이트돼 정책 당국자들에게 시의적절한 빈곤 대책을 수립하고, 정책의 우선순위를 결정짓는 데 중요한 기여를 할 수 있다는 것이다.
인도네시아 델콤대학의 Dedy Rahman Wijaya 교수팀은 빈곤 추정을 위한 설문조사 대안으로
e커머스 데이터와 머신러닝 알고리즘을 활용할 것을 제안한다.
현재 국내에서 2023년 기준으로 약 9만여 건의 공공 데이터가 개방돼 있다. 미국 역시 대기질부터 농산물 시장 정보 등을 포함해 100만 개 이상의 공공 데이터 세트가 온라인상에서 무료로 공개돼 있다. 하지만 환경이나 생체 인식, 역학 및 물리적 상태에 관한 데이터는 대부분 민간이 보유하고 있다. 따라서 민간 데이터를 공적 데이터와 공유할 수 있는 여건 조성이 필요하다.
우선 민간 데이터 활용도를 높이려면 강력한 인센티브 제도가 필요하다. 공익을 위한 데이터 공유는 해당 데이터를 보유하고 있는 민간의 도움이 절대적으로 필요하다. 이를 위해선 세제 혜택 등의 구체적이고 세밀한 인센티브 정책을 펼칠 필요가 있다. 두 번째는 AI와 빅데이터 기법 등 신기술을 통해 공공과 민간 데이터의 공유와 융합을 지원할 수 있어야 한다. 앞서 인도네시아 빈곤 추정 사례처럼, 공공 데이터의 질을 제고시키고 민간 데이터와의 시너지 효과를 극대화하기 위해서는 인공지능이나 머신러닝, 딥러닝 등의 최신 디지털 기술 적용 수준을 제고해야 한다. 물론 관련 전문인력 양성에도 적극 나서야 한다.
셋째는 공공 데이터와 민간 데이터가 그 본질에 부합되게 구축돼야 한다. 국내에서 실시 중인 대표적인 조사 가운데 산업별 실태조사가 있다. 공공기관에서 매년 조사하고 있는 주요 산업 실태조사는 해당 산업에 종사하는 기업 매출이나 인력 보유, 수출현황, 정책적 유의점 등을 조사한다. 반면, 같은 산업에 연관된 민간 보유 데이터는 비즈니스 친화적인 목적으로 작성된 데이터다. 즉, 데이터의 속성이 다른 것이다. 이것을 무리하게 하나로 혼용해 조사하게 되면, 당초 목적과 어긋난 데이터가 생산될 수 있다. 따라서 데이터 생산 주체별로 지향하는 목적을 정확하게 이해해야 한다.
넷째는 개인 정보 보호 문제이다. 공공과 민간 데이터를 공유하는 문제는 흔히 정부 기관과 민간이 정보를 교환할 때 주로 발생한다. 문제는 이런 결합을 통해 새로운 가공 데이터가 만들어질 때 관련 개인들은 자신의 개인 정보가 제대로 보호받는지에 대한 의구심이 든다는 점이다. 공공에 활용된다는 목적하에 개인 데이터가 아무런 안전장치 없이 이곳저곳에 제공된다면 개인들은 불안할 수밖에 없다. 2021년 한 연구에 따르면 미국내 학교 앱의 60%가 제삼자에게 데이터를 전송한 것으로 조사됐다. 공립학교에서 사용하는 앱 중 18%는 수천 개의 네트워크로 연결돼 있어, 정보를 악용할 가능성이 있는 위험한 채널에도 전송된 것으로 보고됐다. 따라서 해당 데이터를 교환하는 경우 상호 간 책임 소재를 확실히 하는 한편 투명성을 높이는 노력이 필요하다.