섀도우데이터, 쉐도우데이터, ROT데이터, 다크데이터의 정의와 관리방법

2024. 9. 12. 10:18IT 트렌드가 한눈에!

본격적으로 글로벌 IT 트렌드가 ‘데이터’ 중심으로 움직이기 시작했습니다. 이제 각 조직들은 성공적인 비즈니스를 이어가기 위해 데이터를 제대로 알고 있어야 하고, 관리할 수 있는 수준으로 파악하고 있어야 합니다. 디지털 혁신이 데이터로부터 시작되고, 특히 AI시대의 도래로 데이터의 중요성이 더욱 강조되고 있기 때문입니다.

그동안 많은 조직들은 데이터 관리에 많은 어려움을 겪어 왔습니다. 먼저 기하급수적으로 늘어나는 그 양이 문제이고, 무엇보다 하이브리브 워크플레이스 환경에서 데이터들이 곳곳에 산재해 있기 때문입니다. 우리 조직의 중요한 데이터가 어디에 위치해 있는지 정확하게 파악하지 못하는 것만큼 불안한 것도 없겠죠.

하이브리드 워크플레이스 환경에 산재된 수많은 데이터

늘 포스팅에서는 여러 종류로 정의되는 데이터들을 알아보고, 각각 어떤 의미를 갖는지 말씀드려 보고자 합니다. 모두 한번쯤 들어보셨을 만한 데이터들인데요. 이것이 왜 중요하고, 관리가 필요한지 알아보겠습니다.

 

섀도우데이터 (쉐도우 데이터)

섀도우데이터는 각 조직 IT팀의 보안 조치 범위 밖에 존재하는 데이터입니다. 별도로 관리되지 않고 생성 및 저장되거나 공유되는 데이터들이죠. 개인 이메일 속에 존재할 수도 있고, 클라우드나 모바일에 숨어있을 수도 있습니다. 특히 최근 많은 조직들이 클라우드 형태로 업무 환경에 변화를 꾀하면서 본격적으로 등장하기 시작한 용어입니다.

조직 입장에서는 굉장히 애매한 데이터라고 볼 수 있는데요. 이 섀도우데이터는 보안 측면에서는 굉장히 치명적일 수 있습니다. 일단 관리 범위 밖에 존재하기 때문에 보안 리스크가 가장 크고, 컴플라이언스 이슈도 발생할 수 있기 때문입니다. 문제는 데이터의 존재 여부도 정확하게 알기 어렵고, 어느 곳에 위치해 있는지 파악도 안되기 때문에 관리하기 어렵다는데 있습니다.

파악이 안되서 관리하기 어려운 '섀도우데이터'

그래서 섀도우데이터를 관리 및 보호하기 위해 최근 트렌드로 떠오르고 있는 것이 바로 DSPM (Data Security Posture Management)입니다. 조직내 중요 데이터를 식별 및 분류하고, 보호가 필요한 데이터들을 선별적으로 제어하며, 지속적으로 민감정보들을 모니터링 및 관리하는 프로세스입니다. 만약 섀도우데이터 관리에 대한 고민이 깊으시다면, DSPM을 가장 최우선적으로 고려해 보시면 좋을 것 같습니다.

 

다크데이터

섀도우데이터와 굉장히 유사해 보이는 다크데이터는 기업 및 기관에서 생성, 수집했지만 파악되지 않는 ‘모르는 데이터’입니다. 섀도우데이터와의 차이점을 말씀 드리자면, 관리 범주 안에 있느냐, 없느냐로 보면 되는데요. 섀도우데이터가 관리 범주 외에 존재하고 있다면, 다크데이터는 어쨌든 관리는 할 수 있는 조직 내부에 저장돼 있는 데이터입니다. 물론 둘 다 모르고 있기 때문에 현재는 관리가 안되고 있는 상황인 거죠.

다크데이터는 저장만 돼 있고, 관리가 되지 않는 데이터이기 때문에 조직내 스토리지를 낭비하는 측면이 있고, 보안 관점에서도 분명 리스크가 큽니다. 무분별한 복사, 복호화 된 파일들이 주를 이루는데 자칫 유출되면 안되는 중요 데이터일 경우 조직 입장에서는 굉장히 치명적일 수 있습니다. 실제로도 업계 전문가들은 각 조직들이 비즈니스에 제대로 활용하고 있는 데이터는 20%밖에 안되고, 80%는 활용되지 않는 다크데이터라고 말합니다. 어마어마하죠?

활용되지 못하는 스토리지 내 수많은 '다크데이터'

 

 

ROT데이터

ROT데이터는 중복되고, 오래되고, 중요하지 않은 (Redundant, Obsolete, Trivial) 데이터를 말합니다. 사내 여러 임직원들이 동일한 파일을 여러 번 복사한 파일들, 정말 많죠. 오랫동안 사용되지 않는 구 버전의 파일도 엄청 많습니다. 퇴사한 직원이 소유했던 파일들도 있죠. 중요하지 않은 사소한 데이터를 정의하는 건 어렵지만, 비공식적인 이메일이나 임직원들의 개인적인 파일들이 여기에 속한다고 보시면 될 것 같습니다. 조직의 비즈니스와 전혀 관련 없는 데이터들이죠.

하지만 ROT데이터를 방치하는 것 역시도 여러 문제를 야기할 수 있습니다. 데이터 저장 비용의 증가는 물론, 최신 데이터와 구분이 안될 경우 업무 생산성의 저하를 가져올 수 있습니다. 불필요한 리소스를 낭비하게 되는 거죠. 데이터 보안 문제도 있을 수 있습니다. 중복되거나 오래된 파일 중에 민감 데이터가 있는데 제대로 관리되지 않고 있다면 유출 위험이 있습니다.

방치된 수많은 ROT데이터의 관리는 필수입니다!

다크데이터와 ROT데이터는 생성형 AI시대를 맞이하는 조직의 입장에서 반드시 관리할 수 있어야 하는 데이터들입니다. 제대로 된 데이터를 학습해야 효과적인 결과를 도출하는 생성형 AI의 입장에서 다크데이터나 ROT데이터를 학습한다면 할루시네이션이 발생할 가능성이 매우 높기 때문입니다. 체계적인 버전 관리를 통해 가장 최신 데이터를 구별해야 하고, 불필요한 데이터들을 제거할 수 있어야 경쟁력 있는 비즈니스를 이어갈 수 있습니다.

오늘은 각 조직에서 어려움을 겪고 있는 데이터 관리 측면에서 많은 분들이 궁금해 하고 있는 각 데이터들의 종류와 의미를 분석해 봤습니다. 섀도우데이터, 다크데이터, ROT데이터 모두 조직에서 반드시 관리 및 보안을 적용해야 하는 중요한 데이터들입니다. 방치하는 순간, 치명적인 위협에 노출되고 조직의 업무 생산성은 차츰차츰 저하되기 시작합니다.

가장 큰 문제는 데이터들의 정의 자체가 ‘모르는 데이터’이기 때문에, 현재 우리의 데이터 관리 체계가 잘못된 것인지 인식조차 못하고 있는 경우가 많다는 겁니다. 혹시라도 이번 포스팅을 통해 우리 조직이 방치하고 있는 데이터들의 정체를 인지하게 되는 계기가 됐다면, 그것만으로도 파수씨는 목적 달성했다고 생각합니다.

 

여러분들 조직의 섀도우데이터, 다크데이터, ROT데이터를 더 이상 방치하지 마십시오!!