우리가 모르는 ‘다크 데이터’는 왜 문서관리에 치명적인가

2022. 7. 28. 09:34IT 트렌드가 한눈에!

파수는 ‘다크 데이터’에 관심이 많습니다. 파수가 ‘다크 데이터’라는 용어를 본격적으로 언급하기 시작한 것이 대략 2017년정도부터니까, 햇수로만 벌써 6년정도가 됐네요. 성공적인 데이터 관리와 보안을 위해서는 가장 먼저 ‘다크 데이터’를 찾아 식별, 분류해야 한다고 꾸준하게 말씀 드리고 있으니, 어느 정도 진심이 느껴지시죠?

 

오늘 포스팅은 우연히 서점에서 발견하게 된 이 책 때문에 시작하게 됐습니다. 데이비드 핸드의 <다크 데이터>. 그 동안 관심은 많았지만 딱히 다크 데이터 관련 서적은 찾아봐도 없더라고요. 그래서 아쉬웠는데 오랜만에 들른 서점에서 마주 한 책 제목을 보고, 바로 구매해서 읽게 됐습니다.

 

출처 : 네이버 책, 데이비드 핸드 <다크 데이터 : 보이지 않는 데이터가 세상을 지배한다>

 

다크 데이터는 쉽게 말해서, ‘모르는 데이터’를 칭합니다. 우리가 일을 하는 과정에서 수집, 저장, 공유하면서 빈번하게 발생하는 데이터들이지만, 어디 있는지도 모르고, 심지어 존재하는지 조차도 모르는 경우가 많은, 저장 공간만 차지하고 있는 데이터들입니다. 저자는 책에서 이렇게 말하고 있습니다.

 

“다크 데이터는 보편적인 현상이다. 언제 어디에서든 생길 수 있지만, 그 정의상 다크 데이터가 빠져 있다는 것을 우리가 모를 수 있다는 점에서 위험하다”

“다크 데이터가 발생하는 이유는 그 가짓수가 본질적으로 무제한이기 때문에 실수와 실책을 피하기 위해서는 어떤 종류의 다크 데이터에 주목해야 할지를 아는 것이 굉장히 중요하다”

“빠져 있는지 우리가 모르는 데이터가 특히 기만적인 까닭은 대체로 우리가 그 사실을 의심할 이유가 없기 때문이다”

 

실상은 어떤가요? 정확히 들여다보면, 다크 데이터는 공유 드라이브는 물론, 쉐어포인트와 같은 협업툴, 이메일 아카이브, 문서를 관리하기 위한 기업콘텐츠관리 시스템인 ECM 등 도처에 산재해 있습니다. 게다가 ECM 같은 문서중앙화 시스템을 구축해 놓고도, 실제 그 안에 들어 있는 데이터의 실상을 제대로 파악하지 못하는 것이 현실입니다.

 

 

위 이미지는 2021년도에 파수가 진행했던 캠페인 이미지입니다. 우리가 실제 파악하고있는 데이터는 빙산의 일각일 뿐이라는 메시지가 담겨 있죠. 업계 전문가들 역시도, 실제 빅데이터 비즈니스에서 제대로 활용되고 있는 데이터는 20%정도밖에 되지 않고, 80%는 저장만 해놓고 활용되지 못하는 다크 데이터라고 지적하고 있습니다. 저명한 통계학자인 책의 저자, 데이비드 핸드 역시도 책에서,

 

“그러니까 ‘빅데이터’가 있으면 좋긴 하지만, 크기가 모든 것을 말해주지는 않는다. 그리고 우리가 모르는 것, 가지고 있지 않은 데이터가 가지고 있는 데이터보다 상황을 이해하는 데 훨씬 더 중요할 수도 있다”

 

라고 말하고 있죠. 그렇다면 우리가 왜 ‘다크 데이터’에 주목해야 하는지 조금 더 살펴보겠습니다.

 

 

(데이비드 핸드의 말을 빌리면) 컴퓨터의 등장은 데이터의 이해와 활용 면에서 신기원을 열었습니다. 정말로 막대한 데이터 세트들이 컴퓨터 덕분에 수집되고, 저장되고, 처리되고 있죠. 이 데이터베이스는 엄청난 기회를 만듭니다. 하지만 바로 그 컴퓨팅 능력이 한편으로는 근본적인 불확실성을 초래합니다. 컴퓨터 덕분에 우리는 이전에는 맨눈으로 분간할 수 없던 내용을 데이터를 통해 볼 수 있지만, 생각해 보면 컴퓨터는 필연적으로 우리와 데이터 사이의 매개자 역할을 하는 것뿐입니다. 즉, 컴퓨터는 데이터의 어떤 측면들을 가려버린다는 것이죠.

특히, 데이터 관리나 보안적인 측면에서 봤을 때 이는 치명적입니다. 무엇보다 관리를 위해서라면 필수적인 현황 파악이 다크 데이터로 인해 제대로 이뤄지지 않는 것이고, 우리가 모르는 데이터야 말로 결정적인 보안 홀이 되기 때문입니다. 지키고 관리해야 할 대상을 제대로 알고 있어야, 뭘 해도 제대로 할 수 있지 않을까요?

 

 

저자는 다크 데이터를 역으로 활용할 수 있어야 미래 경쟁력을 확보하고, 향후 비즈니스를 리드할 수 있다고 말하고 있습니다.

“진실과 거짓을 구별하는 문제는 아득한 옛날부터 인류의 숙제였다. 정확한 답을 얻기 어려운 문제였기 때문이다. 하지만 데이터의 영역에는 유용한 전략이 하나 있다. 바로 데이터가 어디에서 온 것인지, 누가 데이터를 모았는지, 누가 보고 했는지를 추궁하는 것이다”

 

“다크 데이터가 존재할 수도 있다고 늘 의식하기다. 우리는 데이터가 불완전하거나 부정확하다는 것을 기본 전제로 삼아야 한다. 데이터를 의심하라. 적어도 적절하고 정확하다고 증명되기 전까지는”

 

서두에서도 말씀 드렸지만, 파수는 ‘다크 데이터’에 관심이 정말 많습니다. 그만큼 오랫동안 연구해 오고 있고, 꾸준히 주목해 오고 있습니다. 아마 머지 않은 미래에 다크 데이터를 효율적으로 관리하고 제어하는 조직과 그렇지 못한 조직으로 크게 나뉘는 시대가 올 겁니다. 전자의 경우, 업무 생산성이 최적화될 것은 물론이고요. 후자의 경우는….따로 말씀 드리지 않겠습니다^^;

 

 

오늘 포스팅은 현존하는 책 중 유일하게 ‘다크 데이터’를 제대로 다루고 있는 데이비드 핸드의 <다크 데이터>를 통해 우리 조직에서 모르고 있는 데이터가 얼마나 치명적일 수 있는지에 대해 짚어 봤습니다.

실제 책을 살펴보면 다크 데이터가 사실을 오해하게 만들고, 틀린 결론을 내리게 만들며, 나쁜 결정으로 유혹하는 여러 사례들이 등장합니다. 너무 세세하게 소개해 드리면, 스포(?)가 될 것 같기도 해서, 관심 있으신 분들은 직접 책을 한 번 읽어보시는 걸 추천 드립니다.

 

조직 내 제대로 된 문서관리를 위해 다크 데이터를 식별하고 효율적으로 관리하고 싶으시다면, 다크 데이터 전문가인 파수와 함께 하세요! 앞으로 각 조직들의 미래 경쟁력은 이 ‘다크 데이터’에 달려 있다고 해도 과언이 아닙니다!

 

 

https://www.fasoo.com/solutions/nextgen-data-security-data-management

 

 

차세대 데이터 보안 및 데이터 관리 플랫폼 | Fasoo

다크 데이터 식별 및 분류, ROT 데이터 제거, 불필요 데이터 제어, 데이터 위치에 관계없이 추적하고 문서 가상화 (Virtual Content Infrastructure) 기술로 효과적인 데이터 관리를 수행하는 차세대 플랫

www.fasoo.com