비정형데이터 가명처리 기준 주요 내용, 정규표현식과 AI 기반 가명처리

2024. 5. 7. 17:02IT 트렌드가 한눈에!

포털에 ‘개인정보’를 검색해보면 수많은 기사를 접할 수 있습니다. 기업 및 기관들의 개인정보 유출 기사, 개인정보보호법 개정 소식, 정부가 실시하는 개인정보 관리수준 진단 등 관련 기사가 매일 쏟아지고 있습니다.

그만큼 개인정보는 민감한 데이터이자, 높은 가치를 가진 데이터입니다. 그야말로 소중한 자산이죠.

이젠 모두가 알고 있듯이, 이 소중한 자산을 활용해 수많은 가치를 창출할 수 있습니다. 기업의 신제품, 금융권의 고객 맞춤 상품, 정부 사업 개발 등 이미 전분야에서 개인정보가 활용되고 있죠.

 

그 가치가 큰 만큼, 큰 책임이 따릅니다. 개인정보의 보유 및 활용을 위해 준수해야 하는 각종 컴플라이언스가 존재하고, 이는 매년 강화되는 추세에 있습니다. 그 중 하나가 특정인이 식별되지 않도록 하는 ‘가명처리’인데요. 최근에는 AI 시대를 반영해 새로운 가명처리 기준이 발표되기도 했습니다.

 

조직의 소중한 자산, 보유한 개인정보

 

 

그동안 기업 및 기관들은 보유한 개인정보의 가명처리를 위해 개인정보보호위원회가 발표한 <가명정보 처리 가이드라인>을 참고해 왔습니다. 문제는 기존 가이드라인이 정형데이터에 대한 처리 기준만을 제시하고 있다는 점인데요. 기술의 발전, 특히 AI 기술의 등장으로 비정형데이터(텍스트, 이미지, 영상 등)의 활용 수요가 크게 증가했음에도 불구하고 참고 및 준수할 가이드라인이 없어 혼란을 겪고 있는 상황이었습니다.

이를 반영해 지난 2월 개인정보보호위원회에서 가이드라인을 대폭 개정하고, 비정형데이터 가명처리 기준을 새롭게 발표했습니다. 비정형데이터의 개인 식별 위험성 검토 체크리스트, 기술적 조치, 관련 시스템 통제 방안 등 기업 및 기관이 참고할 수 있는 기준 정보를 담았습니다. (자세한 내용은 아래 개인정보보호위원회 홈페이지에서 확인하실 수 있습니다)

 

주민등록번호, 전화번호 등의 개인정보가 행/열과 같은 형식으로 규칙에 따라 구분된 정형데이터는 그 위험성을 판단하고 조치하기에 수월한 편입니다. 반면 비정형 데이터는 이름 그대로 정형된 형태가 아니라서 다른 특성을 가지고 있는데요. 무엇보다 개인정보가 규칙없이 파일형태로 산재돼 있어 어디에 어떤 정보가 있는지 파악하기가 굉장히 어렵습니다.

기업 및 기관에서 사용하는 대표적인 비정형데이터가 문서 및 이미지 파일입니다. 콘텐츠 내에 개인정보가 포함된 워드 및 한글 파일, 계약서 및 등본을 스캔하거나 카메라로 찍은 이미지 파일 등 유출 시 큰 문제가 발생할 수 있는 데이터가 그대로 담겨있는 경우가 많습니다. 파일 별로 확인하고 조치를 취하기엔 그 양이 방대하고, 실수가 발생할 가능성도 배제할 수 없습니다.

이번에 발표한 비정형데이터 가명처리 기준 주요 내용에도 텍스트 형태의 개인정보를 가명처리하는 방안 몇 가지를 권고했습니다. 그 중 다수의 비정형데이터를 다루는 업무 환경에서 사용하기 가장 적합한 방안이 ‘정규표현식’ 방식과 ‘AI 기반 가명처리’입니다.

 

방대한 개인정보를 처리할 수 있는 방법

 

정규표현식은 문자나 문자열의 일정한 패턴을 표현하는 일종의 형식 언어입니다. 전화번호, 이메일 주소, 주민등록번호, 카드번호 등 특정 정보 고유의 패턴을 이용해 정규표현식을 만들고, 해당 정규표현식에 부합하는 데이터는 개인정보로 간주해 검출 및 마스킹 처리하는 방식입니다.

AI 기반 가명처리는 개인정보 검출 과정에 AI 기술을 사용하는 방법인데요. AI 모델에 언어 및 개인정보를 학습시켜 개인정보를 검출하는 방식이죠. 정규표현식으로 정의하기 어려운 개인정보까지 검출할 수 있다는 장점이 있습니다.

AI 기반 개인정보 처리 방식

 

 

이 2가지 방법을 모두 사용할 수 있는 AI기반 개인정보 검출 및 마스킹 솔루션이 바로 Fasoo AI Radar Privacy (이하 AI-R Privacy)입니다. 정보보안 분야에 종사하는 분들은 아시겠지만, 정규표현식은 개인정보를 처리하는 대부분의 솔루션에서 꾸준히 사용해 온 방식입니다. 파수는 이를 보완할 수 있는 방법을 지속적으로 연구해왔고, 이미 2022년부터 AI 기반의 개인정보 검출 및 마스킹 솔루션을 제공하고 있습니다.

AI-R Privacy는 기존 정규표현식 방식과 AI 기반 검출 방식을 모두 사용할 수 있습니다. 데이터 특성과 검출 목적에 맞게 유연하게 활용 가능하며, 두 방식을 동시에 사용할 수도 있습니다.

AI-R Privacy는 AI 기반의 자연어 처리 기술을 활용해 개인정보의 문맥을 이해하고 탐지합니다. 한글과 개인정보의 특성을 학습한 AI 모델이 높은 정확도로 개인정보를 검출하는데요. 기존 정규표현식 방식에서 탐지하기 어려운 주소, 이름 등의 복잡한 개인정보까지 검출할 수 있습니다. 뿐만 아니라, OCR 기술을 활용해 이미지, PDF 파일에서도 같은 방식으로 개인정보를 검출하고 마스킹 처리할 수 있습니다.

 

 

파수 AI 개인정보보호 | Fasoo AI-R Privacy, AI-Ready Security

AI 기반 개인정보유출 방지 솔루션 AI-R Privacy, 트랜스포머 기반 자연어 처리 언어 모델, AI-Ready Security, 비정형 데이터 검출, 공공기관 및 의료기관 맞춤 개인정보보호 및 검출, Fasoo AI Radar Privacy

www.fasoo.com

 

 

최근에는 조직 내부 전자결재 시스템이나 외부 공개 게시판 등 텍스트 및 이미지, 문서 파일이 올라가는 시스템에 AI-R Privacy 도입을 원하는 문의가 많습니다. 해당 케이스로 실제 도입 사례도 최근 급증하고 있는데요. AI-R Privacy는 API 연동 방식을 지원해 다양한 시스템에서 활용할 수 있습니다. 텍스트를 입력하거나 파일을 첨부한 후, AI-R Privacy API를 호출해 개인정보를 검출하거나 마스킹 처리하는 방식입니다.

 

우리의 업무 환경은 항상 비정형데이터와 함께 하고 있습니다. 이 포스팅을 읽는 분들 중에도 비정형데이터를 생산하고, 편집하고, 공유하는 일이 주업무인 분들이 많을 것이라 예상됩니다.

끊임없이 늘어나는 비정형데이터 속 개인정보 처리 문제로 고민하고 계신가요? 그 고민을 AIR처럼 가볍게 해결해 드리겠습니다!

 

파수 문의하기 | Fasoo Contact Us

여러 번 보는 것보다 한 번의 상담이 더욱 효과적입니다. 주식회사 파수(이하 ‘파수’라 함)는 귀하의 개인정보보호를 매우 중요시하며, 귀하께서 파수가 제공하는 서비스(https://www.fasoo.com, 이

www.fasoo.com