2025. 2. 19. 15:09ㆍIT 트렌드가 한눈에!
ChatGPT 출시 이후, 4년차 정도에 접어드니 이제 AI에 가장 중요한 것은 학습의 연료가 되는 ‘데이터’라는 것을 많은 분들이 아실 것 같습니다. 처음에는 무조건 많이, 양으로 승부하면 장땡(?)이라고 생각했었지만, 그게 아니었죠. 요즘 AI업계는 특정 AI 모델 학습에 필요한 데이터 자체가 부족하거나, 데이터 품질이 저하돼 이를 학습한 AI의 성능이 떨어지는 문제에 골머리를 앓고 있습니다.
물론 AI의 알고리즘도 핵심 구성 요소입니다. 하지만 알고리즘이 아무리 정교하더라도 데이터의 품질이 확보되지 않으면 신뢰도가 크게 저하되기 때문에 아무런 의미가 없습니다. 그렇기 때문에 데이터의 완전성, 유효성, 정확성 등이 확보된 데이터의 중요성이 점점 높아지고 있는 상황입니다.

최근 생성형 AI는 정형 데이터뿐만 아니라 비정형 데이터도 학습 및 활용하는 방향으로 발전하고 있습니다. 예를 들어, 의료용 AI가 환자 진료 기록뿐만 아니라 관련 영상 및 음성 진단 기록까지 분석하는 겁니다. 이 과정에서 AI가 신뢰할 수 있는 분석과 판단을 내리려면 정확하고 일관된, 그리고 최신화 된 데이터 품질이 보장돼야 하는 거죠.
데이터 품질인증(DQ인증)도 등장했습니다. 기존 민간 주도로 운영되던 데이터 품질인증(DQC)을 국가가 공식적으로 인정하면서 공신력이 한층 더 강화됐는데요. 해당 인증은 정형, 반정형, 비정형 데이터를 대상으로 데이터 오류 여부와 품질관리 체계의 적정성 수준 등을 심사, 평가해 인증을 부여합니다. AI의 성능이 곧 학습 데이터의 품질에 따라 좌우되기 때문에 검증된 고품질 데이터를 활용할 경우, AI 모델 성능도 향상시킬 수 있는 것이죠.

AI시대, 데이터는 전략 자산으로 거듭나고 있습니다. 기업들은 데이터 자산화 전략을 수립하고, 수집한 데이터의 가치를 극대화할 수 있어야 합니다. 품질이 보장된 데이터는 쓰임새가 매우 다양합니다. 우리 조직만을 위한 생성형 AI를 따로 구축할 수도 있고, 시중에 공개돼 있는 Public AI와 연동해서 활용할 수도 있죠. 아니면 특정 AI 기술만 접목시키는 방법도 있을 수 있고요.
어떤 방법으로 확장해 나가든, 결국 중요한 것은 연료가 되는 ‘데이터’입니다. 그러면 그 데이터의 완전성, 유효성, 정확성 등을 어떻게 확보해 나가느냐? 데이터의 품질을 어떻게 확보하느냐? 궁금증이 드실 겁니다. 하나씩 말씀드리겠습니다.

우리가 보통 어떤 물건의 품질을 생각한다고 할 때, 어떤 것들을 고려하나요? 일단 이것이 ‘정품’인지 검증하는 것이 중요합니다. 그래서 많은 분들이 한정판을 거래할 때 KREAM (크림)이나 솔드아웃과 같은 공신력 있는 플랫폼을 활용하는 것이죠. 그래도 거기서 사면 정밀한 검수 과정을 거쳐 ‘정품’이 인증된다고 생각하기 때문입니다.
그리고 중요한 것이 바로 보관 상태인데요. 보통 중고 거래나 당근 거래를 할 때 가격에 가장 영향을 많이 주는 요소도 바로 얼마나 잘 보존돼 있느냐에 달려 있습니다. 즉, 해당 물건이 원본 상태에 가깝게 잘 유지되고 있을수록 높은 가치를 갖는 것이죠. 중고차를 살 때는 과거 이력도 굉장히 중요합니다. 소유주는 몇 번 변경됐는지, 보험 처리는 몇 번 이뤄졌는지 등을 확인해야 이 대상의 품질을 측정할 수 있습니다.

같은 맥락으로 데이터의 품질을 생각해 보겠습니다. 먼저 이 데이터가 ‘정품’인지 확인하려면 어떤 걸 살펴봐야 할까요? 쉽게 생각하면, 최신화 여부를 확인하면 됩니다. 해당 데이터의 내용이 가장 최신 버전인지를 검증하면, 그게 가장 정확한 정보입니다. 이를 위해서는 여러 경로로 파생된 중복 데이터들을 제거하는 작업을 병행해야 합니다. 이를 다크데이터, 혹은 ROT데이터라고 합니다. (과거 포스팅에서 많이 다뤘었죠!) 불필요한 데이터가 많으면, 최신 버전을 확인하기가 어렵고, 이는 데이터의 품질을 저해하는 가장 주된 원인입니다.
데이터의 보관 상태도 중요합니다. 신발은 신발장에, 옷은 옷장에 보관하면 되지만 데이터는 그렇지 않습니다. 여기저기 퍼져 있습니다. 이메일에도 있고, 서버에도 있고, 별도의 드라이브에도 있고, 클라우드에도 있습니다. 여기저기 파편화된 정보 속에서 가장 품질 좋은 데이터를 찾아내야 합니다. 데이터의 버전 이력도 자산화해 잘 관리되고 있어야 합니다. 그래야 데이터의 고품질을 확보할 수 있습니다.

좀 어려우신가요? 파수씨도 쉽지는 않다고 생각합니다. 그 과정이 쉽다면, AI시대의 경쟁력 확보는 큰 의미가 없겠죠! AI 데이터 관리 전문기업 Fasoo는 Wrapsody를 통해 각 조직들의 데이터 품질을 확보하고 있습니다. 앞서 말씀 드린 내용들이 모두 Wrapsody가 현재 하고 있는 일들입니다. 누구나 따라할 수 있다면, 명품이 아니듯이 Fasoo가 하고 있는 일들도 그렇습니다.
이제 생성형 AI를 활용하지 못하는 조직은 도태될 가능성이 매우 높아졌습니다. 이 의미는 곧, 데이터의 품질을 확보하지 못하면 경쟁력을 점점 잃어간다는 뜻과 같습니다. 도태되시겠습니까? 선도하시겠습니까? 정답은 이미 나와 있습니다!
파수 문의하기 | Fasoo Contact Us
여러 번 보는 것보다 한 번의 상담이 더욱 효과적입니다. ‘파수’는 (이하 ‘회사’는) 고객님의 개인정보를 중요시하며, “정보통신망 이용촉진 및 정보보호”에 관한 법률을 준수하고 있습
www.fasoo.com
'IT 트렌드가 한눈에!' 카테고리의 다른 글
DRM과 DLP, 문서중앙화 그리고 층간소음과의 상관관계 (0) | 2025.03.07 |
---|---|
금융보안원, 금융권 AI 보안성 평가 본격 실시! 안전한 AI 활용 환경의 필요성 (1) | 2025.02.26 |
ISDP 2025 보안 컨퍼런스 리뷰, 차세대 데이터 보안 및 AI 활용 전략은? (1) | 2025.02.17 |
국가 망 보안체계(N2SF) 보안 가이드라인 발표, 내용과 CSAP 인증 관련 이슈 정리 (0) | 2025.02.10 |
딥시크 (DeepSeek) 개인정보 수집 논란, AI 개인정보 유출 방지의 필요성 (0) | 2025.02.03 |