본문 바로가기
과학, IT 정보

실제 상황에서 데이터 전처리(Data Preprocessing)는 어떻게 이뤄질까

by 넘버원리뷰 2024. 3. 17.

실제 상황 속에서 데이터의 모습들

당신이 속한 지점의 회사 데이터를 분석하고자 할 때, 데이터베이스와 데이터 웨어하우스를 신중하게 조사해야 합니다. 이를 통해 분석에 필요한 속성을 선택할 수 있습니다. 예를 들어, 품목과 가격과 같은 판매 관련 속성들을 선택할 것입니다.

그러나 데이터를 검토하는 과정에서 일부 튜플(레코드)에는 기록된 값이 없는 속성이 있을 수 있습니다. 또한, 각 품목의 할인 여부 정보를 분석에 포함하려고 할 때, 이 정보가 데이터에 기록되어 있지 않은 것을 발견할 수 있습니다.

데이터 분석에 사용하려는 데이터는 다음과 같은 특성을 가질 수 있습니다.

  • 불완전성(Incompleteness) - 일부 튜플에는 속성값이 누락되어 있거나, 관심 있는 속성이 포함되어 있지 않을 수 있습니다. 예를 들어, 특정 판매 기록에서는 가격이나 품목과 같은 정보가 누락되어 있을 수 있습니다.
  • 부정확성 또는 노이즈(불순도)(Inaccuracy or Noisiness) - 데이터에 오류가 포함되어 있거나, 기대한 값과 다른 값이 있을 수 있습니다. 예를 들어, 잘못된 가격이나 잘못된 품목 코드를 가진 판매 기록이 있을 수 있습니다.
  • 일관성 부족(Inconsistency) - 데이터는 일관성이 없을 수 있습니다. 예를 들어, 품목을 분류하는 데 사용되는 부서 코드가 일관되지 않을 수 있습니다. 같은 품목이 서로 다른 부서 코드로 분류되는 경우가 있을 수 있습니다.
    이러한 데이터 품질의 문제들을 해결하고 정확하고 신뢰할 수 있는 분석을 위해서는 데이터를 전처리하여 누락된 값이나 오류를 처리하고, 일관성 있는 데이터를 보장해야 합니다.

데이터는 왜 부정확할까?

  • 데이터 수집 도구의 결함 - 데이터 수집에 사용되는 도구가 결함이 있을 수 있습니다. 예를 들어, 센서의 오작동이나 측정 장비의 부정확성 등이 해당할 수 있습니다.
  • 인간 또는 컴퓨터의 오류 - 데이터 입력 시 인간 또는 컴퓨터의 실수로 인해 부정확한 데이터가 발생할 수 있습니다. 이는 실수로 잘못된 값을 입력하거나, 오타를 낼 수 있습니다.
  • 의도적으로 부정확한 데이터 입력 - 사용자가 개인 정보 제출을 원치 않을 때 필수 필드에 부정확한 데이터 값을 제출할 수 있습니다. 예를 들어, 생일을 "1월 1일"로 선택하여 기본값을 선택하는 것입니다.
  • 데이터 전송 오류 - 데이터가 전송되는 과정에서 오류가 발생할 수 있습니다. 이는 네트워크 연결의 불안정성이나 통신 프로토콜의 오작동으로 인해 발생할 수 있습니다.
  • 네이밍 규칙이나 데이터 코드의 불일치 - 데이터의 네이밍 규칙이나 코드가 일관되지 않을 경우 잘못된 데이터가 발생할 수 있습니다. 예를 들어, 날짜 형식이 다른 경우 데이터의 불일치가 발생할 수 있습니다.
  • 중복된 튜플 - 중복된 튜플이 데이터베이스에 포함되어 있을 경우 데이터 정제가 필요합니다. 중복된 튜플은 분석 결과를 왜곡시키고 분석 과정을 복잡하게 만들 수 있습니다.

이러한 이유는 데이터의 정확성을 저해하고 데이터의 신뢰성을 감소시킬 수 있습니다. 따라서 데이터 전처리 과정에서 이러한 오류를 식별하고 수정하는 것이 중요합니다.

 

불완전한 데이터가 존재하는 이유

  • 관심 속성의 부재 - 분석에 필요한 속성이 항상 사용할 수 있지 않을 수 있습니다. 예를 들어, 판매 거래 데이터에서 고객 정보와 같은 정보가 항상 포함되어 있지 않을 수 있습니다.
  • 중요하지 않다고 판단되어 누락된 데이터 - 일부 데이터가 단순히 입력 시 중요하지 않다고 여겨져서 포함되지 않을 수 있습니다.
  • 오해 또는 장비 오작동으로 인한 데이터 누락 - 데이터가 누락될 수 있는 이유로는 데이터를 이해하는 데 오해가 있거나, 장비의 오작동이나 시스템 오류로 인한 것일 수 있습니다.
  • 기록된 다른 데이터와 일관성이 없는 데이터의 삭제 -기록된 다른 데이터와 일관성이 없는 경우, 해당 데이터가 삭제될 수 있습니다.
  • 데이터 이력 또는 수정 내역의 누락 - 데이터의 변경 내역이나 이력이 기록되지 않거나 누락될 수 있습니다.
  • 추론이 필요한 누락된 데이터 - 일부 속성에 대한 값이 누락된 튜플의 경우, 누락된 데이터를 추론할 필요가 있을 수 있습니다. 예를 들어, 다른 속성의 값을 통해 누락된 데이터를 채우는 등의 방법으로 데이터를 완성할 수 있습니다.

이러한 이유로 인해 데이터는 불완전해질 수 있으며, 이는 분석 결과의 신뢰도를 낮출 수 있습니다. 따라서 데이터 전처리 과정에서 누락된 데이터를 식별하고 처리하는 것이 중요합니다.

 

데이터 품질에는 어떤 것들이 영향을 줄까?

  • 데이터의 목적적 사용(Intended use of the data)
    • 데이터가 사용될 목적은 데이터 품질에 직접적인 영향을 미칩니다. 예를 들어, 특정 분석 목적을 위해 정확하고 완전한 데이터가 필요할 수 있습니다. 목적에 따라 데이터의 품질 기준이 달라질 수 있습니다.
    • 예시. 마케팅 분석가는 주소의 정확도가 80%로 충분하다고 판단하여 이 데이터베이스를 목표 마케팅에 사용하기로 결정합니다. 하지만, 영업 관리자는 데이터베이스의 정확도가 80%로 낮다고 판단할 수 있습니다. 그들은 잘못된 주소가 고객 연락을 끊거나 비효율적인 마케팅 활동을 유발할 수 있다고 생각할 것입니다.
  • 적시성(Timeliness) 
    • 데이터가 시간에 따라 적절한 시점에 제공되는 정도가 데이터 품질에 영향을 미칩니다. 신뢰할 수 있는 데이터는 최신 정보를 반영하고 실시간으로 업데이트되어야 합니다.
    • 예시. 매월 상위 영업 대표의 판매 보너스 분포를 파악하는 것은 중요한 업무입니다. 그러나 일부 영업 대표들이 판매 기록을 제출하는 데 지연될 경우, 데이터의 적시성이 훼손될 수 있습니다. 또한, 월말에 발생하는 수정사항이 데이터베이스에 반영되지 않으면 데이터가 불완전하게 유지될 수 있습니다.
  • 신뢰성(Believability)과 해석 가능성(Interpretability)
    • 데이터의 신뢰성은 데이터가 정확하고 신뢰할 수 있는지에 대한 정도를 나타냅니다. 데이터의 신뢰성은 데이터 수집 방법, 원천, 및 정확성에 따라 달라집니다.
    • 데이터의 해석 가능성은 데이터가 얼마나 쉽게 이해되고 해석될 수 있는지에 대한 정도를 나타냅니다. 데이터가 해석될 수 있으면, 분석가나 의사 결정자가 데이터를 쉽게 이해하고 활용할 수 있습니다.
    • 예시. 신뢰성은 데이터가 사용자들에 의해 얼마나 신뢰 되는지를 반영하며, 해석 가능성은 데이터가 얼마나 쉽게 이해되는지를 반영합니다. 어느 한 시점에서 데이터베이스에는 여러 오류가 있었지만 모두 수정되었습니다. 그러나 이전의 오류로 인해 판매 부서 사용자들에게 많은 문제를 일으켰기 때문에 그들은 더 이상 데이터를 신뢰하지 않습니다. 또한 데이터는 많은 회계 코드를 사용하는데, 판매 부서는 이를 해석하는 방법을 알지 못합니다. 판매 부서 사용자들은 신뢰성과 해석 가능성이 작기 때문에 데이터를 저품질로 간주할 수 있습니다.

이러한 요인들은 데이터 품질을 평가하고 높이는 데 중요한 역할을 합니다. 데이터 품질이 높을수록 데이터를 통해 얻는 정보의 가치가 높아지며, 정확한 결정과 효율적인 전략 수립에 기여합니다.