실제 상황에서 데이터 전처리(Data Preprocessing)는 어떻게 이뤄질까

실제 상황 속에서 데이터의 모습들

당신이 속한 지점의 회사 데이터를 분석하고자 할 때, 데이터베이스와 데이터 웨어하우스를 신중하게 조사해야 합니다. 이를 통해 분석에 필요한 속성을 선택할 수 있습니다. 예를 들어, 품목과 가격과 같은 판매 관련 속성들을 선택할 것입니다.

그러나 데이터를 검토하는 과정에서 일부 튜플(레코드)에는 기록된 값이 없는 속성이 있을 수 있습니다. 또한, 각 품목의 할인 여부 정보를 분석에 포함하려고 할 때, 이 정보가 데이터에 기록되어 있지 않은 것을 발견할 수 있습니다.

데이터 분석에 사용하려는 데이터는 다음과 같은 특성을 가질 수 있습니다.

불완전성(Incompleteness) - 일부 튜플에는 속성값이 누락되어 있거나, 관심 있는 속성이 포함되어 있지 않을 수 있습니다. 예를 들어, 특정 판매 기록에서는 가격이나 품목과 같은 정보가 누락되어 있을 수 있습니다.
부정확성 또는 노이즈(불순도)(Inaccuracy or Noisiness) - 데이터에 오류가 포함되어 있거나, 기대한 값과 다른 값이 있을 수 있습니다. 예를 들어, 잘못된 가격이나 잘못된 품목 코드를 가진 판매 기록이 있을 수 있습니다.
일관성 부족(Inconsistency) - 데이터는 일관성이 없을 수 있습니다. 예를 들어, 품목을 분류하는 데 사용되는 부서 코드가 일관되지 않을 수 있습니다. 같은 품목이 서로 다른 부서 코드로 분류되는 경우가 있을 수 있습니다.
이러한 데이터 품질의 문제들을 해결하고 정확하고 신뢰할 수 있는 분석을 위해서는 데이터를 전처리하여 누락된 값이나 오류를 처리하고, 일관성 있는 데이터를 보장해야 합니다.

데이터는 왜 부정확할까?

데이터 수집 도구의 결함 - 데이터 수집에 사용되는 도구가 결함이 있을 수 있습니다. 예를 들어, 센서의 오작동이나 측정 장비의 부정확성 등이 해당할 수 있습니다.
인간 또는 컴퓨터의 오류 - 데이터 입력 시 인간 또는 컴퓨터의 실수로 인해 부정확한 데이터가 발생할 수 있습니다. 이는 실수로 잘못된 값을 입력하거나, 오타를 낼 수 있습니다.
의도적으로 부정확한 데이터 입력 - 사용자가 개인 정보 제출을 원치 않을 때 필수 필드에 부정확한 데이터 값을 제출할 수 있습니다. 예를 들어, 생일을 "1월 1일"로 선택하여 기본값을 선택하는 것입니다.
데이터 전송 오류 - 데이터가 전송되는 과정에서 오류가 발생할 수 있습니다. 이는 네트워크 연결의 불안정성이나 통신 프로토콜의 오작동으로 인해 발생할 수 있습니다.
네이밍 규칙이나 데이터 코드의 불일치 - 데이터의 네이밍 규칙이나 코드가 일관되지 않을 경우 잘못된 데이터가 발생할 수 있습니다. 예를 들어, 날짜 형식이 다른 경우 데이터의 불일치가 발생할 수 있습니다.
중복된 튜플 - 중복된 튜플이 데이터베이스에 포함되어 있을 경우 데이터 정제가 필요합니다. 중복된 튜플은 분석 결과를 왜곡시키고 분석 과정을 복잡하게 만들 수 있습니다.

이러한 이유는 데이터의 정확성을 저해하고 데이터의 신뢰성을 감소시킬 수 있습니다. 따라서 데이터 전처리 과정에서 이러한 오류를 식별하고 수정하는 것이 중요합니다.

불완전한 데이터가 존재하는 이유

관심 속성의 부재 - 분석에 필요한 속성이 항상 사용할 수 있지 않을 수 있습니다. 예를 들어, 판매 거래 데이터에서 고객 정보와 같은 정보가 항상 포함되어 있지 않을 수 있습니다.
중요하지 않다고 판단되어 누락된 데이터 - 일부 데이터가 단순히 입력 시 중요하지 않다고 여겨져서 포함되지 않을 수 있습니다.
오해 또는 장비 오작동으로 인한 데이터 누락 - 데이터가 누락될 수 있는 이유로는 데이터를 이해하는 데 오해가 있거나, 장비의 오작동이나 시스템 오류로 인한 것일 수 있습니다.
기록된 다른 데이터와 일관성이 없는 데이터의 삭제 -기록된 다른 데이터와 일관성이 없는 경우, 해당 데이터가 삭제될 수 있습니다.
데이터 이력 또는 수정 내역의 누락 - 데이터의 변경 내역이나 이력이 기록되지 않거나 누락될 수 있습니다.
추론이 필요한 누락된 데이터 - 일부 속성에 대한 값이 누락된 튜플의 경우, 누락된 데이터를 추론할 필요가 있을 수 있습니다. 예를 들어, 다른 속성의 값을 통해 누락된 데이터를 채우는 등의 방법으로 데이터를 완성할 수 있습니다.

이러한 이유로 인해 데이터는 불완전해질 수 있으며, 이는 분석 결과의 신뢰도를 낮출 수 있습니다. 따라서 데이터 전처리 과정에서 누락된 데이터를 식별하고 처리하는 것이 중요합니다.

데이터 품질에는 어떤 것들이 영향을 줄까?

데이터의 목적적 사용(Intended use of the data)
- 데이터가 사용될 목적은 데이터 품질에 직접적인 영향을 미칩니다. 예를 들어, 특정 분석 목적을 위해 정확하고 완전한 데이터가 필요할 수 있습니다. 목적에 따라 데이터의 품질 기준이 달라질 수 있습니다.
- 예시. 마케팅 분석가는 주소의 정확도가 80%로 충분하다고 판단하여 이 데이터베이스를 목표 마케팅에 사용하기로 결정합니다. 하지만, 영업 관리자는 데이터베이스의 정확도가 80%로 낮다고 판단할 수 있습니다. 그들은 잘못된 주소가 고객 연락을 끊거나 비효율적인 마케팅 활동을 유발할 수 있다고 생각할 것입니다.
적시성(Timeliness)
- 데이터가 시간에 따라 적절한 시점에 제공되는 정도가 데이터 품질에 영향을 미칩니다. 신뢰할 수 있는 데이터는 최신 정보를 반영하고 실시간으로 업데이트되어야 합니다.
- 예시. 매월 상위 영업 대표의 판매 보너스 분포를 파악하는 것은 중요한 업무입니다. 그러나 일부 영업 대표들이 판매 기록을 제출하는 데 지연될 경우, 데이터의 적시성이 훼손될 수 있습니다. 또한, 월말에 발생하는 수정사항이 데이터베이스에 반영되지 않으면 데이터가 불완전하게 유지될 수 있습니다.
신뢰성(Believability)과 해석 가능성(Interpretability)
- 데이터의 신뢰성은 데이터가 정확하고 신뢰할 수 있는지에 대한 정도를 나타냅니다. 데이터의 신뢰성은 데이터 수집 방법, 원천, 및 정확성에 따라 달라집니다.
- 데이터의 해석 가능성은 데이터가 얼마나 쉽게 이해되고 해석될 수 있는지에 대한 정도를 나타냅니다. 데이터가 해석될 수 있으면, 분석가나 의사 결정자가 데이터를 쉽게 이해하고 활용할 수 있습니다.
- 예시. 신뢰성은 데이터가 사용자들에 의해 얼마나 신뢰 되는지를 반영하며, 해석 가능성은 데이터가 얼마나 쉽게 이해되는지를 반영합니다. 어느 한 시점에서 데이터베이스에는 여러 오류가 있었지만 모두 수정되었습니다. 그러나 이전의 오류로 인해 판매 부서 사용자들에게 많은 문제를 일으켰기 때문에 그들은 더 이상 데이터를 신뢰하지 않습니다. 또한 데이터는 많은 회계 코드를 사용하는데, 판매 부서는 이를 해석하는 방법을 알지 못합니다. 판매 부서 사용자들은 신뢰성과 해석 가능성이 작기 때문에 데이터를 저품질로 간주할 수 있습니다.

이러한 요인들은 데이터 품질을 평가하고 높이는 데 중요한 역할을 합니다. 데이터 품질이 높을수록 데이터를 통해 얻는 정보의 가치가 높아지며, 정확한 결정과 효율적인 전략 수립에 기여합니다.

저작자표시 비영리 변경금지

'과학, IT 정보' 카테고리의 다른 글

데이터를 축소하는 전략에는 어떤 것들이 있을까? (Data Reduction Strategies) (0)	2024.03.18
데이터를 통합하는 이유와 중복성에 대해 알아보자 (0)	2024.03.18
데이터 노이즈 처리와 데이터 정제(Data Cleaning)를 하는 방법들 (0)	2024.03.17
누락 데이터를 처리하는 방법과 약한 감독(Weak Supervision)에 대해 알아보자 (0)	2024.03.17
데이터 전처리(Data Preprocessing)는 왜 필요하고 어떻게 이루어질까? (0)	2024.03.16

세상의모든리뷰

실제 상황에서 데이터 전처리(Data Preprocessing)는 어떻게 이뤄질까

실제 상황 속에서 데이터의 모습들

데이터는 왜 부정확할까?

불완전한 데이터가 존재하는 이유

데이터 품질에는 어떤 것들이 영향을 줄까?

'과학, IT 정보' 카테고리의 다른 글

티스토리툴바

실제 상황에서 데이터 전처리(Data Preprocessing)는 어떻게 이뤄질까

실제 상황 속에서 데이터의 모습들

데이터는 왜 부정확할까?

불완전한 데이터가 존재하는 이유

데이터 품질에는 어떤 것들이 영향을 줄까?

'과학, IT 정보' 카테고리의 다른 글

관련글

티스토리툴바