전체 글29 데이터를 통합하는 이유와 중복성에 대해 알아보자 1. 데이터 통합이란? 데이터 통합은 여러 소스에서 데이터를 통합하여 일관된 저장소에 저장하는 과정입니다. 또한 데이터 관리와 의사 결정 프로세스를 간소화하고 효율적으로 진행하기 위해 필요한 중요한 과정입니다. 이를 통해 일관된 데이터베이스나 데이터 웨어하우스를 구축하여 데이터를 효과적으로 활용할 수 있습니다. 이 과정은 다음과 같은 단계로 이루어집니다: 스키마 통합(Schema Integration) 스키마 통합은 서로 다른 데이터 소스의 스키마를 일치시키는 작업을 의미합니다. 예를 들어, "고객 ID"라는 속성이 한 데이터베이스에서 "고객 번호"로 표현될 수 있습니다. 이러한 상이한 명칭을 통합하여 일관된 스키마를 구축하는 것이 중요합니다. 즉, 다양한 소스에서 메타데이터를 통합하여 일관된 메타데이터.. 2024. 3. 18. 데이터 노이즈 처리와 데이터 정제(Data Cleaning)를 하는 방법들 1. 데이터 노이즈(Noise)란? 데이터 노이즈는 측정된 변수의 무작위 오류 또는 분산을 나타내고 데이터에 포함된 무작위 오류 또는 불규칙성을 나타냅니다. 이는 데이터에서 의미 있는 신호(signal)를 분리하고 이해하는 과정을 방해할 수 있습니다. 데이터 노이즈는 다음과 같은 이유로 발생할 수 있습니다: 노이즈 발생 이유 데이터 수집 도구의 결함 - 데이터 수집 도구가 제대로 작동하지 않거나 부정확한 값을 기록할 수 있습니다. 예를 들어, 센서가 정확하지 않게 측정할 수 있습니다. 데이터 입력 문제 - 사람이 수동으로 데이터를 입력할 때 발생할 수 있는 오타 또는 오류가 있을 수 있습니다. 데이터 전송 문제 - 데이터가 전송되는 동안 발생할 수 있는 통신 오류나 손실이 발생할 수 있습니다. 기술적 제.. 2024. 3. 17. 누락 데이터를 처리하는 방법과 약한 감독(Weak Supervision)에 대해 알아보자 1. 누락 데이터란? 누락된 데이터는 데이터 전처리 과정에서 매우 중요한 측면입니다. 누락된 데이터가 있는 경우 이를 처리하지 않으면 분석 결과에 영향을 미칠 수 있습니다. 따라서 누락된 데이터를 다루는 여러 가지 방법이 있습니다. 아래 방법 중에서 데이터의 특성과 분석 목적에 따라 가장 적합한 방법을 선택하여 누락된 데이터를 처리할 수 있습니다. 튜플 무시하기(Ignore the tuple) - 주로 분류(Classification) 작업을 수행할 때 클래스 레이블이 누락된 경우에 사용됩니다. 그러나 속성당 누락된 값의 비율이 상당히 다를 때 효과적이지 않을 수 있습니다. 수동으로 누락된 값 채우기 (Fill in the missing value manually) - 누락된 값을 직접 채우는 방법이지만.. 2024. 3. 17. 실제 상황에서 데이터 전처리(Data Preprocessing)는 어떻게 이뤄질까 실제 상황 속에서 데이터의 모습들 당신이 속한 지점의 회사 데이터를 분석하고자 할 때, 데이터베이스와 데이터 웨어하우스를 신중하게 조사해야 합니다. 이를 통해 분석에 필요한 속성을 선택할 수 있습니다. 예를 들어, 품목과 가격과 같은 판매 관련 속성들을 선택할 것입니다. 그러나 데이터를 검토하는 과정에서 일부 튜플(레코드)에는 기록된 값이 없는 속성이 있을 수 있습니다. 또한, 각 품목의 할인 여부 정보를 분석에 포함하려고 할 때, 이 정보가 데이터에 기록되어 있지 않은 것을 발견할 수 있습니다. 데이터 분석에 사용하려는 데이터는 다음과 같은 특성을 가질 수 있습니다. 불완전성(Incompleteness) - 일부 튜플에는 속성값이 누락되어 있거나, 관심 있는 속성이 포함되어 있지 않을 수 있습니다. 예.. 2024. 3. 17. 이전 1 ··· 4 5 6 7 8 다음