1) Data quality problems - 데이터의 최대/최소가 다름 -> Scale에 따른 y값에 영향 - Ordinary 또는 Nominal한 값들(범주형 데이터)의 표현은 어떻게? - 잘못 기입된 값들에 대한 처리 - 값이 없을 경우는 어떻게? - 극단적으로 큰 값 또는 작은 값들은 그대로 놔둬야 하는가? 2) Data preprocessing issues 기본적으로 아래의 세 가지에 대해 전처리를 한다. - 데이터가 빠진 경우 (결측치의 처리) - 라벨링된 데이터(category) 데이터의 처리 - 데이터의 scale의 차이가 매우 크게 날 경우 3) Missing Values 데이터가 없을 때 할 수 있는 전략은 아래와 같다. ◆ 데이터가 없으면 sample을 drop ◆ 데이터가 없는 최..