Data Preprocessing

In-depth explanation

Preprocessing prepares data for modeling by handling missing values, removing duplicates, correcting errors, encoding categories, scaling features, and more. It's often the most time-consuming part of ML projects but is crucial for model performance. Techniques include imputation, normalization, one-hot encoding, and outlier handling.

Examples

Handling missing values

Scaling numerical features

Encoding categories

Related terms

Feature Engineering

More in Data Science

Data Augmentation

Artificially increasing training data by creating modified versions of existing data.

Train-Test Split