Đào tạo và triển khai phân tích dữ liệu chuyên nghiệp

Outlier là gì?

Outlier (hay còn gọi là dữ liệu ngoại lai) là một thuật ngữ vô cùng phổ biến trong giới phân tích dữ liệu. Loại bỏ outlier trong dataset sẽ giúp kết quả phân tích của bạn chính xác và sát với thực tế hơn. Do đó, trong các bài test đầu vào của các vị trí DA hoặc BI (hoặc khi đi làm cũng vậy), biết cách xác định và xử lí outlier sẽ là một điểm cộng lớn giúp bạn nổi bật hơn trong mắt sếp hay nhà tuyển dụng. Trong bài viết hôm nay, hãy cùng Datatomic tìm hiểu thêm về khái niệm này nhé!

Minh họa về Outlier

Hiểu đơn giản thì Outliers là một hoặc nhiều cá thể có đặc điểm, giá trị khác hẳn với các thành viên còn lại của nhóm. Ví dụ như trong team của bạn có 20 bạn nữ, trong đó 17 bạn có chiều cao dao động từ 1m50 đến 1m70, có 1 bạn duy nhất có chiều cao vượt trội là 1m90, và 2 bạn có chiều cao dưới 1m40. Trong trường hợp này, 3 bạn nữ vừa nói trên chính là outlier của nhóm. Trong cuộc sống bạn có thể gặp gỡ rất nhiều người, nhưng chỉ có 1 người khiến trái tim bạn “rung rinh”, nên người đó chính là outlier của cuộc đời bạn 🥰

Vậy trong trường hợp nào thì Data Analyst cần phải quan tâm đến Outlier?
Trong thực tế, rất có ít khi bạn được giao cho 1 bộ dataset hoàn hảo để phân tích, mà thường sẽ có một số dữ liệu bất thường, và nó có thể ảnh hưởng đến sự chính xác của phân tích của bạn. Các dữ liệu bất thường này có thể do các nguyên nhân:
👉 Lỗi nhập liệu, lỗi hệ thống (ví dụ, bạn admin thay vì nhập chiều cao là 1m50 thì nhập thành 150m)
👉 Các nhân tố đặc biệt, hoặc sự kiện đột biến xảy ra trong bộ dữ liệu (ví dụ, trong tất cả 100 items của shop thì có 1 item có số lượng đơn cao bất thường do item này tham gia chương trình 1k của Shopee)

Việc xác định outlier là bước bắt buộc trong quá trình một Data Analyst làm việc với dữ liệu, nhưng tuỳ vào trường hợp mà bạn sẽ quyết định có loại nó ra khỏi tập dữ liệu của mình khi phân tích hay không. Chắc chắn bạn sẽ cần loại outlier trong nguyên nhân thứ 1, vì nó sẽ ảnh hưởng rất nhiều đến phân tích của bạn (chiều cao trung bình của người trong dataset có thể lên đến vài mét do có một người cao 150m), còn nguyên nhân thứ 2 thì có thể sẽ có trường hợp mà bạn không cần loại outlier ra.

Vậy giả sử bây giờ muốn xác định để loại outlier thì làm như thế nào?
Có một vài phương pháp bạn có thể áp dụng.
⭐ 1. Sort dữ liệu theo thứ tự và kiểm tra giá trị lớn nhất, nhỏ nhất
Sort dữ liệu (bạn có thể dùng Excel cho nhanh) là cách đơn giản mà lại vô cùng hữu hiệu trong việc xác định và loại bỏ outlier trong dữ liệu của bạn. Chỉ cần sắp xếp các giá trị dữ liệu theo giá trị từ lớn đến bé, và sau đó là từ bé đến lớn, bạn sẽ tìm ra được những điểm bất thường trong bộ dữ liệu của mình.

⭐ 2. Visualize dữ liệu
Có 3 loại biểu đồ bạn có thể sử dụng để visualize data nhằm xác định outlier, đó là: boxplot, histogram và scatterplots.
Đối với Boxplot, dữ liệu ngoại lai được xác định sẽ là những dấu chấm (hoặc hoa thị) ở 2 đầu của biểu đồ. Trong khi đối với histogram, outlier thường sẽ nằm tách biệt so với phân phối của bộ dữ liệu. Còn ở histogram chart, dữ liệu ngoại lai thường nằm cách rất xa biểu đồ chính, với số lượng ít.

⭐ 3. Sử dụng kiến thức thống kê
Có một vài phương pháp thống kê bạn có thể sử dụng để xác định outlier, ví dụ như tính giá trị trung bình và độ lệch chuẩn (Standard Deviation – STD). Với bộ dữ liệu có độ phân tán bình thường thì với 3 Standard Deviation (STD), chúng ta sẽ bao phủ được khoảng >99% của dữ liệu. Vậy nên những dữ liệu nằm ngoài 3 STD thường sẽ là Outliers.
Ngoài ra, bạn có thể dựa vào giá trị biên. Việc này khá đơn giản, chúng ta chỉ cần thực hiện so sánh giá trị với Upper whisker và Lower whisker. Nếu giá trị trong dataset nằm bên trong đoạn từ Upper đến lower thì sẽ là expected data, còn ngoài ra sẽ là outliers.

Tiết lộ với bạn, tại khoá học DA Fullstack và DA Essential đang tuyển sinh của Datatomic, bạn sẽ được trang bị đầy đủ kĩ năng và kiến thức để tự thực hiện một bài toán phân tích dữ liệu từ cơ bản đến intermediate, và việc xác định và loại bỏ outlier cũng là một chủ đề quan trọng mà bạn sẽ được học và thực hành rất kĩ. Mọi chi tiết hãy liên hệ fanpage Datatomic bạn nhé ⭐

Chia sẻ bài viết:

Bài viết mới nhất
Query Syntax trong SQL - P2
Query Syntax trong SQL - P1
Naming Convention trong SQL
Ba hiểu lầm thường gặp khi được nói về kỹ năng phân tích dữ liệu
Những chứng chỉ phân tích dữ liệu tốt nhất giúp bạn có thể gây ấn tượng với nhà tuyển dụng - P1.

Bài viết liên quan

nh bài 28- Query Syntax SQL _P2
Query Syntax trong SQL - P2
SQL là ngôn ngữ lập trình phổ biến và gần như được sử dụng mọi lúc khi làm việc truy vấn dữ liệu. Càng...
Xem chi tiết
nh bài 27- Query Syntax SQL _P1 (1)
Query Syntax trong SQL - P1
SQL là ngôn ngữ lập trình phổ biến và gần như được sử dụng mọi lúc khi làm việc truy vấn dữ liệu. Càng...
Xem chi tiết
nh bài 26 - Naming Convention SQL
Naming Convention trong SQL
SQL là ngôn ngữ lập trình phổ biến và gần như được sử dụng mọi lúc khi làm việc truy vấn dữ liệu. Càng...
Xem chi tiết