Câu chuyện về người làm data

Trung bình và trung vị – hiểu sâu sắc dữ hiệu hơn

Bạn cảm nhận thế nào về thông tin ở ảnh dưới?


Có thể thoáng chốc bạn cho rằng lương ngân hàng cao thật, đúng là vua của mọi nghề. Nhưng sau đấy có gì đó không ổn, ok vậy đọc tiếp để mình giải thích cho nhé.

TRUNG BÌNH – dễ tính nhưng dễ lầm

Có một con số thống kê rất hay được sử dụng đó là bình quân hay TRUNG BÌNH (mean/average). Ví dụ như tốc độ trung bình, điểm trung bình, doanh thu trung bình hay lương trung bình tháng. Nó giúp chúng ta nhanh chóng nắm bắt được giá trị trung tâm của 1 tập hợp các số. Và cách tính cũng rất đơn giản – Trung bình = tổng số / số lượng – cực dễ hiểu, dễ sử dụng nên khiến phép tính trung bình trở nên phổ biến trong bất kì thống kê nào.

Tuy nhiên lượng thông tin nó mang lại không nhiều nên rất dễ khiến chúng ta hiểu nhầm về ý nghĩa đại diện của nó. Trung bình 46tr là giá trị ở giữa tức là sẽ có người thấp hơn 46tr và người cao 46tr, nhưng là bao nhiêu người thấp hơn và cao hơn? Con số trung bình không cho ta biết được điều này.

Ví dụ có tổng 129 người với mức lương như sau:
– 100 người lương 10tr
– 15 người 200tr
– 5 người 300tr
Trung bình cũng là khoảng 46tr. Như vậy giá trị trung bình dễ bị kéo bởi các giá trị cực đại nhưng là thiểu số (hay còn gọi là ngoại lệ – outlier). Để giải quyết vấn đề trên, có một số cách thống kê khác để bổ sung thông tin giúp nhìn nhận rõ hơn về ngữ cảnh và môi tương quan.

TRUNG VỊ (median)

Trung vị là giá trị ở giữa trong tập dữ liệu. Có nghĩa là một nửa giá trị trong tập dữ liệu lớn hơn trung vị và một nửa giá trị nhỏ hơn trung vị. Cách tính trung vị sẽ phức tạp hơn: sắp xếp giá trị trong dãy số từ bé đến lớn, lấy giá trị ở vị trí chính giữa dãy số.

Ở ví dụ trên trung vị = 10tr nghĩa là 59 người có lương thấp hơn 10tr và 59 người lương cao hơn 10tr. Rõ ràng trung vị sẽ đại diện cho số đông tốt hơn là trung bình.

Mở rộng thêm: TỨ PHÂN VỊ

Tương tự như trung vị được coi là điểm giữa chia ra 2 khoảng 50% thì ta tính thêm các vị trí khác gồm:
– Q1: 25%-75% (25% giá trị trong toàn bộ tập dữ liệu nằm dưới Q1 và 75% ở trên nó)
– Q2: là trung vị
– Q3: 75%-25% (75% giá trị trong toàn bộ tập dữ liệu nằm dưới Q3 và 25% ở trên nó)

Khi tính được tứ phân vị chúng ta sẽ có bức tranh tổng thể hơn về phân phối dữ liệu của bạn, từ các giá trị cực trị đến trung tâm. Bạn có thể hình dung nó bằng một biểu đồ hình hộp. Các giá trị outlier sẽ nằm gần sát ở 2 đầu của biểu đồ và nên được loại bỏ để có một phân tích chính xác hơn.

Ứng dụng thực tế

Một trường hợp sử dụng khá tốt các con số thống kê là ở tiktok shop. Các điểm số đánh giá shop là trung bình của trong 1 khoảng thời gian. Nếu chỉ có con số này không thì cũng rất khó nhận định vậy là shop đang tốt hay bình thường. Bên dưới có dòng “tốt hơn xx % các shop khác” chính là con số phân vị (chia vị trí ra thành nhiều mức % hơn so với 3 mức ở trên) .

Tóm lại chỉ có con số trung bình rất khó để để xác định bối cảnh và mối tương quan, dễ khiến chúng ta đưa ra những nhận định sai lầm. Nhìn nhận dữ liệu ở nhiều góc độ khác nhau là bí quyết cho một Data-er, một trong các cách đó là xác định thêm chỉ số phân vị.

Leave a Reply

Your email address will not be published. Required fields are marked *