Thống kê mô tả (Descriptive Statistics) là các phương pháp sử dụng để tóm tắt hoặc mô tả một tập hợp dữ liệu, một mẫu nghiên cứu dưới dạng số hay biểu đồ trực quan. Các công cụ số dùng để mô tả thường dùng nhất là trung bình cộng và độ lệch chuẩn. Các công cụ trực quan thường dùng nhất là các biểu đồ.
Trong loạt bài “Thống kê mô tả trong nghiên cứu”, 4 nhóm đại lượng của thống kê mô tả sẽ lần lượt được giới thiệu một cách tổng quát và đưa ra những trường hợp sử dụng, bao gồm:
- Các đại lượng về trung tâm
- Các đại lượng về độ phân tán
- Các đại lượng về hình dáng phân phối
- Các đại lượng về sự tương quan
Trong Phần 1 – Các đại lượng về trung tâm, 3 thước đo được sử dụng rộng rãi nhằm biểu diễn một giá trị thể hiện vị trí/xu thế “trung tâm” của tập dữ liệu được giới thiệu: trung bình (mean – trung tâm về mặt giá trị), trung vị (median – trung tâm về mặt vị trí) và yếu vị (mode – trung tâm về mức độ tập trung dữ liệu).
Tổng quan về 3 đại lượng thể hiện vị trí/xu thế “trung tâm” của tập dữ liệu
Trung bình Pythagore (Pythagorean Means) | Trung vị (Median) | Yếu vị (Mode) | ||||
Trung tâm về mặt giá trị | Trung tâm về mặt vị trí | Trung tâm về mức độ tập trung dữ liệu | ||||
ĐỊNH NGHĨA
|
Đại lượng trung bình Pythagore thể hiện trung tâm về mặt giá trị của tập dữ liệu, bao gồm:
|
Trung vị là một số tách giữa nửa lớn hơn và nửa bé hơn của một mẫu, một quần thể, hay một phân bố xác suất. Trung vị là giá trị giữa, có nghĩa ½ quan sát sẽ có các giá trị nhỏ hơn hay bằng số trung vị, và ½ quan sát sẽ có giá trị bằng hoặc lớn hơn số trung vị.
|
Yếu vị là giá trị xuất hiện nhiều lần nhất trong tập dữ liệu. Có tập dữ liệu có 1 mode, có tập dữ liệu có đến 2 hoặc 3 mode và cũng có thể có tập dữ liệu không có mode nào.
|
|||
CÁCH TÍNH
|
|
- Tập dữ liệu có số quan sát (n) là số lẻ: quan sát ở vị trí thứ [(n+1)/2] là số trung vị. - Tập dữ liệu có số quan sát (n) là số chẵn: số trung vị là giá trị trung bình cộng của 2 quan sát nằm ở vị trí n/2 và [(n+2)/2]) Ví dụ đơn giản để tìm số trung vị: Cho tập dữ liệu X={2,4,5,6,7,8,8,8,9,9}. - Tập dữ liệu này có 10 giá trị. Giá trị trung vị là trung bình cộng của quan sát nằm ở vị trí thứ 5(7) và 6(8). Số trung vị là (7+8)/2 = 7,5.
|
Đếm số lần xuất hiện của các giá trị, giá trị xuất hiện nhiều nhất chính là số mode. Ví dụ đơn giản để tìm số mode: Cho tập dữ liệu: X={2,4,5,6,7,8,8,8,9,9}. Tập dữ liệu này có giá trị 8 xuất hiện nhiều nhất (3 lần). Số mode là 8.
|
|||
MÔ TẢ BẰNG ĐỒ THỊ |
||||||
MỘT SỐ ỨNG DỤNG THƯỜNG GẶP VÀ VÍ DỤ MINH HỌA
|
|
- Trung vị là thước đo trung tâm tốt hơn đối với các tập dữ liệu bất đối xứng hay tập dữ liệu bị tác động bởi giá trị ngoại lệ (Outliers [1]). Ví dụ: Giả sử thu nhập hàng năm của 10 hộ dân trong một khu dân cư lần lượt là 1.000$ (5 hộ), 2.000$ (2 hộ), 3.000$ (1 hộ), 30.000$ (1 hộ) và 200.000$ (1 hộ). Thành phố cần rà soát các khu dân cư có thu nhập thấp (dưới 3.000$) để tiến hành các chính sách hỗ trợ. - Ta thấy bình quân thu nhập của khu dân cư này nếu tính bằng trung bình cộng đơn giản sẽ là 24.200$. Tuy nhiên, nếu sử dụng giá trị trung bình để xác định khu dân cư này thuộc nhóm thu thập cao thì nó sẽ rất không phù hợp vì trong nhóm này có 1 hộ dân có mức thu nhập quá chênh lệch so với các hộ còn lại (200.000$) nên đã khiến giá trị trung bình bị đẩy lên cao. Do đó, nên sử dụng giá trị trung vị (1.500$) thay giá trị trung bình để xác định bình quân thu nhập của khu dân cư này. Có thể chia thành 2 nhóm: + Những hộ dân dưới mức thu nhập 1.500$ thuộc diện thu nhập nhấp cần được hỗ trợ; + Những hộ dân trên mức 1.500$ thuộc nhóm thu nhập khá, nhưng những hộ dân có thu nhập dưới 3.000$ trong nhóm này sẽ tiếp tục được xem xét để nhận hỗ trợ của Thành phố.
|
- Yếu vị là đại lượng thống kê mô tả duy nhất có thể vận dụng cho dữ liệu định tính. Ví dụ: Thu thập thông tin về giới tính của công nhân trong một nhà máy sản xuất, biến Giới tính là biến định danh với mã hóa 1 đại diện cho Nam, 2 đại diện cho Nữ. Nếu đếm được nhiều số 1 hơn số 2, tức giá trị của Mode trong tình huống này là 1, đồng nghĩa với công nhân nam nhiều hơn công nhân nữ.
|
|||
MỘT SỐ LƯU Ý |
- Trung bình cộng thường được sử dụng để biểu diễn xu hướng trung tâm, tuy nhiên giá trị của trung bình cộng dễ bị ảnh hưởng bởi các giá trị ngoại lệ và các phân phối bất đối xứng. - Không sử dụng đại lượng trung bình cộng đối với dữ liệu định danh. - Trung bình cộng hạn chế sử dụng với dữ liệu định lượng theo thang đo khoảng. |
Mặc dù giá trị trung vị không chịu ảnh hưởng của các giá trị ngoại lệ và rất dễ tính toán. Tuy nhiên trung vị không thể dùng để dự đoán vì không chính xác bằng trung bình, trung vị thường được dùng để thay thế hoặc bổ sung nhằm điều chỉnh 1 số hạn chế khi sử dụng giá trị trung bình.
|
Yếu vị cũng không bị ảnh hưởng bởi các giá trị ngoại lệ. Tuy nhiên, yếu vị chỉ ổn định khi lượng giá trị nhiều và sẽ khó xác định rõ nếu dữ liệu chỉ có một số ít giá trị. Do yếu vị chỉ đếm số lần xuất hiện nhiều nhất của giá trị trong tập dữ liệu nên có thể có một hoặc nhiều yếu vị hoặc không có yếu vị nào cả.
|
Duy Sang tổng hợp
----------------------------------------
Tài liệu tham khảo:
Hoàng Trọng, Chu Nguyễn Mộng Ngọc. (2011). Thống kê ứng dụng trong kinh tế - xã hội. Hà Nội: NXB Lao Động - Xã hội.
Illowsky et al. (2013). Introductory Statistics. Houston: OpenStax.
Evans, J. R. (2017). Business Analytics. Pearson
Wikipedia. (2021). Arithmetic mean. Retrieved from Wikipedia: https://en.wikipedia.org/wiki/Arithmetic_mean
Wikipedia. (2021). Geometric mean. Retrieved from Wikipedia: https://en.wikipedia.org/wiki/Geometric_mean
Wikipedia. (2021). Harmonic mean. Retrieved from Wikipedia: https://en.wikipedia.org/wiki/Harmonic_mean
----------------------------------------
Các bài viết liên quan:
Thống kê mô tả trong nghiên cứu – Các đại lượng về độ phân tán
Thống kê mô tả trong nghiên cứu – Các đại lượng về hình dáng phân phối
Thống kê mô tả trong nghiên cứu – Các đại lượng về sự tương quan
---------------------------------------------------------------------------------------------------