Dạng biểu đồ sử dụng độ lớn của dữ liệu đôi khi không giúp người xem nhận diện được mối quan hệ giữa các nhóm trong một tổng thể. Trong trường hợp này, ta có thể sử dụng biểu đồ tỷ lệ để biểu diễn các nhóm thành các phần riêng biệt, mà mỗi phần đại diện cho một tỷ lệ của tổng thể.
1. Một số dạng biểu đồ trực quan tỷ lệ đơn giản
Hai dạng biểu đồ tỷ lệ đơn giản và thường gặp nhất là biểu đồ tròn (pie chart) và biểu đồ thanh chồng (stacked chart). Một số dạng biểu đồ tỷ lệ phức tạp hơn, sử dụng phương thức lồng ghép biến phân loại này trong biến phân loại kia nhằm chia nhỏ tập dữ liệu và có thể phân tích theo nhiều biến phân loại cùng một lúc sẽ được trình bày trong mục 2.
Biểu đồ tròn (pie chart)
Biểu đồ tròn chia một vòng tròn thành các phần, sao cho diện tích của mỗi phần tỷ lệ với giá trị mà nó biểu thị. Biểu đồ tròn phù hợp cho tập dữ liệu sử dụng một biến phân loại, với số lượng từ 3-4 nhóm (Hình 1).
Hình 1. Nguồn nhân lực KH&CN tại TP.HCM năm 2018 theo trình độ chuyên môn
(Nguồn dữ liệu: Cục Thông tin KH&CN Quốc gia, 2020)
Biểu đồ tròn không phù hợp nếu số lượng nhóm trong một biến phân loại quá nhiều, hoặc tỷ lệ giữa các biến phân loại xấp xỉ bằng nhau. Trong Hình 2a, nếu không có số liệu cụ thể trên biểu đồ, rất khó để xác định sự chênh lệch giữa các nhóm tuổi từ 20 đến 49. Ngoài ra, với 16 màu cũng khiến biểu đồ mất tính trực quan. Trong tình huống này, ta nên bổ sung thêm biểu đồ thanh đơn để so sánh sự chênh lệch về độ lớn (Hình 2b).
Hình 2. Dân số TP.HCM năm 2019 chia theo nhóm tuổi, được trực quan bằng biểu đồ tròn và biểu đồ thanh
(Nguồn dữ liệu: Cục thống kê TP.HCM, 2020)
Biểu đồ thanh chồng và biểu đồ thanh chồng 100 % (stacked chart, 100% stacked chart)
Thay vì chia dữ liệu thành các phần trong vòng tròn, ta có thể sử dụng biểu đồ thanh chồng để biểu diễn tỷ lệ của từng nhóm dữ liệu so với tổng thể. Biểu đồ thanh chồng là một dạng đặc biệt, có thể trực quan dữ liệu theo độ lớn và theo hình dạng tỷ lệ (Hình 3).
Hình 3. Nguồn nhân lực KH&CN tại TP.HCM năm 2018 theo trình độ chuyên môn được biểu diễn bằng biểu đồ thanh chồng
(Nguồn dữ liệu: Cục Thông tin KH&CN Quốc gia, 2020)
Ngoài ra, trong trường hợp ta muốn tổng hợp nhiều biểu đồ tròn riêng lẻ (Hình 4) thành một biểu đồ chung nhất mà không làm thay đổi tỷ lệ % của từng nhóm, ta có thể sử dụng biểu đồ thanh chồng 100% như Hình 5 để so sánh sự thay đổi về tỷ lệ của từng phần trong tổng thể.
Hình 4. Nguồn nhân lực tại TP.HCM qua 3 đợt tổng điều tra dân số chia theo trình độ chuyên môn được biểu diễn bằng 3 biểu đồ tròn tương ứng với từng đợt
(Nguồn dữ liệu: Cục thống kê TP.HCM, 2020)
Có thể thấy tỷ lệ nhân lực trình độ Tiến sĩ không thay đổi nhiều ở cả 3 năm. Tuy nhiên, tỷ lệ nhân lực trình độ Đại học có xu hướng giảm, còn tỷ lệ nhân lực trình độ Thạc sĩ và Cao đẳng đang có chiều hướng tăng dần.
Hình 5. Nguồn nhân lực tại TP.HCM qua 3 đợt tổng điều tra dân số chia theo trình độ chuyên môn được biểu diễn biểu đồ thanh chồng 100%
(Nguồn dữ liệu: Cục thống kê TP.HCM, 2020)
Giống với biểu đồ tròn, biểu đồ thanh chồng 100% cũng nên sử dụng cho bộ dữ liệu có từ 3-4 nhóm cho biến phân loại dùng để biểu diễn tỷ lệ. Khi số lượng nhóm trong biến này tăng lên, hoặc giá trị giữa các nhóm xấp xỉ bằng nhau, việc dùng biểu đồ thanh chồng 100% để so sánh không mang lại hiệu quả trực quan cho người xem (Hình 6). Thay vào đó, để so sánh riêng số lượng theo độ tuổi trong từng nhóm, chẳng hạn như nhóm “Có vợ/chồng”, ta có thể bổ sung thêm biểu đồ thanh đơn để phân tích chi tiết hơn.
Hình 6. Dân số TP.HCM năm 2019 chia theo nhóm tuổi và chia theo tình trạng hôn nhân, được trực quan bằng biểu đồ thanh chồng 100%
(Nguồn dữ liệu: Cục thống kê TP.HCM, 2020)
Trong các ví dụ minh họa trực quan trên, mặc dù biểu đồ thanh đơn không chỉ ra một cách trực quan mối quan hệ giữa từng nhóm đối với tổng số, nhưng ta có thể sử dụng nó như một biểu đồ bổ sung khi biểu đồ tròn và biểu đồ thanh chồng 100% bị hạn chế về khả năng so sánh giữa các nhóm trong biến phân loại. Wike (2019) đã tóm tắt các ưu và nhược điểm khác nhau của biểu đồ tròn, biểu đồ thanh chồng 100% và biểu đồ thanh đơn trong tài liệu “Các nguyên tắc cơ bản về trực quan hóa dữ liệu” (Bảng 1).
Bảng 1. Ưu và nhược điểm của 3 dạng biểu đồ khi biểu diễn tỷ lệ của dữ liệu
Nguồn: Fundamentals of Data Visualization (Wike, 2019)
2. Trực quan tỷ lệ với nhiều biến phân loại
Trong nhiều trường hợp phân tích, ta muốn đi sâu hơn và chia nhỏ tập dữ liệu theo nhiều biến phân loại cùng một lúc. Chẳng hạn với tập dữ liệu về giới tính (Nam/Nữ) của các nhân viên trong một công ty, ta muốn tiếp tục phân tích cụ thể số lượng người chia theo trình độ chuyên môn trong mỗi giới tính. Các trường hợp này được gọi là tỷ lệ lồng nhau, vì mỗi biến phân loại bổ sung vào sẽ tạo ra một phần nhỏ hơn của dữ liệu được lồng trong các tỷ lệ trước đó. Một số dạng biểu đồ được sử dụng để biểu diễn các tỷ lệ lồng nhau là: biểu đồ sunburst, biểu đồ khảm (mosaic plots), biểu đồ cây (treemaps) và biểu đồ tập hợp song song (parallel sets plot).
Biểu đồ sunburst
Biểu đồ sunburst có thể xem là một dạng mở rộng của biểu đồ tròn (pie chart), được sử dụng để trực quan hóa tập dữ liệu phân cấp. Thay vì chỉ biểu diễn một biến phân loại bằng một vòng tròn, biểu đồ sunburst sử dụng đồng thời nhiều dữ liệu phân loại theo thứ bậc, mỗi thứ bậc sẽ được biểu diễn bằng một vòng tròn đồng tâm. Với vòng tròn càng rộng, thứ bậc sẽ càng giảm, các lát trong có thể được tô màu để làm nổi bật thứ bậc hoặc danh mục muốn thể hiện (Hình 7).
Hình 7. Phân bổ huy chương vàng tại Thế vận hội Olympic ở Sochi (2014) theo quốc gia và môn thể thao
(Nguồn: www.anychart.com)
Biểu đồ sunburst sử dụng bố cục xuyên tâm để tạo hình ảnh trực quan của tập dữ liệu được phân loại. Nó cho thấy sự liên kết giữa các vòng tròn với nhau khi xử lý theo nhiều cấp độ. Do đó, biểu đồ sunburst rất hiệu quả để giới thiệu cách một vòng tròn được tách thành các phần cấu thanh ra nó, cũng như cho thấy sự đóng góp của một thứ nguyên cụ thể trong hệ thống phân cấp đó.
Tuy nhiên, trong trường hợp có quá nhiều phân cấp, cấu trúc xuyên tâm của biểu đồ sunburst chỉ có thể giúp xem tổng quan thông tin, khó quan sát chi tiết, khi các phân cấp trở trên chằng chịt và quá nhỏ (Hình 8). Ngoài ra, đối với mắt người, việc hiểu các phép đọc góc là rất khó.
Hình 8. Dân số Châu Âu (2014) theo khu vực và quốc gia
(Đơn vị: triệu người; Nguồn: www.anychart.com)
Biểu đồ khảm (mosaic plots)
Biểu đồ khảm (còn được gọi là biểu đồ marimekko) là một phương pháp trực quan hóa dữ liệu từ hai hoặc nhiều biến định tính. Nó cung cấp cái nhìn tổng quan về dữ liệu và mối quan hệ giữa các biến khác nhau. Cũng như biểu đồ thanh, diện tích của các ô tỷ lệ thuận với số lượng quan sát trong danh mục đó.
Biểu đồ khảm nhìn tương tự như biểu đồ thanh chồng, nhưng thay vì các thanh cùng độ rộng, biểu đồ khảm có chiều rộng tỷ lệ với khối lượng dữ liệu. Ví dụ trong Hình 9 về chất liệu (gỗ, sắt, thép) và thời kỳ xây dựng (thủ công, mới nổi, trưởng thành, hiện đại) các cây cầu ở Pittsburgh. Bề ngang của mỗi ô tỷ lệ thuận với số lượng cây cầu được xây dựng trong thời kỳ đó và độ cao của mỗi ô tỷ lệ thuận với số lượng cây cầu được xây dựng từ vật liệu đó.
Hình 9. Các cây cầu ở Pittsburgh theo vật liệu và theo thời kỳxây dựng, được biểu diễn dưới dạng biểu đồ khảm (Wike, 2019)
Điều kiện quan trọng khi xây dựng biểu đồ khảm là biểu đồ phải mang tính tổng quát cho toàn bộ tập dữ liệu, tức là biểu đồ phải hiển thị được tất cả các quan sát theo các biến phân loại. Trong Hình 9, ta có thể quan sát được tổng số những cây cầu ở Pittsburgh thông qua 4 thời kỳ xây dựng, hay thông qua 3 loại vật liệu sử dụng với 3 màu sắc riêng biệt.
Ngoài ra, mặc dù không có giới hạn về số lượng biến phân loại, nhưng sử dụng quá nhiều biến trong biểu đồ khảm có thể khiến người xem khó nhìn rõ các thông tin trên biểu đồ và làm biểu đồ mất tính trực quan.
Biểu đồ dạng cây (treemaps)
Biểu đồ dạng cây là một phương pháp hiển thị dữ liệu phân cấp bằng cách sử dụng các hình lồng nhau (thường là hình chữ nhật). Mỗi nhánh của cây có một hình chữ nhật, được lồng các hình chữ nhật nhỏ hơn đại diện cho các nhánh phụ hoặc lá. Các nhánh phụ hoặc lá có diện tích tỷ lệ với giá trị của dữ liệu.
Trong biểu đồ dạng cây, một nhánh thường được tô cùng một màu hoặc theo một thang màu tuần tự để hiển thị một vùng dữ liệu riêng biệt. Ví dụ trong trường hợp của những cây cầu ở Pittsburgh (Hình 10), tổng diện tích được chia thành ba phần đại diện cho ba vật liệu xây dựng là gỗ, sắt và thép với 3 thang màu chính (xanh dương cho thép, xanh lục cho gỗ và cam cho sắt). Sau đó, thực hiện chia nhỏ hơn nữa từng thời kỳ xây dựng đại diện cho từng loại vật liệu sao cho diện tích các hình chữ nhật tương ứng với số lượng cầu của loại đó.
Hình 10. Các cây cầu ở Pittsburgh theo vật liệu và theo thời kỳ xây dựng, được biểu diễn dưới dạng biểu đồ cây (Wike, 2019)
Biểu đồ dạng cây hoạt động tốt ngay cả khi dữ liệu kết hợp cùng lúc nhiều biến định tính và định lượng. Đặc biệt khi có cùng lúc 2 dữ liệu định lượng tương ứng với kích thước các hình chữ nhật và màu sắc, mặc dù có thể khó diễn giải theo cách trực quan khác nhưng với biểu đồ dạng cây, ta có thể dễ dàng hiểu được ý nghĩa. Chẳng hạn như trong Hình 11, Hoa Kỳ được tách thành 4 khu vực: West (Tây), Northeast (Đông Bắc), Midwest (Trung Tây) và South (Nam) với mỗi khu vực bao gồm các tiểu bang riêng biệt. Trong đó,
• Mỗi hình chữ nhật đại diện cho một tiểu bang và diện tích của mỗi hình chữ nhật tỷ lệ với diện tích đất của tiểu bang.
• Màu sắc tỷ lệ với số lượng cư dân của mỗi tiểu bang, với các màu tối hơn thể hiện số lượng cư dân lớn hơn.
Hình 11. Thông tin về diện tích và dân số các tiểu bang ở Hoa Kỳ năm 2010 được trực quan bằng biểu đồ dạng cây (Wike, 2019)
Cả biểu đồ khảm và biểu đồ dạng cây đều được sử dụng phổ biến, nhưng chúng có những hạn chế tương tự như biểu đồ thanh chồng. Việc so sánh trực tiếp giữa các hình chữ nhật trong cùng một nhánh có thể khó khăn, do hình dạng của các hình chữ nhật gần như tương đồng. Một trong các giải pháp cho vấn đề này là ta nên hiển thị số lượng hoặc tỷ lệ % trực tiếp trên biểu đồ để mang lại thông tin đầy đủ cho người xem.
Biểu đồ tập hợp song song (parallel sets plot)
Khi dữ liệu có nhiều hơn hai biến phân loại, biểu đồ sunburst, biểu đồ khảm và biểu đồ dạng cây đều có thể nhanh chóng trở nên khó sử dụng. Trong trường hợp này, ta có thể dùng biểu đồ tập hợp song song. Theo đó, tổng số dữ liệu được chia nhỏ theo từng biến phân loại riêng lẻ và các nhóm của từng biến phân loại sẽ được liên kết với nhau thông qua các dải màu.
Ví dụ trong Hình 12, dữ liệu các cây cầu ở Pittsburgh được chia nhỏ theo 4 biến phân loại: vật liệu xây dựng (sắt, thép, gỗ), chiều dài của mỗi cây cầu (dài, trung bình, ngắn), thời điểm mỗi cây cầu được xây dựng (thủ công, mới nổi, trưởng thành, hiện đại), và con sông mà mỗi cây cầu bắc qua (Allegheny, Monongahela, Ohio). Các dải màu kết nối các biến phân loại được bắt đầu từ trái qua phải và tô màu phân loại theo 3 loại vật liệu.
Hình 12. Các cây cầu ở Pittsburgh theo 4 biến phân loại (vật liệu, độ dài, thời kỳ và tên sông bắc ngang) được biểu diễn dưới dạng biểu đồ lưu lượng (Wike, 2019)
Biểu đồ cho thấy, những cây cầu gỗ theo đường màu xanh lá chủ yếu có chiều dài trung bình (một số ngắn), chủ yếu được dựng lên trong thời kỳ thủ công (một vài cây cầu có chiều dài trung bình được dựng lên trong thời kỳ mới nổi và trưởng thành), và chủ yếu bắc qua sông Allegheny (một vài cây cầu thủ công bắc qua sông Monongahela). Ngược lại, những cây cầu sắt đều có chiều dài trung bình, chủ yếu được xây dựng trong thời kỳ thủ công, bắc qua sông Allegheny và sông Monongahela với tỷ lệ xấp xỉ bằng nhau.
Khi dùng dạng biểu đồ tập hợp song song, ta nên bắt đầu dải màu theo hướng từ trái qua phải, điều này sẽ người xem dễ dàng quan sát dải màu bắt nguồn từ đâu và cách nó di chuyển qua tập dữ liệu. Ngoài ra, thứ tự sắp xếp của các biến phân loại trên biểu đồ cũng cần lưu ý sao cho các dải màu đan chéo nhau được giảm xuống mức tối thiểu.
Duy Sang tổng hợp
----------------------------------------
Tài liệu tham khảo:
– Cục Thống kê TP.HCM. (2020). Kết quả Tổng điều tra dân số và nhà ở tại TP.HCM năm 1999, 2009, 2019.
– Cục Thống kê TP.HCM. (2020). Thực trạng dân số qua Tổng điều tra dân số và nhà ở thời điểm 0 giờ ngày 01 tháng 4 năm 2019.
– Cục Thông tin KH&CN Quốc gia. (2020). Kết quả điều tra Tiềm lực KH&CN năm 2019 – Dữ liệu trích xuất trên địa bàn TP.HCM.
– Wike. (2019). Fundamentals of Data Visualization. Sebastopol: O’Reilly Media.
– Wikipedia. (2021). Mosaic plot. Retrieved from Wikipedia: https://en.wikipedia.org/wiki/Mosaic_plot
– Wikipedia. (2021). Treemapping. Retrieved from Wikipedia: https://en.wikipedia.org/wiki/Treemapping
----------------------------------------
Các bài viết liên quan:
Trực quan hóa dữ liệu – Phần 1: Tổng quan về biểu đồ
Trực quan hóa dữ liệu – Phần 2: Tổng quan về hệ trục tọa độ
Trực quan hóa dữ liệu – Phần 3: Một số dạng biểu đồ thể hiện độ lớn của dữ liệu
Trực quan hóa dữ liệu – Phần 5: Các dạng biểu đồ thể hiện sự phân phối của dữ liệu
Trực quan hóa dữ liệu – Phần 6: Các dạng biểu đồ thể hiện sự tương quan của dữ liệu
---------------------------------------------------------------------------------------------------