Trực quan hóa dữ liệu – Phần 2: Tổng quan về hệ trục tọa độ

Chi tiết: Chuyên mục: Tài liệu phân tích thống kê; Được đăng: 20 Tháng 10 2021; Lượt xem: 6322

Để trực quan dữ liệu, cần xác định vị trí của các giá trị dữ liệu khác nhau trên biểu đồ. Đối với trực quan bằng biểu đồ 2D, thang đo vị trí sẽ có 2 giá trị (thông thường là y cho trục tung và x cho trục hoành); với biểu đồ 3D sẽ có thêm 1 giá trị (thông thường là z cho trục thứ 3, ngoài các trục x và y). Sự kết hợp của một tập hợp các thang đo vị trí và sự sắp xếp hình học tương đối của chúng được gọi là một hệ trục tọa độ. Bài viết này sẽ trình bày 3 hệ trục tọa độ thường gặp: hệ trục tọa độ Descartes với thang đo tuyến tính; hệ trục tọa độ với thang đo phi tuyến tính và hệ trục tọa độ đường cong.

1. Hệ trục tọa độ Descartes với thang đo tuyến tính

Hệ trục tọa độ được sử dụng rộng rãi nhất để trực quan hóa dữ liệu là hệ trục tọa độ Descartes 2D, trong đó mỗi vị trí được xác định duy nhất bởi một giá trị x và một giá trị y (Wike, 2019). Hình 1 là minh họa cho một hệ trục tọa độ Descartes tiêu chuẩn với trục x và y chạy trực giao [1] với nhau và các giá trị dữ liệu được đặt trong một khoảng cách đều dọc theo cả hai trục.

Trong thực tế, dữ liệu thường đi kèm với các đơn vị tính (VD nhiệt độ: oC, oF; khoảng cách: dặm, km; thời gian: giờ, phút,… ), vì vậy khoảng cách giữa các đơn vị hiển thị trên đường lưới của trục x và y có thể thay đổi theo từ bước để giảm bớt sự phức tạp của biểu đồ (ví dụ: 5^oC, 10^oC hay 5km, 10km).

Hình 1. Hệ trục tọa độ Descartes tiêu chuẩn (Wike, 2019)

Hệ trục tọa độ Descartes có thể có hai trục biểu diễn 2 đơn vị khác nhau, khi đó ta có thể kéo dãn hoặc nén trục này so với trục kia và duy trì hình ảnh trực quan hợp lệ của dữ liệu. Tuy nhiên, khi 2 trục biểu diễn cùng một đơn vị thì khoảng cách lưới cho hai trục phải bằng nhau, sao cho trong cùng một khoảng cách dọc theo trục x hoặc y tương ứng với cùng một khoảng đơn vị dữ liệu. Bên cạnh đó, do hệ trục tọa độ Descartes là bất biến dưới các phép biến đổi tuyến tính (ví dụ như thay đổi đơn vị nhiệt độ từ độ F thành độ C), do đó việc thay đổi đơn vị sẽ không làm thay đổi hình dạng của biểu đồ (Hình 2).

Hình 2. Thay đổi đơn vị không ảnh hưởng đến kết quả trực quan hóa dữ liệu trong hệ trục tọa độ Descartes (hình a biểu diễn dữ liệu với đơn vị ^oF, hình b biểu diễn với đơn vị ^oC)
(Wike, 2019)

2. Hệ trục tọa độ với thang đo phi tuyến tính

Đối với hệ trục tọa độ Descartes, có thể thấy các đường lưới dọc theo trục x và y được đặt cách đều nhau cả về đơn vị dữ liệu và hình ảnh trực quan kết quả, thang đo này được gọi là thang đo tuyến tính. Tuy nhiên, không phải lúc nào thang đo tuyến tính cũng hiệu quả để trực quan dữ liệu, đặc biệt là khi dữ liệu có sự chênh lệch quá lớn.

Thang đo phi tuyến được sử dụng phổ biến nhất là thang đo logarit, gọi tắt là thang đo log. Thang đo log là tuyến tính trong phép nhân, sao cho một bước đơn vị trên thang tương ứng với phép nhân với một giá trị cố định. Để tính toán các giá trị trên thang đo log, cần biểu thức hóa các giá trị dữ liệu bằng cách tính lũy thừa các số hiển thị trên trục.

Ví dụ trong Hình 3 (bên dưới) sử dụng 5 giá trị (1; 3,16; 10; 31,6; 100) đặt trên thang đo tuyến tính (a) và đặt trên thang đo log (c). 5 giá trị này được chọn vì biểu diễn khoảng cách đều nhau trên thang đo log. Tuy nhiên, lưu ý tiêu đề của trục cho thang đo logarit là tên của biến được hiển thị; giá trị 1 trên thang đo logarit được xem là trung điểm tự nhiên, tương tự như giá trị 0 trên thang đo tuyến tính.

Hình 3. Mối quan hệ giữa thang đo tuyến tính và thang đo logarit (các dấu chấm tương ứng với các giá trị 1; 3,16; 10; 31,6 và 100, là các số cách đều nhau trên thang đo logarit)
(Wike, 2019)

Thang đo logarit thường được sử dụng để trực quan cho các trường hợp dữ liệu có độ lớn rất khác nhau. Ví dụ trong Hình 4 về sự so sánh số dân giữa các quận trong bang Texas (Mỹ). Có thể thấy trong Hình 4(a), các quận đông dân nhất có sự chênh lệch rất lớn so với các quận còn lại và rất khó để so sánh sự chênh lệch ở các quận có dân số thấp. Vì vậy, thang đo logarit trong Hình 7(b) trở nên phù hợp hơn để biểu diễn sự so sánh. Đường nét đứt biểu thị tỷ lệ 1 (100), tương ứng với một quận có số dân trung bình. Các quận đông dân nhất có số dân gấp khoảng 100 lần so với quận trung bình, và các quận ít dân nhất có dân số ít hơn quận trung bình khoảng 100 lần.

Hình 4. Số dân của các quận Texas theo giá trị trung vị (Wike, 2019)

3. Hệ trục tọa độ đường cong

Trong một số trường hợp đặc biệt, hệ trục tọa độ Descartes không phù hợp để biểu diễn dữ liệu. Khi dữ liệu có tính chất chu kỳ (tháng/quý) hoặc có tính chất không gian địa lý (bản đồ thế giới), các hệ trục tọa độ cong sẽ phù hợp để trực quan hóa dữ liệu hơn.

Hệ tọa độ cực

Hệ tọa độ cực thường được sử dụng cho dữ liệu có tính chất chu kỳ như dữ liệu tháng hay quý. Khi đó, các giá trị trên trục tung y tương ứng với bán kính của cung tròn, các giá trị trên trục hoành x được thể hiện qua vị trí trên 1 cung tròn. Ví dụ chuẩn nhiệt độ hàng ngày tại 4 địa điểm ở Hoa Kỳ (Death Valley, Houston, San Diego, Chicago) trong Hình 5b cho thấy, nhiệt độ hàng ngày theo độ F và các ngày trong năm được sắp xếp ngược chiều kim đồng hồ bắt đầu từ ngày 01/01 ở vị trí 6h00, các vòng tròn với 4 màu khác nhau tương ứng với 4 địa điểm.

Hình 5. Mối quan hệ giữa hệ trục tọa độ Descartes và hệ tọa độ cực (Wike, 2019)

Với hệ tọa độ cực trong Hình 5b, có thể thấy rõ nhiệt độ ở Death Valley, Houston và San Diego gần như tương tự từ cuối mùa thu đến đầu mùa xuân. Trong khi đó, với hệ trục tọa độ Descartes, vấn đề này khó nhìn thấy hơn vì các giá trị nhiệt độ vào cuối tháng 12 và đầu tháng 1 được hiển thị ở các phần đối diện của Hình 5a, không tạo thành một hình ảnh duy nhất.

Tương tự, thay vì trực quan nhiệt độ trung bình theo địa điểm, hệ tọa độ cực cũng có thể trực quan theo năm để xác định sự biến động thời tiết (Hình 6).

Hình 6. Biến động nhiệt độ trung bình hàng tháng tại miền Tây Australia từ năm 2010-2016
(Nguồn dữ liệu: Kaggle.com)

Dữ liệu bản đồ

Vì Trái Đất là một hình cầu, việc vẽ vĩ độ và kinh độ như hệ trục tọa độ Descartes là sai lệch và không được khuyến khích. Do đó, nhiều phép chiếu khác nhau dùng trục cong phi tuyến để giảm thiểu các yếu tố bất thường về mặt hiển thị và tạo ra sự cân bằng khác nhau giữa các khu vực hoặc góc so với hình dạng thực trên quả địa cầu (Hình 7).

Hình 7. Bản đồ thế giới được hiển thị trong bốn phép chiếu khác nhau (Wike, 2019)

4 phép chiếu bản đồ thế giới được trực quan trong Hình 7 cho thấy:

- Phép chiếu “Hệ thống kinh độ và vĩ độ Descartes” (Cartesian longtitude and latitude): phép chiếu này gây ra những biến dạng đáng kể ở cả khu vực và góc độ so với giá trị thực của chúng trên quả địa cầu 3D.

- Phép chiếu “Goode homolosine gián đoạn” (Interrupted Goode homolosine): thể hiện một cách hoàn hảo các diện tích bề mặt thực, tuy nhiên hạn chế là một số khu vực bị chia thành các phần riêng biệt như Greenland và Antarctica.

- Phép chiếu Robinson và phép chiếu Winkel tripel: đều tạo ra sự cân bằng biến dạng giữa góc và diện tích, 2 phép chiếu này thường được sử dụng cho các bản đồ của toàn bộ địa cầu.

Duy Sang tổng hợp

Chú thích:
[1] Trực giao: Trong toán học, hai vectơ trực giao khi và chỉ khi tích vô hướng của chúng bằng 0, tức là chúng tạo thành một góc 90°. Nói cách khác, trong hệ trục tọa độ Descartes, x và y trực giao, tức x và y vuông góc với nhau.

----------------------------------------

Tài liệu tham khảo:

– Wilke, C. O. (2019). Fundamentals of Data Visualization. O’Reilly Media.

----------------------------------------

Các bài viết liên quan:

Trực quan hóa dữ liệu – Phần 1: Tổng quan về biểu đồ

Trực quan hóa dữ liệu – Phần 3: Một số dạng biểu đồ thể hiện độ lớn của dữ liệu

Trực quan hóa dữ liệu – Phần 4: Một số dạng biểu đồ thể hiện tỷ lệ của dữ liệu

Trực quan hóa dữ liệu – Phần 5: Các dạng biểu đồ thể hiện sự phân phối của dữ liệu

Trực quan hóa dữ liệu – Phần 6: Các dạng biểu đồ thể hiện sự tương quan của dữ liệu