Vui lòng điền đầy đủ các thông tin sau

DỊCH VỤ PHÂN TÍCH DỮ LIỆU

Biểu đồ chuỗi thời gian có vai trò rất quan trọng trong việc mô tả sự biến thiên của tập dữ liệu trong một khoảng thời gian nhất định. Chúng cho phép đánh giá những biến động và khám phá xu hướng phát triển trong các lĩnh vực kinh tế - xã hội. Việc hiểu rõ cách sử dụng các loại biểu đồ chuỗi thời gian sẽ giúp người xem dễ dàng “nhìn thấy” ý nghĩa của dữ liệu, từ đó phục vụ quá trình ra quyết định dựa trên dữ liệu tốt hơn.

 

Biểu đồ chuỗi thời gian biểu diễn một chuỗi các điểm dữ liệu theo thứ tự thời gian với khoảng cách đều nhau. Thời gian được biểu diễn ở trục x (trục hoành), còn trục y (trục tung) đại diện cho thang đo. Trong Hình 1, ví dụ về sự tăng trưởng số sáng chế ứng dụng AI trong lĩnh vực chăm sóc sức khỏe trên thế giới theo từng năm trong giai đoạn 2001-2016 được biểu diễn dưới dạng biểu đồ phân tán (scatterplot), cho thấy xu hướng tăng nhẹ số sáng chế từ năm 2001 đến năm 2008 và bắt đầu tăng mạnh từ năm 2010.

Hình 1. Số lượng sáng chế ứng dụng AI trong lĩnh vực chăm sóc sức khỏe trên thế giới giai đoạn 2001-2016, trực quan bằng biểu đồ phân tán (Nguồn dữ liệu: WIPS Global, 18/8/2023)

Trong biểu đồ chuỗi thời gian, thứ tự liên kết của các điểm dữ liệu có thể được biểu diễn một cách trực quan bằng cách kết nối các điểm dữ liệu kề nhau bằng các đường thẳng. Việc kết nối này sẽ tạo ra biểu đồ đường (line graphs), đây cũng là dạng biểu đồ được sử dụng phổ biến khi nhắc đến chuỗi thời gian vì nó liên kết các điểm theo thứ tự thời gian và thể hiện xu hướng chung của dữ liệu (Hình 2). Bên cạnh đó, biểu đồ đường cũng giúp cho việc phát hiện các điểm outliers nằm ngoài xu hướng chung của chuỗi dữ liệu trong các tập dữ liệu lớn dễ dàng hơn.

Hình 2. Số lượng sáng chế ứng dụng AI trong lĩnh vực chăm sóc sức khỏe trên thế giới giai đoạn 2001-2016, trực quan bằng biểu đồ đường (Nguồn dữ liệu: WIPS Global, 18/8/2023)

Có nhiều ý kiến không ủng hộ các đường nối giữa các điểm dữ liệu, vì nó không biểu thị dữ liệu được quan sát, mà chỉ nhằm mục đích hướng dẫn cho mắt người các xu hướng của dữ liệu. Đặc biệt, trong trường hợp nếu chỉ có một vài điểm dữ liệu cách xa nhau (chẳng hạn khi thời gian tính bằng tháng hoặc năm), số liệu tại các điểm quan sát theo thực tế có thể sẽ không nằm đúng trên đường nối. Lúc này, các đường nối được xem là biểu diễn các dữ liệu không có thực.

Tuy nhiên, việc sử dụng các đường nối để biểu diễn chuỗi thời gian vẫn được phần đông người dùng chấp nhận. Trong một số trường hợp, để loại bỏ bớt sự phức tạp trên biểu đồ khi số lượng điểm dữ liệu quá dày đặc, có thể loại bỏ bớt các điểm dữ liệu để người xem tập trung quan sát xu hướng tổng thể của dữ liệu (Hình 3a). Ngoài ra, có thể sử dụng biểu đồ vùng (Area Chart) để tô vùng dưới đường cong bằng một màu đồng nhất, phân tách trực quan diện tích phía trên đường cong và diện tích bên dưới, nhằm nhấn mạnh xu hướng bao trùm trong dữ liệu (Hình 3b).

Hình 3. Số lượng sáng chế ứng dụng AI trong lĩnh vực chăm sóc sức khỏe trên thế giới giai đoạn 2001-2016, (Nguồn dữ liệu: WIPS Global, 18/8/2023)

 

Sử dụng thang đo Logarit biểu diễn chuỗi thời gian

Thang đo Logarit là thang đo phi tuyến tính, được sử dụng để trực quan cho các trường hợp dữ liệu có độ lớn chênh lệch cao (xem lại bài viết Trực quan hóa dữ liệu – Phần 2: Tổng quan về hệ trục tọa độ - Mục 2. Hệ trục tọa độ với thang đo phi tuyến tính). Việc sử dụng thang đo Logarit đặc biệt hữu ích đối với các bộ dữ liệu có sự biến động lớn trong thời gian dài. Trong ví dụ ở Hình 4, hai biểu đồ đều thể hiện xu hướng tăng trưởng các sáng chế ứng dụng AI trong lĩnh vực chăm sóc sức khỏe từ năm 1973 đến 2022, tuy nhiên Hình 4a (sử dụng thang đo tuyến tính) khó quan sát sự biến động trong giai đoạn 1973-2014, nhưng với Hình 4b (sử dụng thang đo Logarit), xu hướng phát triển được biểu diễn rất rõ ràng.

Hình 4. Số lượng sáng chế ứng dụng AI trong lĩnh vực chăm sóc sức khỏe trên thế giới giai đoạn 1973-2022. Trong đó, hình a sử dụng thang đo tuyến tính, hình b sử dụng thang đo Logarit cơ số 10 (Nguồn dữ liệu: WIPS Global, 18/8/2023)

 

Biểu đồ chuỗi thời gian với biến có nhiều yếu tố phân loại

Trong trường hợp biểu đồ cần hiển thị cùng lúc nhiều giá trị phân loại, không nên sử dụng biểu đồ phân tán vì các điểm dữ liệu bị trộn lẫn vào nhau và rất khó đọc kết quả (Hình 5a). Thay vào đó, sử dụng biểu đồ đường sẽ giúp biểu diễn rõ các xu hướng tăng giảm của dữ liệu, kết hợp với việc gán nhãn trực tiếp cho các đường cũng giúp người xem dễ đọc biểu đồ hơn, thay vì chú thích ở một bảng riêng biệt (Hình 5b).

Hình 5. Biến động nhân lực nghiên cứu và phát triển trên địa bàn TP.HCM giai đoạn 2011-2021, chia theo lĩnh vực KH&CN (Nguồn dữ liệu: Điều tra nghiên cứu và phát triển năm 2012,2014,2016,2018,2020,2022)

 

Biểu đồ chuỗi thời gian kết hợp nhiều biến

Trong kinh tế vĩ mô, biểu đồ chuỗi thời gian cũng có thể được sử dụng để trực quan các bộ dữ liệu có nhiều biến phụ thuộc. Ví dụ như sự thay đổi về giá nhà ở trong 12 tháng và tỷ lệ thất nghiệp hàng năm tại Mỹ, với kỳ vọng giá nhà sẽ tăng khi tỷ lệ thất nghiệp thấp và ngược lại. Việc biểu diễn trực quan được thực hiện với hai biểu đồng xếp chồng lên nhau (Hình 6).

Hình 6. Biến động về giá nhà ở trong 12 tháng và tỷ lệ thất nghiệp từ tháng 01/2001 đến tháng 12/2017, dưới dạng hai biểu đồ đường riêng biệt (Nguồn dữ liệu: Fundamentals of Data Visualization (Wike, 2019))

Mặc dù các thông tin trực quan trên biểu đồ hiển thị rõ ràng và dễ hiểu, nhưng do hai biến được hiển thị dưới dạng biểu đồ đường riêng biệt nên việc đánh giá gặp khó khăn trong việc đối chiếu qua lại giữa hai biểu đồ. Để khắc phục vấn đề này, dạng Biểu đồ phân tán được kết nối (Connected scatterplot) được đề xuất sử dụng. Trên biểu đồ chỉ có một đường dữ liệu, màu sắc chạy từ nhạt đến đậm tương ứng từ thời điểm sớm nhất đến thời điểm muộn nhất (Hình 7).

Hình 7. Biến động về giá nhà ở trong 12 tháng và tỷ lệ thất nghiệp từ tháng 01/2001 đến tháng 12/2017, dưới dạng biểu đồ phân tán được kết nối (Nguồn dữ liệu: Fundamentals of Data Visualization (Wike, 2019))

Trong Hình 7, có thể thấy được mối tương quan thuận và nghịch của 2 biến, tương ứng với hướng của các đường cong biểu diễn dữ liệu. Bên cạnh đó, hình dạng các vòng tròn (hay hình xoắn ốc) còn cung cấp thêm thông tin về mối quan hệ có tính chu kỳ trong chuỗi thời gian. Tuy nhiên, với dạng biểu đồ Connected scatterplot, cần chỉ rõ hướng và thang thời gian của dữ liệu bằng thang màu sắc đậm nhạt hoặc mũi tên dọc theo đường dữ liệu để người xem dễ dàng quan sát và hình dung ý nghĩa của dữ liệu.

Duy Sang tổng hợp

----------------------------------------

Tài liệu tham khảo chính:

[1] Wilke, C. O. (2019). Fundamentals of Data Visualization. O’Reilly Media.
[2] Cục Thông tin KH&CN Quốc gia. Dữ liệu Điều tra nghiên cứu khoa học và phát triển công nghệ năm 2012, 2014, 2016, 2018, 2020, 2022; trích xuất trên địa bàn TP.HCM.
[3] Trung tâm Thông tin và Thống kê KH&CN (2023). Báo cáo tổng quan: Xu hướng công nghệ trí tuệ nhân tạo phục vụ lĩnh vực chăm sóc sức khỏe.

 

----------------------------------------

Các bài viết liên quan:

Trực quan hóa dữ liệu – Phần 1: Tổng quan về biểu đồ

Trực quan hóa dữ liệu – Phần 2: Tổng quan về hệ trục tọa độ

Trực quan hóa dữ liệu – Phần 3: Một số dạng biểu đồ thể hiện độ lớn của dữ liệu

Trực quan hóa dữ liệu – Phần 4: Một số dạng biểu đồ thể hiện tỷ lệ của dữ liệu

Trực quan hóa dữ liệu – Phần 5: Các dạng biểu đồ thể hiện sự phân phối của dữ liệu

Trực quan hóa dữ liệu – Phần 6: Các dạng biểu đồ thể hiện sự tương quan của dữ liệu

 

---------------------------------------------------------------------------------------------------

QUÝ ANH/CHỊ CẦN HỖ TRỢ XỬ LÝ, PHÂN TÍCH DỮ LIỆU VUI LÒNG GỬI THÔNG TIN QUA FORM DƯỚI ĐÂY

CHÚNG TÔI SẼ LIÊN HỆ PHẢN HỒI TRONG THỜI GIAN SỚM NHẤT

Back to top

Chưa có tài khoản Đăng ký ngay!

Đăng nhập