Kiểu dữ liệu: Dữ liệu phổ biến được lưu trữ trong R bao gồm:
- Dữ liệu kiểu "Character" là dữ liệu kiểu chuỗi, xâu ký tự, dữ liệu kiểu này được đặt trong dấu ngoăc kép.
- Dữ liệu kiểu số thực "Numeric", ví dụ như 2.345, pi, ....
- Dữ liệu kiểu số nguyên "Integer".
- Dữ liệu kiểu logic "Logical" là dữ liệu kiểu dạng TRUE hoặc FALSE.
Cấu trúc dữ liệu
Cấu trúc dữ liệu được phân loại dựa trên nội dung bên trong cấu trúc của nó. Cấu trúc đó dữ liệu được chia thành 2 dạng, dạng đồng nhất (kiểu dữ liệu là như nhau - homogeneous), dạng không đồng nhất (kiểu dữ liệu khác nhau - heterogenous). Các dạng cấu trúc dữ liệu phổ biến trong R bao gồm: vectors, matrices, lists, data frames.
Kiểu Vector: Vector là một chuỗi một chiều của các phần tử dữ liệu cùng kiểu. Các vector được xây dựng với hàm c(). Hàm c() cho phép ghép, kết nối các phần tử lại với nhau. Ví dụ:
Để biết được kiểu dữ liệu trong các cấu trúc dữ liệu là gì, chúng ta sử dụng hàm str()
“num” chỉ ra rằng x có kiểu dữ liệu dạng “Numeric”.
Sử dụng hàm length() để biết chiều dài của một vector.
Hàm c() cho phép ghép các vector lại với nhau (vector sau gắn vào sau phần tử cuối cùng của vector trước)
Trong cấu trúc dữ liệu kiểu vector, chúng ta sử dụng một số hàm chức năng khác để thao tác với cấu trúc dữ liệu này:
Sử dụng hàm seq(from=…, to=…, by=…) để tạo ra một chuỗi số cách đều nhau, tham số by có nghĩa là khoảng cách giữa các số. Nếu by=1, thì seq(a, b, 1) được viết gọn thành (a:b).
Kiểu Factors: Factors là một cấu trúc dữ liệu đặc biệt để làm việc với dữ liệu phân loại. Dữ liệu phân loại biểu thị dữ liệu chỉ khác nhau theo nhãn hoặc xếp hạng. Trong R, Factors là một kiểu đặc biệt của vector số nguyên có nhãn.
Hàm str () sẽ cho biết rằng vector là factors, hiển thị một số cấp độ và hiển thị ánh xạ cơ bản của các cấp độ. Hàm summary () sẽ tự động đếm sự xuất hiện của các nhãn nhân tố
Các vector factor cũng có thể được tạo bằng các vector số làm đầu vào. Giả sử chúng ta có một vector gồm các số 0 và 1 (giả sử dữ liệu của biến nhị phân nào đó được mã hóa), trong đó 1 biểu thị sự xuất hiện của một sự kiện và 0 là không xuất hiện. Đoạn mã dưới đây cho biết cách tạo một yếu tố được gắn nhãn từ dữ liệu.
Hàm levels() cho phép xem các cấp độ của biến factor:
Ép kiểu trong R
Khi một vector gồm nhiều kiểu dữ liệu thì kiểu dữ liệu của vector sẽ có thứ tự ưu tiên như sau: character, numeric, integer, logical. Ví dụ:
Chú ý rằng R chuyển đổi các giá trị logic theo cách sau: TRUE trở thành 1 và FALSE trở thành 0. Ví dụ:
Kiểu Ma trận
Ma trận là một mảng hai chiều bao gồm các hàng và cột, các phần tử phải cùng kiểu dữ liệu.
Ma trận được tạo bằng hàm matrix(). Các vector được tạo bằng hàm c(). Với ma trận sẽ được chuyển thành cbind() hoặc rbind().
Sử dụng cbind() để nối cột và rbind() để nối hàng.
Sử dụng rownames() để biết tên dòng, colnames() để biết tên cột.
Kiểu List (Danh sách)
Là mảng 1 chiều bao gồm các vector với kích thước tùy ý, có thể lưu trữ các kiểu dữ liệu hỗn hợp.
Danh sách được tạo bằng hàm list(). Để trích xuất nội dung được đặt tên của một danh sách, sử dụng hàm names(). Ví dụ:
Data Frame
Dataframe là cấu trúc dữ liệu phổ biến nhất được sử dụng trong R, là dạng dữ liệu kiểu list 2 chiều, trong đó các biến số được liệt kê theo dòng và các cột có thể coi là các quan sát. Để khởi tạo dataframe từ các vector, sử dụng data.frame().
Kết luận: Cấu trúc dữ liệu chính được sử dụng trong R bao gồm Vector, Factors, List, Ma trận, List và Data Frame với các kiểu dữ liệu được sử dụng gồm Character, Numeric, Integer và Logical.
Nhất Luận
--------------------------------------------------------------------------------
Tài liệu tham khảo
[1] Nguyễn Văn Tuấn, Phân tích số liệu và biểu đồ bằng R. https://cran.r-project.org/doc/contrib/Intro_to_R_Vietnamese.pdf
[2] Tran Quang Quy, Nguyen Dinh Dung, Mai Duc Huy, Nguyen Duc Thang, Hands-on Data Science with R. https://rpubs.com/tranquangquy_ictu/DataAnalysiswithR