Vui lòng điền đầy đủ các thông tin sau

DỊCH VỤ PHÂN TÍCH DỮ LIỆU

Gói stringr cung cấp các hàm giúp làm việc với chuỗi ký tự trong R để đơn giản hóa quy trình xử lý chuỗi và cho phép trích xuất, thay thế và xử lý chuỗi con dễ dàng trong R. Các hàm phổ biến trong gói stringr bao gồm str_c(), str_sub(), str_replace(), str_detect(), str_extract(), str_replace_all(), str_split(), str_pad(), str_to_upper(), str_to_lower()str_trim().

   

 

Hàm str_c()

Hàm str_c() sử dụng để nối hai hoặc nhiều chuỗi lại với nhau, được cung cấp nhiều tham số để tùy chỉnh quá trình nối chuỗi.

   

  • …: tham số biểu diễn các chuỗi cần được nối;
  • sep: tham số chỉ định dấu phân cách được sử dụng giữa các chuỗi được nối. Dấu phân cách mặc định là một chuỗi rỗng;
  • collapse: tham số được sử dụng để thu gọn đầu ra của hàm str_c() thành một chuỗi duy nhất. Giá trị mặc định là FALSE;
  • ignore_na: tham số được sử dụng để bỏ qua bất kỳ giá trị nào bị thiếu trong chuỗi đầu vào. Giá trị mặc định là FALSE;
  • trim: tham số được sử dụng để cắt bất kỳ ký tự khoảng trắng nào từ đầu hoặc cuối mỗi chuỗi trước khi nối chúng lại. Giá trị mặc định là FALSE.

   

 

Hàm str_sub()

Hàm str_sub() trong gói Stringr có thể được sử dụng để trích xuất chuỗi con.

   

  • string: tham số biểu thị chuỗi ký tự hoặc vectơ chuỗi;
  • start: tham số chỉ định vị trí của ký tự đầu tiên trong chuỗi con cần trích xuất. Giá trị mặc định là 1;
  • end: tham số chỉ định vị trí của ký tự cuối cùng trong chuỗi con cần trích xuất. Giá trị mặc định là Inf;
  • step: tham số chỉ định kích thước bước sử dụng khi trích xuất chuỗi con. Giá trị mặc định là 1;
  • keep_empty: tham số chỉ định có giữ lại chuỗi rỗng khi không tìm thấy chuỗi con nào trong chuỗi đầu vào đã cho hay không. Giá trị mặc định là TRUE;
  • simplify: tham số chỉ định liệu có đơn giản hóa đầu ra khi chỉ có một chuỗi con được trích xuất từ một vectơ chuỗi hay không. Giá trị mặc định là FALSE.

   

 

Hàm str_replace()

Hàm str_replace() được sử dụng để thay thế kết quả trùng khớp đầu tiên trong mẫu khảo sát.

   

  • string: tham số biểu thị chuỗi ký tự hoặc vectơ chuỗi mà chúng ta muốn thay thế mẫu;
  • pattern: tham số chỉ định mẫu hoặc biểu thức chính quy sẽ được thay thế trong chuỗi đầu vào;
  • replacement: tham số chỉ định chuỗi thay thế sẽ được thay thế cho mẫu trong chuỗi đầu vào;
  • fixed: tham số chỉ định xem có nên sử dụng khớp lệnh cố định thay vì biểu thức chính quy hay không. Giá trị mặc định là FALSE;
  • trim: tham số chỉ định xem có nên cắt khoảng trắng từ đầu và cuối chuỗi thay thế hay không. Giá trị mặc định là TRUE.

   

 

Hàm str_replace_all()

Hàm str_replace_all() được sử dụng để thay thế tất cả kết quả trùng khớp trong mẫu khảo sát.

   

  • string: tham số biểu thị chuỗi ký tự hoặc vectơ chuỗi mà chúng ta muốn thay thế mẫu;
  • pattern: tham số chỉ định mẫu hoặc biểu thức chính quy sẽ được thay thế trong chuỗi đầu vào;
  • replacement: tham số chỉ định chuỗi thay thế sẽ được thay thế cho mẫu trong chuỗi đầu vào;
  • simplify: tham số chỉ định liệu có đơn giản hóa kết quả thành ma trận ký tự hay vectơ hay không. Giá trị mặc định là FALSE.

   

 

Hàm str_detect()

Hàm str_detect() được sử dụng để so khớp với mẫu liên quan; kiểm tra một mẫu có trong chuỗi khảo sát hay không.

   

  • string: tham số biểu thị chuỗi ký tự hoặc vectơ chuỗi được đối chiếu;
  • pattern: tham số chỉ định mẫu đối chiếu;
  • negate: tham số chỉ định liệu có trả về phần bù logic của kết quả đối chiếu hay không. Giá trị mặc định là FALSE;
  • collate: tham số chỉ định xem có sử dụng các quy tắc đối chiếu khi khớp mẫu hay không. Giá trị mặc định là TRUE;
  • regex: tham số chỉ định xem có sử dụng biểu thức chính quy khi khớp mẫu hay không. Giá trị mặc định là TRUE.

   

 

Hàm str_extract()

Hàm str_extract() được sử dụng để trích xuất lần xuất hiện đầu tiên của một mẫu trong một chuỗi ký tự hoặc vectơ chuỗi.

   

  • string: tham số biểu thị chuỗi ký tự hoặc vectơ chuỗi cần trích xuất mẫu;
  • pattern: tham số chỉ định mẫu hoặc biểu thức chính quy sẽ được trích xuất từ chuỗi đầu vào;
  • simplify: tham số chỉ định liệu có đơn giản hóa kết quả thành ma trận ký tự hay vectơ hay không. Giá trị mặc định là FALSE;
  • ignore_case: tham số chỉ định có bỏ qua trường hợp khi trùng khớp mẫu hay không. Giá trị mặc định là FALSE;
  • opts_regex: tham số chỉ định các tùy chọn biểu thức chính quy bổ sung sẽ được sử dụng khi trùng khớp với các mẫu.

   

 

Hàm str_split()

Hàm str_split() được sử dụng để phân tách chuỗi liên quan bằng dấu phân tách.

   

  • string: tham số biểu thị chuỗi ký tự hoặc vectơ chuỗi cần phân tách;
  • pattern: tham số chỉ định mẫu phân cách hoặc biểu thức chính quy được sử dụng để phân tách chuỗi đầu vào;
  • simplify: tham số chỉ định liệu có đơn giản hóa kết quả thành ma trận ký tự hay vectơ hay không. Giá trị mặc định là FALSE;
  • n: tham số chỉ định số lượng chia tách tối đa cần thực hiện. Giá trị mặc định là ‘Inf’;
  • discard_empty: tham số này chỉ định xem có nên loại bỏ các chuỗi rỗng trong đầu ra hay không. Giá trị mặc định là TRUE.

   

 

Hàm str_pad()

Hàm str_pad() được sử dụng để đệm chuỗi.

   

  • string: tham số biểu thị chuỗi ký tự hoặc vectơ chuỗi cần được đệm;
  • width: chỉ định chiều rộng mong muốn của chuỗi được đệm;
  • side: tham số chỉ định liệu có nên đệm chuỗi ở bên trái (“left”), bên phải (“right”) hay cả hai bên (“both”) hay không. Giá trị mặc định là “right”;
  • pad: tham số chỉ định ký tự được sử dụng để đệm. Giá trị mặc định là một ký tự khoảng trắng đơn ” “;
  • truncate: tham số chỉ định xem có nên cắt bớt chuỗi hay không nếu chúng vượt quá độ rộng đã chỉ định. Giá trị mặc định là FALSE.

   

 

Hàm str_to_upper() và str_to_lower()

Hàm str_to_upper()str_to_lower() được sử dụng để chuyển đổi một chuỗi thành chữ hoa hoặc chữ thường. Hàm str_to_upper() chuyển đổi tất cả các chữ cái trong chuỗi đầu vào thành chữ hoa, trong khi hàm str_to_lower() chuyển đổi tất cả các chữ cái trong chuỗi đầu vào thành chữ thường.

   

  • string: tham số biểu thị chuỗi ký tự hoặc vectơ chuỗi sẽ được chuyển đổi thành chữ hoa hoặc chữ thường;
  • locale: tham số chỉ định ngôn ngữ sẽ được sử dụng để chuyển đổi. Giá trị mặc định là NULL, nghĩa là ngôn ngữ hệ thống mặc định sẽ được sử dụng.

   

 

Hàm str_trim()

Hàm str_trim() được sử dụng để cắt khoảng trắng ở đầu và cuối chuỗi.

   

  • string: tham số biểu thị chuỗi ký tự hoặc vectơ chuỗi cần cắt bớt;
  • side: tham số chỉ định bên nào của chuỗi cần cắt. Các giá trị có thể là “both”, “left” hoặc “right”. Giá trị mặc định là “both”;
  • whitespace: tham số chỉ định ký tự khoảng trắng nào cần xóa.
  • pattern: tham số cho phép bạn chỉ định mẫu biểu thức chính quy để trùng khớp với các ký tự cần xóa khỏi chuỗi. Giá trị mặc định là NULL, nghĩa là tham số khoảng trắng được sử dụng để trùng khớp với các ký tự cần xóa;
  • fixed: tham số chỉ định xem có nên coi tham số mẫu là chuỗi cố định (TRUE) hay biểu thức chính quy (FALSE) hay không. Giá trị mặc định là FALSE.

   

 

Cheatsheet

 

Sơ đồ tóm tắt gói stringr (Nguồn: https://github.com/rstudio/cheatsheets/blob/main/strings.pdf)

Nhất Luận

----------------------------------------

Tài liệu tham khảo:

[1] R for Data Science. https://r4ds.had.co.nz/
[2] R for Data Science (2e). https://r4ds.hadley.nz/
[3] R for Data Science. https://bookdown.org/swen/R_for_Data_Science/
[4] R Packages (2e). https://r-pkgs.org/
[5] Advanced R. https://adv-r.hadley.nz/index.html#license
[6] Advanced R Solutions. https://advanced-r-solutions.rbind.io/
[7] stringr. https://stringr.tidyverse.org/
[8] stringr. https://www.rdocumentation.org/packages/stringr/versions/1.1.0

Back to top

Chưa có tài khoản Đăng ký ngay!

Đăng nhập