Các gói phổ biến trong R - Phần 3: Gói tidytext - Hệ thống thông tin Thống kê KH&CN

Chi tiết: Chuyên mục: Tài liệu phân tích thống kê; Được đăng: 25 Tháng 3 2025; Lượt xem: 1502

Gói tidytext được sử dụng để khai thác dữ liệu văn bản hoặc phân tích văn bản, bao gồm việc trích xuất thông tin và mẫu hữu ích từ dữ liệu văn bản. Gói được xây dựng dựa trên nguyên tắc là dữ liệu tinh gọn, trong đó mỗi biến là một cột, mỗi quan sát là một hàng và mỗi loại đơn vị quan sát tạo thành một bảng, nhờ đó, có thể chuyển đổi văn bản thành định dạng data frame của từng từ để dễ dàng tóm tắt và trực quan hóa. Xác định cảm xúc, lựa chọn từ ngữ phổ biến và các hình ảnh trực quan đặc trưng khác của văn bản trở nên đơn giản hơn rất nhiều thông qua quá trình chuyển đổi này từ các hàm unnest_tokens(), unnest_sentences(), unnest_lines(), unnest_paragraphs(), ….

Hàm unnest_tokens()

Hàm unnest_tokens() được sử dụng để phân tách văn bản.

tbl: một data frame;
output: đầu ra là chuỗi hoặc ký tự;
input: đầu vào được tách thành chuỗi hoặc ký tự;
token: là đơn vị phân tách; bao gồm các tùy chọn “words (mặc định)”, “characters”, “character_shingles”, “ngrams”, “skip_ngrams”, “sentences”, “lines”, “paragraphs”, “regex” và “ptb”;
format: một trong các định dạng “text”, “man”, “latex”, “html”, hoặc “xml”;
to_lower: chuyển đổi đầu ra thành chữ thường;
drop: loại bỏ cột đầu vào ban đầu. Bỏ qua nếu cột đầu vào ban đầu và cột đầu ra mới có cùng tên;
collapse: vectơ ký tự gồm các biến để thu gọn văn bản hoặc NULL;
…: các đối số bổ sung được truyền cho trình phân tích cú pháp, như đối số strip_punct cho “words”, đối số n và k cho “ngrams” và “skip_ngrams”, và đối số pattern cho “regex”.

Hàm unnest_characters() được sử dụng để phân tách văn bản thành từng ký tự riêng lẻ và hiển thị mỗi ký tự trên một dòng.

Hàm unnest_character_shingles() được sử dụng để phân tách văn bản thành từng cụm ký tự với kích thước cụm ký tự cho trước và hiển thị mỗi cụm trên một dòng.

Hàm unnest_sentences() được sử dụng để chia văn bản thành một câu trên mỗi dòng theo dấu chấm câu.

Hàm unnest_lines() được sử dụng để phân tách các dòng văn bản bằng ký tự xuống dòng.

Hàm unnest_paragraphs() được sử dụng để phân tách văn bản bằng một chuỗi cho trước.

Hàm unnest_ngrams() được sử dụng để phân tách tệp văn bản thành n-gram trên mỗi dòng, tùy thuộc vào độ dài của n-gram đã cho trước.

Hàm unnest_regex() được sử dụng để phân tách dòng văn bản bằng chuỗi ký tự cho trước.

strip_non_alphanum: có nên xóa dấu câu và khoảng trắng không?;
n: kích thước của mỗi cụm ký tự khi phân tách văn bản;
n_min: số nguyên lớn hơn 1 và nhở hơn n;
strip_punct: có nên bỏ dấu câu không?;
paragraph_break: chuỗi xác định ranh giới giữa hai đoạn văn bản;
ngram_delim: dấu phân cách giữa các từ trong n-gram;
pattern: chuỗi xác định sự phân tách.

Nhất Luận

----------------------------------------

Tài liệu tham khảo:

[1] R for Data Science. https://r4ds.had.co.nz/
[2] R for Data Science (2e). https://r4ds.hadley.nz/
[3] R for Data Science. https://bookdown.org/swen/R_for_Data_Science/
[4] R Packages (2e). https://r-pkgs.org/
[5] Advanced R. https://adv-r.hadley.nz/index.html#license
[6] Advanced R Solutions. https://advanced-r-solutions.rbind.io/
[7] tidytext: Text Mining using ‘dplyr’, ‘ggplot2’, and Other Tidy Tools. https://cran.r-project.org/web/packages/tidytext/index.html
[8] TidyText Package Overview. https://rpubs.com/adeshpande/midterm-project-ds4001

Vui lòng điền đầy đủ các thông tin sau

CHẾ ĐỘ BÁO CÁO THỐNG KÊ

ĐIỀU TRA THỐNG KÊ

DỊCH VỤ PHÂN TÍCH DỮ LIỆU