Vui lòng điền đầy đủ các thông tin sau

DỊCH VỤ PHÂN TÍCH DỮ LIỆU

Học máy (Machine Learning) là một tập hợp con của Trí tuệ nhân tạo (AI), được sử dụng để tạo ra các hệ thống thông minh có khả năng học mà không cần được lập trình rõ ràng. Trong học máy, người ta tạo ra các thuật toán và mô hình được hệ thống thông minh sử dụng để dự đoán kết quả dựa trên các mẫu hoặc xu hướng cụ thể được quan sát từ dữ liệu đã cho. Học máy sử dụng dữ liệu và kết quả từ dữ liệu để dự đoán các quy tắc được lưu trữ trong một mô hình. Sau đó, mô hình này được sử dụng để dự đoán kết quả từ một tập dữ liệu khác. Trong R, môi trường cho học máy có thể được thiết lập thông qua RStudio.

Thiết lập môi trường cho máy học bằng Anaconda

Thiết lập môi trường cho máy học bằng Anaconda thông qua các bước sau đây:

Bước 1: Cài đặt Anaconda thông qua https://www.anaconda.com/docs/main

Bước 2: Mở Anaconda Navigator và nhấp vào Cài đặt cho Rstudio.

 

Bước 3: Sau khi cài đặt xong thì một môi trường mới được khởi tạo. Sau đó, Anaconda sẽ gửi một lời nhắc yêu cầu nhập tên cho môi trường mới và khởi tạo R studio.

 

Để chạy lệnh R, chúng ta sử dụng một trong hai phương pháp sau đây:

Phương pháp 1: Lệnh R có thể chạy từ bảng điều khiển được cung cấp trong R studio. Sau khi mở Rstudio, chỉ cần nhập lệnh R vào bảng điều khiển.

Phương pháp 2: Lệnh R có thể được lưu trữ trong một tệp và có thể được thực thi trong dấu nhắc anaconda. Điều này có thể đạt được bằng các bước sau.

1. Mở một dấu nhắc anaconda;

2. Đi đến thư mục chứa file R;

3. Kích hoạt môi trường anaconda bằng cách sử dụng lệnh:

 

4. Chạy tệp bằng lệnh:

 

Cài đặt các gói

Các gói giúp viết mã dễ dàng hơn vì chúng chứa một tập hợp các hàm được xác định trước thực hiện nhiều tác vụ khác nhau. Các gói học máy được sử dụng nhiều nhất là Caret, e1071, net, kernlab và randomforest. Có hai phương pháp có thể được sử dụng để cài đặt các gói này cho chương trình R.

Phương pháp 1: Cài đặt các gói thông qua Rstudio.

Mở Rstudio và nhấp vào tùy chọn Cài đặt gói trong mục Công cụ có trên thanh menu.

 

Nhập tên của tất cả các gói bạn muốn cài đặt, phân cách bằng dấu cách hoặc dấu phẩy, sau đó nhấp vào cài đặt.

 

Phương pháp 2: Cài đặt các gói thông qua Anaconda prompt/Rstudio console

1. Mở dấu nhắc Anaconda;

2. Chuyển đổi môi trường sang môi trường bạn đã sử dụng cho Rstudio bằng lệnh:

 

3. Nhập lệnh r để mở bảng điều khiển R;

4. Cài đặt các gói bằng lệnh:

 

Tải các gói: caret, e1071, nnet, kernlab, random forest.

 

Trong khi tải các gói, hệ thống có thể nhắc chọn một máy chủ CRAN. Nên chọn vị trí gần nhất để tải xuống nhanh hơn.

 

Các thư viện trong R bao gồm nhiều hàm; là công cụ và phương pháp để quản lý và phân tích dữ liệu. Mỗi thư viện này đều có trọng tâm cụ thể với một số thư viện quản lý dữ liệu hình ảnh và văn bản, thao tác dữ liệu, trực quan hóa dữ liệu, thu thập dữ liệu web, học máy,...

Hãy cùng xem xét một số gói học máy quan trọng thông qua ví dụ sau đây:

Xét Bộ dữ liệu Gender-Classification. Các bước học máy cho bộ dữ liệu này được thực hiện như sau:

Chuẩn bị Bộ dữ liệu: Trước khi sử dụng các gói này, trước tiên hãy nhập bộ dữ liệu vào RStudio, dọn dẹp bộ dữ liệu và chia dữ liệu thành bộ dữ liệu huấn luyện và kiểm tra.

 

Gói CARET: Gói CARET được sử dụng để thực hiện phân loại và cho các tác vụ hồi quy.

 

Kết quả:

 

Gói ggplot2: Gói ggplot2 được dùng để trực quan hóa dữ liệu với bộ đồ họa thẩm mỹ có tính tương tác cao.

 

Kết quả:

 

Gói randomForest: Gói randomForest cho phép chúng ta sử dụng thuật toán ngẫu nhiên một cách dễ dàng.

 

Kết quả:

 

Gói nnet: Gói nnet sử dụng mạng nơ-ron trong học sâu để tạo các lớp giúp đào tạo và dự đoán các mô hình; nhằm làm giảm độ mất mát (sự khác biệt giữa giá trị thực tế và giá trị dự đoán) sau mỗi lần lặp lại đào tạo.

 

Kết quả:

 

Gói e1071: Gói e1071 được sử dụng để triển khai trong support vector machines, naive bayes algorithm và nhiều thuật toán khác.

 

Kết quả:

 

Gói rpart: Gói rpart được sử dụng để phân vùng dữ liệu. Nó được sử dụng cho các tác vụ phân loại và hồi quy. Khi đó mô hình kết quả có dạng cây nhị phân.

 

Kết quả:

 

Gói dplyr: Tượng tự như gói rpart; gói dplyr cũng là một gói thao tác dữ liệu. Nó giúp thao tác dữ liệu bằng cách sử dụng các hàm như lọc, chọn và sắp xếp.

 

Kết quả:

 

Lợi ích của việc triển khai Machine Learning bằng ngôn ngữ R

Triển khai Machine Learning bằng ngôn ngữ R sẽ đem lại các lợi ích sau đây:

• Cung cấp mã giải thích tốt. Ví dụ, nếu đang ở giai đoạn đầu làm việc với một dự án học máy và cần giải thích công việc mình làm, thì việc so sánh ngôn ngữ R với ngôn ngữ Python trở nên dễ dàng vì nó cung cấp phương pháp thống kê phù hợp để làm việc với dữ liệu với ít dòng mã hơn.

• Ngôn ngữ R hoàn hảo cho việc trực quan hóa dữ liệu. Ngôn ngữ R cung cấp nguyên mẫu tốt nhất để làm việc với các mô hình học máy.

• Ngôn ngữ R có các công cụ và gói thư viện tốt nhất để làm việc với các dự án học máy. Các nhà phát triển có thể sử dụng các gói này để tạo ra các mô hình tốt nhất của các dự án học máy.

 

Kết luận

Ngôn ngữ R được các nhà thống kê phát triển để xử lý dữ liệu nhanh hơn và hiệu quả hơn.

Học máy là làm việc với một lượng lớn dữ liệu và thống kê như một phần của khoa học dữ liệu, việc sử dụng ngôn ngữ R luôn được khuyến khích. Do đó, ngôn ngữ R trở nên thiết yếu và tiện dụng hơn đối với những người làm việc với học máy, giúp các tác vụ trở nên dễ dàng hơn, nhanh hơn và sáng tạo hơn.

Nhất Luận

----------------------------------------

Tài liệu tham khảo:

[1] R for Data Science. https://r4ds.had.co.nz/
[2] R for Data Science (2e). https://r4ds.hadley.nz/
[3] R for Data Science. https://bookdown.org/swen/R_for_Data_Science/
[4] R Packages (2e). https://r-pkgs.org/
[5] Advanced R. https://adv-r.hadley.nz/index.html#license
[6] Advanced R Solutions. https://advanced-r-solutions.rbind.io/
[7] Machine Learning with R. https://tuanvanle.wordpress.com/2017/04/19/machine-learning-with-r/

Back to top

Chưa có tài khoản Đăng ký ngay!

Đăng nhập