Machine Learning trong R

Chi tiết: Chuyên mục: Tài liệu phân tích thống kê; Được đăng: 09 Tháng 6 2025; Lượt xem: 1769

Thuật ngữ Machine Learning (học máy) được Arthur Samuel đặt vào năm 1959. Có thể định nghĩa “học máy” là cung cấp cho máy tính khả năng học mà không cần phải lập trình rõ ràng. Năm 1997, Tom M. Mitchell đã định nghĩa về học máy: “Một chương trình máy tính được cho là học từ kinh nghiệm E liên quan đến một số tác vụ T và một số phép đo hiệu suất P, nếu hiệu suất của nó trên T được đo bằng P, được cải thiện theo kinh nghiệm E”. Machine Learning được coi là lĩnh vực thú vị nhất của khoa học máy tính.

Học máy hoạt động như thế nào?

Học máy hoạt động tuần tự như sau

1.Làm sạch dữ liệu thu được từ tập dữ liệu;

2.Chọn một thuật toán thích hợp để xây dựng mô hình dự đoán;

3. Đào tạo mô hình của bạn để hiểu mô hình của dự án;

4. Dự đoán kết quả của bạn với độ chính xác cao hơn.

Phân loại học máy

Việc triển khai học máy được chia thành 3 loại, tùy thuộc vào bản chất của việc học.

1. Học có giám sát (Supervised Learning): là học dưới sự giám sát, trong học có giám sát. Người ta dạy máy bằng dữ liệu sử dụng nhãn và đã có câu trả lời đúng trong đó. Sau đó, máy sẽ tạo một tập dữ liệu mẫu để thuật toán có giám sát phân tích dữ liệu đào tạo và tạo ra đầu ra chính xác của dữ liệu được gắn nhãn. Ví dụ, nếu chúng ta tạo một tập dữ liệu về trái cây, chúng ta dán nhãn như sau “loại trái cây hình tròn, với phần lõm ở trên và có màu đỏ, thì được gọi là quả táo”. Bây giờ, khi chúng ta yêu cầu máy xác định quả táo trong giỏ trái cây thì nó sẽ sử dụng nhãn trước đó và xác định một quả táo. Học có giám sát được tách thành hai loại như sau:

• Phân loại (Classification): việc phân loại diễn ra khi biến đầu ra là một loại, chẳng hạn như “đỏ” hoặc “cam”.

• Hồi quy (Regression): được sử dụng khi biến đầu ra là giá trị thực, chẳng hạn như “cân nặng” hoặc “chiều cao”.

2. Học không giám sát (Unsupervised Learning): là quá trình đào tạo máy móc sử dụng thông tin không được gắn nhãn và hoạt động mà không cần bất kỳ hướng dẫn nào. Ở đây, nhiệm vụ chính của máy móc là phân tách dữ liệu bằng cách sử dụng các điểm giống nhau, khác nhau và các mẫu mà không cần bất kỳ sự giám sát trước nào. Do đó, máy móc bị hạn chế trong việc tự tìm ra cấu trúc ẩn trong dữ liệu không được gắn nhãn. Ví dụ, khi người ta đưa ra một nhóm mèo và chó chưa từng biết trước đây, máy móc sẽ phân biệt nhóm mèo và chó theo hành vi và bản chất của chúng. Sau đó, khi người ta đưa hình ảnh chó và mèo theo phân loại do máy móc thực hiện, máy móc sẽ đưa ra kết quả. Học không giám sát được chia thành hai loại sau:

• Phân cụm (Clustering): khi máy xác định các nhóm vốn có trong dữ liệu, chẳng hạn như nhóm khách hàng theo số lần ghé thăm cửa hàng.

• Liên kết (Association): là vấn đề khi có thể tìm ra mối quan hệ giữa hai sự kiện hoặc mặt hàng, chẳng hạn như những người mua mặt hàng A cũng có xu hướng mua mặt hàng B.

3. Học tăng cường: là quá trình thực hiện các hành động thích hợp để tối đa hóa phần thưởng trong một tình huống cụ thể. Quá trình này thường được theo dõi và điều chỉnh bởi nhiều mô hình để tìm ra chiến lược tối ưu trong việc giải quyết vấn đề. Điểm khác biệt giữa học tăng cường và học có giám sát là trong học có giám sát thì dữ liệu được gắn nhãn với câu trả lời đúng, giúp mô hình học theo các ví dụ có sẵn. Trong khi đó, học tăng cường không có sẵn đáp án, mà tác nhân (agent) phải tự quyết định hành động nào cần thực hiện để hoàn thành nhiệm vụ, dựa trên phản hồi từ môi trường (thưởng hoặc phạt). Ví dụ như khi di chuyển từ nơi này đến nơi khác, chúng ta thường tìm con đường ngắn nhất và hiệu quả nhất để đến đích - đây là cách tiếp cận điển hình trong học tăng cường. Học tăng cường có các đặc điểm chính sau:

• Đầu vào: phải là từ giai đoạn đầu tiên mà mô hình thực sự bắt đầu.

• Đầu ra: bất kỳ bài toán nào cũng có nhiều đầu ra.

• Quá trình huấn luyện: mô hình tiếp nhận các thông tin nhận đầu vào, thực hiện hành động phản ứng và nhận phản hồi (thưởng hoặc phạt). Dựa trên phản hồi này, mô hình điều chỉnh hành vi trong tương lai để tối ưu hóa hiệu suất.

Ngôn ngữ R về cơ bản được phát triển bởi các nhà thống kê nhằm giúp các nhà thống kê và nhà phát triển khác xử lý dữ liệu nhanh và hiệu quả hơn. Học máy về cơ bản là làm việc với một lượng lớn dữ liệu và thống kê như một phần của khoa học dữ liệu, việc sử dụng ngôn ngữ R luôn được khuyến khích. Do đó, ngôn ngữ R trở nên hữu ích cho những người làm việc với học máy, giúp các tác vụ trở nên dễ dàng hơn, nhanh hơn và sáng tạo hơn.

Lợi ích của việc triển khai Machine Learning bằng ngôn ngữ R

• Ngôn ngữ R cung cấp mã giải thích tốt. Ví dụ, nếu ta đang ở giai đoạn đầu làm việc với một dự án học máy và cần giải thích công việc mình làm, thì việc so sánh ngôn ngữ R với ngôn ngữ Python trở nên dễ dàng vì nó cung cấp phương pháp thống kê phù hợp để làm việc với dữ liệu với ít dòng mã hơn.

• Ngôn ngữ R hoàn hảo cho việc trực quan hóa dữ liệu. Ngôn ngữ R cung cấp nguyên mẫu tốt để làm việc với các mô hình học máy.

• Ngôn ngữ R có các công cụ và gói thư viện tốt để làm việc với các dự án học máy. Các nhà phát triển có thể sử dụng các gói này để tạo ra mô hình tiền mô hình, mô hình và hậu mô hình tốt nhất của các dự án học máy. Ngoài ra, các gói cho R tiên tiến và mở rộng hơn ngôn ngữ Python, khiến nó trở thành lựa chọn đầu tiên để làm việc với các dự án học máy.

Các gói ngôn ngữ R phổ biến được sử dụng để triển khai Machine Learning

• Lưới (lattice): hỗ trợ tạo đồ thị hiển thị biến hoặc mối quan hệ giữa nhiều biến có điều kiện.

• DataExplorer: tập trung tự động hóa việc trực quan hóa dữ liệu và xử lý dữ liệu để người dùng có thể chú ý đến thông tin chi tiết về dữ liệu của dự án.

• Dalex (Giải thích về học máy mô tả): cung cấp nhiều giải thích khác nhau về mối quan hệ giữa biến đầu vào và đầu ra để hiểu rõ các mô hình học máy phức tạp.

• dplyr: được sử dụng để tóm tắt dữ liệu dạng bảng của máy học với các hàng và cột. Nó áp dụng phương pháp “chia tách-áp dụng-kết hợp”.

• Esquisse: được sử dụng để khám phá nhanh chóng dữ liệu, có được thông tin ẩn chứa. Nó cho phép vẽ biểu đồ thanh, biểu đồ histogram, đường cong và biểu đồ phân tán.

• caret: giúp hợp lý hóa quy trình tạo mô hình dự đoán.

• janitor: có các chức năng để kiểm tra và dọn dẹp dữ liệu bẩn. Nó được xây dựng nhằm mục đích thân thiện với người dùng mới bắt đầu và người dùng trung cấp.

• rpart: giúp tạo các mô hình phân loại và hồi quy bằng các thủ tục hai giai đoạn. Các mô hình kết quả được biểu diễn dưới dạng cây nhị phân.

Ứng dụng của R trong học máy

Nhiều công ty hàng đầu thế giới như Google, Facebook, Uber,... sử dụng ngôn ngữ R để ứng dụng Machine Learning. Các ứng dụng bao gồm:

• Phân tích mạng xã hội.

• Để phân tích xu hướng và mô hình.

• Nhận thông tin chi tiết về hành vi của người dùng.

• Để tìm mối quan hệ giữa người dùng.

• Phát triển các giải pháp phân tích.

• Truy cập các thành phần biểu đồ.

• Nhúng đồ họa trực quan tương tác.

Ví dụ về các bài toán học máy

• Tìm kiếm trên web như Siri, Alexa, Google, Cortona: nhận dạng giọng nói của người dùng và thực hiện yêu cầu được đưa ra.

• Dịch vụ truyền thông xã hội: giúp mọi người kết nối trên toàn thế giới; hiển thị các khuyến nghị của những người mà ta có thể biết.

• Hỗ trợ khách hàng trực tuyến: tăng cường tiện ích cho khách hàng và hiệu quả của nhân viên hỗ trợ.

• Trò chơi thông minh: sử dụng các nhân vật không phải người chơi có khả năng phản ứng và thích ứng cấp cao giống như trí thông minh của con người.

• Đề xuất sản phẩm: một công cụ phần mềm được sử dụng để đề xuất sản phẩm mà người dùng có thể muốn mua hoặc tương tác.

• Trợ lý cá nhân ảo: là phần mềm có thể thực hiện nhiệm vụ theo hướng dẫn được cung cấp.

• Cảnh báo giao thông: giúp chuyển đổi cảnh báo giao thông theo tình huống được cung cấp.

• Phát hiện gian lận trực tuyến: kiểm tra các chức năng bất thường do người dùng thực hiện và phát hiện gian lận.

• Chăm sóc sức khỏe: có thể quản lý một lượng lớn dữ liệu vượt quá sức tưởng tượng của con người bình thường và giúp xác định bệnh tật của bệnh nhân theo các triệu chứng.

Các loại bài toán học máy

• Hồi quy (Regression): giúp phương pháp học máy dự đoán các giá trị liên tục. Ví dụ, giá của một ngôi nhà.

• Phân loại (Classification): đầu vào được chia thành một hoặc nhiều lớp hoặc danh mục để “đối tượng học” tạo ra mô hình để chỉ định các mô-đun chưa thấy. Ví dụ, trong trường hợp gian lận email, ta có thể chia email thành hai lớp, tức là “thư rác” và “không phải thư rác”.

• Phân cụm (Clustering): kỹ thuật này tuân theo quá trình tóm tắt, tìm một nhóm các thực thể tương tự. Ví dụ, thu thập và đọc số liệu của bệnh nhân trong bệnh viện.

• Liên kết (Association): kỹ thuật này tìm các sự kiện hoặc mục mà đồng thời xảy ra. Ví dụ: giỏ hàng.

• Phát hiện bất thường (Anomaly Detection): kỹ thuật này hoạt động bằng cách phát hiện các trường hợp hoặc hành vi bất thường. Ví dụ, phát hiện gian lận thẻ tín dụng.

• Dự đoán chuỗi (Sequence Mining): kỹ thuật này dự đoán sự kiện luồng tiếp theo. Ví dụ, sự kiện luồng nhấp chuột.

• Khuyến nghị (Recommendation): kỹ thuật này đề xuất mục. Ví dụ, bài hát hoặc phim theo người nổi tiếng xuất hiện trong bài hát hay bộ phim đó.

Nhất Luận

----------------------------------------

Tài liệu tham khảo:

[1] R for Data Science. https://r4ds.had.co.nz/
[2] R for Data Science (2e). https://r4ds.hadley.nz/
[3] R for Data Science. https://bookdown.org/swen/R_for_Data_Science/
[4] R Packages (2e). https://r-pkgs.org/
[5] Advanced R. https://adv-r.hadley.nz/index.html#license
[6] Advanced R Solutions. https://advanced-r-solutions.rbind.io/
[7] Arthur Samuel. https://en.wikipedia.org/wiki/Arthur_Samuel_(computer_scientist)
[8] Tom M. Mitchell. https://en.wikipedia.org/wiki/Tom_M._Mitchell

Vui lòng điền đầy đủ các thông tin sau

CHẾ ĐỘ BÁO CÁO THỐNG KÊ

ĐIỀU TRA THỐNG KÊ

DỊCH VỤ PHÂN TÍCH DỮ LIỆU