Trong nghiên cứu khoa học, việc sử dụng các phần mềm công cụ để phân tích dữ liệu là không thể thiếu. Mỗi phần mềm có những điểm mạnh, điểm yếu riêng. Việc lựa chọn phần mềm hỗ trợ nào phù hợp là rất quan trọng.
Nguồn: swinburne-vn.edu.vn
Nghiên cứu khoa học là quá trình nghiên cứu để giải thích các hiện tượng khoa học trên cơ sở lý luận và thực tiễn. Từ đó, ứng dụng các kết quả vào thực tiễn sản xuất và đời sống để phục vụ cho con người.
Để làm cơ sơ lý luận khoa học hay luận cứ chứng minh giả thuyết (vấn đề mà nghiên cứu đã đặt ra) đòi hỏi nghiên cứu thu thập được số liệu từ quan sát và thực hiện thí nghiệm. Các số liệu phải đại diện được cho tổng thể hướng nghiên cứu. Như vây, yêu cầu đặt ra số liệu thu thập (kích thước mẫu/cỡ mẫu) có số lượng lớn, sai số trong ước lượng của nghiên cứu thấp. Tuy nhiên, số lượng cỡ mẫu lớn sẽ dẫn tới khó khăn trong quá trình phân tích dữ liệu. Do đó, việc áp dụng các phần mềm sẽ giúp đơn giản hóa quá trình xử lý dữ liệu và chạy mô hình.
1. Phân tích dữ liệu là gì?
Phân tích dữ liệu (Data Analysis) là quá trình kiểm tra các tập dữ liệu để tìm ra xu hướng và đưa ra kết luận về thông tin mà chúng đang lưu giữ.
Tùy theo các ngành nghề và mục đích nghiên cứu mà quá trình phân tích dữ liệu được gọi theo nhiều tên gọi khác nhau: phân tích chẩn đoán, phân tích dự đoán, phân tích theo mô tả, phân tích thống kê, phân tích đề xuất, phân tích khám phá,… Tuy nhiên, về bản chất tất cả đều thuộc một trong hai nhóm: phân tích định tính hoặc phân tích định lượng.
• Phân tích định tính: Là phương pháp phân tích lấy dữ liệu thông qua từ ngữ, ký hiệu, hình ảnh và quan sát. Bao gồm: Phân tích nội dung, để phân tích dữ liệu hành vi và lời nói; Phân tích tường thuật, để làm việc với dữ liệu được chọn lọc từ các cuộc phỏng vấn, nhật ký, khảo sát; Lý thuyết có cơ sở, để phát triển các giải thích nhân quả của một sự kiện nhất định bằng cách nghiên cứu và ngoại suy từ một hoặc nhiều trường hợp trong quá khứ. Phương pháp này không sử dụng số liệu thống kê.
• Phân tích định lượng: Là phương pháp phân tích từ dữ liệu do thống kê thu thập mà có và xử lý nó thành dữ liệu số. Phương pháp này gắn liền với việc kiểm định lý thuyết, phản ánh và diễn giải các mối quan hệ giữa các nhân tố (các biến) với nhau. Bằng việc xác định cỡ mẫu, sử dụng một mẫu nhỏ từ một nhóm đại diện hướng nghiên cứu tiến hành phân tích. Kết quả thu được coi như đại diện cho toàn bộ nghiên cứu. Trong khoa học, phân tích định lượng được sử dụng nhiều trong tâm lý học, kinh tế học, xã hội học, tiếp thị, y tế….
2. Quy trình phân tích dữ liệu
Quy trình phân tích dữ liệu
Tùy thuộc vào mục tiêu nghiên cứu mà số liệu cần thu thập có thể ở nhiều dạng khác nhau như hình ảnh, âm thanh, văn bản,... Các dữ liệu cần được ghi rõ ngày thu thập và nguồn dữ liệu. Sau khi thu thập được toàn bộ số liệu nghiên cứu, tiến hành làm sạch số liệu, bằng cách sắp xếp số liệu, kiểm tra các trường hợp trùng lặp số liệu, số liệu bị thiếu, số liệu nhập sai, số liệu không mang tính đại diện và những dạng số liệu không được xác định từ trước. Tùy theo phần mềm hỗ trợ phân tích dữ liệu được sử dụng mà số liệu thu thập được mã hóa cho phù hợp. Sau khi được thu thập, làm sạch và mã hóa, dữ liệu đã sẵn sàng cho công tác phân tích. Căn cứ vào yêu cầu, mục đích nghiên cứu, công cụ phần mềm sẽ giúp diễn giải và đưa ra kết luận. Kết quả phân tích dữ liệu sẽ được phần mềm trực quan hóa dưới dạng bảng biểu, đồ thị, hình ảnh. Bằng cách quan sát các mối quan hệ và so sánh các tập dữ liệu, đưa ra được các thông tin có ý nghĩa, hàm chứa trong dữ liệu đã thu thập và xử lý, các nhà nghiên cứucó căn cứ để đưa ra kết luận.
Hiện nay, việc phân tích dữ liệu được thực hiện rộng rãi,với sự hỗ trợ của nhiều hệ thống phần mềm phân tích thống kê chuyên dụng (ví dụ như SAS, SPSS, STATA, R, Eviews, Statgraphics, MATLAB, Microsoft Excel,…) trong các lĩnh vực khoa học tự nhiên và xã hội. Tuy nhiên, việc lựa chọn phần mềm nào cần thích hợp với đặc điểm nguồn dữ liệu và khả năng sử dụng của người nghiên cứu.
3. Đặc điểm và ưu, nhược điểm của một số phần mềm phân tích
STT | Phần mềm | Đặc điểm | Ưu điểm | Nhược điểm |
1 |
SAS |
Sử dụng ngôn ngữ lập trình SAS để phân tích dữ liệu, cung cấp các biểu diễn trực quan cho người nghiên cứu để đánh giá. |
- Sử dụng cho các phân tích nâng cao, phân tích kinh doanh và các tác vụ quản lý dữ liệu khác nhau. - Có thể làm việc nhiều dữ liệu, nhiều file một lúc. - Quản lý file dữ liệu lớn (32.768 biến). - Có công cụ vẽ đồ thị mạnh. |
- Mất nhiều thời gian để hiểu cách quản lý dữ liệu trong SAS. - Không mạnh về hồi qui logistic và ước lượng. |
2 |
SPSS |
Giao diện giữa người và máy cho phép sử dụng các menu thả xuống để chọn các lệnh thực hiện. |
- Có bộ soạn thảo dữ liệu tương tự như Excel và dễ sử dụng. - Được sử dụng phổ biến trong phân tích thống kê, phân tích tương tác và phân tích lô. - Thế mạnh trong lĩnh vực phân tích phương sai, phân tích nhiều chiều. |
- Không hỗ trợ công cụ phan tích theo lược đồ mẫu. - Quản lý dữ liệu file chỉ đến 4.096 biến. - Ngôn ngữ cú pháp phức tạp hơn STATA. |
3 |
STATA |
Sử dụng các lệnh trực tiếp, hoặc sử dụng nhiều lệnh cho một nghiên cứu thực hiện cùng lúc. |
- Cho phép thực hiện thao tác về dữ liệu một cách dễ dàng. - Có thế mạnh trong hồi qui, hồi qui logistic. - Cú pháp các lệnh đồ thị dễ sử dụng. - Đồ thị có chất lượng cao. |
- Tại mỗi thời điểm chỉ làm việc được một file. - Khả năng quản lý dữ liệu không bằng SAS. - Khả năng phân tích phương sai, phân tích nhiều chiều không cao. |
4 |
R |
Sử dụng hàm, các câu lệnh giải quyết nhiệm vụ nghiên cứu. |
- Khả năng phân tích biểu đồ cao. - Chạy được trên nhiều hệ điều hành. - Có hầu hết mô hình thống kê mới. - Hoàn toàn miễn phí. |
Yêu cầu người sử dụng phải có trình độ về toán, kinh tế lượng, thống kê, lập trình |
5 |
Eviews |
Nghiên cứu dữ liệu chuỗi thời gian, dữ liệu chéo, dữ liệu mảng,…Trong đó, dữ liệu lưu trữ theo định dạng độc quyển. |
- Chuyên về kinh tế lượng. - Dự báo, mô phỏng hình và tạo các biểu đồ và bảng chất lượng cao. - Giao diện trực quan, dễ sử dụng. |
Các mô hình định lượng được thiết lập sẵn khiến khả năng mở rộng mô hình bị giới hạn. |
6 |
Statgraphics |
Thực hiện và giải thích bằng ngôn ngữ đơn giản, cả hai chức năng thống kê cơ bản và nâng cao |
- Bao quát toàn cảnh, trực quan hóa dữ liệu. - Khả năng phân tích đồ họa cao. - Tích hợp với giao diện R, giúp chia sẻ và đẩy nhanh nguồn thông tin. - Dễ dàng chuyển dữ liệu qua lại và thực thi các lệnh. |
Khó khăn trong các bước xử lý số liệu thô như đổi biến số, tính các biến trung gian, mã hóa biến số |
7 |
MATLAB |
Cung cấp môi trường lập trình và tính toán kỹ thuật số. Cho phép sử dụng ma trận để tính toán các con số, vẽ thông tin cho các hàm và đồ thị, chạy các thuật toán, tạo giao diện người dùng và liên kết với các chương trình máy tính được viết bằng nhiều ngôn ngữ lập trình khác. |
- Dễ dàng tạo ra các ứng dụng có giao diện đồ họa tùy chỉnh. - Hỗ trợ lượng lớn các hàm dùng trong đại số tuyến tính, thống kê, giải tích tối ưu hóa, phương trình vi phân... - Linh hoạt trong việc sử dụng, ngôn ngữ lập trình trực quan, dễ học và khả năng ứng dụng cao. - Tốc độ xử lý các ma trận và tối ưu hóa nhanh. |
Chi phí cao, các bộ công cụ đi kèm viết riêng cho các nhu cầu nghiên cứu tính phí riêng. |
8 |
Microsoft Excel |
Chuyên về xử lý dữ liệu bảng tính |
- Đồng bộ hóa, làm việc trên nhiều thiếp bị cùng một lúc. - Dự đoán dữ liệu thống kê, công cụ dịch nhanh, giao diện đẹp… |
- Cần thời gian sử dụng thành thục các tính năng, các hàm. - Khả năng bảo mật kém. |
Có thể thấy, tùy từng phương pháp nghiên cứu mà cần lựa chọn phần mềm phân tích dữ liệu cho phù hợp. Đối với nghiên cứu thống kê đa biến, thống kê nhiều chiều như phân tích nhân tố khám phá, phân tích đường dẫn,… thì xu hướng dùng SPSS, STATA là phù hợp; nghiên cứu phân tích kinh tế lượng dùng Eviews; nghiên cứu mảng thì dùng STATA,…Nhưng quan trọng nhất vẫn là người nghiên cứu phải hiểu được vấn đề cần giải quyết, hiểu biết về thống kê, định lượng, từ đó lựa chọn được công cụ hỗ trợ thích hợp.
Vân Anh
----------------------------------------
Tài liệu tham khảo chính:
[1] Data analytics (DA). https://www.techtarget.com/searchdatamanagement/definition/data-analytics.
[2] What is Data Analysis: Methods, Process and Types Explained. https://www.simplilearn.com/data-analysis-methods-process-types-article
[3] Các phương thức phân tích dữ liệu và ứng dụng trong kinh doanh. https://cole.vn/blog/cac-phuong-thuc-phan-tich-du-lieu-va-ung-dung-cua-chung-trong-kinh-doanh/
[4] Top 4 phần mềm xử lý số liệu thống kê phổ biến hiện nay. https://sciencevietnam.com/phan-mem-xu-ly-so-lieu-thong-ke-pho-bien-hien-nay
[5] Một số công cụ xử lí số liệu trong NCKH. https://qlkh.uel.edu.vn/goc-nckh/mot-so-cong-cu-xu-li-so-lieu-trong-nckh
[6] Dữ liệu quản lý quy trình cho các nghiên cứu xã hội học. https://www.jstor.org/stable/resrep29156.9?seq=1
---------------------------------------------------------------------------------------------------