Thật vui mừng sau 7 tháng mình cũng đã nhận được chứng chỉ Google Advanced Data Analytics. Bài viết này tóm tắt lại các điểm chính mà mình thấy ấn tượng và thú vị trong khóa học, mục đích là để tự ôn tập lại và cũng là các keyword để mọi người dễ dàng tìm hiểu thêm thông tin qua Google hoặc ChatGPT.

1. Phân tích khám phá – EDA:
Là một phương pháp phân tích dữ liệu nhằm tóm tắt các đặc điểm chính của dữ liệu, thường với sự hỗ trợ của các biểu đồ và thống kê mô tả. Mục tiêu của EDA là tìm kiếm các mẫu, xu hướng, và các mối quan hệ trong dữ liệu mà có thể không rõ ràng ngay từ đầu.

Ví dụ:
– Kiểm tra cấu trúc và loại dữ liệu, bao gồm kích thước, kiểu dữ liệu và các giá trị thiếu.
– Tính toán mean, min, max, variance, standard deviation …
– Sử dụng các biểu đồ như histogram, box plot, scatter plot để trực quan hóa dữ liệu và phát hiện các mẫu hoặc bất thường.
– Phát hiện mối quan hệ: Khám phá các mối quan hệ giữa các biến, chẳng hạn như bằng cách sử dụng ma trận tương quan.
Trong quá trình phân tích khám phá có thể xử lý dữ liệu giúp cho quá trình sử dung sau đó thuận lợi hơn, một trong các kỹ thuật đó là: Dummy encoding (hay còn gọi là one-hot encoding) là một kỹ thuật chuyển đổi các biến phân loại thành các biến số học để có thể sử dụng trong các mô hình học máy. Kỹ thuật này giúp biểu diễn các giá trị phân loại dưới dạng các cột nhị phân (0 hoặc 1).
2. Xác xuất thống kê:
Phần lớn các phân tích về dữ liệu được xây dựng trên các cơ sở về bộ môn xác xuất thống kê.
2.1 Xác xuất

Phân bổ xác suất – probability distributions, trong đó nếu dữ liệu được phân phối chuẩn thì có thể rút ra được nguyên lý thực nghiệm – Empirical rule:
– 68% giá trị trong khoảng 1 độ lệch chuẩn
– 95% giá trị trong khoảng 2 độ lệch chuẩn
– 99.7% giá trị trong khoảng 3 độ lệch chuẩn
Tính xác suất có điều kiện với định lý Bayes. Có thể sử dụng định lý Bayes để giải một một bài toán khá thú vị, đó là là Bài toán Monty Hall dựa trên một chương trình trò chơi truyền hình nổi tiếng. Tình huống cơ bản như sau:
– Bạn tham gia một trò chơi với 3 cánh cửa. Sau mỗi cánh cửa có thể là một chiếc xe hơi hoặc một con dê.
– Bạn chọn một cánh cửa, và người dẫn chương trình (biết rõ những gì ở sau mỗi cánh cửa) sẽ mở một trong hai cánh cửa còn lại, và luôn mở ra một cánh cửa có con dê.
– Sau đó, bạn có cơ hội thay đổi lựa chọn của mình sang cánh cửa còn lại hoặc giữ nguyên quyết định ban đầu.
Vấn đề đặt ra là: bạn có nên thay đổi quyết định ban đầu hay không?
Sau khi tính toán xác suất bằng định lý Bayes, kết quả là:
– Nếu bạn giữ nguyên lựa chọn ban đầu, xác suất trúng ô tô là 1/3
– Nếu bạn thay đổi lựa chọn sang cánh cửa còn lại, xác suất trúng ô tô là 2/3
2.2 Thống kê:
Các thống kê suy luận phổ biến :
– Kiểm định giả thuyết (Hypothesis Testing): Xác định xem có đủ bằng chứng để bác bỏ một giả thuyết về một tham số trong quần thể hay không.
– Khoảng tin cậy (Confidence Intervals): Tính toán khoảng giá trị mà tham số quần thể có thể nằm trong đó với một mức độ tin cậy nhất định.
– Phân tích tương quan (Correlation Analysis): Đánh giá mức độ và hướng của mối quan hệ giữa hai biến.
– Kiểm định chi bình phương (Chi-Square Test): Kiểm định mối quan hệ giữa các biến phân loại.
– T-test dùng để so sánh trung bình của hai nhóm dữ liệu. Nó giúp xác định xem có sự khác biệt có ý nghĩa thống kê giữa các trung bình này hay không.
3. Phân tích hồi quy – Regression Analysis
Phân tích hồi quy là một phương pháp thống kê được sử dụng để xác định mối quan hệ giữa một biến phụ thuộc (biến kết quả) và một hoặc nhiều biến độc lập (biến giải thích). Mục tiêu của phân tích hồi quy là dự đoán giá trị của biến phụ thuộc dựa trên các giá trị của biến độc lập.
Có các loại hồi quy:
– Simple linear regression: Sử dụng một biến độc lập để dự đoán biến phụ thuộc.
– Multiple linear regression: Sử dụng nhiều biến độc lập để dự đoán biến phụ thuộc.
– Logistic regression: Dùng để dự đoán xác suất của một biến nhị phân (có hai giá trị).

Có thể đánh giá mô hình hồi quy bằng các hình thức sau:
– phương pháp: Chi-Square Test, phân tích phương sai ANOVA, ANCOVA
– số liệu: khả năng dự đoán – precision, độ thu hồi – recall, độ chính xác – accurary, ROC curves
4. Machine Learning
Phần này giới thiệu các khái niệm và cách xây dựng một mô hình máy học có thể dự đoán dữ liệu mới dựa trên các bộ dữ liệu đào tạo.
4.1 Machine Learning bao gồm các loại:

– có giám sát: thuật toán học máy có giám sát sử dụng dữ liệu có sẵn câu trả lời và sử dụng nó để đưa ra nhiều câu trả lời hơn bằng cách phân loại hoặc ước tính dữ liệu trong tương lai.
– không giám sát: sử dụng các thuật toán để phân tích và nhóm các tập dữ liệu chưa được gắn nhãn.
– học sâu (deep learning): được tạo thành từ các lớp nút được kết nối với nhau. Mỗi lớp nút nhận được tín hiệu từ lớp trước của nó. Các nút được kích hoạt bởi đầu vào mà chúng nhận được, sau đó truyền tín hiệu đã biến đổi đến một lớp khác hoặc đến đầu ra cuối cùng. Hệ thống có thể học từ dữ liệu lớn mà không cần sự can thiệp của con người.
– học tăng cường: máy tính sẽ thực hiện các hành động và nhận phản hồi dưới dạng phần thưởng hoặc hình phạt. Dựa trên việc nó nhận được phần thưởng hay hình phạt, máy tính sẽ cập nhật chính sách của nó cố gắng tối ưu hóa để nhận được phần thưởng hoặc giảm thiểu hình phạt.
4.2 Feature:
Trong Machine Learning, “feature” (đặc trưng) là một thuộc tính hoặc đặc điểm của dữ liệu được sử dụng để dự đoán hoặc phân loại. Features là các thông tin đầu vào mà mô hình học máy sử dụng để hiểu và phân tích dữ liệu.
Có các kỹ thuật đặc trưng (feature engineering):
– lựa chọn: quá trình loại bỏ bất kỳ và tất cả các tính năng không cần thiết hoặc không mong muốn khỏi tập dữ liệu
– biến đổi: ví dụ chuẩn hóa dữ liệu (standardization) để đưa các giá trị về cùng một thang đo.
– trích xuất: tạo đặc trưng mới thường được áp dụng để cải thiện chất lượng dữ liệu.
4.3 Các mô hình Machine Learning:
– K-means: là một phương pháp phân cụm phổ biến trong học máy dạng không giám sát
– cây quyết định (decision tree): là một mô hình học máy được sử dụng để phân loại và hồi quy. Nó hoạt động như một cấu trúc cây, trong đó mỗi nút nội bộ đại diện cho một đặc trưng, mỗi nhánh đại diện cho một quyết định dựa trên thuộc tính đó, và mỗi nút lá đại diện cho một kết quả hoặc phân loại cuối cùng.
4.4 Một số vấn đề khi xây dựng ML model cần lưu ý:
– overfitting: là khi mô hình học dữ liệu đào tạo quá chặt chẽ đến mức nó nắm bắt được nhiều hơn các mẫu nội tại của tất cả các phân phối dữ liệu như vậy và kết thúc bằng việc học nhiễu hoặc các đặc điểm riêng biệt chỉ đối với dữ liệu đào tạo. Điều này dẫn đến một mô hình đạt điểm rất cao trên dữ liệu đào tạo nhưng kém hơn đáng kể trên dữ liệu chưa thấy vì nó không thể khái quát hóa tốt.
– underfitting: là khi mô hình không học tốt các mẫu và đặc điểm của dữ liệu đào tạo và do đó không đưa ra được dự đoán chính xác về dữ liệu mới.
4.5 Xác thực model – model validation:

– xác thực chéo cross-validation: Thay vì chỉ chia dữ liệu thành tập huấn luyện và tập kiểm tra, xác thực chéo chia dữ liệu thành nhiều phần (folds) và thực hiện huấn luyện và kiểm tra mô hình nhiều lần.
– F1 score là một chỉ số đánh giá hiệu suất của mô hình học máy, đặc biệt trong các bài toán phân loại không cân bằng. Nó là trung bình điều hòa giữa độ chính xác (precision) và độ nhạy (recall).
4.6 Một số kỹ thuật để phát triển mô hình ML:
– random forest: tạo ra nhiều cây quyết định (decision trees) trong quá trình huấn luyện và kết hợp kết quả của chúng để đưa ra dự đoán chính xác hơn.
– boosting – học tăng cường: không giống như random forest, xây dựng những người học cơ bản song song,thúc đẩy xây dựng người học theo trình tự. Thực hiện theo từng bước, trong đó mỗi mô hình mới được thêm vào nhằm sửa chữa các lỗi của mô hình trước đó. Các mẫu dữ liệu mà mô hình trước đó dự đoán sai sẽ được tăng trọng số, giúp mô hình mới chú trọng vào những điểm mà nó cần cải thiện.
Một số thuật toán nổi tiếng trong học tăng cường bao gồm AdaBoost, Gradient Boosting, và XGBoost.
Những tiến bộ trong ML gần đây đến từ các kỹ thuật để triển khai random forest trên nhiều cụm máy tính song song, khai khác sức mạnh tính toán phân tán của cloud computing, hay boosting đào sâu vào các lỗi của mô hình trước đó để tăng cường độ chính xác.
Cả khóa học khá dài với rất nhiều nội dung hữu ích khác không thể đưa hết vào bài viết. Hi vọng có dịp để viết kĩ từng mục hơn. Chúc các bạn có thêm thông tin hữu ích để phát triển công việc với dự liệu.
Leave a Reply