Chúng ta đang sống trong kỷ nguyên dữ liệu, nơi mà một lượng dữ liệu khổng lồ được thu thập và lưu trữ từng phút, từng giây. Trước số lượng dữ liệu ngày càng tăng, các thuật toán Machine Learning (ML) được sử dụng để tăng trải nghiệm người dùng cũng như tự động hóa các công việc.
Một ví dụ về sự đóng góp của ML tới cuộc sống của hàng triệu người sử dụng Facebook là thuật toán đằng sau của Facebook News Feed. Đã bao giờ các bạn đã tự nhủ “Xem nốt video rồi thôi!” khi xem một đoạn video ngắn mà bạn thấy thú vị trên Facebook, và sau đó các video liên quan cứ liên tục xuất hiện khiến bạn không thể rời mắt khỏi màn hình trong một thời gian dài chưa? Các nhà khoa học dữ liệu của Facebook đã sử dụng ML để khai thác dữ liệu và phản hồi của người dùng nhằm cá nhân hoá nguồn cấp dữ liệu của họ. Khi nếu ấn “like” hay dừng lại một khoảng thời gian tại một bài đăng nào đó, thuật toán sẽ học từ điều này và bắt đầu đưa thêm nội dung tương tự vào News Feed của người dùng. Việc học này diễn ra liên tục nên các bài đăng được đề xuất trên News Feed sẽ được phát triển theo sở thích của người dùng, giúp trải nghiệm của bạn khi sử dụng Facebook sẽ thú vị hơn rất nhiều.
Ngoài ví dụ trên, ML có thể được tìm thấy rất nhiều trong các công cụ mà chúng ta sử dụng hàng ngày. Netflix đề xuất những bộ phim phù hợp với từng người dùng, Amazon Echo có thể hiểu bạn và tâm sự cùng bạn như một người bạn tâm giao,… Nếu bạn là người chơi hệ Táo, chắc bạn không còn xa lạ gì với trợ lý ảo Siri xuất hiện trong các sản phẩm của Apple như Iphone, Macbook, Ipad,…. ML thực sự trở thành một phần quan trọng trong cuộc sống hàng ngày và nó sẽ còn tiến xa hơn nữa trong thời kỳ công nghệ bùng nổ như hiện nay.
𝗞𝗵𝗮́𝗶 𝗻𝗶𝗲̣̂𝗺 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴
Vậy chính xác thì ML là gì? Điều gì đằng sau những thuật toán trông có vẻ kỳ diệu này? Các nhà khoa học dữ liệu đã xử lý dữ liệu như thế nào để các thuật toán có thể hoạt động tốt như vậy?
ML là một tập con của AI – Artificial Intelligence (Trí tuệ nhân tạo). Nói một cách đơn giản, ML là các kỹ thuật giúp máy tính tự học hỏi dựa trên dữ liệu đưa vào mà không cần lập trình cụ thể từng bước.
Các thuật toán ML được cung cấp hướng dẫn chung xác định mô hình từ dữ liệu. Chúng ta sẽ cung cấp dữ liệu cho mô hình, sau đó mô hình sẽ tự “học” những thông tin còn thiếu mà nó cần nhờ trích xuất thông tin còn thiếu từ dữ liệu có sẵn. Một thuật toán ML có thể hoàn thành nhiệm vụ khi mô hình được điều chỉnh phù hợp đối với dữ liệu, ta có thể nói rằng “mô hình được đào tạo trên dữ liệu”. Tóm lại, ML cực kỳ hữu ích cho các nhiệm vụ khó khi chúng ta có thông tin không đầy đủ hoặc quá phức tạp để có thể xử lý thủ công.
𝗣𝗵𝗮̂𝗻 𝗹𝗼𝗮̣𝗶 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴
Thông thường sẽ được phân làm hai loại chính bao gồm:
– Supervised learning: Học có giám sát
– Unsupervised learning: Học không giám sát
Trong học máy có giám sát, mô hình sẽ dự đoán nhãn dựa trên các đặc điểm của bộ dữ liệu, hay nói cách khác, với mỗi đầu vào Xi, chúng ta sẽ có nhãn Yi tương ứng. Để có thể học cách ánh xạ từ đặc điểm đến nhãn, mô hình phải được huấn luyện trên những dữ liệu với những cặp (đầu vào, đầu ra) đã biết trước để trích xuất các đặc điểm đặc trưng của từng nhãn dữ liệu.
Hai dạng phổ biến nhất trong các bài toán học có giám sát là: phân lớp (classification) và hồi quy (regression). Trong đó mô hình phân lớp cho phép dự đoán các nhãn của các lớp mục tiêu còn mô hình hồi quy cho phép dự đoán các giá trị số tương ứng với dữ liệu đầu vào. Ví dụ: Khi xây dựng một mô hình dự đoán giá nhà, kết quả trả về mong muốn sẽ là một số thực. Trong trường hợp này, ta đang nói về mô hình hồi quy (regression model). Mặt khác, giả dụ khi muốn biết một bức ảnh chứa con vật có phải là “mèo” hay “không phải mèo”, thì ta đang nói về một mô hình phân lớp (classification model).
Về học máy không giám sát, ta định nghĩa là những mô hình được huấn luyện trên những dữ liệu không được gán nhãn trước, tức là những mô hình này sẽ không được cung cấp bất kì kiến thức nào trước ngoài dữ liệu đầu vào. Các thuật toán ML sẽ phải tự tìm ra được sự tương quan và trích xuất được các mối quan hệ tiềm ẩn trong dữ liệu. Hai dạng phổ biến nhất trong Unsupervised learning có thể kể đến là giảm chiều của dữ liệu (dimension reduction) để tính toán và lưu trữ dễ dàng hơn hoặc phân loại dữ liệu thành các nhóm giống nhau (clustering), ví dụ: Phân nhóm khách hàng dựa trên hành vi mua hàng đối với dạng mô hình phân cụm và bài toán nén ảnh với mô hình giảm chiều dữ liệu.