CyberKid

Top 5 thông tin thú vị về Machine Learning

|
27/03/22

Was bedeutet Machine Learning und wie funktioniert es?

 

Trong những năm gần đây, trí tuệ nhân tạo (Artificial Intelligence) , cụ thể hơn là Machine Learning (Học máy) xuất hiện và nổi lên như một bằng chứng của cuộc cách mạng công nghệp lần thứ tư. Tuy nhiên, vẫn còn rất nhiều băn khoản phía sau định nghĩa và những thông tin cần biết về Học máy mà chúng ta cần biết:

1. Học máy (Machine Learning) là gì?

Học máy là quá trình khai thác dữ liệu và trích xuất kiến ​​thức từ các tập dữ liệu lớn.

Học máy là lĩnh vực con của khoa học máy tính đề cập đến các thuật toán để làm cho máy tính học từ dữ liệu, sau đó đưa ra suy luận về dữ liệu mới. Các thuật toán học máy xây dựng mô hình dựa trên các ví dụ để đưa ra dự đoán về dữ liệu trong tương lai.

Machine Learning - học máy là gì?

2. Học máy hoạt động như thế nào?

Xử lý dữ liệu thô trong một máy có thể là một thách thức vì nó thiếu ngữ cảnh. Đôi khi, bắt đầu bằng bản tóm tắt dữ liệu ở cấp độ cao sẽ dễ dàng hơn. Ví dụ: nếu bạn có dữ liệu về loại và số lượng táo trong mỗi phòng trong một tòa nhà chung cư mới, thuật toán máy học có thể cho bạn biết:

"Hầu hết các phòng trong tòa nhà này đều có nhiều táo và ít cây xanh. Đó là lý do tại sao giá thuê thấp như vậy".

Khoa học dữ liệu không chỉ là xử lý dữ liệu thô mà còn là việc biến đổi nó để sử dụng với các thuật toán dự đoán.

3. Ba loại hình Machine Learning - Học máy

1. Học tập có giám sát (Supervised learning)

Mục tiêu của học tập có giám sát là sử dụng các ví dụ để đào tạo một hệ thống về một số khái niệm hoặc thực tế. Ví dụ: bạn có thể muốn một thuật toán máy học tìm hiểu cách phân biệt giữa tình cảm tích cực và tiêu cực trong các bài đánh giá của khách hàng. Bạn sẽ đào tạo thuật toán bằng cách cung cấp cho nó nhiều ví dụ trước đây về các đánh giá tích cực và tiêu cực, với các nhãn thích hợp được đính kèm. Thuật toán sử dụng các ví dụ này để tạo ra một mô hình mà nó có thể sử dụng để dự đoán cảm xúc trong các bài đánh giá trong tương lai.

2. Học không giám sát (Unsupervised learning)

Không giống như học có giám sát, sử dụng các ví dụ có gắn nhãn, các thuật toán học không giám sát thường không có nhãn. Mục tiêu của học tập không giám sát cũng giống như học tập có giám sát — để tìm các mẫu trong dữ liệu - nhưng thay vì tìm kiếm các mẫu cụ thể, bạn đang tìm kiếm các nhóm và cụm trong số dữ liệu không được gắn nhãn.

Học có giám sát là học về mối quan hệ giữa các dữ liệu và học không có giám sát là về việc tìm kiếm các mẫu trong dữ liệu không được gắn nhãn. Các thuật toán học không giám sát thường sử dụng một số hình thức phân cụm. Ví dụ: một thuật toán học máy có thể xác định các cụm trong tập dữ liệu không được gắn nhãn bằng cách nhóm chúng lại với nhau.

3. Học củng cố (Reinforcement learning)

Các thuật toán học củng cố không học từ các ví dụ. Thay vào đó, họ được huấn luyện bằng cách trải qua phần thưởng và hình phạt đi kèm với hành động của họ.

 

 

Hình ảnh minh họa

4.  Một số khái niệm cơ bản

4.1: Dataset

Dataset hay còn được gọi là data corpus hay data stock. Là các tập dữ liệu ở dạng nguyên bản và chưa qua xử lý mà bạn đã thu thập được ở bước data collection. Một dataset sẽ bao gồm nhiều data point.

4.2: Data point

Là điểm dữ liệu, mỗi điểm dữ liệu biểu diễn cho một quan sát. Mỗi data point có nhiều đặc trưng hay thuộc tính khác nhau và bao gồm hai loại: dữ liệu số (numerical) và dữ liệu không phải số (ví dụ như chuỗi).

Data point được biểu diễn thành dòng tương ứng, mỗi dòng có thể có 1 hoặc nhiều dữ liệu.

4.3: Training data và test data

Dataset thường sẽ được chia làm 2 tập này, training data dùng để huấn luyện cho mô hình, test data dùng để dự đoán kết quả và đánh giá mô hình.

Có bài toán người ta sẽ cho sẵn hai tập này thì bạn không cần phải chia nữa, đối với bài toán chỉ cho mỗi dataset thôi thì phải chia ra. Thường tỷ lệ giữa tập train và test sẽ là 8/2.

4.4: Features vector

Là vector đặc trưng, mỗi vector này sẽ biểu diễn cho một điểm dữ liệu trong dataset. Mỗi vector có n chiều biểu diễn các đặc trưng của điểm dữ liệu, mỗi đặc trưng là một chiều và phải là dữ liệu số. Các mô hình chỉ có thể huấn luyện được từ các vector đặc trưng này, do đó dataset cần phải chuyển về dạng một tập các vector đặc trưng (features vectors).

4.5: Model

Là các mô hình được dùng để training trên một training data theo thuật toán của mô hình đó. Sau đó mô hình có thể dự đoán hoặc đưa ra các quyết định dựa trên những gì chúng đã được học.

Xem thêm: 6 sự thật thú vị về điện toán đám mây

Phổ biến
4 Tuyệt chiêu thú vị ngăn chặn Google theo dõi dữ liệu cá nhân của bạn

Hiện nay, việc bảo vệ dữ liệu cá nhân luôn được đặt lên hàng đầu. Chính vì vậy, bằng các mẹo bảo mật dưới đây, bạn có thể dễ dàng kiểm soát tất cả dữ liệu Google lưu trữ về bạn cũng như bảo vệ bản thân mình khỏi việc bị theo dõi thông tin […]

Đọc thêm
BẮT NẠT MẠNG - VẤN NẠN KHÔNG HỒI KẾT

Xu thế phát triển mạnh mẽ về công nghệ số trong thời đại ngày nay bên cạnh việc đáp ứng những nhu cầu thiết yếu cho con người trong quá trình trao đổi thông tin, liên hệ và giao tiếp một cách nhanh chóng thì cũng kéo theo những hiểm họa khó lường, đặc biệt […]

Đọc thêm
TOP 4 ĐIỀU BẠN CẦN BIẾT VỀ LỖ HỔNG BẢO MẬT

Lỗ hổng bảo mật và những điểm yếu thường thấy trong bảo mật chính là cơ hội để những kẻ xấu tấn công vào hệ thống tài nguyên mạng và dữ liệu của cơ quan tổ chức hoặc cá nhân. Vậy khái niệm lỗ hổng bảo mật là gì? Làm sao để phát hiện và […]

Đọc thêm
arrow-up-circle linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram