Với giá thành chỉ từ 25.000 - 35.000VNĐ, bạn đã sở hữu được một một cốc kem hoặc trà sữa Mixue thơm ngon. Vì giá cả cạnh tranh nên Mixue dần thu hút được các bạn trẻ. Tuy nhiên, kể từ khi Mixue tung ra món đồ chơi như lật đật, gấu bông, nó đã […]
Trong những năm gần đây, trí tuệ nhân tạo (Artificial Intelligence) , cụ thể hơn là Machine Learning (Học máy) xuất hiện và nổi lên như một bằng chứng của cuộc cách mạng công nghệp lần thứ tư. Tuy nhiên, vẫn còn rất nhiều băn khoản phía sau định nghĩa và những thông tin cần biết về Học máy mà chúng ta cần biết.
Contents
Học máy là quá trình khai thác dữ liệu và trích xuất kiến thức từ các tập dữ liệu lớn.
Học máy là lĩnh vực con của khoa học máy tính đề cập đến các thuật toán để làm cho máy tính học từ dữ liệu, sau đó đưa ra suy luận về dữ liệu mới. Các thuật toán học máy xây dựng mô hình dựa trên các ví dụ để đưa ra dự đoán về dữ liệu trong tương lai.
Xử lý dữ liệu thô trong một máy có thể là một thách thức vì nó thiếu ngữ cảnh. Đôi khi, bắt đầu bằng bản tóm tắt dữ liệu ở cấp độ cao sẽ dễ dàng hơn. Ví dụ: nếu bạn có dữ liệu về loại và số lượng táo trong mỗi phòng trong một tòa nhà chung cư mới, thuật toán máy học có thể cho bạn biết:
"Hầu hết các phòng trong tòa nhà này đều có nhiều táo và ít cây xanh. Đó là lý do tại sao giá thuê thấp như vậy".
Khoa học dữ liệu không chỉ là xử lý dữ liệu thô mà còn là việc biến đổi nó để sử dụng với các thuật toán dự đoán.
Mục tiêu của học tập có giám sát là sử dụng các ví dụ để đào tạo một hệ thống về một số khái niệm hoặc thực tế. Ví dụ: bạn có thể muốn một thuật toán máy học tìm hiểu cách phân biệt giữa tình cảm tích cực và tiêu cực trong các bài đánh giá của khách hàng. Bạn sẽ đào tạo thuật toán bằng cách cung cấp cho nó nhiều ví dụ trước đây về các đánh giá tích cực và tiêu cực, với các nhãn thích hợp được đính kèm. Thuật toán sử dụng các ví dụ này để tạo ra một mô hình mà nó có thể sử dụng để dự đoán cảm xúc trong các bài đánh giá trong tương lai.
Không giống như học có giám sát, sử dụng các ví dụ có gắn nhãn, các thuật toán học không giám sát thường không có nhãn. Mục tiêu của học tập không giám sát cũng giống như học tập có giám sát — để tìm các mẫu trong dữ liệu - nhưng thay vì tìm kiếm các mẫu cụ thể, bạn đang tìm kiếm các nhóm và cụm trong số dữ liệu không được gắn nhãn.
Học có giám sát là học về mối quan hệ giữa các dữ liệu và học không có giám sát là về việc tìm kiếm các mẫu trong dữ liệu không được gắn nhãn. Các thuật toán học không giám sát thường sử dụng một số hình thức phân cụm. Ví dụ: một thuật toán học máy có thể xác định các cụm trong tập dữ liệu không được gắn nhãn bằng cách nhóm chúng lại với nhau.
Các thuật toán học củng cố không học từ các ví dụ. Thay vào đó, họ được huấn luyện bằng cách trải qua phần thưởng và hình phạt đi kèm với hành động của họ.
Dataset hay còn được gọi là data corpus hay data stock. Là các tập dữ liệu ở dạng nguyên bản và chưa qua xử lý mà bạn đã thu thập được ở bước data collection. Một dataset sẽ bao gồm nhiều data point.
Là điểm dữ liệu, mỗi điểm dữ liệu biểu diễn cho một quan sát. Mỗi data point có nhiều đặc trưng hay thuộc tính khác nhau và bao gồm hai loại: dữ liệu số (numerical) và dữ liệu không phải số (ví dụ như chuỗi).
Data point được biểu diễn thành dòng tương ứng, mỗi dòng có thể có 1 hoặc nhiều dữ liệu.
Dataset thường sẽ được chia làm 2 tập này, training data dùng để huấn luyện cho mô hình, test data dùng để dự đoán kết quả và đánh giá mô hình.
Có bài toán người ta sẽ cho sẵn hai tập này thì bạn không cần phải chia nữa, đối với bài toán chỉ cho mỗi dataset thôi thì phải chia ra. Thường tỷ lệ giữa tập train và test sẽ là 8/2.
Là vector đặc trưng, mỗi vector này sẽ biểu diễn cho một điểm dữ liệu trong dataset. Mỗi vector có n chiều biểu diễn các đặc trưng của điểm dữ liệu, mỗi đặc trưng là một chiều và phải là dữ liệu số. Các mô hình chỉ có thể huấn luyện được từ các vector đặc trưng này, do đó dataset cần phải chuyển về dạng một tập các vector đặc trưng (features vectors).
Là các mô hình được dùng để training trên một training data theo thuật toán của mô hình đó. Sau đó mô hình có thể dự đoán hoặc đưa ra các quyết định dựa trên những gì chúng đã được học.
Xem thêm: 6 sự thật thú vị về điện toán đám mây
Với giá thành chỉ từ 25.000 - 35.000VNĐ, bạn đã sở hữu được một một cốc kem hoặc trà sữa Mixue thơm ngon. Vì giá cả cạnh tranh nên Mixue dần thu hút được các bạn trẻ. Tuy nhiên, kể từ khi Mixue tung ra món đồ chơi như lật đật, gấu bông, nó đã […]
Rủi ro khi xem nội dung chẩn đoán bệnh tâm lý trên TikTok
chiến dịch #LearnOnTikTok - khi các nhà sáng tạo nội dung tiếp cận người dùng bằng cách trẻ hoá nội dung giáo dục thành các câu chuyện, thậm chí ảnh memes, khiến những kiến thức này trở nên dễ hiểu, thu hút