Một phần của loạt bài về |
Học máy và khai phá dữ liệu |
---|
Các vấn đề[hiện] |
Học có giám sát [hiện](Phân loại bằng thống kê • Phân tích hồi quy) |
Phân cụm[hiện] |
Giảm chiều dữ liệu[hiện] |
Dự đoán cấu trúc[hiện] |
Phát hiện bất thường[hiện] |
Mạng thần kinh nhân tạo[hiện] |
Học tăng cường[hiện] |
Lý thuyết[hiện] |
Diễn đàn/tạp chí[hiện] |
Bài viết liên quan[hiện] |
Nghiên cứu sâu (tiếng Anh: deep learning, hay còn gọi là học cấu trúc sâu) là một phần của một nhánh rộng hơn các phương pháp học máy dựa trên mạng thần kinh nhân tạo kết hợp với việc học biểu diễn đặc trưng (representation learning). Học này có thể được thực hiện dưới dạng giám sát, nửa giám sát hoặc không giám sát.
Mạng thần kinh nhân tạo được lấy cảm hứng từ xử lý thông tin và các nút giao tiếp phân tán trong hệ sinh thái sinh học. Tuy nhiên, nó có nhiều khác biệt so với não bộ sinh học, đặc biệt là tính tĩnh và biểu tượng của nó so với tính động và phân cấp của não bộ.
Nghiên cứu sâu thường được nhắc đến trong ngữ cảnh Dữ liệu lớn (Big Data) và Trí tuệ nhân tạo (AI). Có nhiều ứng dụng thực tiễn và đang phát triển mạnh mẽ nhờ vào sự gia tăng nhanh chóng của dữ liệu và khả năng tính toán mạnh mẽ trên GPU, cũng như các framework như TensorFlow hay PyTorch giúp xây dựng các mô hình một cách dễ dàng hơn.
Nghiên cứu sâu là một phần của một họ các phương pháp học máy rộng hơn, tập trung vào việc biểu diễn dữ liệu. Mỗi quan sát, ví dụ như một hình ảnh, có thể được biểu diễn bằng nhiều cách khác nhau, từ một vector các giá trị cường độ cho mỗi điểm ảnh đến các biểu diễn trừu tượng hơn như các khu vực hình dạng cụ thể. Học sâu hứa hẹn thay thế các phương pháp biểu diễn thủ công bằng các thuật toán hiệu quả trong học không giám sát hoặc nửa giám sát và các tính năng phân cấp.
Nhiều kiến trúc học sâu khác nhau như mạng neuron sâu, mạng neuron tích chập sâu, mạng niềm tin sâu và mạng neuron tái phát đã được áp dụng trong các lĩnh vực như thị giác máy tính, nhận dạng giọng nói tự động, xử lý ngôn ngữ tự nhiên, nhận dạng âm thanh ngôn ngữ và tin sinh học, chứng tỏ hiệu quả vượt trội đối với nhiều nhiệm vụ khác nhau.
Bên cạnh đó, học sâu đã trở thành một thuật ngữ thời thượng hay một thương hiệu của mạng neuron.
Giới thiệu
Định nghĩa
Có nhiều cách để mô tả học sâu. Học sâu là một lớp của các thuật toán máy học mà
- Sử dụng một tầng (cascade) nhiều lớp các đơn vị xử lý phi tuyến để trích tách đặc điểm và chuyển đổi. Mỗi lớp kế tiếp dùng đầu ra từ lớp trước làm đầu vào. Các thuật toán này có thể được giám sát hoặc không cần giám sát và các ứng dụng bao gồm các mô hình phân tích (không có giám sát) và phân loại (giám sát).
- Dựa trên học (không có giám sát) của nhiều cấp các đặc điểm hoặc đại diện của dữ liệu. Các tính năng cao cấp bắt nguồn từ các tính năng thấp cấp hơn để tạo thành một đại diện thứ bậc.
- Là một phần của lĩnh vực máy học rộng lớn hơn về việc học đại diện dữ liệu.
- Học nhiều cấp độ đại diện tương ứng với các mức độ trừu tượng khác nhau; các mức độ hình thành một hệ thống phân cấp của các khái niệm.
Các định nghĩa này có điểm chung là (1) nhiều lớp các đơn vị xử lý phi tuyến và (2) học có giám sát hoặc không có giám sát của biểu diễn đặc tính ở mỗi lớp, với các lớp hình thành một hệ thống các tính năng phân cấp từ thấp đến cao cấp. Các thành phần của một lớp của đơn vị xử lý phi tuyến sử dụng một thuật toán học sâu tùy theo vấn đề cần được giải quyết. Các lớp được sử dụng trong học sâu bao gồm các lớp ẩn của một mạng neuron nhân tạo và tập các công thức mệnh đề phức tạp. Chúng cũng có thể bao gồm các biến tiềm ẩn được tổ chức thành các lớp chọn lọc trong các mô hình thể sinh (có khả năng sinh ra) sâu như các nút trong Deep Belief Networks và Deep Boltzmann Machines.
Các thuật toán học sâu tương phản với các thuật toán học nông bởi số biến đổi được tham số hóa một tín hiệu gặp phải khi nó lan truyền từ các lớp đầu vào đến lớp đầu ra, nơi một biến đổi được tham số hóa là một đơn vị xử lý có các thông số có thể huấn luyện được, chẳng hạn như trọng số và ngưỡng. Một chuỗi các biến đổi từ đầu vào đến đầu ra là một đường gán kế thừa (CAP- credit assignment path). CAP mô tả các kết nối quan hệ nhân quả tiềm năng giữa đầu vào và đầu ra và có thể thay đổi chiều dài. Đối với một mạng neuron nuôi tiến (feedforward), độ sâu của CAP, và do đó độ sâu của mạng đó, là số lượng các lớp ẩn cộng 1 (lớp đầu ra cũng là tham số hóa). Đối với mạng neuron tái phát, trong đó một tín hiệu có thể truyền thông qua một lớp nhiều hơn một lần, CAPcó khả năng không bị giới hạn chiều dài. Không có sự thống nhất chung về ngưỡng của độ sâu chia học cạn với học sâu, nhưng hầu hết các nhà nghiên cứu trong lĩnh vực đồng ý rằng học sâu có nhiều lớp phi tuyến (CAP > 2) và Schmidhuber coi CAP > 10 để là học rất sâu.
Khái niệm cơ bản
Các thuật toán học sâu dựa trên các đại diện phân phối. Giả định tiềm ẩn đằng sau các đại diện phân phối là các dữ liệu được quan sát là được tạo ra bởi sự tương tác của các yếu tố được tổ chức theo lớp. Học sâu thêm giả định rằng các lớp của các yếu tố này tương ứng với các mức độ trừu tượng hay theo thành phần. Các con số khác nhau của các lớp và kích thước của lớp có thể được sử dụng để quy định các lượng trừu tượng khác.
Học sâu khai thác ý tưởng thứ bậc các yếu tố giải thích này ở cấp cao hơn, những khái niệm trừu tượng hơn được học từ các cấp độ thấp hơn. Những kiến trúc này thường được xây dựng với một phương pháp lớp chồng lớp tham lam. Học sâu giúp để tháo gỡ những khái niệm trừu tượng này và chọn ra những đặc điểm cần thiết cho việc học.
Đối với các nhiệm vụ học có giám sát, các phương pháp học sâu sẽ tránh kỹ thuật đặc điểm (feature engineering), bằng cách dịch các dữ liệu vào các đại diện trung gian nhỏ gọn giống như các thành phần chính, và lấy được các cấu trúc lớp mà loại bỏ sự thừa thải trong đại diện.
Rất nhiều các thuật toán học sâu được áp dụng cho các nhiệm vụ học không có giám sát. Đây là một lợi ích quan trọng bởi vì dữ liệu không dán nhãn (chưa phân loại) thường phong phú hơn các dữ liệu dán nhãn. Một ví dụ của một cấu trúc sâu có thể được đào tạo theo cách không có giám sát là một mạng lưới tin sâu (deep belief network).
Diễn giải
Mạng neuron sâu thường được giải thích theo cách: định lý xấp xỉ tổng quát hoặc Suy luận xác suất.
Diễn giải Định lý Xấp xỉ Phổ quát
Định lý xấp xỉ phổ quát đề cập đến khả năng của mạng neuron tiến tiếp (feedforward) với một lớp ẩn có kích thước hữu hạn đơn để xấp xỉ các hàm liên tục.
Năm 1989, là bằng chứng đầu tiên được xuất bản bởi George Cybenko cho các hàm kích hoạt hình sigma và được mở rộng đối với các kiến trúc nuôi tiến nhiều lớp vào năm 1991 bởi Kurt Hornik.
Diễn giải xác suất
Diễn giải xác suất bắt nguồn từ lĩnh vực máy học. Nó có đặc điểm suy luận, cũng như các khái niệm tối ưu hóa huấn luyện và và kiểm tra, liên quan đến việc phù hợp và tổng quát hóa tương ứng. Cụ thể hơn, diễn giải xác suất sẽ xem xét kích hoạt một cách phi tuyến như là một hàm phân phối tích lũy. Xem mạng tin sâu. Diễn giải xác suất dẫn đến sự ra đời của dropout như regularizer trong mạng neuron.
Diễn giải xác suất đã được giới thiệu và phổ biến rộng rãi bởi những tiên phong như Geoff Hinton, Yoshua Bengio, Yann Le Cun, Juergen Schmidhuber.
Lịch sử
Các kiến trúc học sâu, đặc biệt là những kiến trúc được xây dựng từ mạng neuron nhân tạo (ANN), đã từng thống trị ít nhất là tới Neocognitron được giới thiệu bởi Masahiko Fukushima vào năm 1980. Chính các ANN lại thống trị thậm chí lâu hơn nữa. Thách thức là làm thế nào để đào tạo mạng lưới này với nhiều lớp. Năm 1989, Yann Le Cun và các cộng sự đã có thể áp dụng các thuật toán truyền ngược tiêu chuẩn, khoảng từ năm 1974, đối với một mạng neuron sâu với mục đích nhận dạng chữ viết tay mã ZIP trong các bức thư. Mặc dù sự thành công trong việc áp dụng thuật toán này, thời gian để đào tạo mạng dựa trên số liệu này mất khoảng 3 ngày, làm cho việc sử dụng nó vào các mục đích bình thường trở nên không thực tế. Năm 1995, Brendan Frey đã chứng minh rằng có thể đào tạo một mạng nơ ron bao gồm đầy đủ sáu lớp kết nối và vài trăm đơn vị ẩn bằng cách sử dụng thuật toán đánh thức giấc ngủ, nó được hợp tác phát triển với Peter Dayan và Geoffrey Hinton. Tuy nhiên, việc huấn luyện phải mất hai ngày.
Nhiều yếu tố góp phần vào lý do gây ra tốc độ chậm, một là vấn đề biến mất gradient được phân tích vào năm 1991 bởi Sepp Hochreiter.
Trong năm 1991, những mạng neuron như vậy được sử dụng để nhận diện chữ số viết tay 2-D cách ly, nhận dạng đối tượng 3-D được thực hiện bằng cách kết hợp các hình ảnh 2-D với một mô hình đối tượng 3-D thủ công. Juyang Weng và các cộng sự đề xuất rằng một bộ não người không sử dụng một mô hình đối tượng 3-D nguyên khối, và vào năm 1992, họ xuất bản Cresceptron, một phương pháp để thực hiện nhận dạng đối tượng 3-D trực tiếp từ các hậu trường lộn xộn. Cresceptron là một ghép tầng của các lớp tương tự như Neocognitron. Nhưng trong khi Neocognitron yêu cầu một lập trình viên con người can thiệp, Cresceptron sẽ tự động học được một số đặc điểm không có giám sát trong mỗi lớp, nơi mà mỗi đặc điểm được đại diện bởi một nhân tích chập. Cresceptron cũng phân đoạn từng đối tượng học được từ một cảnh nền lộn xộn thông qua việc phân tích ngược mạng đó. Thăm dò max, bây giờ thường được thông qua bởi các mạng neuron sâu (ví dụ: các kiểm tra ImageNet), lần đầu tiên sử dụng trong Cresceptron để giảm độ phân giải vị trí bởi của một hệ số (2x2) đến 1 thông qua việc ghép tầng tổng quát hóa tốt hơn. Mặc dù có những lợi thế như thế, các mô hình đơn giản hơn sử dụng nhiệm vụ cụ thể có đặc điểm thủ công như bộ Gabor và các máy hỗ trợ vector (SVM-support vector machines) đã là lựa chọn phổ biến trong thập niên 1990 và thập niên 2000, bởi vì chi phí tính toán bởi các ANN và vì thiếu sự hiểu biết về cách thức bộ não tự quản các kết nối mạng sinh học của nó.
Trong lịch sử dài của nhận dạng giọng nói, cả học nông và học sâu của mạng neuron nhân tạo đã được phát triển suốt nhiều năm. Tuy nhiên, các phương pháp này chưa bao giờ vượt qua công nghệ GMM-HMM dựa trên mô hình hỗn hợp Markov ẩn thủ công - một phương pháp đã chiếm ưu thế trong việc huấn luyện nhận dạng giọng nói rõ ràng.
Các mạng neuron nhân tạo
Một trong những phương pháp học sâu thành công nhất là mạng neuron nhân tạo. Mô hình này lấy cảm hứng từ nghiên cứu sinh học năm 1959 của David H. Hubel và Torsten Wiesel, người đã phát hiện ra các loại tế bào trong vỏ não thị giác: tế bào đơn giản và tế bào phức tạp. Các mạng neuron nhân tạo được xây dựng như là các mô hình lấy cảm hứng từ quan sát sinh học này.
Neocognitron của Fukushima giới thiệu các mạng neuron tích chập, được đào tạo một phần bằng học không giám sát, với sự hướng dẫn từ con người trong mặt phẳng thần kinh. Yann LeCun...(1989) áp dụng phương pháp truyền ngược có giám sát cho các kiến trúc này. Weng... (1992) giới thiệu Cresceptron, một mạng neuron tích chập để nhận dạng các đối tượng 3-D từ hình ảnh nền lộn xộn và phân khúc các đối tượng từ đó.
Nhận dạng đối tượng 3-D yêu cầu tính bất biến và khả năng chịu biến dạng. Thăm dò Max (Max-pooling), được giới thiệu bởi Cresceptron, giúp mạng chịu được biến dạng từ nhỏ đến lớn một cách phân cấp khi sử dụng tích chập. Mặc dù hiệu quả, thăm dò Max không đảm bảo sự dịch chuyển bất biến ở mức điểm ảnh.
Với sự xuất hiện của thuật toán lan truyền ngược, được khám phá độc lập bởi nhiều nhóm nghiên cứu trong những năm 1970 và 1980, các nhà nghiên cứu đã cố gắng huấn luyện các mạng neuron nhân tạo sâu có giám sát từ đầu, nhưng ban đầu gặp nhiều thất bại. Luận án tốt nghiệp cao đẳng của Sepp Hochreiter vào năm 1991 chính thức xác định nguyên nhân thất bại là vấn đề biến mất gradient, ảnh hưởng đến các mạng nơ ron nhiều tầng và các mạng neuron tái phát. Các mạng tái phát được huấn luyện bằng cách lan truyền sâu vào các tầng của chúng, khiến cho các lỗi từ một tầng lan ra tầng khác theo cấp số nhân với số lượng tầng, gây ra khó khăn trong việc điều chỉnh các trọng số của nơ ron dựa trên những lỗi này.
Để giải quyết vấn đề này, một số phương pháp đã được đề xuất. Một trong số đó là mô hình nhiều tầng của Jürgen Schmidhuber (1992), được huấn luyện trước đó bằng phương pháp học không giám sát, và sau đó được điều chỉnh bằng lan truyền ngược. Ở đây, mỗi tầng học một biểu diễn rút gọn của dữ liệu đầu vào trước khi chuyển đến tầng tiếp theo.
Một phương pháp khác là mạng bộ nhớ dài ngắn hạn (LSTM) của Hochreiter & Schmidhuber (1997). Các mạng LSTM sâu đa chiều đã chiến thắng ba cuộc thi ICDAR năm 2009 về nhận dạng chữ viết tay mà không yêu cầu sẵn sàng về ba ngôn ngữ.
Sven Behnke vào năm 2003 dựa trên phương pháp đào tạo với gradient (Rprop) để đào tạo mạng nơ ron tự thích ứng của mình để giải quyết vấn đề tái tạo hình ảnh và định vị khuôn mặt.
Các phương pháp khác sử dụng học không giám sát để tạo ra một mạng nơ ron có khả năng học đặc điểm tổng quát hữu ích. Sau đó, mạng này tiếp tục được huấn luyện bằng phương pháp lan truyền ngược giám sát để phân loại dữ liệu có nhãn. Mô hình sâu của Hinton và đồng nghiệp (2006) liên quan đến việc học phân phối của một biểu diễn cao cấp bằng cách sử dụng các lớp tiếp theo của biến ẩn nhị phân hoặc giá trị thực. Họ sử dụng một máy Boltzmann hạn chế (Smolensky, 1986) để mô hình hóa mỗi lớp mới của các đặc điểm cao cấp hơn. Mỗi lớp mới đảm bảo một sự tăng trưởng ổn định trong tỷ lệ khớp của dữ liệu kiểm tra, giúp củng cố mô hình nếu được huấn luyện đúng cách. Khi đã có đủ nhiều tầng học, kiến trúc sâu có thể được sử dụng như là một mô hình tái tạo dữ liệu bằng cách lấy mẫu từ mô hình đó (một 'sự vượt qua tổ tiên') từ các kích hoạt tính năng tầng cao.
Nhóm Google Brain do Andrew Ng và Jeff Dean đã phát triển một mạng nơ-ron học cách nhận diện các khái niệm cao cấp như con mèo chỉ từ việc xem những hình ảnh không có nhãn từ các video trên YouTube.
Các phương pháp khác dựa trên sức mạnh xử lý vượt trội của các máy tính hiện đại, đặc biệt là các GPU. Vào năm 2010, Dan Ciresan và các đồng nghiệp từ nhóm Jürgen Schmidhuber tại IDSIA Thụy Sĩ đã chứng minh rằng, với sự hỗ trợ mạnh mẽ từ GPU, việc giải quyết vấn đề biến mất gradient trở nên khả thi với các mạng neuron sâu hơn với nhiều lớp. Phương pháp này đã vượt qua tất cả các kỹ thuật máy học khác trong việc giải bài toán nổi tiếng về chữ số viết tay MNIST của Yann Le Cun và đồng nghiệp tại NYU.
Vào cuối năm 2009, học sâu đã bắt đầu ảnh hưởng đến việc nhận dạng giọng nói, như được đánh dấu bởi Hội nghị NIPS về học sâu trong nhận dạng giọng nói. Sự hợp tác mạnh mẽ giữa các nhà nghiên cứu của Microsoft Research và Đại học Toronto đã chứng minh vào năm 2010 tại Redmond rằng các mạng neuron sâu kết hợp với mô hình Markov ẩn có thể giảm đáng kể lỗi trong các nhiệm vụ nhận dạng tiếng nói có từ vựng phong phú như tìm kiếm bằng giọng nói. Một mô hình mạng neuron sâu tương tự đã được áp dụng thành công cho các nhiệm vụ quy mô lớn hơn tại Microsoft Research châu Á khoảng một năm sau đó.
Vào năm 2011, tiến bộ trong các mạng neuron sâu đã thay thế các lớp tích chập và max-pooling bằng các lớp kết nối đầy đủ hoặc kết nối từng phần kết hợp với một lớp phân loại cuối cùng. Việc huấn luyện thường được thực hiện mà không cần bất kỳ giám sát nào trước đó. Từ năm 2011, các ứng dụng thực tế dựa trên GPU của phương pháp này đã giành chiến thắng trong nhiều cuộc thi nhận dạng mẫu, bao gồm Cuộc thi Nhận dạng Biển báo Giao thông IJCNN 2011, Cuộc thi Phân đoạn cấu trúc thần kinh trong ngăn xếp EM ISBI 2012, và các cuộc thi khác.
Các phương pháp học sâu có giám sát cũng đã là những mô hình nhân tạo đầu tiên có thể cạnh tranh trực tiếp với con người trong những công việc cụ thể.
Để vượt qua các rào cản của AI đại diện bằng học sâu, cần phải vượt qua các kiến trúc học sâu. Theo báo cáo về giải phẫu não bộ, bộ não sinh học sử dụng cả mạch học nông và học sâu để xử lý một loạt các tính bất biến. Weng lập luận rằng não tự kết nối chủ yếu theo thống kê tín hiệu và do đó, một mạng neuron nối tiếp không thể bắt kịp với tất cả các đối tượng phụ thuộc chủ yếu vào thống kê. Các ANN đã có thể đảm bảo tính bất biến để đối phó với các vật thể tự nhiên lớn và nhỏ trong các bối cảnh có nhiều sự xáo trộn, chỉ khi mở rộng các bất định vượt ra ngoài sự thay đổi, tới tất cả các khái niệm mà ANN đã học được như vị trí, loại đối tượng, quy mô và ánh sáng. Điều này được thực hiện trong các Mạng Where-What, WWN-1 (2008) đến WWN-7 (2013).
Kiến trúc sâu
Có rất nhiều biến thể của kiến trúc sâu, hầu hết chúng là các nhánh phát sinh từ các kiến trúc cha mẹ ban đầu. Không luôn luôn có thể so sánh hiệu suất của nhiều kiến trúc với nhau vì chúng không được đánh giá trên cùng một tập dữ liệu. Học sâu là một lĩnh vực phát triển nhanh, và các kiến trúc, biến thể hoặc thuật toán mới xuất hiện hàng tuần.
Các mạng neuron sâu
Mạng neuron sâu (DNN-Deep neural Network) là một loại mạng neuron nhân tạo (ANN) với nhiều đơn vị lớp ẩn giữa lớp đầu vào và đầu ra. Giống như các ANN nông, DNN có thể mô hình mối quan hệ phi tuyến phức tạp. Các kiến trúc DNN, ví dụ như để phát hiện và phân tích các đối tượng, tạo ra các mô hình hỗn hợp trong đó đối tượng được biểu thị như một thành phần lớp xếp của hình ảnh nguyên thủy. Các lớp phụ cho phép các thành phần đặc điểm từ các lớp thấp hơn, mang lại tiềm năng cho việc mô hình hóa dữ liệu phức tạp với ít đơn vị hơn so với một mạng lưới nông thực hiện công việc tương tự.
Các mạng nơ ron sâu thường được thiết kế dưới dạng mạng nuôi tiến, nhưng nghiên cứu gần đây đã thành công khi áp dụng kiến trúc học sâu cho các mạng nơ ron tái phát trong các ứng dụng như mô hình hóa ngôn ngữ. Các mạng neuron sâu tích chập (CNN) đã được sử dụng rộng rãi trong thị giác máy tính, nơi mà chúng đã ghi nhận được sự thành công đáng kể. Gần đây, CNN cũng đã được áp dụng để mô hình hóa âm thanh cho nhận dạng giọng nói tự động (ASR), nơi chúng đã chứng minh được hiệu quả trong các ứng dụng trước đó. Để đơn giản hóa, chúng ta hãy xem xét quá trình huấn luyện các DNN như được mô tả ở đây.
Một DNN có thể là một mô hình học sâu được huấn luyện với thuật toán lan truyền ngược tiêu chuẩn. Các cập nhật trọng số có thể được thực hiện thông qua gradient ngẫu nhiên, sử dụng phương trình sau đây:
Ở đây, η là tốc độ học, và C là hàm chi phí. Việc lựa chọn hàm chi phí phụ thuộc vào nhiều yếu tố như loại học (giám sát, không giám sát, cường điệu, vv) và hàm kích hoạt. Ví dụ, khi thực hiện học giám sát cho các vấn đề phân loại đa lớp, các lựa chọn phổ biến cho hàm kích hoạt và hàm chi phí là hàm softmax và entropy chéo tương ứng. Hàm softmax được định nghĩa là pj = exp(xj) / ∑k exp(xk), trong đó pj là xác suất của lớp j (đầu ra của đơn vị j), và xj và xk biểu thị tổng đầu vào của các đơn vị tương ứng j và k. Entropy chéo được định nghĩa là C = - ∑j dj log(pj), trong đó dj là xác suất mục tiêu của đơn vị j và pj là xác suất đầu ra sau khi áp dụng hàm kích hoạt.
Chúng có thể được áp dụng để tạo ra các hộp giới hạn quanh đối tượng dưới dạng một mặt nạ nhị phân. Chúng cũng có thể được sử dụng cho hồi quy đa quy mô nhằm nâng cao độ chính xác trong việc định vị. Hồi quy dựa trên DNN có thể học được các đặc trưng hình học ngoài việc là một bộ phân loại hiệu quả. Chúng loại bỏ các giới hạn của việc thiết kế mô hình để tập trung vào việc tái tạo các thành phần và mối quan hệ một cách rõ ràng, giúp học được đa dạng các đối tượng lớn. Mô hình này bao gồm nhiều lớp, mỗi lớp có một đơn vị điều chỉnh tuyến tính cho các biến đổi phi tuyến. Một số lớp là tích chập, trong khi các lớp khác là kết nối đầy đủ. Mỗi lớp tích chập có một phép tìm giá trị lớn nhất bổ sung. Mạng được huấn luyện để giảm thiểu sai số L2 trong việc dự đoán các mặt nạ nằm trong phạm vi của các hộp biên, được biểu thị như một mặt nạ trong tập huấn luyện toàn bộ.
Các thách thức đối với các mạng neuron sâu
Tương tự như với ANN, DNN cũng có thể phát sinh nhiều vấn đề nếu được huấn luyện một cách thô sơ. Hai vấn đề phổ biến là overfitting và thời gian tính toán.
DNN thường có xu hướng bị overfitting do sự bổ sung của các lớp trừu tượng, cho phép chúng mô hình hóa các phụ thuộc hiếm hoi trong dữ liệu huấn luyện. Các phương pháp regularization như phân rã trọng số (ℓ₂-regularization) hoặc sparsity (ℓ₁-regularization) có thể giúp giảm overfitting. Một phương pháp regularization khác là dropout, giúp ngẫu nhiên loại bỏ một số đơn vị ẩn trong quá trình huấn luyện.
Phương pháp chủ đạo cho huấn luyện DNN là sửa lỗi huấn luyện như truyền ngược với gradient descent, có xu hướng hội tụ tốt hơn so với các phương pháp khác. Tuy nhiên, chúng có thể tốn nhiều công tính toán, đặc biệt là cho DNN. Các tham số huấn luyện như kích thước mạng, tốc độ học và trọng số ban đầu cũng đóng vai trò quan trọng.
Mạng niềm tin sâu (DBN)
DBN là một mô hình xác suất gồm nhiều đơn vị ẩn và nhiều lớp. Nó được xây dựng từ các mô-đun học đơn giản trong mỗi lớp.
DBN có thể được sử dụng để huấn luyện trước và sinh ra một DNN bằng cách sử dụng các trọng số đã học từ DBN như là trọng số ban đầu của DNN. Sau đó, các thuật toán truyền ngược hoặc suy xét khác có thể được áp dụng để điều chỉnh những trọng số này. Điều này rất hữu ích khi chỉ có ít dữ liệu huấn luyện có sẵn, vì các trọng số khởi tạo ban đầu kém chất lượng có thể làm giảm hiệu suất của mô hình học. Các trọng số được huấn luyện trước này nằm gần với không gian trọng số tối ưu hơn so với các trọng số được chọn ngẫu nhiên ban đầu, giúp cải thiện mô hình hóa và tăng tốc quá trình hội tụ.
Một DBN có thể được huấn luyện hiệu quả trong chế độ không giám sát, từng lớp một, nơi mà các lớp thường được hình thành từ các máy Boltzmann hạn chế (RBM). Một RBM là một mô hình sinh dựa trên năng lượng với một lớp đầu vào 'hiện trạng' và một lớp ẩn, với các kết nối giữa chúng nhưng không bên trong các lớp. Phương pháp huấn luyện RBM được đề xuất bởi Geoffrey Hinton để sử dụng với mô hình 'Product of Expert' gọi là khác biệt phân tán (CD-contrastive divergence). CD cung cấp một xấp xỉ lý tưởng để điều chỉnh trọng số RBM với sự hội tụ tối ưu hóa. Trong việc huấn luyện RBM đơn lẻ, các cập nhật trọng số được thực hiện bằng phương pháp gradient ascent qua phương trình: Δw_{ij}(t+1)=w_{ij}(t)+η ∂log(p(v))/∂w_{ij}. Trong đó, p(v) là xác suất của vector hiện trạng v, được cho bởi p(v)=1/Z ∑h e^{-E(v,h)}. Z là hàm phân bố (được sử dụng để chuẩn hóa) và E(v,h) là hàm năng lượng gán cho trạng thái của mạng. Một năng lượng thấp chỉ ra rằng mạng đang ở trong một trạng thái 'đáng mong đợi' hơn. Gradient ∂log(p(v))/∂w{ij} được biểu thị đơn giản là ⟨v_ih_j⟩_data - ⟨v_ih_j⟩_model, trong đó ⟨...⟩_p là giá trị trung bình theo phân phối p. CD thay thế các bước lấy mẫu Gibbs bằng cách lấy mẫu xen kẽ cho n bước (n=1 đã được chứng minh là làm việc tốt). Sau n bước này, dữ liệu mẫu được sử dụng trong ⟨v_ih_j⟩_model.
- Khởi tạo các đơn vị hiện tại (visible units) thành một vector huấn luyện.
- Cập nhật các đơn vị ẩn song song với các đơn vị hiện tại bằng cách sử dụng phương trình: . Ở đây, là hàm sigmoid và là độ lệch của .
- Cập nhật các đơn vị hiện tại song song với các đơn vị ẩn đã cho: . Ở đây, là độ lệch của . Đây được gọi là bước 'cải tạo'.
- Tái cập nhật các đơn vị ẩn song song với các đơn vị hiện tại cải tạo đã cho bằng cách sử dụng phương trình tương tự như trong bước 2.
- Thực hiện cập nhật trọng số: .
Khi một RBM được huấn luyện, một RBM khác sẽ 'xếp chồng' lên trên, nhận đầu vào từ lớp đã được huấn luyện. Lớp hiện tại mới này được khởi tạo bằng một vector hiện tại, và các giá trị cho các đơn vị trong các lớp đã được huấn luyện sẽ được gán bằng cách sử dụng trọng số hiện tại và các độ lệch. RBM mới này sau đó sẽ được huấn luyện lại bằng quy trình tương tự. Toàn bộ quá trình này được lặp đi lặp lại cho đến khi đạt được một số tiêu chí mong muốn.
Mặc dù xấp xỉ CD để tối đa hóa khả năng là rất thô (CD đã được chứng minh là không phải theo gradient của bất kỳ hàm nào), nhưng nó đã được kinh nghiệm chứng minh là có hiệu quả trong việc huấn luyện các kiến trúc sâu.
Mạng nơ ron tích chập (Convolutional neural networks)
Một CNN bao gồm một hoặc nhiều lớp tích chập cùng với các lớp kết nối đầy đủ (tương tự như các mạng neuron nhân tạo truyền thống). Nó cũng sử dụng trọng số gắn liền và các lớp thăm dò. Kiến trúc này cho phép CNN tận dụng cấu trúc 2D của dữ liệu đầu vào. So với các kiến trúc sâu khác, mạng neuron tích chập đang thể hiện kết quả vượt trội trong các ứng dụng hình ảnh và giọng nói. Chúng cũng có thể được huấn luyện với tiêu chuẩn truyền ngược. CNN dễ dàng được huấn luyện hơn so với các mạng neuron sâu khác và có ít thông số cần ước tính hơn, làm cho chúng trở thành một kiến trúc rất hấp dẫn để sử dụng. Các ví dụ về ứng dụng trong thị giác máy tính bao gồm DeepDream.
Mạng niềm tin sâu tích chập
Việc sử dụng mạng niềm tin sâu tích chập (CDBN) là một bước tiến mới trong học sâu. CDBN có cấu trúc tương tự như mạng neuron tích chập và được huấn luyện theo cách của mạng niềm tin sâu. Chúng tận dụng cấu trúc 2D của hình ảnh, giống như CNN, và sử dụng phương pháp đào tạo trước. CDBN cung cấp một khung tổng quát cho nhiều nhiệm vụ xử lý hình ảnh và tín hiệu. Gần đây, các kết quả benchmark từ tập dữ liệu hình ảnh chuẩn như CIFAR đã cho thấy hiệu quả của CDBN.
Mạng neuron lưu trữ và truy xuất bộ nhớ lớn
Mạng nơ ron lưu trữ và truy xuất bộ nhớ lớn (LAMSTAR) là các mạng nơ ron học sâu nhanh, có nhiều lớp và sử dụng đồng thời nhiều bộ lọc. Các bộ lọc này có thể là phi tuyến, ngẫu nhiên, logic, không cố định hoặc không phân tích được. Chúng là các hệ thống học tập năng động và liên tục.
Mạng neuron LAMSTAR có thể hoạt động như một mạng nơ ron năng động trong không gian hoặc thời gian, hoặc cả hai. Tốc độ của nó được điều chỉnh bởi các liên kết-trọng số Hebbian (xem chương 9 của D. Graupe, 2013), tích hợp các bộ lọc khác nhau vào nhiều lớp của nó và xếp hạng tầm quan trọng của các lớp và hàm liên quan đến nhiệm vụ. Điều này bắt chước học sinh học, tích hợp các đầu ra từ các cơ quan như ốc tai, võng mạc và các vùng vỏ não khác nhau. Khả năng học sâu của nó được tăng cường nhờ sự ức chế, sự tương quan và khả năng đối phó với dữ liệu không đầy đủ, hoặc mất nơ ron hay lớp ngay cả khi đang thực thi một nhiệm vụ. Hơn nữa, nó hoàn toàn minh bạch với các trọng số liên kết của mình, cho phép xác định sáng tạo và thừa thãi, đồng thời tạo điều kiện cho việc xếp hạng các lớp, bộ lọc hoặc nơ ron tương ứng với nhiệm vụ cụ thể.
LAMSTAR đã được áp dụng rộng rãi trong các dự đoán y tế và tài chính (xem Graupe, 2013, Phần 9C), bộ lọc nhiễu thích nghi cho nhận dạng giọng nói trong môi trường ồn không xác định, nhận dạng ảnh tĩnh (Graupe, 2013, Phần 9D), nhận dạng video, bảo mật phần mềm và điều khiển thích nghi cho các hệ thống phi tuyến. LAMSTAR có tốc độ xử lý nhanh hơn và độ sai số thấp hơn so với mạng nơ ron tích chập dựa trên bộ lọc hàm-ReLU và thăm dò max trong nghiên cứu so sánh nhận dạng ký tự.
Các ứng dụng này chứng minh khả năng khám phá các khía cạnh ẩn trong dữ liệu mà các mạng học nông hoặc giác quan con người (mắt, tai) không thể nhận ra, chẳng hạn như dự đoán sự khởi phát của ngưng thở khi ngủ, phân tích điện tâm đồ thai nhi từ các điện cực gắn trên da bụng mẹ trong giai đoạn đầu của thai kỳ, dự đoán tài chính (Graupe, 2013, Phần 9C) hoặc lọc nhiễu trong nhận dạng giọng nói.
LAMSTAR được đề xuất lần đầu vào năm 1996 (Bằng sáng chế Mỹ số 5,920,852 A) và được D Graupe cùng H Kordylewski tiếp tục phát triển từ 1997-2002. Phiên bản cải tiến, mang tên LAMSTAR 2, được N C Schneider và D Graupe phát triển vào năm 2008.
Máy Deep Boltzmann
Mạng xếp chồng sâu
Một kiến trúc sâu dựa trên hệ thống phân cấp của các khối mô-đun mạng neuron đơn giản, được gọi là mạng sâu lồi, đã được giới thiệu vào năm 2011. Bài toán học các trọng số được xây dựng như một bài toán tối ưu hóa lồi với lời giải dạng đóng. Kiến trúc này còn được gọi là mạng xếp chồng sâu (DSN), nhấn mạnh các cơ chế tương tự với tổng quát hóa xếp chồng. Mỗi khối DSN là một module đơn giản, dễ dàng huấn luyện trong một kiểu có giám sát mà không cần truyền ngược toàn bộ các khối.
Mạng lập trình sâu (deep coding network)
Có những lợi thế từ mô hình có thể chủ động cập nhật từ ngữ cảnh trong dữ liệu. Mạng lập trình dự đoán (DPCN) là một chương trình lập trình tiên đoán, trong đó thông tin từ trên xuống được sử dụng để điều chỉnh theo kinh nghiệm cần thiết cho suy luận từ dưới lên, thông qua mô hình sinh học kết nối cục bộ sâu. Nó chiết tách các đặc điểm rời rạc từ quan sát biến đổi theo thời gian bằng mô hình động học tuyến tính, sau đó sử dụng chiến lược thăm dò để học các đại diện đặc điểm bất biến. Các đơn vị này tập hợp lại để tạo thành kiến trúc sâu và được huấn luyện bằng học không giám sát layer-wise tham lam. Các lớp này tạo thành xích Markov mà các trạng thái tại bất kỳ lớp nào cũng chỉ phụ thuộc vào lớp trước và lớp sau.
Mạng lập trình dự đoán sâu (DPCN) dự đoán đại diện của lớp bằng cách tiếp cận từ trên xuống, sử dụng thông tin ở lớp trên và các phụ thuộc thời gian từ các trạng thái trước.
DPCN có thể mở rộng để tạo thành một mạng tích chập.
Máy nhân đa tầng
Mạng Q sâu
Mạng lưới nhớ
Bộ nhớ ngoài tích hợp với các mạng neuron nhân tạo tính đến nghiên cứu đầu tiên trong đại diện phân phối và các bản đồ tự tổ chức. Ví dụ, trong bộ nhớ phân tán hoặc bộ nhớ phân cấp thời gian, các mô hình được mã hóa bởi các mạng neuron được sử dụng như là các địa chỉ cho bộ nhớ có khả năng định địa chỉ nội dung, với các 'nơ ron' chủ yếu phục vụ như là các bộ mã hóa và giải mã.
Bộ nhớ dài hạn ngắn hạn
Trong những năm 1990 và 2000, đã có nhiều nghiên cứu liên quan đến bộ nhớ dài-ngắn hạn (LSTM - bổ sung bộ nhớ thích hợp cho các hàm hồi quy). Ví dụ:
- Các hành động đẩy và lấy ra khả vi cho các mạng bộ nhớ thay thế được gọi là các mạng xếp ngăn nơ ron
- Các mạng bộ nhớ nơi lưu trữ khả vi khác biệt của mạng điều khiển ngoài được tích hợp trong trọng số nhanh của mạng khác
- LSTM 'cổng quên'
- Các mạng nơ ron tái phát tự tham chiếu với các đơn vị đặc biệt cho việc địa chỉ và điều chỉnh nhanh chóng từng trọng số riêng của RNN bằng cách có thể khác biệt (lưu trữ nội bộ)
- Học cách chuyển đổi với bộ nhớ không giới hạn
Các mạng bộ nhớ
Các mạng bộ nhớ là một sự mở rộng khác của các mạng nơ ron nhân tạo kết hợp với bộ nhớ dài hạn, được phát triển bởi nhóm nghiên cứu Facebook. Bộ nhớ dài hạn có thể được đọc và ghi lại, với mục đích sử dụng cho việc dự đoán. Các mô hình này đã được áp dụng trong bối cảnh hỏi và đáp (QA) nơi bộ nhớ dài hạn hoạt động hiệu quả như một cơ sở tri thức (động), và đầu ra là một phản hồi văn bản.
Các mạng mã hóa-giải mã
Một framework mã hóa-giải mã là một framework dựa trên các mạng neuron nhằm mục đích lập bản đồ từ đầu vào cấu trúc cao tới đầu ra có cấu trúc cao. Đây là một khái niệm mới được đề xuất trong lĩnh vực máy dịch, nơi mà đầu vào và đầu ra được biểu diễn dưới dạng câu trong hai ngôn ngữ tự nhiên khác nhau. Một mạng neuron tái phát (RNN) hoặc mạng neuron tích chập (CNN) được dùng để mã hóa câu nguồn và tóm tắt này được giải mã bằng một mô hình ngôn ngữ có điều kiện, tạo ra bản dịch. Tất cả các hệ thống này có cùng một cấu trúc xây dựng: các cổng RNN và CNN, và các cơ chế tập trung được huấn luyện.
Ứng dụng
Xử lý ngôn ngữ tự nhiên (Natural Language Processing)
Hiện nay, các mô hình transformer base đã vượt trội hơn so với các mô hình sử dụng RNN. Hầu hết trong các tác vụ, mô hình transformer base hiển thị sự ưu việt hơn so với các mô hình RNN (dựa trên LSTM hoặc GRU). Với Hugging Face Hub, chúng ta có thể dễ dàng điều chỉnh lại mô hình.
Một trong những nguyên tắc cơ bản của học sâu là để thoát khỏi kỹ thuật đặc tính thủ công và sử dụng các đặc tính thô. Nguyên tắc này đã thành công trong kiến trúc tự mã hóa sâu trên ảnh phổ 'thô' hoặc các đặc điểm dãi lọc tuyến tính, chứng minh sự vượt trội hơn so với các đặc tính Mel-Cepstral, mà chứa các giai đoạn chuyển đổi cố định từ ảnh phổ. Các đặc tính thực sự 'thô' của tiếng nói và dạng sóng gần đây đã được chỉ ra để tạo ra kết quả nhận dạng giọng nói xuất sắc trên quy mô lớn.
Kể từ khi DNN cho nhận dạng tiếng nói ra mắt thành công ban đầu khoảng từ năm 2009 đến 2011, tiến bộ và hướng phát triển trong tương lai có thể được tổng kết vào 8 lĩnh vực chính:
- Mở rộng quy mô và tăng tốc độ huấn luyện và giải mã của DNN;
- Huấn luyện suy luận có trình tự cho DNN;
- Xử lý đặc trưng bởi các mô hình sâu với sự hiểu biết sâu về các cơ chế tiềm ẩn;
- Thích nghi của DNN và các mô hình sâu tương tự;
- Học đa nhiệm và chuyển giao học của DNN và các mô hình sâu liên quan;
- Mạng neuron tái phát và các biến thể phong phú của LSTM;
- Các loại mô hình sâu bao gồm các mô hình dựa trên tensor và tích hợp sâu vào sinh/suy nghĩ.
Thành công trong nhận dạng tiếng nói lan rộng đã đạt được vào năm 2011, đứng sau nhận dạng hình ảnh ở quy mô lớn.
Nhận dạng hình ảnh
Một tập dữ liệu phổ biến để phân loại hình ảnh là MNIST. MNIST bao gồm các chữ số viết tay với 60000 ví dụ huấn luyện và 10000 ví dụ kiểm tra. Với kích thước nhỏ, nó cho phép nhiều cấu hình thử nghiệm. Kết quả tốt nhất hiện nay trên MNIST là tỷ lệ lỗi 0,23%, đạt được vào năm 2012 bởi Ciresan và đồng nghiệp.
Tác động thực sự của học sâu trong nhận dạng hình ảnh hoặc đối tượng, một lĩnh vực chính của thị giác máy tính, đã cảm nhận được từ năm 2012 khi đội của Geoff Hinton và sinh viên của ông thắng trong cuộc thi quy mô lớn ImageNet bằng một cách tiếp cận máy học nông tiên tiến nhất. Công nghệ này dựa trên mạng tích chập sâu đã có 20 năm tuổi nhưng được mở rộng quy mô lớn hơn cho một nhiệm vụ lớn hơn, cho thấy rằng học sâu hoạt động hiệu quả trong việc nhận dạng giọng nói quy mô lớn. Trên ImageNet, tỷ lệ lỗi đã giảm nhanh chóng vào năm 2013 và 2014, tương tự như trong nhận dạng giọng nói quy mô lớn.
Khi tham vọng này chuyển từ nhận dạng giọng nói tự động sang dịch giọng nói tự động và hiểu biết, phân loại hình ảnh gần đây đã được mở rộng với nhiệm vụ khó khăn hơn là tạo phụ đề tự động cho hình ảnh, với học sâu là công nghệ cơ bản và thiết yếu.
Một ứng dụng ví dụ là xe hơi tự lái được đào tạo bằng học sâu, có khả năng diễn giải các hình ảnh 360° từ camera. Một ví dụ khác là công nghệ Facial Dysmorphology Novel Analysis (FDNA) được sử dụng để phân tích các trường hợp biến dạng khuôn mặt của con người kết nối với cơ sở dữ liệu lớn về các hội chứng di truyền.
Xử lý ngôn ngữ tự nhiên
Mạng neuron đã được áp dụng để xây dựng các mô hình ngôn ngữ từ những năm đầu 2000. Các kỹ thuật quan trọng trong lĩnh vực này bao gồm lấy mẫu âm và nhúng từ (word embedding). Nhúng từ, như word2vec, có thể được sử dụng làm một lớp biểu diễn trong một kiến trúc học sâu, biến đổi từ đơn thành một biểu diễn vị trí của từ đó trong không gian vector, liên quan đến các từ khác trong dữ liệu. Sử dụng nhúng từ làm lớp đầu vào với mạng neuron đệ quy (RNN) cho phép huấn luyện mạng để phân tích cú pháp câu và đoạn văn bằng cách sử dụng một cấu trúc ngữ pháp không phụ thuộc ngữ cảnh xác suất (PCFG). Tự động mã hóa đệ quy dựa trên nhúng từ đã được đào tạo để đánh giá sự tương tự của các câu và phát hiện ra các chú giải dài. Các kiến trúc mạng neuron sâu đã đạt được những tiến bộ nổi bật trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên như phân tích thống kê, phân tích cảm xúc, tìm kiếm thông tin, dịch máy, liên kết thực thể trong ngữ cảnh và nhiều nhiệm vụ khác.
Khám phá dược phẩm và độc chất học
Ngành công nghiệp dược phẩm đang phải đối mặt với thách thức lớn khi một tỷ lệ cao các loại thuốc tiềm năng thất bại khi tiếp cận thị trường. Các hợp chất hóa học thất bại do không đạt hiệu quả đối với mục tiêu phân tử sinh học, có tương tác không mong muốn với các phân tử sinh học khác, hoặc có các hiệu ứng độc tác động ngoài dự tính. Năm 2012, George Dahl và nhóm đã chiến thắng cuộc thi 'Merck Molecular Activity Challenge' bằng cách sử dụng mạng neuron sâu đa nhiệm để dự đoán mục tiêu phân tử sinh học của các hợp chất.
Quản lý quan hệ khách hàng (CRM)
Thành công gần đây đã được báo cáo trong việc áp dụng học sâu tăng cường vào các chiến lược tiếp thị trực tiếp, chứng tỏ tính hiệu quả của phương pháp này trong tự động hóa CRM. Một mạng neuron được sử dụng để ước tính giá trị của các hoạt động tiếp thị trực tiếp dựa trên không gian trạng thái của khách hàng, định nghĩa bởi RFM (Recency, Frequency, Monetary). Các hàm ước tính giá trị đã chỉ ra một cách tự nhiên giá trị khách hàng trọn đời.
Các hệ thống khuyến cáo (gợi ý)
Các hệ thống khuyến cáo đã áp dụng học sâu để trích xuất các đặc trưng sâu có ý nghĩa cho mô hình yếu tố tiềm ẩn đối với khuyến cáo dựa trên nội dung âm nhạc. Gần đây, một phương pháp tiếp cận tổng quát hơn cho việc học tập sở thích người dùng từ nhiều lĩnh vực bằng cách sử dụng học sâu đa góc nhìn đã được đưa ra. Mô hình này sử dụng một phương pháp hợp tác và tiếp cận dựa trên nội dung để tăng cường các đề xuất trong nhiều nhiệm vụ.
Báo cáo sinh học
Gần đây, một phương pháp tiếp cận học sâu dựa trên một mạng thần kinh nhân tạo tự mã hóa đã được áp dụng trong báo cáo sinh học, để dự đoán các mối quan hệ chức năng gen và các chú thích về bản thể gen.
Lý thuyết về bộ não con người
Tầm quan trọng của học sâu đối với sự tiến hóa và phát triển của nhận thức con người đã không bị bỏ qua bởi các nhà nghiên cứu. Một khía cạnh của phát triển con người là sự phân biệt giữa chúng ta và hàng xóm gần nhất của chúng ta có thể thay đổi trong quá trình phát triển. Trong số các loài bộ trưởng, bộ não con người vẫn khá mềm dẻo cho đến khi gần kết thúc thời kỳ sau sinh, trong khi bộ não của người chúng ta gần gũi nhất lại hoàn toàn cố định hơn ngay sau khi sinh. Vì vậy, con người có khả năng tiếp cận nhiều hơn các trải nghiệm phức tạp diễn ra trên thế giới trong giai đoạn hình thành não bộ sớm nhất. Điều này có thể cho phép chúng ta 'điều chỉnh' để thay đổi môi trường nhanh chóng mà các loài động vật khác, với cơ cấu tiến hóa bộ não hạn chế hơn, không thể làm được. Đến mức độ mà những thay đổi này có thể phản ánh trong các thay đổi thời gian tương tự trong sóng giả định của sự phát triển vỏ não, chúng cũng có thể dẫn đến những thay đổi trong việc khai thác thông tin từ môi trường kích thích trong giai đoạn sắp xếp đầu tiên của não bộ. Tất nhiên, đi kèm với tính linh hoạt này là giai đoạn kéo dài chưa đầy đủ, trong đó con người phụ thuộc vào người chăm sóc và cộng đồng của mình để hỗ trợ và đào tạo. Lý thuyết về học sâu nhìn thấy sự phát triển song song của văn hóa và nhận thức như là điều kiện cơ bản của tiến hóa con người.
Hành động thương mại
Hầu hết các công ty công nghệ lớn nhất trên thế giới hiện đang đầu tư mạnh vào nghiên cứu và phát triển để tiếp tục cải tiến công nghệ cốt lõi cũng như tạo ra các sản phẩm ứng dụng sử dụng kỹ thuật học sâu. Ví dụ điển hình là nhóm nghiên cứu trí tuệ nhân tạo của Facebook đã phát triển phần mềm DeepFace có khả năng nhận dạng khuôn mặt với độ chính xác gần bằng con người, khoảng 97,35%. Công trình này (công bố năm 2014) sử dụng 4 triệu hình ảnh khuôn mặt của hơn 4000 người để huấn luyện mạng nơ-ron nhiều lớp và mô hình thu được đã vượt qua các kỹ thuật được nghiên cứu đề xuất trước đó.
Học sâu thường được giới thiệu như là một bước tiến hướng tới AI mạnh mẽ và do đó nhiều tổ chức đã bắt đầu quan tâm đến việc áp dụng nó cho các ứng dụng cụ thể. Vào tháng 12 năm 2013, Facebook đã tuyển dụng Yann Le Cun để lãnh đạo phòng thí nghiệm trí tuệ nhân tạo mới của họ tại California, London và New York. Phòng thí nghiệm AI này sẽ phát triển các kỹ thuật học sâu để giúp Facebook thực hiện các nhiệm vụ như gắn thẻ tự động hình ảnh tải lên với tên của những người có mặt trong đó. Vào cuối năm 2014, Facebook cũng tuyển dụng Vladimir Vapnik, nhà phát triển chính của lý thuyết Vapnik-Chervonenkis về học thống kê và đồng sáng lập phương pháp Support Vector Machine.
Vào tháng 3 năm 2013, Google tuyển dụng Geoffrey Hinton và hai sinh viên tốt nghiệp của ông là Alex Krizhevsky và Ilya Sutskever. Công việc của họ tập trung vào việc cải tiến sản phẩm học máy hiện có của Google và hỗ trợ xử lý dữ liệu ngày càng tăng mà Google thu thập được. Google cũng mua lại công ty DNNresearch của Hinton.
Năm 2014, Google cũng mua lại DeepMind Technologies, một công ty khởi nghiệp từ Anh đã phát triển một hệ thống có khả năng học tập cách chơi game Atari chỉ từ dữ liệu hình ảnh thô. Vào năm 2015, họ chứng minh rằng hệ thống AlphaGo đã đạt được một trong những thành tựu quan trọng trong lịch sử của AI bằng cách học chơi cờ vây đủ tốt để đánh bại một cờ thủ chuyên nghiệp.
Baidu đã thuê Andrew Ng để lãnh đạo phòng thí nghiệm nghiên cứu của họ tại thung lũng Silicon mới tập trung vào học sâu.
Phê bình và đánh giá
- Neural Designer — Một ứng dụng đồ họa giao diện người dùng cho mạng neuron sâu cung cấp song song hóa với CPU.