Bộ dữ liệu MNIST (tiếng Anh: MNIST database, viết tắt từ Modified National Institute of Standards and Technology database) là một tập hợp lớn các chữ số viết tay, thường được sử dụng để đào tạo các hệ thống nhận diện hình ảnh khác nhau. Bộ dữ liệu này cũng được dùng phổ biến trong việc đào tạo và kiểm tra các mô hình học máy. Nó được tạo ra bằng cách kết hợp các mẫu từ bộ dữ liệu NIST gốc. Những người phát triển cảm thấy rằng bộ dữ liệu đào tạo của NIST, được thu thập từ Cục Thống kê Dân số Hoa Kỳ, không phù hợp cho các thí nghiệm học máy vì bộ dữ liệu thử nghiệm lại được lấy từ các học sinh trung học Hoa Kỳ. Hơn nữa, các hình ảnh đen trắng từ NIST đã được điều chỉnh để phù hợp với kích thước 28x28 pixel và khử răng cưa không gian, đồng thời có thêm các mức độ xám.
- Trang web của bộ dữ liệu MNIST
- Danh sách các bộ dữ liệu nghiên cứu học máy
- Caltech 101
- LabelMe
- Nhận diện ký tự quang học
Xem thêm thông tin
- Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (tháng 6 năm 2012). “Mạng nơ-ron sâu đa cột cho phân loại hình ảnh” (PDF). Công hội IEEE về Nhận diện và Phát hiện Hình ảnh. New York, NY: Hội Kỹ sư Điện và Điện tử. trang 3642–3649. arXiv:1202.2745. CiteSeerX 10.1.1.300.3283. doi:10.1109/CVPR.2012.6248110. ISBN 9781467312264. OCLC 812295155. Truy cập ngày 9 tháng 12 năm 2013.
Các liên kết bên ngoài
- Trang web chính thức
- Neural Net cho Nhận diện Chữ viết tay bằng JavaScript – một phiên bản JavaScript của mạng nơ-ron để phân loại chữ viết tay dựa trên cơ sở dữ liệu MNIST
- Hình ảnh của cơ sở dữ liệu MNIST – các nhóm hình ảnh của các chữ số viết tay MNIST trên GitHub