Nhận diện ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR), là phần mềm máy tính dùng để chuyển đổi hình ảnh chữ viết tay hoặc chữ đánh máy (thường qua quét máy scanner) thành văn bản tài liệu. OCR được phát triển từ nghiên cứu về nhận dạng mẫu, trí tuệ nhân tạo và machine vision. Dù nghiên cứu học thuật vẫn tiếp tục, nhiều ứng dụng thực tế của OCR đã được triển khai với các kỹ thuật đã được chứng minh.
Nhận diện ký tự quang học (dùng kỹ thuật quang học như gương và ống kính) và nhận diện ký tự số (sử dụng máy quét và thuật toán máy tính) từng được coi là hai lĩnh vực riêng biệt. Do số lượng ứng dụng thực tế với kỹ thuật quang học còn hạn chế, thuật ngữ Nhận diện ký tự quang học đã được mở rộng để bao gồm cả nhận diện ký tự số.
Hệ thống nhận diện đầu tiên cần được huấn luyện với các mẫu ký tự cụ thể. Các hệ thống 'thông minh' với khả năng nhận diện chính xác cao đối với đa số phông chữ hiện nay đã trở nên phổ biến. Một số hệ thống còn có khả năng phục hồi định dạng tài liệu gần giống bản gốc, bao gồm hình ảnh, cột, bảng biểu và các thành phần không phải văn bản.
Hiện nay, phần mềm nhận diện chữ Việt như VnDOCR 4.0 có khả năng nhận diện trực tiếp tài liệu được quét mà không cần lưu trữ dưới dạng tệp ảnh trung gian. Các tài liệu có thể được quét và lưu dưới dạng tệp tin nhiều trang. Kết quả nhận diện có thể được lưu trữ dưới định dạng của Microsoft Word, Excel... đáp ứng nhu cầu số hóa dữ liệu rất hiệu quả.
Ngoài ra, có một dự án OCR tiếng Việt mang tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr, do Google tài trợ. VietOCR có khả năng nhận diện chữ Việt rất hiệu quả. Đây là một chương trình nguồn mở sử dụng Java/.NET, hỗ trợ nhận diện nhiều loại hình ảnh như PDF, TIFF, JPEG, GIF, PNG và BMP.
ABBYY, một công ty hàng đầu thế giới trong lĩnh vực Nhận diện ký tự quang học, đã nghiên cứu và triển khai công nghệ nhận diện chữ Việt vào tháng 4 năm 2009. Công nghệ của ABBYY đạt độ chính xác lên đến hơn 99% trong việc nhận diện tài liệu chữ in tiếng Việt (khoảng 1 lỗi trên 100 ký tự). Công nghệ này hỗ trợ nhiều định dạng ảnh đầu vào như PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu... Kết quả nhận diện có thể được lưu dưới các định dạng như MS Word, MS Excel, HTML, TXT, XML, PDF, và PDF 2 lớp, với PDF 2 lớp là định dạng tối ưu cho việc lưu trữ và sử dụng tài liệu. Định dạng này cho phép người đọc xem ảnh gốc qua lớp ảnh bên trên, trong khi lớp văn bản nhận diện bên dưới hỗ trợ tìm kiếm toàn văn hiệu quả.
Công nghệ OCR hiện nay
Tỷ lệ nhận diện chính xác các ký tự Latin đánh máy đã được giải quyết, đạt tới 99%. Tuy nhiên, một số ứng dụng yêu cầu độ chính xác cao hơn vẫn cần sự kiểm tra của con người để phát hiện lỗi.
Nhận diện chữ viết tay, chữ thảo tay, và thậm chí các phiên bản đánh máy của một số chữ (đặc biệt là những chữ có nhiều ký tự) vẫn đang là chủ đề nghiên cứu.
Trong những năm gần đây, các hệ thống nhận diện ký tự viết tay đã gặt hái nhiều thành công lớn về mặt thương mại. Đặc biệt là các thiết bị hỗ trợ cá nhân (PDA) như phần mềm chạy trên Palm OS. Apple Newton là một trong những tiên phong trong công nghệ này. Các thuật toán dùng trong thiết bị này dựa vào việc biết trước thứ tự, tốc độ và hướng của các đoạn chữ. Người dùng cũng có thể phải sử dụng một số kiểu chữ cụ thể. Những phương pháp này không áp dụng cho phần mềm quét tài liệu giấy, vì vậy việc nhận diện chính xác văn bản viết tay vẫn là một thách thức lớn. Mặc dù đạt được độ chính xác từ 80% đến 90%, nhưng vẫn có nhiều lỗi mỗi trang, khiến công nghệ này chỉ hiệu quả trong một số trường hợp nhất định. Một dạng OCR mới trong ngành công nghiệp hiện nay là ICR (Nhận diện Ký tự Thông minh).
Nhận diện chữ viết tay là một lĩnh vực nghiên cứu đầy thách thức, với tỷ lệ nhận diện thường thấp hơn so với văn bản in. Đạt được tỷ lệ nhận diện cao hơn cho chữ viết tay thường không thể thực hiện được nếu không sử dụng thông tin ngữ pháp và ngữ cảnh. Ví dụ, nhận diện một từ từ một cuốn từ điển dễ hơn việc tách các ký tự rời rạc từ đoạn văn. Đọc dòng tổng cộng trên một tờ séc (luôn được viết bằng số) là một ví dụ, nơi việc sử dụng từ điển nhỏ hơn có thể cải thiện tỷ lệ nhận diện. Kiến thức về ngữ pháp của ngôn ngữ cũng giúp xác định từ có thể là động từ hay danh từ, từ đó nâng cao độ chính xác. Hình dạng của chữ viết tay thường không đủ thông tin để đạt độ chính xác cao trên 98% cho tất cả các đoạn chữ viết tay.
Một vấn đề lớn đối với máy tính và con người là việc giải mã các bản lưu của các sự kiện như lễ thánh và đám cưới từ những nhà thờ cổ, thường chỉ chứa tên. Những trang tài liệu này có thể bị hư hại bởi thời gian, nước hoặc lửa, và các tên có thể đã lỗi thời hoặc chứa chính tả hiếm gặp. Một lĩnh vực nghiên cứu khác là sự hợp tác giữa máy tính và con người, nơi máy tính hỗ trợ con người và ngược lại. Kỹ thuật xử lý hình ảnh của máy tính có thể giúp đọc những văn bản cực kỳ khó đọc như bản viết trên da cừu của Archimedes hoặc các cuộn giấy da từ Biển Chết.
Tóm lại, để giải quyết các vấn đề nhận diện phức tạp hơn, mạng nơ-ron được sử dụng rộng rãi vì khả năng đơn giản hóa các biến đổi affine và phi tuyến.
