ABBYY FineReader là một công cụ nhận diện ký tự quang học (OCR), cho phép chuyển đổi ảnh và tài liệu PDF thành văn bản có thể chỉnh sửa và đọc trên thiết bị điện tử.
ABBYY FineReader có khả năng chuyển đổi file ảnh và PDF không có nội dung văn bản thành các định dạng tài liệu như .docx, .pptx và PDF. Nó cũng hỗ trợ nhận diện gần 100 ngôn ngữ và xử lý tài liệu đa ngôn ngữ.
1. Tải lên tài liệu
Hãy chọn tài liệu chất lượng và rõ ràng khi upload. Nếu cần, sử dụng máy scan tài liệu tốt hoặc tham khảo cách scan tài liệu bằng điện thoại hoặc tablet trên Mytour.
Dù ABBYY FineReader có thể nhận diện văn bản từ ảnh chụp thông thường, việc sử dụng ứng dụng scan tài liệu giúp giảm thiểu lỗi mờ và xử lý chi tiết biến dạng. Đồng thời, ứng dụng scan cũng giải quyết các vấn đề liên quan đến ánh sáng.
Lưu ý: Đặt tài liệu gốc trên bàn phẳng với ánh sáng tốt khi scan. Đối với ABBYY FineReader, tránh để các dòng text lệch quá 20 độ để đảm bảo kết quả chuyển đổi chính xác.
2. Xác định tài liệu
Sau khi upload tài liệu lên ABBYY FineReader, bạn có thể điều chỉnh để đạt kết quả chính xác hơn.
Khởi động nhanh
Khi mở ABBYY FineReader, bạn sẽ thấy giao diện như sau:
Để chuyển đổi nhanh ảnh hoặc PDF sang văn bản, bạn chỉ cần nhấp vào Mở trong OCR Editor và chọn tùy chọn phù hợp. Sau đó, một hộp thoại sẽ hiện ra. Ví dụ, bạn có thể chọn Chuyển đổi sang PDF. Tuy nhiên, lựa chọn này tùy thuộc vào định dạng bạn muốn nhận được, có thể là văn bản, bảng tính hoặc định dạng khác.
Với PDF, bạn có thể lựa chọn một trong những tùy chọn sau đây, điều này có thể ảnh hưởng đến khả năng tìm kiếm trong tài liệu PDF:
Bạn cũng có thể điều chỉnh cài đặt ngôn ngữ cho tài liệu. Sau khi chọn cài đặt phù hợp nhất, nhấp vào Chuyển đổi sang PDF, một hộp thoại lưu sẽ hiện ra.
Trong quá trình xử lý trước ảnh, chất lượng của ảnh hoặc PDF rất quan trọng. Ảnh hoặc PDF càng chất lượng, kết quả chuyển đổi sẽ càng chính xác. Dưới đây là những định dạng mà bạn có thể chuyển đổi nhanh trong ABBYY FineReader:
- .docx
- .xlsx
- .txt
- .pptx
- .odt
- .html
- .rtf
- .csv
- .epub
- .fb2
- .djvu
Tùy chọn Chuyển đổi Nhanh cho Chuyển đổi sang Microsoft Word và Chuyển đổi sang Microsoft Excel sẽ có các tùy chọn định dạng đơn giản hơn. Nếu chọn Chuyển đổi sang Định Dạng Khác, bạn chỉ có thể chọn định dạng & ngôn ngữ đầu ra. Đây là những lựa chọn tốt cho tài liệu có văn bản rõ ràng với độ tương phản tốt và được viết bằng ngôn ngữ mà ABBYY có thể nhận diện, chẳng hạn như ảnh chụp màn hình chứa văn bản trên máy tính, điện thoại hoặc PDF không tìm kiếm được nội dung.
Đối với tài liệu cũ hơn, ảnh chất lượng thấp, font chữ ít phổ biến, bạn nên chọn Mở trong Trình Chỉnh Sửa OCR. Nó sẽ yêu cầu bạn chọn tài liệu cần xử lý.
Giao diện của ABBYY FineReader
Nhìn chung, ABBYY FineReader là một phần mềm đơn giản, chỉ cần một số chỉnh sửa nhỏ để tối ưu hóa kết quả. Khi mở lần đầu tiên trong trình chỉnh sửa, bạn sẽ nhận được một số đầu ra mà ABBYY đã nhận diện.
ABBYY FineReader có 3 cửa sổ chính: bảng ảnh ở bên trái, bảng văn bản ở bên phải và bảng thu/phóng tài liệu ở dưới màn hình. Ngôn ngữ mặc định của ABBYY là tiếng Anh. Tuy nhiên, nó vẫn có thể xuất tài liệu dưới mọi ngôn ngữ sử dụng bảng chữ cái Latin.
Bạn có thể nhìn thấy biểu tượng Microsoft Word trên kết quả xuất bản của ABBYY:
Đó là định dạng mặc định cho tập tin xuất ra. Bạn có thể thay đổi nó từ menu thả xuống bằng các đuôi file .rtf, .txt.
Bên cạnh đó là ô Bản Sao Có Thể Chỉnh Sửa. Tùy chọn này cùng với Gửi điều khiển hình ảnh xuất ra trong cửa sổ bảng văn bản.
Nhấp vào biểu tượng hình núi sẽ cho bạn thêm hoặc di chuyển ảnh trong kết quả. Biểu tượng bên phải của nó cung cấp lựa chọn giữ hoặc bỏ qua header, footer khi nhận diện văn bản.
Tạo vùng
Như bạn thấy ở phần trước, các phần của tài liệu gốc trong bảng ảnh được làm nổi bật bằng màu khác nhau. Những vùng đó chỉ định vị trí văn bản có thể trích xuất, ảnh hay văn bản đã được tìm thấy. ABBYY tự động tạo chúng khi bạn mở tài liệu trong OCR Editor.
Bạn có thể tìm thấy thanh công cụ này trong bảng ảnh của ABBYY cùng với các công cụ hỗ trợ:
- Thêm và xóa vùng.
- Thay đổi kiểu vùng.
- Điều chỉnh đường viền vùng và di chuyển toàn bộ vùng.
- Thêm phần hình chữ nhật tới các vùng hoặc xóa chúng.
- Thay đổi thứ tự.
Các hộp màu tương ứng với các chức năng trên thanh công cụ: vùng văn bản có màu xanh lá cây, vùng hình ảnh màu đỏ và vùng bảng màu xanh dương.
Để tạo một vùng, chỉ cần nhấn vào nút cho loại vùng bạn muốn tạo và làm nổi bật toàn bộ nội dung văn bản, hình ảnh hoặc bảng mà bạn muốn xuất trong bảng Image. Nếu bạn muốn cực kỳ chính xác, bạn cũng có thể tạo vùng bằng cách sử dụng bảng Zoom.
Điều chỉnh vùng
Thường thì, ABBYY sẽ tạo một vùng văn bản riêng biệt trong khi những đoạn mới có thể nằm trong nhiều hộp khác nhau. Nếu những hộp đó thuộc cùng một loại, bạn chỉ cần chọn một hộp và mở rộng nó để bao gồm tất cả bằng cách click và kéo các góc của hộp văn bản.
Kết hợp nhiều vùng văn bản thành một:
Lưu ý: Điều này cần thiết khi bạn mở rộng một textbox để bao gồm toàn bộ các vùng khác. Nếu không, văn bản có thể bị chồng lên nhau.
Hình dạng mặc định của một khu vực là hình chữ nhật, nhưng đôi khi các phần của tài liệu mà bạn muốn nhận diện không phải là hình đó. Để toàn bộ văn bản nằm trong textbox như sau:
Mở rộng không hiệu quả như trước do hình dạng không đối xứng. Khi bạn nhấn vào vùng muốn mở rộng, một thanh công cụ sẽ xuất hiện:
Hai biểu tượng chứa dấu + và - được sử dụng để tạo & xóa vùng liên quan đến textbox bạn chọn. Bằng cách nhấn vào biểu tượng chứa dấu +, bạn có thể tạo một textbox mới kết nối với textbox bị ngắt kết nối.
Lưu ý: Kết hợp các khu vực được sắp xếp cạnh nhau sẽ tạo ra một bảng văn bản để xuất văn bản theo đường thẳng. Vì vậy, nếu bạn muốn có 2 cột riêng biệt, hãy đảm bảo rằng có 2 vùng văn bản riêng biệt.
Một lần nữa, bảng Zoom có thể được sử dụng để điều chỉnh các vùng chính xác hơn. Thực hiện tương tự với các vùng ảnh. Tuy nhiên, đối với bảng, bạn có nhiều tùy chọn khác nhau.
ABBYY cho phép bạn tách các phần trong bảng thành hàng và cột, xóa dấu phân tách và phân tích khu vực được tạo thành bảng. Nhờ đó, bạn không cần phải thực hiện điều này thủ công.
Sử dụng công cụ Bảng từ thanh công cụ, bạn có thể tạo một vùng bảng:
Bảng này không được chia thành cột hoặc hàng. Thay vì thực hiện điều đó bằng cách thủ công, từ thanh công cụ pop-up:
Chọn biểu tượng cây đũa phép ở phía trước để dự đoán vị trí của các đường thẳng.
Các cột và hàng đã gần như đặt ở vị trí mong muốn. Tuy nhiên, vẫn còn một vài lỗi nhỏ. Khi xem bảng Zoom, bạn sẽ thấy ABBYY đã thêm một hàng không cần thiết. Để khắc phục, chọn biểu tượng có chữ X màu đỏ từ thanh công cụ pop-up.
Di chuyển con trỏ đến dòng muốn xóa và chọn. Dành thời gian để điều chỉnh vị trí và số lượng vùng mà chương trình có thể nhận diện dựa trên tính năng phát hiện tự động. Điều này mang lại kết quả tốt hơn và tiết kiệm thời gian hậu xử lý trước khi xuất tài liệu.
Sắp xếp lại các vùng
Mỗi vùng trong ABBYY được đánh số thứ tự riêng trong quá trình nhận diện. Đầu ra của văn bản trích xuất sau đó sẽ tuân theo thứ tự của các vùng được chỉ định.
Ngay từ lần đầu sử dụng phần mềm này, nó sẽ sắp xếp các ô theo vị trí trên trang từ trên xuống và thường từ trái sang phải. Tìm một số nhỏ ở góc của mỗi khu vực nhận diện để xem trình tự đầu ra tổng thể của trang.
Khi xóa một vùng, các vùng khác vẫn sẽ duy trì thứ tự từ trên xuống dưới. Tuy nhiên, nếu bạn xóa một vùng text ở giữa trang và sau đó tạo vùng mới trong khu vực đó, vùng mới này sẽ được đánh số thứ tự ở cuối dòng thay vì ở giữa các vùng đã được nhận diện trước đó ở trên và dưới.
Để giải quyết vấn đề này, bạn có thể chọn biểu tượng 2 hình vuông chồng lên nhau, có mũi tên màu xanh trỏ xuống dưới. Hành động này cho phép bạn sắp xếp lại thứ tự các vùng mà ABBYY đã nhận diện trước đây.
Nhận diện ký tự và font
Thay đổi font chữ
Truy cập trang web: http://help.abbyy.com/en-us/finereader/14/user_guide/langfonts để xem danh sách đầy đủ các font chữ mà ABBYY hỗ trợ.
Để thay đổi font trong một tài liệu ngắn, chọn một đoạn văn bản mà một số ký tự hiển thị font không đúng.
- Nhấp chuột phải vào đoạn văn bản đó > nhấp vào PROPERTIES trong menu ngắn.
- Chọn font mà bạn muốn từ danh sách Font trong bảng Text Properties xuất hiện.
Font trong đoạn văn bản lựa chọn sẽ được thay đổi theo ý muốn của bạn.
Để thay đổi font trong một tài liệu dài:
- Nhấp vào TOOLS > STYLE EDITOR.
- Trong hộp STYLE EDITOR, chọn kiểu bạn muốn chỉnh sửa và thay đổi font của nó.
- Nhấp vào OK.
Font trong toàn bộ đoạn văn dùng kiểu bạn đã chọn sẽ thay đổi theo. Nếu bạn muốn nhận diện các font trang trí hoặc ký tự đặc biệt trong tài liệu, hãy sử dụng chế độ luyện tập để cải thiện độ chính xác của OCR.
Tạo và luyện một mẫu người dùng
Trong chế độ Luyện tập, một mẫu người dùng được tạo có thể được sử dụng khi thực hiện OCR trên toàn bộ văn bản. Tính năng này thường được sử dụng khi văn bản có các phần không rõ ràng, font khác với mặc định hoặc chứa ký tự đặc biệt của ABBYY.
Lưu ý: Tính năng luyện mẫu không hỗ trợ các ngôn ngữ ở Châu Á.
Để truy cập các tùy chọn, từ menu chính:
- Nhấp vào Tools > Options > chọn tab OCR.
- Trong mục Sử dụng mẫu và luyện tập trong OCR Editor, chọn Sử dụng luyện tập để nhận diện các ký tự và đoạn chữ mới.
- Nhấp vào nút Pattern Editor.
- Tại cửa sổ Pattern Editor, nhấn nút Mới để đặt tên cho mẫu của bạn.
- Nhấp vào OK trong cửa sổ Tạo Mẫu, sau đó trong Pattern Editor, nhấn OK trong Options để quay lại trình chỉnh sửa OCR.
Lưu ý: Nếu bạn chọn tùy chọn Cũng sử dụng mẫu tích hợp sẵn trong Sử dụng luyện tập để nhận diện các ký tự và đoạn chữ mới, ABBYY sẽ sử dụng cả mẫu tích hợp sẵn và mẫu người dùng tạo để tiết kiệm thời gian cho bạn.
Tiếp theo, khi quay lại tài liệu, bạn có thể bắt đầu quá trình luyện tập:
- Trên thanh công cụ trên bảng ảnh, chọn Nhận diện Trang (biểu tượng bảng màu trắng có chữ A màu đỏ bên trong ống kính).
- Trong quá trình nhận diện, box Luyện mẫu sẽ mở ra và yêu cầu bạn nhập ký tự phù hợp với một lựa chọn trong box.
Điều chỉnh vùng đường viền bao quanh nếu cần, chọn hiệu ứng nếu bạn muốn đưa các đặc điểm text vào output. Sau khi thiết lập đường viền, nhập ký tự hay chữ cái tương ứng chính xác, chọn luyện tập và tiếp tục lên cấp tiếp theo.
Lưu ý: Bạn không cần phải luyện tập trên toàn bộ tài liệu. Tuy nhiên, bạn sẽ cần tiếp tục cho đến khi có đủ các mẫu cho mỗi ký tự, chữ cái trong tài liệu, thường từ 15 đến 25 phiên bản cho mỗi ký tự theo các trình tạo OCR.
Chỉnh sửa một mẫu người dùng
Chỉ có thể “luyện” ABBYY FineReader để nhận dạng các ký tự trong bảng chữ cái của ngôn ngữ OCR.
Chèn Ký tựTạo Ngôn ngữ và Nhóm Người dùng
Tạo một ngôn ngữ nhận dạng mới hoặc có nguồn gốc tương tự để chỉnh sửa một mẫu người dùng
Click CÔNG CỤ > TÙY CHỌN > chọn tab Ngôn ngữ.
Ở đây, nếu tài liệu sử dụng nhiều ngôn ngữ, bạn có thể lựa chọn một trong số 192 ngôn ngữ có sẵn trong ABBYY.
Nếu tài liệu chứa các ký tự không có trong danh sách, chọn Mới trong bảng Ngôn ngữ.
Hành động này cho phép bạn tạo một ngôn ngữ mới. Ngôn ngữ này có thể hoàn toàn mới hoặc có thể dựa trên một ngôn ngữ hiện có trong ABBYY. Ngôn ngữ “mới” hoặc “phái sinh” sẽ dựa trên ngôn ngữ hiện tại được hỗ trợ cùng với từ điển liên quan.
Trong ABBYY, bạn có thể chọn tới 1.000 ký tự, bao gồm cả toán tử và các biểu tượng khác.
Xuất OCR
Kết quả của quá trình OCR trong ABBYY có thể lưu vào một tập tin, gửi đến các ứng dụng khác như PDF Editor, Clipboard hoặc email… Bạn cũng có thể gửi kết quả OCR đến Kindle.com. Tại đó, chúng sẽ được chuyển đổi thành định dạng hỗ trợ bởi một trình đọc Kindle. Bạn có thể lưu toàn bộ tài liệu hoặc chỉ một trang cụ thể.
Để lưu văn bản đã nhận diện:
Trên thanh công cụ chính, nhấn mũi tên gần nút Lưu và chọn cách lưu văn bản cùng các thành phần bạn muốn giữ lại trên trang.
ABBYY FineReader hiển thị các định dạng file khả dụng cho từng chế độ. Có tổng cộng 5 chế độ lưu file:
- Sao chép chính xác tạo tài liệu giống với định dạng gốc, phù hợp với các tài liệu phức tạp như quảng cáo. Tùy chọn này giữ nguyên nội dung và định dạng của tài liệu ban đầu.
- Bản sửa đổi xuất ra định dạng có chút biến đổi so với tài liệu gốc để dễ dàng chỉnh sửa hơn.
- Văn bản có định dạng giữ nguyên font, kích thước và định dạng đoạn văn, nhưng thay đổi vị trí và khoảng cách của các đối tượng trên trang.
- Văn bản thuần túy không giữ lại định dạng văn bản.
- Bố cục linh hoạt tạo ra tài liệu HTML với vị trí đối tượng gần giống nhất với bản gốc từ góc kỹ thuật.
Trong Cài đặt Định dạng của box Tùy chọn, chọn định dạng lưu mong muốn và nhấn OK.
Lưu ý: Văn bản theo chiều dọc sẽ được chuyển đổi sang chiều ngang ở chế độ này.
Nhấn vào mũi tên bên phải của nút Lưu trên thanh công cụ chính và chọn tùy chọn phù hợp hoặc sử dụng lệnh trong menu Tệp.
Dưới đây là hướng dẫn sử dụng ABBYY FineReader. Mong rằng bài viết này sẽ hỗ trợ bạn chuyển đổi tài liệu và ảnh lớn sang các định dạng khác một cách dễ dàng hơn.