Hôm nay ka xin hướng dẫn phương pháp đả tự siêu tốc bằng phần mềm OCR ABBYY FineReader. I. Crop ảnh bằng Office Picture Manager và XnConvert * Office Picture Manager (OPM) có sẵn trong Microsoft Office * XnConvert Portable (XNC): bản Zip Mời đọc 1. Crop ảnh PNG/JPG + Mục đích: Xén mấy hàng chữ linh tinh làm giảm tốc độ và độ chính xác khi ORC + Cách làm: xem ảnh Mời đọc 2. Crop ảnh GIF ghẻ Bước 1: Convert ảnh từ định dạng GIF sang PNG bằng OPM Bước 2: Crop ảnh + Sài OPM hay XNC đều được, chất lượng như nhau. Vote XNC 1click cho nó nhanh. + Cách làm: tưưng tự với PNG thôi :) Mời đọc II. OCR với ABBYY FineReader * ABBYY Pro 12 VN/EN Portable 75MB: https://drive.google.com/drive/folders/0B9Q8MNApRCThdzdPRkZFQlloTU0 Mời đọc 1. Thiết lập ABBYY Mời đọc 2. Chuẩn bị ảnh + Gom những ảnh có cùng chất lượng và định dạng thành một nhóm. + Mỗi nhóm chọn ra một vài tấm cùi nhất để test lấy cấu hình ORC cho nhóm. ⚠ Nếu ảnh quá dài phải cắt làm nhiều mẩu cho... đỡ dài ⚠ Nếu ảnh quá lớn phải chỉnh Độ Phân Giải sao cho [Vừa với chiều rộng] đạt tầm 100-125%. 3. Chỉnh sửa hình ảnh - Cấu hình ORC + Bước 1: Giảm cấp màu Trắng để mờ bớt lông lá (tùy ảnh, có ảnh tẩy nền là đủ) + Bước 2: Tẩy nền + Bước 3: Tăng cấp màu Đen để làm đậm chữ Ví dụ một ảnh ka lấy bên webtruyen: 180-230-clean-150.png 4. Chạy ORC và save file + Cách làm: Ctrl+R để quét ảnh đang chọn, bấm [Đọc] để quét tất cả ảnh cùng lúc. + Yêu cầu: kiểm soát tỷ lệ lỗi ở mức 4%, ảnh ghẻ thì 6% Mời đọc ⚠ Ảnh cho chất lượng tốt nhất là ảnh nguyên gốc, ảnh qua sao chế đóng mark ka không chịu trách nhiệm :v ⚠ Việc chạy ORC hàng loạt chung một cấu hình config sẽ khiến một cơ số ảnh bị đậm hoặc nhạt hơn yêu cầu gây ra lỗi dấu câu, điều này là ko thể tránh khỏi nhưng có thể hạn chế nếu chọn được Config tốt và khắc phục bằng cách replace nêu ở bước sau. HTML: + Ảnh bị nhạt => dấu "sắc" và dấu "hỏi" sẽ bị mờ nét thành dấu "chấm" => ABBYY sẽ nhận định thành dấu "huyền". Ví dụ: ả ==> ȧ ==> à ỏ ==> ȯ ==> ò ô ==> ỏ ầ ==> ằ, ẳ + Ảnh bị đậm => chữ ô, â sẽ bị nhận thành ồ, ầ ... 5. Sửa lỗi chính tả thủ công hoặc mì ăn liền a) Thủ công Sử dụng công cụ Tummo Spell để check và sửa lỗi chính tả b) Mì ăn liền Chạy macro Auto Replace dành cho EmEditor của Bigbang theo hướng dẫn. ⚠ Data lỗi chỉnh tả dành cho EmEditor: https://secufiles.com/8UeZ/Fix_Datu.txt ⚠ Nếu add thêm dữ liệu vào data thì gửi cho ka 1 bản để hoàn thiện bộ dữ liệu và nhớ sử dụng các ký tự ä ë ï ö ü ÿ cho trường hợp đa nghĩa. III. OCR với Google Drive Ngoài ABBYY, các bợn có thể up ảnh lên Google Drive, mở ảnh bằng Google Doc là trình orc của google sẽ tự động chạy. Chất lượng text xuất ra ko thua gì ABBYY thậm chí còn tốt hơn trong một số trường hợp, cơ mà thốn cái chưa tìm ra script để mì ăn liền :) ⚠ Nếu ảnh bị chèn lông lá hổ lốn, các bợn nhớ Replace color bằng XNC trước khi up lên Drive để đạt kết quả tốt nhất. Cách replace ka sẽ post trong video hướng dẫn tiếp theo :byebye: Mời đọc