Đả Tự Hướng dẫn đả tự siêu tốc với Decepticon [update 2017]

Thảo luận trong 'Phòng Đả Tự' bắt đầu bởi Decepticon, 21/8/13.

  1. Decepticon

    Decepticon Thành viên kích hoạt

    Được thích:
    266
    Hôm nay ka xin hướng dẫn phương pháp đả tự siêu tốc bằng phần mềm OCR ABBYY FineReader.

    I. Crop ảnh bằng Office Picture Manager và XnConvert
    * Office Picture Manager (OPM) có sẵn trong Microsoft Office
    * XnConvert Portable (XNC): bản Zip

    1. Crop ảnh PNG/JPG
    + Mục đích: Xén mấy hàng chữ linh tinh làm giảm tốc độ và độ chính xác khi ORC
    + Cách làm: xem ảnh
    [​IMG]

    2. Crop ảnh GIF ghẻ
    Bước 1:
    Convert ảnh từ định dạng GIF sang PNG bằng OPM
    Bước 2: Crop ảnh
    + Sài OPM hay XNC đều được, chất lượng như nhau. Vote XNC 1click cho nó nhanh.
    + Cách làm: tưưng tự với PNG thôi :)
    [​IMG]


    II. OCR với ABBYY FineReader
    * ABBYY Pro 12 VN/EN Portable 75MB: https://drive.google.com/drive/folders/0B9Q8MNApRCThdzdPRkZFQlloTU0

    1. Thiết lập ABBYY
    [​IMG]

    [​IMG]

    2. Chuẩn bị ảnh

    + Gom những ảnh có cùng chất lượng và định dạng thành một nhóm.
    + Mỗi nhóm chọn ra một vài tấm cùi nhất để test lấy cấu hình ORC cho nhóm.
    ⚠ Nếu ảnh quá dài phải cắt làm nhiều mẩu cho... đỡ dài
    ⚠ Nếu ảnh quá lớn phải chỉnh Độ Phân Giải sao cho [Vừa với chiều rộng] đạt tầm 100-125%.


    3. Chỉnh sửa hình ảnh - Cấu hình ORC
    + Bước 1: Giảm cấp màu Trắng để mờ bớt lông lá (tùy ảnh, có ảnh tẩy nền là đủ)
    + Bước 2: Tẩy nền
    + Bước 3: Tăng cấp màu Đen để làm đậm chữ

    Ví dụ một ảnh ka lấy bên webtruyen: 180-230-clean-150.png

    [​IMG]


    4. Chạy ORC và save file

    + Cách làm: Ctrl+R để quét ảnh đang chọn, bấm [Đọc] để quét tất cả ảnh cùng lúc.
    + Yêu cầu: kiểm soát tỷ lệ lỗi ở mức 4%, ảnh ghẻ thì 6%

    [​IMG]

    ⚠ Ảnh cho chất lượng tốt nhất là ảnh nguyên gốc, ảnh qua sao chế đóng mark ka không chịu trách nhiệm :v
    ⚠ Việc chạy ORC hàng loạt chung một cấu hình config sẽ khiến một cơ số ảnh bị đậm hoặc nhạt hơn yêu cầu gây ra lỗi dấu câu, điều này là ko thể tránh khỏi nhưng có thể hạn chế nếu chọn được Config tốt và khắc phục bằng cách replace nêu ở bước sau.
    HTML:
    + Ảnh bị nhạt => dấu "sắc" và dấu "hỏi" sẽ bị mờ nét thành dấu "chấm" => ABBYY sẽ nhận định thành dấu "huyền".
    Ví dụ:
    ả ==> ȧ ==> à
    ỏ ==> ȯ ==> ò
    ô ==> ỏ
    ầ ==> ằ, ẳ
    
    + Ảnh bị đậm => chữ ô, â sẽ bị nhận thành ồ, ầ ...

    5. Sửa lỗi chính tả thủ công hoặc mì ăn liền

    a) Thủ công
    Sử dụng công cụ Tummo Spell để check và sửa lỗi chính tả

    b) Mì ăn liền
    Chạy macro Auto Replace dành cho EmEditor của Bigbang theo hướng dẫn.

    ⚠ Data lỗi chỉnh tả dành cho EmEditor: https://secufiles.com/8UeZ/Fix_Datu.txt
    ⚠ Nếu add thêm dữ liệu vào data thì gửi cho ka 1 bản để hoàn thiện bộ dữ liệu và nhớ sử dụng các ký tự ä ë ï ö ü ÿ cho trường hợp đa nghĩa.


    III. OCR với Google Drive
    Ngoài ABBYY, các bợn có thể up ảnh lên Google Drive, mở ảnh bằng Google Doc là trình orc của google sẽ tự động chạy. Chất lượng text xuất ra ko thua gì ABBYY thậm chí còn tốt hơn trong một số trường hợp, cơ mà thốn cái chưa tìm ra script để mì ăn liền :)

    ⚠ Nếu ảnh bị chèn lông lá hổ lốn, các bợn nhớ Replace color bằng XNC trước khi up lên Drive để đạt kết quả tốt nhất. Cách replace ka sẽ post trong video hướng dẫn tiếp theo :byebye:

    [​IMG]
     
    Chỉnh sửa cuối: 15/2/17
  2. ﻲA Bư✯

    ﻲA Bư✯ ››Thiếu nhiều thứ lắm™ Đại Boss

    Được thích:
    12,514
    thớt có đả tự siêu tốc như thế được không? pm anh để đả tự nhé. :rapi6:a
     
    thienvuthan thích bài này.
  3. Decepticon

    Decepticon Thành viên kích hoạt

    Được thích:
    266
    Truyện gì ? Lão chỉnh hết tên ảnh đi roài gửi vào inbox nhớ.
     
    thienvuthan thích bài này.
  4. ﻲA Bư✯

    ﻲA Bư✯ ››Thiếu nhiều thứ lắm™ Đại Boss

    Được thích:
    12,514
    Anh codon.trai đâu, vào nhận hàng gấp. :oe100:
     
    thienvuthan thích bài này.
  5. Decepticon

    Decepticon Thành viên kích hoạt

    Được thích:
    266
    Sài Microsoft Office Picture Manager chán quá, bác nào biết soft hay hơn thì giới thiệu phát.
     
    thienvuthan thích bài này.

Thành viên đang xem bài viết (Users: 0, Guests: 0)