Cụm 4 từ trở lên bạn cũng đừng quan tâm nhiều, ý mình nói ở đây là cụm 2 từ như phiên bản trước. Bởi tiếng việt mình đa phần là cụm từ ghép gồm 2 từ đơn nên bạn cần chú trọng hơn, chỉ cần lưu ý trường hợp cụm 3 hoặc 4 từ có liên quan tới cụm 2 từ. Ví dụ: cụm từ gồm 1 2 3 4 từ đơn. Trong đó nó lại phân thành các cụm từ ghép 1 2, 2 3, 3 4. Thân!
ta thì chỉ cần mấy thứ đơn giản như dưới là đủ: + Gạch chân trước từ/cụm từ phi TV + Pre/Next đến lỗi trước/sau đó bằng F1, F2 hoặc đại loại thế + Find and Replace All Ngoài ra soft nên build dưới dạng Portable để đáp ứng nhu cầu di động của dân vp và hs-sv. Cơ mà đó là vấn đề sau này, còn hiện tại đợi đến khi hoàn thiện chắc còn phải cài đi cài lại thêm mấy lần.. rất phiền phức, hạn chế khả năng góp ý của người dùng, hơn nữa rất nhiều người không thích cài phần mềm lạ vô máy tính (đến Unikey cũng từng bị nhiễm Trojan chắc ai cũng biết :)) Quên. Trong cái ảnh ở #1 ấy, "các chứng cứu lịch sử" phải ra kết quả chứng cứu chứ nhỉ sao lại là các chứng :-?
Thế này đi, có vẻ ta xía hơi sâu vào việc đòi hỏi thuật toán, trong khi ta chả biết khỉ gì về IT nên càng nói sẽ càng rối. Lão Hiến cập nhật xong, ta sẽ chịu trách nhiệm test rồi phản hồi lại lão những trường hợp soft không nhận dạng lỗi sai. Cập nhật ra sao đó là phần của lão. Nói cho rõ một chút, cộng đồng bọn tớ chuyên dùng các phần mềm để convert từ file ảnh sang text, dung lượng text cũng khá là lớn, nhưng thường thì cũng nằm quanh quẩn trong vòng 10-15 ngàn chữ cho một lần kiểm tra như vậy. Các trường hợp kiểm tra một lần 100 ngàn chữ cũng có nhưng ít làm. Bọn tớ cũng có một vài tool, soft, marco để làm việc kiểm tra chính tả này. Nhưng các thứ trên lại chạy dựa trên từ điển các lỗi sai (cần phải cập nhật liên tục). Có thể nói là đi ngược với hướng đi của bạn. Cho nên nếu soft của bạn trơn tru thì có thể nói là giúp ích rất nhiều cho bọn tớ. @Dep: Các cụm từ phi TV có gạch chân mà. Hơn nữa, bên ô kết quả là các cụm từ mà Tummo đưa vào diện nghi ngờ, chỉ cần lướt qua danh sách đó là biết được nó nhặt ra có chính xác hay không. @Tummo: các cụm từ gợi ý, mình thấy nó rất không sát với cụm từ sai. Hình như là lão đưa ra các cụm từ gần nghĩa thì đúng hơn? Thấy cái mail có đuôi là 1980 thì có lẽ lão Hiến bằng tuổi ta nhỉ?