hic. cái nameFilter.jsee nó toàn báo không có cụm từ nào xuất hiện ít nhất ... lần hơn nữa cũng không tắt được cái panel nhập tần số :( [video=youtube;mM4QhtVq17Y]https://www.youtube.com/watch?v=mM4QhtVq17Y[/video]
Big ơi, mình đề nghị thế này, nếu với truyện chưa có viết hoa thì làm sao có thể lọc ra tên riêng? vậy mình có thể làm 2 bước: copy text ra temp viết hoa chữ cái đầu tiên của mỗi từ lọc ra replace những từ có trong danh sách loại bỏ (ví dụ Sư Tôn, Đồ Nhi etc ...) xuất ra kết quả phần còn lại
Do không đặt đúng Option của EmEditor nên mới như vậy. Ở post #1 có đó. Kiểm tra lại phần Options Của EmEditor mục 5. Cài Đặt Options Thích Hợp Cho Bộ Script: - Mục 5.1 phải chọn Enable Multiple Selection - Mục 5.3 Additional Lines To Search for Regular Expressions chọn ít nhất là 100. Đó là số dòng lớn nhất EmEditor regex engine có thể đọc vào cùng một lúc. Trong script lão lấy mức tối thiểu là 50 lần xuất hiện trở lên, như vậy regex engine phải đọc được tối thiểu 51 dòng script mới chạy đúng được. Nếu option đó mà dưới 50 thì lão chọn kiểu gì cũng không được. =)) Của ta lấy 1000 đó. Đừng có quá keo kiệt như vậy chứ, có vài dòng cũng tiếc. =)) PS: nếu sửa lại rồi mà vẫn không chạy được thì post data lên cho ta test.
Có thể, nhưng thời gian chạy máy có thể lên tới vài ngày hoặc hơn cho một truyện vài trăm chương. Máy không hiểu nghĩa như người nên bắt buộc phải làm kiểu ghép bừa từ 2 đến 5 từ rồi search coi trong file có bao nhiêu lần xuất hiện. Quá trình này phải lặp đi lặp lại từ đầu cho đến cuối file. Nếu text có vài trăm chương thời gian chạy máy sẽ rất lớn. Sau đó còn phải có một từ điển để loại những cụm từ xuất hiện nhiều lần nhưng không phải là tên riêng, ví dụ hắn nói hay hắn cười... Thường thì người ta dùng chương trình trí tuệ nhân tạo hoặc có “họ hàng” với nó để phân tích ngôn ngữ, nhưng đó là lĩnh vực của các chính phủ, đại gia công nghệ... những người có supercomputer và hàng núi tiền.
ok. tối ta về test @lom: script này dùng để lọc ra tên tây bị tàu hoá trong mớ truyện dịch Tây phương huyền huyễn.