Em nói qua chút về phương pháp lấy thông tin tự động, rồi thì bác dựa trên đó mà tìm có kế hoặc phòng thủ nha. Các website muốn lấy tin tự động chủ yếu dựa trên các hàm đọc file/URL, rồi dùng các thuật toán xử lý chuỗi dựa tên Regular Expression, sẽ phải theo các bước đại loại như thế này (vd như nó định lấy từ VnExpress:
![[:D]](images/smilies/icon_smile_big.gif)
1. Tạo 1 script bóc tách thông tin của 1 bài viết cụ thể vd
http://vnexpress.net/gl/xa-hoi/2012/...an-thiet-mang/ bằng cách tìm ra các nội dung chính bao quanh bởi các đặc điểm nhận dạng nào đó, cụ thể là các tag HTML chẳng hạn. Vd như phần Lead thì bao bởi
2. Tạo 1 script đọc toàn bộ danh mục cụ thể nào đó, vd
http://vnexpress.net/gl/xa-hoi/, tìm ra các link của các tin trong chuyên mục đó bằng cách tìm 1 loạt các thẻ
. Tách tiếp các link này có được tiêu đề và đường link cụ thể của các tin, tạo 1 mảng object có dạng
PHP Code:
$articles_[x]->link = ...
$articles_[x]->title = ...
Tìm link để chuyển sang trang tiếp (vd như "Xem tiếp)
3. Chạy vòng lặp cho script ở (1) đọc cho hết cái mảng trên, so sánh tránh trùng hoặc xử lý nội dung nếu cần rồi nhồi vào CSDL, lại quay lại với (2) cho tới hết..
Vậy để tránh bị chôm tự động thì cần phải:
- Làm cho cấu trúc của tin bài không cố định (vd như phần Intro thay vì luôn bọc trong thẻ
thì có thể đổi liên tục (tự động) theo mỗi lần đăng tin, vd như
Mã:
< style = "abcxyz">...
. Hoặc có thể đánh lừa cái đọc tự động của nó bằng cách thêm vào 1 đống cặp tag giống như tag bao quanh nội dung cần bảo vệ...
- Đọc log server và tìm ra các IP của máy chủ bọn lấy tin, cấm các IP này
Dĩ nhiên các phương pháp khắc phục đó không đảm bảo hoàn toàn, vd như bác thay đổi thẻ tag thì hội nó cũng thay đổi, nên bác cần phải cập nhật liên tục.. ban IP máy chủ thì nó có thể dùng máy cá nhân grab về rồi lại up lên v.v.. Nhưng bác đã nói tầm quan trọng của việc chống chôm chỉa này có ý nghĩa sống còn thế rồi thì nên chắc bác cũng sẽ đầu tư thời gian cho nó nhỉ