Ko cho lấy tin tự động từ website của công ty

thubayonline · 20/06/2012

Có bác nào là chuyên gia về IT (Coder) giúp em với.

Công ty em định nâng cấp website mới. Sếp em yêu cầu, là các tin bài của website phải đảm bảo tránh được các bộ lấy tin tự động từ các web tin tức tổng hợp khác (vì cty em cũng có số má 1 tẹo) kiểu như cafef.vn, zing.... Hiện tại web cũ đã bị ùi và làm phiền đến lãnh đạo của cty em. Bác pờ rồ gram mờ nào là chuyên gia về vụ này thì tư vấn giúp em với.

Cảm ơn các bác nhiều

beoU.kr · 20/06/2012

thubayonline đã viết: ↑

Có bác nào là chuyên gia về IT (Coder) giúp em với.

Công ty em định nâng cấp website mới. Sếp em yêu cầu, là các tin bài của website phải đảm bảo tránh được các bộ lấy tin tự động từ các web tin tức tổng hợp khác (vì cty em cũng có số má 1 tẹo) kiểu như cafef.vn, zing.... Hiện tại web cũ đã bị ùi và làm phiền đến lãnh đạo của cty em. Bác pờ rồ gram mờ nào là chuyên gia về vụ này thì tư vấn giúp em với.

Cảm ơn các bác nhiều
Click để xem thêm...

Không có cách nào tránh được hoàn toàn việc lấy thông tin tự động từ website cả. Tuy nhiên, các cỗ máy tìm kiếm đều cho phép tùy chọn để trang web của bạn không được/bị liệt kê. Tớ không rõ là mấy trang bạn liệt kê kia có cơ chế ấy không. Dự là không, đành sống chung với lũ bằng cách phá thôi.

Tớ nghĩ ra một cách: Người quản lý website của bạn chắc chắn biết nguồn gốc của các request lấy tin tức - vậy thì cấu hình cho server trả về bản ghi lỗi cho tất cả các request từ một danh sách các địa chỉ xác định. Hơi tiêu cực, nhưng đạt mục tiêu, lâu lâu bổ sung và cập nhật danh sách địa chỉ là được

Reddman4ever · 20/06/2012

Vỏ quýt dày có móng tay nhọn bác ạ, không ăn thua đâu

Làm cái Ghi rõ "nguồn địachiweb của công ty bác" khi phát hành lại thông tin từ website này thôi.

nothinglastz · 20/06/2012

Em nói qua chút về phương pháp lấy thông tin tự động, rồi thì bác dựa trên đó mà tìm có kế hoặc phòng thủ nha. Các website muốn lấy tin tự động chủ yếu dựa trên các hàm đọc file/URL, rồi dùng các thuật toán xử lý chuỗi dựa tên Regular Expression, sẽ phải theo các bước đại loại như thế này (vd như nó định lấy từ VnExpress:[]
1. Tạo 1 script bóc tách thông tin của 1 bài viết cụ thể vd http://vnexpress.net/gl/xa-hoi/2012/06/no-bon-hoi-mot-cong-nhan-thiet-mang/ bằng cách tìm ra các nội dung chính bao quanh bởi các đặc điểm nhận dạng nào đó, cụ thể là các tag HTML chẳng hạn. Vd như phần Lead thì bao bởi
Mã:
2. Tạo 1 script đọc toàn bộ danh mục cụ thể nào đó, vd http://vnexpress.net/gl/xa-hoi/, tìm ra các link của các tin trong chuyên mục đó bằng cách tìm 1 loạt các thẻ
Mã:
link = ...
$articles_[x]->title = ...
[/PHP]Tìm link để chuyển sang trang tiếp (vd như "Xem tiếp)
3. Chạy vòng lặp cho script ở (1) đọc cho hết cái mảng trên, so sánh tránh trùng hoặc xử lý nội dung nếu cần rồi nhồi vào CSDL, lại quay lại với (2) cho tới hết..

Vậy để tránh bị chôm tự động thì cần phải:
- Làm cho cấu trúc của tin bài không cố định (vd như phần Intro thay vì luôn bọc trong thẻ [CODE]
thì có thể đổi liên tục (tự động) theo mỗi lần đăng tin, vd như
Mã:
...
. Hoặc có thể đánh lừa cái đọc tự động của nó bằng cách thêm vào 1 đống cặp tag giống như tag bao quanh nội dung cần bảo vệ...
- Đọc log server và tìm ra các IP của máy chủ bọn lấy tin, cấm các IP này

Dĩ nhiên các phương pháp khắc phục đó không đảm bảo hoàn toàn, vd như bác thay đổi thẻ tag thì hội nó cũng thay đổi, nên bác cần phải cập nhật liên tục.. ban IP máy chủ thì nó có thể dùng máy cá nhân grab về rồi lại up lên v.v.. Nhưng bác đã nói tầm quan trọng của việc chống chôm chỉa này có ý nghĩa sống còn thế rồi thì nên chắc bác cũng sẽ đầu tư thời gian cho nó nhỉ []

Ko cho lấy tin tự động từ website của công ty

thubayonline Thành viên mới

beoU.kr Thành viên tích cực

Reddman4ever Thành viên gắn bó với ttvnol.com

nothinglastz Thành viên quen thuộc

Chia sẻ trang này

Ko cho lấy tin tự động từ website của công ty

thubayonline Thành viên mới

beoU.kr Thành viên tích cực

Reddman4ever Thành viên gắn bó với ttvnol.com

nothinglastz Thành viên quen thuộc

Chia sẻ trang này

Tìm kiếm hữu ích