Online
1 người đang vào diễn đàn trong đó có 0 thành viên
Chuyển nhanh tới:

Chủ đề: Ko cho lấy tin tự động từ website của công ty

imgs20/06/12 · 16:28 #1
Có bác nào là chuyên gia về IT (Coder) giúp em với.

Công ty em định nâng cấp website mới. Sếp em yêu cầu, là các tin bài của website phải đảm bảo tránh được các bộ lấy tin tự động từ các web tin tức tổng hợp khác (vì cty em cũng có số má 1 tẹo) kiểu như cafef.vn, zing.... Hiện tại web cũ đã bị ùi và làm phiền đến lãnh đạo của cty em. Bác pờ rồ gram mờ nào là chuyên gia về vụ này thì tư vấn giúp em với.

Cảm ơn các bác nhiều

Mùa xuân ấm áp đang về
Thích  |   Than phiềnThan phiền
Trả lời
imgs20/06/12 · 17:10 #2
Trích:
thubayonline viết lúc 17:28 - 20/06/2012 Xem bài viết
Có bác nào là chuyên gia về IT (Coder) giúp em với.

Công ty em định nâng cấp website mới. Sếp em yêu cầu, là các tin bài của website phải đảm bảo tránh được các bộ lấy tin tự động từ các web tin tức tổng hợp khác (vì cty em cũng có số má 1 tẹo) kiểu như cafef.vn, zing.... Hiện tại web cũ đã bị ùi và làm phiền đến lãnh đạo của cty em. Bác pờ rồ gram mờ nào là chuyên gia về vụ này thì tư vấn giúp em với.

Cảm ơn các bác nhiều
Không có cách nào tránh được hoàn toàn việc lấy thông tin tự động từ website cả. Tuy nhiên, các cỗ máy tìm kiếm đều cho phép tùy chọn để trang web của bạn không được/bị liệt kê. Tớ không rõ là mấy trang bạn liệt kê kia có cơ chế ấy không. Dự là không, đành sống chung với lũ bằng cách phá thôi.

Tớ nghĩ ra một cách: Người quản lý website của bạn chắc chắn biết nguồn gốc của các request lấy tin tức - vậy thì cấu hình cho server trả về bản ghi lỗi cho tất cả các request từ một danh sách các địa chỉ xác định. Hơi tiêu cực, nhưng đạt mục tiêu, lâu lâu bổ sung và cập nhật danh sách địa chỉ là được
Thích  |   Than phiềnThan phiền
Trả lời
imgs20/06/12 · 17:37 #3
Vỏ quýt dày có móng tay nhọn bác ạ, không ăn thua đâu

Làm cái Ghi rõ "nguồn địachiweb của công ty bác" khi phát hành lại thông tin từ website này thôi.
Thích  |   Than phiềnThan phiền
Trả lời
imgs20/06/12 · 17:45 #4
Em nói qua chút về phương pháp lấy thông tin tự động, rồi thì bác dựa trên đó mà tìm có kế hoặc phòng thủ nha. Các website muốn lấy tin tự động chủ yếu dựa trên các hàm đọc file/URL, rồi dùng các thuật toán xử lý chuỗi dựa tên Regular Expression, sẽ phải theo các bước đại loại như thế này (vd như nó định lấy từ VnExpress:
1. Tạo 1 script bóc tách thông tin của 1 bài viết cụ thể vd http://vnexpress.net/gl/xa-hoi/2012/...an-thiet-mang/ bằng cách tìm ra các nội dung chính bao quanh bởi các đặc điểm nhận dạng nào đó, cụ thể là các tag HTML chẳng hạn. Vd như phần Lead thì bao bởi
Mã:
< class = "Lead">

2. Tạo 1 script đọc toàn bộ danh mục cụ thể nào đó, vd http://vnexpress.net/gl/xa-hoi/, tìm ra các link của các tin trong chuyên mục đó bằng cách tìm 1 loạt các thẻ
Mã:

. Tách tiếp các link này có được tiêu đề và đường link cụ thể của các tin, tạo 1 mảng object có dạng
PHP Code:
$articles_[x]->link = ...
$articles_[x]->title = ... 
Tìm link để chuyển sang trang tiếp (vd như "Xem tiếp)
3. Chạy vòng lặp cho script ở (1) đọc cho hết cái mảng trên, so sánh tránh trùng hoặc xử lý nội dung nếu cần rồi nhồi vào CSDL, lại quay lại với (2) cho tới hết..

Vậy để tránh bị chôm tự động thì cần phải:
- Làm cho cấu trúc của tin bài không cố định (vd như phần Intro thay vì luôn bọc trong thẻ
Mã:
< class = Lead>
thì có thể đổi liên tục (tự động) theo mỗi lần đăng tin, vd như
Mã:
< style = "abcxyz">...
. Hoặc có thể đánh lừa cái đọc tự động của nó bằng cách thêm vào 1 đống cặp tag giống như tag bao quanh nội dung cần bảo vệ...
- Đọc log server và tìm ra các IP của máy chủ bọn lấy tin, cấm các IP này

Dĩ nhiên các phương pháp khắc phục đó không đảm bảo hoàn toàn, vd như bác thay đổi thẻ tag thì hội nó cũng thay đổi, nên bác cần phải cập nhật liên tục.. ban IP máy chủ thì nó có thể dùng máy cá nhân grab về rồi lại up lên v.v.. Nhưng bác đã nói tầm quan trọng của việc chống chôm chỉa này có ý nghĩa sống còn thế rồi thì nên chắc bác cũng sẽ đầu tư thời gian cho nó nhỉ

Trên trời cao có muôn ngàn ánh sao..
Lần sửa cuối bởi nothinglastz - 20/06/12 lúc 17:54
Thích  |   Than phiềnThan phiền
Trả lời
imgsTrả lời

 Các chủ đề mới hơn

 Các chủ đề cũ hơn

Thành viên online

18261 người online, 542 thành viên

Đang chơi Game

Thành viên tích cực close

loading