1. Tuyển Mod quản lý diễn đàn. Các thành viên xem chi tiết tại đây

Ko cho lấy tin tự động từ website của công ty

Chủ đề trong 'Hỏi gì đáp nấy' bởi thubayonline, 20/06/2012.

  1. 1 người đang xem box này (Thành viên: 0, Khách: 1)
  1. thubayonline

    thubayonline Thành viên mới

    Tham gia ngày:
    31/10/2010
    Bài viết:
    1.018
    Đã được thích:
    1
    Có bác nào là chuyên gia về IT (Coder) giúp em với.

    Công ty em định nâng cấp website mới. Sếp em yêu cầu, là các tin bài của website phải đảm bảo tránh được các bộ lấy tin tự động từ các web tin tức tổng hợp khác (vì cty em cũng có số má 1 tẹo) kiểu như cafef.vn, zing.... Hiện tại web cũ đã bị ùi và làm phiền đến lãnh đạo của cty em. Bác pờ rồ gram mờ nào là chuyên gia về vụ này thì tư vấn giúp em với.

    Cảm ơn các bác nhiều :D
  2. beoU.kr

    beoU.kr Thành viên tích cực

    Tham gia ngày:
    02/03/2012
    Bài viết:
    780
    Đã được thích:
    2
    Không có cách nào tránh được hoàn toàn việc lấy thông tin tự động từ website cả. Tuy nhiên, các cỗ máy tìm kiếm đều cho phép tùy chọn để trang web của bạn không được/bị liệt kê. Tớ không rõ là mấy trang bạn liệt kê kia có cơ chế ấy không. Dự là không, đành sống chung với lũ bằng cách phá thôi. :-":-":-"

    Tớ nghĩ ra một cách: Người quản lý website của bạn chắc chắn biết nguồn gốc của các request lấy tin tức - vậy thì cấu hình cho server trả về bản ghi lỗi cho tất cả các request từ một danh sách các địa chỉ xác định. Hơi tiêu cực, nhưng đạt mục tiêu, lâu lâu bổ sung và cập nhật danh sách địa chỉ là được :))
  3. Reddman4ever

    Reddman4ever Thành viên gắn bó với ttvnol.com

    Tham gia ngày:
    09/03/2003
    Bài viết:
    10.486
    Đã được thích:
    1.163
    Vỏ quýt dày có móng tay nhọn bác ạ, không ăn thua đâu :D

    Làm cái Ghi rõ "nguồn địachiweb của công ty bác" khi phát hành lại thông tin từ website này thôi.
  4. nothinglastz

    nothinglastz Thành viên quen thuộc

    Tham gia ngày:
    18/08/2003
    Bài viết:
    828
    Đã được thích:
    0
    Em nói qua chút về phương pháp lấy thông tin tự động, rồi thì bác dựa trên đó mà tìm có kế hoặc phòng thủ nha. Các website muốn lấy tin tự động chủ yếu dựa trên các hàm đọc file/URL, rồi dùng các thuật toán xử lý chuỗi dựa tên Regular Expression, sẽ phải theo các bước đại loại như thế này (vd như nó định lấy từ VnExpress:[:D]
    1. Tạo 1 script bóc tách thông tin của 1 bài viết cụ thể vd http://vnexpress.net/gl/xa-hoi/2012/06/no-bon-hoi-mot-cong-nhan-thiet-mang/ bằng cách tìm ra các nội dung chính bao quanh bởi các đặc điểm nhận dạng nào đó, cụ thể là các tag HTML chẳng hạn. Vd như phần Lead thì bao bởi
    Mã:
    
    
    2. Tạo 1 script đọc toàn bộ danh mục cụ thể nào đó, vd http://vnexpress.net/gl/xa-hoi/, tìm ra các link của các tin trong chuyên mục đó bằng cách tìm 1 loạt các thẻ
    Mã:
    link = ...
    $articles_[x]->title = ...
    [/PHP]Tìm link để chuyển sang trang tiếp (vd như "Xem tiếp)
    3. Chạy vòng lặp cho script ở (1) đọc cho hết cái mảng trên, so sánh tránh trùng hoặc xử lý nội dung nếu cần rồi nhồi vào CSDL, lại quay lại với (2) cho tới hết..
    
    Vậy để tránh bị chôm tự động thì cần phải:
    - Làm cho cấu trúc của tin bài không cố định (vd như phần Intro thay vì luôn bọc trong thẻ [CODE]
    
    
    thì có thể đổi liên tục (tự động) theo mỗi lần đăng tin, vd như
    Mã:
    ...
    . Hoặc có thể đánh lừa cái đọc tự động của nó bằng cách thêm vào 1 đống cặp tag giống như tag bao quanh nội dung cần bảo vệ...
    - Đọc log server và tìm ra các IP của máy chủ bọn lấy tin, cấm các IP này

    Dĩ nhiên các phương pháp khắc phục đó không đảm bảo hoàn toàn, vd như bác thay đổi thẻ tag thì hội nó cũng thay đổi, nên bác cần phải cập nhật liên tục.. ban IP máy chủ thì nó có thể dùng máy cá nhân grab về rồi lại up lên v.v.. Nhưng bác đã nói tầm quan trọng của việc chống chôm chỉa này có ý nghĩa sống còn thế rồi thì nên chắc bác cũng sẽ đầu tư thời gian cho nó nhỉ [:D]

Chia sẻ trang này