Main Menu

Đăng ký học joomla

Tin tức mới nhất

Thống kê truy cập

Truy cập trong ngày:	76
Truy cập hôm qua:	566
Tổng số truy cập:	878785

Đang online: 10 Khách

Tìm Hiểu Thẻ META Robots Và Tập Tin Robots.txt

Có đôi lúc chúng ta không muốn spider/robot thu thập những thông tin không cần thiết hoặc không muốn “show” những thông tin nào đó trong website, vậy chúng ta phải làm sao? Bài viết này sẽ thảo luận về chủ đề này.

Có 2 cách để ngăn chặn robot thu thập thông tin của website. Đầu tiên, đặt thẻ META Robots vào trong phần HEAD của tập tin HTML (trang nào có chèn thẻ META robots thì chỉ trang đó mới ảnh hưởng). Cách thứ 2 là viết ra một tập tin đặc biệt được gọi là robots.txt và đặt nó vào thư mục gốc của website.

Robots thực sự có ích từ khi các SE công bố chỉ thu thập giới hạn một số trang của webiste để đánh chỉ mục, từ đó, Robots được ứng dụng để tránh cho các robot thu thập những trang chưa tối ưu hoặc những thông tin không muốn trình bày. Ngoài ra, robots cũng được dùng trong các trường hợp trùng lắp nội dung để tránh các robot đánh chỉ mục nội dung trùng lặp.

Cuối cùng, các webmaster muốn loại bỏ nội dung của những thư mục riêng tư, bí mật, … trên website.

Thẻ META Robots

Thẻ META robots là một thẻ bên trong mã HTML có tác dụng điều hướng những robot thu thập thông tin những trang nên đánh chỉ mục và những trang nên loại trừ của một website.

Trong mã HTML của một trang web bất kỳ, thẻ META Robots sẽ xuất hiện như sau:

“index” có nghĩa là các robot thu thập thông tin được phép đánh chỉ mục trang này và “follow” có nghĩa là cho phép các robot dựa vào những liên kết trên trang hiện tại để khám phá các trang khác có liên quan đến trang này.

Bạn có thể hướng dẫn các robot không đánh chỉ mục một trang bất kỳ nếu chuyển content=”noindex, follow” hoặc content=”noindex, nofollow”. “follow” và “nofollow” là cho phép hoặc không cho phép các robot dựa vào những liên kết trên trang hiện tại để khám phá thêm các trang liên quan.

Thẻ META Robots phải được đặt trong phần HEAD của mã HTML. Một vài SE không hỗ trợ thẻ này mà chỉ hỗ trợ Robots Exclusion Protocol.

Googlebot và MSNBot

Các spider/robot của Google được gọi là Googlebot, các spider/robot của MSN được gọi là MSNBot. Khi đọc trang HTML của bạn, những robot này xem xét thẻ META đặc biệt là META Googlebot và META MSNBot. Hai thẻ này có ý nghĩa trong việc webmaster không có quyền truy cập vào thư mục gốc để áp dụng tập tin robots.txt, lúc đó, webmaster sẽ bổ sung 2 thẻ này vào các tập tin HTML để đáp ứng nhu cầu của mình.

Cú pháp như sau:

Bạn có thể dùng kết hợp “noindex”, “nofollow”, “noarchive” hoặc “nosnippet” trong thuộc tính content. “nosnippet”, “noarchive” sẽ thông báo với Google rằng không trình bày snippet của trang trong các trang kết quả tìm kiếm (SERP) và không lưu trữ bản sao của trang web.

Cú pháp khi dùng MSNBot:

MSNBot chỉ có 2 câu lệnh “noindex” và “nofollow”.

Robots Exclusion Protocol (tập tin robots.txt)

Robots Exclusion Protocol thường được gọi là tập tin robots.txt, đây là một phương pháp khác để cho phép chúng ta chỉ dẫn các robot thu thập thông tin như đã nói ở trên.

Khi một robot viếng thăm website, đầu tiên, nó sẽ kiểm tra sự tồn tại của tập tin robots.txt trong thư mục gốc của website, nếu có tập tin robots.txt, nó sẽ làm theo những chỉ dẫn được định nghĩa trong tập tin này.

Tập tin robots.txt sẽ có những thông tin như định dạng sau:

User-agent: *
Disallow: /

Tập tin này luôn có 2 trường, trường thứ nhất là tên của các robot, trường thứ 2 là thư mục hoặc các thư mục không cho phép các robot thăm viếng.

“*” có nghĩa là tất cả các robot và “/” có nghĩa là tất cả URL và điều này có nghĩa là ngăn chặn tất cả các robot cho bất kỳ URL nào.

Sau đây là một ví dụ, ví dụ này cho chúng ta biết là Googlebot sẽ không bị bất kỳ giới hạn nào.

User-agent: Googlebot
Disallow:

Hoặc không giới hạn với Googlebot, nhưng giới hạn thư mục cgi-bin với các robot còn lại.

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /cgi-bin/

Một số ý kiến về tập tin robots.txt

1/ Tên tập tin robots.txt phải luôn là chữ thường ngay cả khi website của bạn được đặt trên những server không phân biệt hoa – thường như Windows.
2/ Ký tự đại diện chỉ được dùng trong User-agent, ngoài ra không được hỗ trợ bởi các SE ngoại trừ Google (xem thêm tại địa chỉ http://google.com/webmasters/).
3/ Các chức năng của website không bị ảnh hưởng bởi việc có hay không có tập tin robots.txt hoặc tập tin này là rỗng. Tuy nhiên, với một vài server và một vài robot, thì điều này có thể gây ra lỗi 404, vì thế luôn luôn có tập tin robots.txt.
4/ Mỗi tên miền chỉ có một tập tin robots.txt duy nhất và nó phải được đặt trong thư mục gốc của tên miền đó.
5/ Nếu bạn không có quyền truy cập hay hiệu chỉnh tập tin robots.txt, hãy sử dụng thẻ META Robots.
6/ Dùng chữ thường khi đặt tên tập tin robots.txt.

Để có thông tin đầy đủ hơn về tập tin robots.txt và cách sử dụng, vui lòng truy cập vào http://www.robotstxt.org/wc/norobots.html