- Hướng dẫn tạo email theo tên miền dùng outlook
- Code không cho download ảnh trên website
- Công cụ check Hosting
- Có nên thiết kế website giá rẻ
- Jquery popup div - Jquery popup div on hover
- lenh half life - Lệnh half life
- Liên thông giữa Website và Facebook
- Tạo SubDomain
- Làm sắc nét ảnh bằng photoshop
- Tạo chữ bóng trong photoshop
- max-width width table in chrome
- Trang web Ác ý Đã biết!
- Xuất file .ico với Photoshop
- Check IP Public ở mạng bạn đang sử dụng
- ![CDATA[
- Lưu ký tự đặc biệt vào Database với PHP
- Không sạc được Pin Laptop
- Download ngôn ngữ Tiếng Việt cho Joomla 2.5 Full
- Các phép biến đổi định dạng số trong PHP
- Hiệu ứng chạy cuộn tin tức với jquery
Truy cập trong ngày: | 261 |
Truy cập hôm qua: | 367 |
Tổng số truy cập: | 630461 |
Có đôi lúc chúng ta không muốn spider/robot thu thập những thông tin không cần thiết hoặc không muốn “show” những thông tin nào đó trong website, vậy chúng ta phải làm sao? Bài viết này sẽ thảo luận về chủ đề này. Có 2 cách để ngăn chặn robot thu thập thông tin của website. Đầu tiên, đặt thẻ META Robots vào trong phần HEAD của tập tin HTML (trang nào có chèn thẻ META robots thì chỉ trang đó mới ảnh hưởng). Cách thứ 2 là viết ra một tập tin đặc biệt được gọi là robots.txt và đặt nó vào thư mục gốc của website. Robots thực sự có ích từ khi các SE công bố chỉ thu thập giới hạn một số trang của webiste để đánh chỉ mục, từ đó, Robots được ứng dụng để tránh cho các robot thu thập những trang chưa tối ưu hoặc những thông tin không muốn trình bày. Ngoài ra, robots cũng được dùng trong các trường hợp trùng lắp nội dung để tránh các robot đánh chỉ mục nội dung trùng lặp. Cuối cùng, các webmaster muốn loại bỏ nội dung của những thư mục riêng tư, bí mật, … trên website. Thẻ META robots là một thẻ bên trong mã HTML có tác dụng điều hướng những robot thu thập thông tin những trang nên đánh chỉ mục và những trang nên loại trừ của một website. Trong mã HTML của một trang web bất kỳ, thẻ META Robots sẽ xuất hiện như sau: “index” có nghĩa là các robot thu thập thông tin được phép đánh chỉ mục trang này và “follow” có nghĩa là cho phép các robot dựa vào những liên kết trên trang hiện tại để khám phá các trang khác có liên quan đến trang này. Bạn có thể hướng dẫn các robot không đánh chỉ mục một trang bất kỳ nếu chuyển content=”noindex, follow” hoặc content=”noindex, nofollow”. “follow” và “nofollow” là cho phép hoặc không cho phép các robot dựa vào những liên kết trên trang hiện tại để khám phá thêm các trang liên quan. Thẻ META Robots phải được đặt trong phần HEAD của mã HTML. Một vài SE không hỗ trợ thẻ này mà chỉ hỗ trợ Robots Exclusion Protocol. Googlebot và MSNBot Các spider/robot của Google được gọi là Googlebot, các spider/robot của MSN được gọi là MSNBot. Khi đọc trang HTML của bạn, những robot này xem xét thẻ META đặc biệt là META Googlebot và META MSNBot. Hai thẻ này có ý nghĩa trong việc webmaster không có quyền truy cập vào thư mục gốc để áp dụng tập tin robots.txt, lúc đó, webmaster sẽ bổ sung 2 thẻ này vào các tập tin HTML để đáp ứng nhu cầu của mình. Cú pháp như sau: Bạn có thể dùng kết hợp “noindex”, “nofollow”, “noarchive” hoặc “nosnippet” trong thuộc tính content. “nosnippet”, “noarchive” sẽ thông báo với Google rằng không trình bày snippet của trang trong các trang kết quả tìm kiếm (SERP) và không lưu trữ bản sao của trang web. Cú pháp khi dùng MSNBot: MSNBot chỉ có 2 câu lệnh “noindex” và “nofollow”. Robots Exclusion Protocol (tập tin robots.txt) Robots Exclusion Protocol thường được gọi là tập tin robots.txt, đây là một phương pháp khác để cho phép chúng ta chỉ dẫn các robot thu thập thông tin như đã nói ở trên. Khi một robot viếng thăm website, đầu tiên, nó sẽ kiểm tra sự tồn tại của tập tin robots.txt trong thư mục gốc của website, nếu có tập tin robots.txt, nó sẽ làm theo những chỉ dẫn được định nghĩa trong tập tin này. Tập tin robots.txt sẽ có những thông tin như định dạng sau: User-agent: * Tập tin này luôn có 2 trường, trường thứ nhất là tên của các robot, trường thứ 2 là thư mục hoặc các thư mục không cho phép các robot thăm viếng. “*” có nghĩa là tất cả các robot và “/” có nghĩa là tất cả URL và điều này có nghĩa là ngăn chặn tất cả các robot cho bất kỳ URL nào. Sau đây là một ví dụ, ví dụ này cho chúng ta biết là Googlebot sẽ không bị bất kỳ giới hạn nào. User-agent: Googlebot Hoặc không giới hạn với Googlebot, nhưng giới hạn thư mục cgi-bin với các robot còn lại. User-agent: Googlebot Một số ý kiến về tập tin robots.txt 1/ Tên tập tin robots.txt phải luôn là chữ thường ngay cả khi website của bạn được đặt trên những server không phân biệt hoa – thường như Windows. Để có thông tin đầy đủ hơn về tập tin robots.txt và cách sử dụng, vui lòng truy cập vào http://www.robotstxt.org/wc/norobots.html |
Các bài viết liên quan
- Hướng dẫn chi tiết gỡ bỏ hình phạt của Google
- Công cụ không thể thiếu cho SEOer
- DMCA Google
- Công cụ check nội dung sao chép từ một bài viết khác
- Cách chặn liên kết xấu tới website
- Xây dựng link, vấn đề không đơn giản
- Remarketing là gì
- Cách check website bị Google Sandbox
- Công cụ check Backlink chuẩn