Robots.txt là gì? Cấu hình robots.txt chuẩn cho Bogger / Blogspot / WordPress/Website
Robots.txt là một tệp văn bản đơn giản có đuôi mở rộng .txt nằm trong thư mục gốc của trang web. Tệp robots.txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết có thể truy cập vào những URL nào trên trang web của bạn. Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web; đây không phải là cơ chế để ẩn một trang web khỏi Google. Để ẩn một trang web khỏi Google, hãy chặn lập chỉ mục bằng noindex.
Tệp robots.txt dùng để làm gì?
Tệp robots.txt chủ yếu dùng để quản lý lưu lượng truy cập của trình thu thập dữ liệu vào trang web của bạn và thường dùng để ẩn tệp khỏi Google, tuỳ thuộc vào loại tệp. Thận trọng: Việc kết hợp nhiều quy tắc thu thập dữ liệu và lập chỉ mục có thể khiến một số quy tắc xung đột với nhau. Hãy tìm hiểu cách kết hợp quy tắc thu thập dữ liệu với quy tắc lập chỉ mục và phân phát.
Lợi ích khi sử dụng robots.txt
Thêm robots.txt là tùy chọn không bắt buộc, thế nhưng nó lại khá cần thiết là vì:
Chặn index các tài nguyên không cần thiết (ví dụ: video, file PDF,...)
Chặn index trang không cần thiết.
Chèn Sitemap
Tối ưu quá trình crawl: Google luôn có một mức thu thập dữ liệu tối đa cho một website trong một khoảng thời gian nhất định. Vì thế, chúng ta cần index trang cần thiết và loại bỏ các trang cần thiết để tiết kiệm cho quá trình crawl này.
File Robots.txt chuẩn SEO nằm ở đâu?
Tệp Robots.txt sẽ luôn nằm ở gốc domain của website. https://www.huongdan.org/robots.txt.
Trong hầu hết các website, bạn có thể truy cập để chỉnh sửa tệp đó trong FTP hoặc bằng cách truy cập File Manager trong hosts CPanel.
Nếu bạn đang sử dụng WordPress, file robots.txt có thể được truy cập trong thư mục public_html của website.
# Ví dụ 1: Ngăn chặn GooglebotUser-agent: GooglebotDisallow: /# Ví dụ 2: Ngăn chặn Googlebot và AdsbotUser-agent: GooglebotUser-agent: AdsbotDisallow: /# Ví dụ 3: Chặn tất cả các trình thu thập thông tin trừ AdsbotUser-agent: *Disallow: /
User-agent: *Disallow: /portfolio
User-agent: GooglebotDisallow: /portfolioAllow: /portfolio/crawlableportfolio
User-agent: *Disallow: /*?
Một số công thức robots.txt file phổ biến
# Chặn GoogleBot cào website bạn
User-agent: GoogleBot
Disallow: /
# Chặn nhiều user-agent (GoogleBot và Bingbot)
User-agent: GoogleBot
User-agent: Bingbot
Disallow: /
# Chặn tất cả các trình thu thập thông tin
User-agent: *
Disallow: /
# Chặn một miền phụ cụ thể khỏi tất cả các trình thu thập thông tin
Hãy thêm dấu gạch chéo lên phía trước và URL đầy đủ của miền phụ trong quy tắc không cho phép của web. Ví dụ:
User-agent: *
Disallow: /https://page.yourdomain.com/robots.txt
# Chặn một thư mục
Hãy làm theo quy trình tương tự bằng cách thêm dấu gạch chéo lên và tên thư mục của bạn, nhưng sau đó kết thúc bằng một dấu gạch chéo chuyển tiếp khác. Ví dụ:
User-agent: *
Disallow: /images/
Cuối cùng, nếu bạn muốn tất cả các công cụ tìm kiếm thu thập thông tin trên tất cả các trang trên trang web của mình. Bạn có thể tạo quy tắc allow hoặc disallow, nhưng hãy đảm bảo thêm dấu gạch chéo khi sử dụng quy tắc allow.
# Cho phép tất cả các trình thu thập thông tin
User-agent: *
Allow: /
# Cho phép tất cả các trình thu thập thông tin
User-agent: *
Disallow:
# Chặn quyền truy cập vào một thư mục cụ thể
User-agent: *
Disallow: /portfolio
# Chặn PDF hoặc các loại tệp khác
Nếu bạn không muốn tệp PDF hoặc các loại tệp khác của mình được thu thập thông tin, thì lệnh dưới đây sẽ hữu ích.
Lệnh chặn đối với tệp PDF:
User-agent: *
Disallow: *.pdf$
Đối với tệp PowerPoint, bạn có thể sử dụng:
User-agent: *
Disallow: *.ppt$
Cho phép tất cả robot truy cập vào mọi thứ:
User-agent: *
Disallow:
Không cho phép tất cả robot truy cập vào mọi thứ:
User-agent: *
Disallow: /
Tất cả các bot của Google không có quyền truy cập
User-agent: googlebot
Disallow: /
Tất cả các bot của Google, ngoại trừ tin tức Googlebot không có quyền truy cập
User-agent: googlebot
Disallow: /
User-agent: googlebot-news
Disallow:
Googlebot và Slurp không có bất kỳ quyền truy cập nào
User-agent: Slurp
User-agent: googlebot
Disallow: /
Tất cả các rô bốt không có quyền truy cập vào hai thư mục
User-agent: *
Disallow: /admin/
Disallow: /private/
Tất cả rô bốt không có quyền truy cập vào một tệp cụ thể
User-agent: *
Disallow: /directory/some-pdf.pdf
Googlebot không có quyền truy cập vào /admin/ và Slurp không có quyền truy cập vào /private/
User-agent: googlebot
Disallow: /admin/
User-agent: Slurp
Disallow: /private/
I. Cấu hình robots.txt chuẩn cho /Blogger/Blogspot
Chỉnh sửa robots.txt cho Blogsopt
Bước 1: Vào trang quản lí blog > Cài đặt.
Bước 2: Kéo xuống dưới và tìm đến Trình thu thập thông tin và lập chỉ mục.
Bật robots.txt tùy chỉnh và nhấp bên dưới để chỉnh sửa.
User-agent: *
Allow: /
User-agent: Googlebot
Allow: /
Allow: /search/label
Disallow: /search
Allow: /search(/)?$
Disallow: *archive.html$
Sitemap: https://www.huongdan.org/atom.xml?redirect=false&start-index=1&max-results=500
Lưu ý Thay https://www.huongdan.org/ thành tên miền của bạn và nếu blog của bạn có hơn 500 bài viết thì đổi 500 thành số lớn hơn
Giải thích về cấu hình này
Đầu tiên là User-agent: *, Cú pháp này cho phép mọi bot vào thu thập dữ liệu như bot của Google, Bing, ... và xác định các quy tắc được áp dụng bên dưới.
Allow: /, Dòng này nghĩa là cho phép index tất cả các tiền tố url
Mình muốn Google không thu thập vào các trang không cần thiết mà các bot khác vẫn thu thập được, nên mình viết lệnh riêng cho Googlebot bằng cách thêm dòng User-agent: Googlebot
Cho phép Thu thập dữ liệu của trang nhãn: Allow: /search/label/.
Chặn thu thập những trang tìm kiếm có thể không có nội dung (Disallow: /search) nhưng vẫn cho phép thu thập trang bài viết (Allow: /search(/)?$)
Disallow: archive.html$ là chặn thu thập dữ liệu trang web có đuôi archive.html. Mình dùng kí tự ($) để url khớp ở cuối.
Cuối cùng là Sitemap: https... đánh dấu địa chỉ sơ đồ trang web của blog.
II. Tạo Robots.txt cho WordPress / Website của bạn
Nếu đang sử dụng One SEO Pack, Yoast SEO plugin, bạn có thể tạo (và sau đó chỉnh sửa) tệp robots.txt của mình ngay từ giao diện của plugin.
Cách tạo và chỉnh sửa tệp Robots.txt qua FTP
Nếu không sử dụng plugin SEO cung cấp chức năng robots.txt, bạn vẫn có thể tạo và quản lý tfile robots.txt qua SFTP. Trước tiên, hãy sử dụng bất kỳ trình soạn thảo văn bản nào để tạo một tệp trống có tên “robots.txt”:
Tạo File Robots.txt
Sau đó, kết nối với trang web qua SFTP và tải tệp lên thư mục gốc của website. Bạn có thể thực hiện các sửa đổi thêm đối với tệp robots.txt bằng cách chỉnh sửa tệp qua SFTP hoặc tải lên các phiên bản mới của tệp.Đặt user-agent Robots.txt của bạn
Bước tiếp theo trong cách tạo tệp robots.txt là đặt user-agent.
User-agent hay gọi tắt là UA, là một chuỗi nhận diện của trình duyệt web khi gửi yêu cần đến máy chủ web.
User-agent ở đây tức là trình thu thập thông tin web hoặc công cụ tìm kiếm mà bạn muốn cho phép hoặc chặn. Có ba cách khác nhau để thiết lập user-agent trong tệp robots.txt.
1. Tạo một user-agent
Cú pháp mà bạn sử dụng để đặt user-agent là User-agent. Phần này tôi đã giới thiệu ở trên – phần cú pháp của robots.txt, bạn có thể lưu ảnh trên đó để nghiên cứu nhé.
# Ví dụ về cách đặt user-agent
User-agent: GoogleBot
2. Tạo nhiều hơn một user-agent
Nếu chúng ta phải thêm nhiều hơn một, hãy làm theo quy trình tương tự như bạn đã làm đối với user-agent GoogleBot trên dòng tiếp theo, nhập tên của user-agent bổ sung. Trong ví dụ này, chúng tôi đã sử dụng Facebot.
# Ví dụ về cách đặt nhiều user-agent
User-agent: GoogleBot
User-agent: Bingbot
3. Đặt Tất cả Trình thu thập thông tin làm User-agent
Để chặn tất cả bot hoặc trình thu thập thông tin, hãy thay thế tên của bot bằng dấu hoa thị (*).
# Ví dụ về cách đặt tất cả trình thu thập thông tin làm user-agent
User-agent: *
Ghi chú: Dấu thăng (#) biểu thị phần đầu của một nhận xét.
Đặt quy tắc cho tệp Robots.txt của bạn
Tệp robots.txt được đọc theo nhóm. Một nhóm sẽ chỉ định user-agent là ai và có một quy tắc hoặc chỉ thị để cho biết tệp hoặc thư mục nào user-agent có thể hoặc không thể truy cập.
Nhắc lại, dưới đây là các lệnh được sử dụng:
1. Disallow
2. Allow
Cả 2 lệnh này đều có chung 3 đặc điểm sau :
Nó cũng bắt đầu bằng dấu gạch chéo (/) theo sau là url toàn trang.
Bạn sẽ chỉ kết thúc nó bằng một dấu gạch chéo nếu nó đề cập đến một thư mục chứ không phải toàn bộ trang.
Bạn có thể sử dụng một hoặc nhiều cài đặt cho phép cho mỗi quy tắc.
3. Sơ đồ trang web
Trình thu thập dữ liệu web xử lý các lệnh từ trên xuống dưới. Do đó, hãy thêm Disallow: / bên dưới thông tin user-agent trong mỗi nhóm để chặn các user-agent cụ thể ấy thu thập thông tin trang web của bạn.
9. Tệp Robots.txt dành cho WordPress
Tệp robots.txt bên dưới được tối ưu hóa đặc biệt cho WordPress, giả sử:
Bạn không muốn thu thập thông tin phần quản trị viên.
Bạn không muốn thu thập thông tin các trang kết quả tìm kiếm nội bộ
Bạn không muốn thu thập thông tin thẻ và trang tác giả
Bạn không muốn thu thập thông tin trang 404.
User-agent: *
Disallow: /wp-admin/ #block access to admin section
Disallow: /wp-login.php #block access to admin section
Disallow: /search/ #block access to internal search result pages
Disallow: *?s=* #block access to internal search result pages
Disallow: *?p=* #block access to pages for which permalinks fails
Disallow: *&p=* #block access to pages for which permalinks fails
Disallow: *&preview=* #block access to preview pages
Disallow: /tag/ #block access to tag pages
Disallow: /author/ #block access to author pages
Disallow: /404-error/ #block access to 404 page
Sitemap: https://www.example.com/sitemap_index.xml
Vậy là bạn đã hiểu Robots.txt là gì? Cấu hình robots.txt chuẩn cho Bogger / Blogspot / WordPress/Website