Robots.txt là một trong những file đơn giản nhất trên website, nhưng nó cũng là một trong những file dễ gây nhầm lẫn nhất. Chỉ một ký tự không đúng vị trí có thể tàn phá SEO của bạn và ngăn các công cụ tìm kiếm truy cập nội dung quan trọng trên website của bạn.
Tập tin Robots txt là gì?
File robots.txt cho các công cụ tìm kiếm biết nơi chúng có thể và không thể truy cập vào website của bạn.
Về cơ bản, nó liệt kê tất cả nội dung bạn muốn khóa khỏi các công cụ tìm kiếm như Google. Bạn cũng có thể cho một số công cụ tìm kiếm (không phải Google) biết cách họ có thể thu thập thông tin nội dung được phép.
Tập tin robots.txt trông như thế nào?
Đây là định dạng cơ bản của tệp robots.txt:

Nếu bạn chưa từng thấy một trong những file này trước đây, thì điều đó có vẻ khó khăn. Tuy nhiên, cú pháp khá đơn giản. Nói tóm lại, bạn chỉ định các quy tắc cho bot bằng cách nêu rõ tác nhân người dùng của chúng, sau đó là các lệnh.
Hãy cùng khám phá thành phần này chi tiết hơn.
User-agent
Mỗi công cụ tìm kiếm xác định chính nó với một tác nhân người dùng khác nhau. Bạn có thể đặt hướng dẫn tùy chỉnh cho từng hướng dẫn này trong file robots.txt của mình. Có hàng trăm tác nhân người dùng, nhưng đây là một số tác nhân hữu ích cho SEO:
- Google: Googlebot
- Google Hình ảnh: Googlebot-Image
- Bing: Bingbot
- Yahoo: Slurp
- Baidu: Baiduspider
- DuckDuckGo: DuckDuckBot
Bạn cũng có thể sử dụng ký tự đại diện dấu sao (*) để gán chỉ thị cho tất cả tác nhân người dùng.
Ví dụ: giả sử bạn muốn chặn tất cả các bot ngoại trừ Googlebot thu thập dữ liệu website của bạn. Đây là cách bạn sẽ làm điều đó:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
Biết rằng file robots.txt của bạn có thể bao gồm các lệnh cho bao nhiêu tác nhân người dùng tùy thích. Điều đó nói rằng, mỗi khi bạn khai báo một tác nhân người dùng mới, nó sẽ hoạt động như một phương tiện chặn rõ ràng. Nói cách khác, nếu bạn thêm chỉ thị cho nhiều tác nhân người dùng, thì các chỉ thị được khai báo cho tác nhân người dùng đầu tiên sẽ không áp dụng cho tác nhân thứ hai hoặc thứ ba hoặc thứ tư, v.v.
Ngoại lệ cho quy tắc đó là khi bạn khai báo cùng một tác nhân người dùng nhiều lần. Trong trường hợp đó, tất cả các chỉ thị liên quan được kết hợp và tuân theo.
LƯU Ý QUAN TRỌNG
Trình thu thập thông tin chỉ tuân theo các quy tắc được khai báo trong các user-agent áp dụng chính xác nhất cho chúng. Đó là lý do tại sao file robots.txt ở trên chặn tất cả các bot ngoại trừ Googlebot (và các bot khác của Google) thu thập dữ liệu website. Googlebot bỏ qua phần khai báo user-agent ít cụ thể hơn.
Bạn có cần file robots.txt không?
Việc có tệp robots.txt không quan trọng đối với nhiều trang web, đặc biệt là những website nhỏ.
Điều đó nói rằng, không có lý do chính đáng nào để không có một cái. Nó cho phép bạn kiểm soát nhiều hơn những nơi mà các công cụ tìm kiếm (search engine) có thể và không thể truy cập vào website của bạn và điều đó có thể trợ giúp những việc như:
- Ngăn chặn việc thu thập thông tin các nội dung trùng lặp;
- Giữ các phần của một website ở chế độ riêng tư (ví dụ: website dàn dựng của bạn);
- Ngăn chặn việc thu thập thông tin của các trang kết quả tìm kiếm nội bộ;
- Chống quá tải cho máy chủ;
- Ngăn Google lãng phí “ngân sách thu thập thông tin”.
- Ngăn hình ảnh, video và các file tài nguyên xuất hiện trong kết quả tìm kiếm của Google.
Lưu ý rằng mặc dù Google thường không lập chỉ mục các website bị chặn trong robots.txt, nhưng không có cách nào để đảm bảo loại trừ khỏi kết quả tìm kiếm bằng cách sử dụng file robots.txt.
Giống như Google nói, nếu nội dung được liên kết đến từ những nơi khác website, nó vẫn có thể xuất hiện trong kết quả tìm kiếm của Google.
Cách tìm file robots txt
Nếu bạn đã có file robots.txt trên website của mình, bạn sẽ có thể truy cập file này tại domain.com/robots.txt. Điều hướng đến URL trong trình duyệt của bạn. Nếu bạn thấy thứ gì đó như thế này, thì bạn có file robots.txt:

Cách tạo file robots txt
Nếu bạn chưa có file robots.txt, việc tạo một file rất dễ dàng. Chỉ cần mở một tài liệu .txt trống và bắt đầu nhập lệnh. Ví dụ: nếu bạn muốn không cho phép tất cả các công cụ tìm kiếm thu thập thông tin thư mục /admin/ của bạn, nó sẽ trông giống như sau:
User-agent: *
Disallow: /admin/
Tiếp tục xây dựng các chỉ thị cho đến khi bạn hài lòng với những gì mình có. Lưu file của bạn dưới dạng “robots.txt”.
Ngoài ra, bạn cũng có thể sử dụng trình tạo robots.txt như trình tạo này.

Ưu điểm của việc sử dụng một công cụ như thế này là nó giảm thiểu các lỗi cú pháp. Điều đó thật tốt vì một sai lầm có thể dẫn đến thảm họa SEO cho website của bạn. Vì vậy, nếu sai sót một cách thận trọng, bạn sẽ phải trả tiền.
Điểm bất lợi là chúng hơi hạn chế về khả năng tùy chỉnh.
Cách kiểm tra file robots.txt để tìm lỗi
Các lỗi trong Robots.txt có thể lọt qua mạng khá dễ dàng, vì vậy bạn phải chú ý theo dõi các vấn đề.
Để thực hiện việc này, hãy thường xuyên kiểm tra các vấn đề liên quan đến robots.txt trong báo cáo “Coverage” trong Search Console. Dưới đây là một số lỗi bạn có thể gặp, ý nghĩa của chúng và cách bạn có thể sửa chúng.
Dán URL vào công cụ Kiểm tra URL của Google trong Search Console. Nếu file đó bị robots.txt chặn, bạn sẽ thấy một cái gì đó như sau:

URL đã gửi bị chặn bởi robots.txt

Điều này có nghĩa là ít nhất một trong các URL trong sơ đồ trang web (sitemap) đã gửi của bạn bị robots txt chặn.
Nếu bạn đã tạo sơ đồ trang web của mình một cách chính xác và loại trừ các trang được chuẩn hóa, không được lập chỉ mục và được chuyển hướng, thì không có trang nào được gửi sẽ bị robots txt chặn. Nếu đúng như vậy, hãy điều tra xem trang nào bị ảnh hưởng, sau đó điều chỉnh file robots txt của bạn cho phù hợp để xóa khối cho trang đó.
Bạn có thể sử dụng trình kiểm tra robots.txt của Google để xem chỉ thị nào đang chặn nội dung. Chỉ cần cẩn thận khi làm điều này. Rất dễ mắc lỗi ảnh hưởng đến các trang và file khác.

Bị chặn bởi robots.txt

Điều này có nghĩa là bạn có nội dung bị chặn bởi robots.txt mà hiện không được lập chỉ mục trong Google.
Nếu nội dung này quan trọng và cần được lập chỉ mục, hãy xóa khối thu thập thông tin trong robots txt. (Cũng cần đảm bảo rằng nội dung không bị lập chỉ mục). Nếu bạn đã chặn nội dung trong robots txt với ý định loại trừ nội dung đó khỏi chỉ mục của Google, hãy xóa khối thu thập thông tin và sử dụng meta robots tag hoặc x‑robots-tag HTTP header. Đó là cách duy nhất để đảm bảo loại trừ nội dung khỏi chỉ mục của Google.
Nếu bạn vô tình chặn nội dung này và muốn giữ nội dung đó trong chỉ mục của Google, hãy xóa khối thu thập thông tin trong robots.txt. Điều này có thể giúp cải thiện khả năng hiển thị của nội dung trong tìm kiếm của Google.
Quý khách quan tâm đến dịch vụ của 2T Media vui lòng liên hệ:
Hotline/zalo: 0937 64 65 64
Email: 2tmedia.net@gmail.com