Xếp hạng ở đầu kết quả tìm kiếm bắt đầu bằng việc đảm bảo Google có thể thu thập thông tin và lập chỉ mục nội dung của bạn. Khi nó không thể mở một trang đúng cách hoặc di chuyển từ trang này sang trang khác, nó không thể lập chỉ mục nội dung. Những trường hợp này được gọi là crawl error (lỗi thu thập thông tin).

Lỗi crawl error là gì?

Lỗi thu thập thông tin là vấn đề mà các công cụ tìm kiếm gặp phải khi chúng cố gắng truy cập các trang của bạn. Những lỗi này ngăn không cho các bot của công cụ tìm kiếm đọc nội dung của bạn và lập chỉ mục các trang của bạn. Những người làm SEO tổng thể nên lưu ý những vấn đề về lỗi crawl error để có thể xử lý kịp thời.

Lỗi thu thập thông tin cũng có thể đề cập đến một báo cáo có sẵn trong phiên bản cũ của Google Search Console.

Báo cáo Lỗi thu thập thông tin có hai phần chính:

Lỗi website: Những lỗi này ngăn Googlebot truy cập vào toàn bộ website của bạn.

Lỗi URL: Những lỗi này xảy ra khi Googlebot không thể truy cập vào một URL cụ thể.

Trong Google Search Console mới, những lỗi này được báo cáo trên cơ sở từng URL trong báo cáo Trạng thái lập chỉ mục.

lỗi trong google search console

Phần Phạm vi lập chỉ mục mới của Search Console cũng theo dõi việc lập chỉ mục theo thời gian, hiển thị bao nhiêu …

  • Họ đã gặp phải lỗi (và bạn đã giải quyết được bao nhiêu lỗi)
  • Các trang hợp lệ mà Google đã lập chỉ mục
  • Các trang Google đã gặp nhưng không được lập chỉ mục
  • Các trang hợp lệ Google đã lập chỉ mục nhưng tìm thấy một số lỗi trên
google search console coverage

Với mục đích đề cập đến các lỗi thu thập thông tin, chúng ta sẽ chỉ thảo luận về phần Lỗi vì những vấn đề này sẽ khiến các trang của bạn không bị Google thu thập thông tin hoặc lập chỉ mục.

Lỗi website

Lỗi website là sự cố xảy ra ở cấp độ website. Lỗi website có nghĩa là người dùng của bạn và Google không thể truy cập bất kỳ trang nào của bạn.

Vì vậy, đừng bỏ qua những lỗi này.

Có 3 lỗi website được Google coi là lỗi thu thập thông tin.

Lỗi DNS

DNS, viết tắt của “hệ thống tên miền”, dịch địa chỉ IP của website từ một chuỗi số thành các chữ cái và số có thể sử dụng được. Về cơ bản, đó là thứ cho phép chúng ta điều hướng Internet mà không cần biết địa chỉ IP của mọi website bạn muốn truy cập.

Hệ thống DNS hoạt động như sau:

1. Bạn nhập tên miền vào trình duyệt của mình.

2. Trình duyệt sẽ kiểm tra xem thông tin cho miền đó có được lưu trữ cục bộ trên máy tính của bạn hay không.

3. Nếu không, trình duyệt sẽ gửi yêu cầu đến máy chủ DNS cục bộ của bạn (thường do ISP của bạn cung cấp).

4. Máy chủ DNS cục bộ tìm kiếm thông tin chi tiết của tên domain. Nếu không có bất kỳ thông tin nào, nó cần tìm máy chủ định danh gốc của miền.

5. Để tìm máy chủ, máy chủ DNS sẽ chia URL thành nhiều phần, đi từ phải sang trái. Vì vậy, đối với www.example.com, nó chia URL thành “com”, “example” và “www”.

6. Máy chủ DNS kết nối với máy chủ tên gốc DNS để tìm hiểu vị trí của máy chủ cho đoạn đầu tiên của miền: “.com”. Đây được gọi là máy chủ định danh miền cấp cao nhất (TLD).

7. Máy chủ DNS kết nối với máy chủ TLD.

8. Máy chủ DNS sẽ hỏi máy chủ định danh TLD để biết chi tiết về máy chủ định danh có chứa thông tin chi tiết về tên miền (“ví dụ” trong trường hợp của chúng tôi).

9. Tại thời điểm này, máy chủ DNS yêu cầu máy chủ định danh cung cấp thông tin về example.com và máy chủ định danh trả về địa chỉ IP cho miền.

lỗi DNS

Tạo kết nối DNS là rất quan trọng vì đây là bước đầu tiên để truy cập một website. Nếu Google không thể thiết lập kết nối DNS, nó sẽ không thể tìm thấy website của bạn, ít truy cập hơn nhiều.

Có 2 loại lỗi DNS mà Google gặp phải:

DNS timeout: Máy chủ DNS của bạn không phản hồi yêu cầu của Google đủ nhanh.

DNS lookup: Google không thể truy cập trang web của bạn vì máy chủ DNS không thể tìm thấy tên miền của bạn.

Nếu bạn không thể tìm nạp website của mình với tư cách là Google bằng công cụ của họ, hãy kiểm tra với nhà cung cấp DNS của bạn.

Lỗi server

Lỗi server khác với lỗi DNS. Chúng có nghĩa là Google có thể tra cứu URL của bạn trên máy chủ DNS. Tuy nhiên, nó không thể tải trang do sự cố server.

Điều này thường có nghĩa là máy chủ của bạn mất quá nhiều thời gian để phản hồi và yêu cầu của Google đã hết thời gian chờ. Google sẽ chỉ dành một khoảng thời gian nhất định để chờ phản hồi của máy chủ. Mất quá nhiều thời gian và bot sẽ bỏ cuộc.

Giống như lỗi DNS, lỗi máy chủ là một vấn đề lớn đối với website của bạn. Nó có nghĩa là đã xảy ra sự cố với servercủa bạn đang ngăn người dùng và bot truy cập vào website của bạn.

Cách bạn sửa lỗi máy chủ của mình sẽ phụ thuộc vào lỗi đó là gì. Có một số loại lỗi máy chủ:

  • Thời gian chờ: Máy chủ chỉ mất quá nhiều thời gian để phản hồi yêu cầu của Googlebot.
  • Tiêu đề bị cắt ngắn: Máy chủ của bạn đã đóng kết nối trước khi gửi tiêu đề đầy đủ.
  • Đặt lại kết nối: Google có thể kết nối với trang web của bạn, nhưng không nhận được bất kỳ thứ gì vì kết nối đã được đặt lại khi đang phản hồi.
  • Phản hồi bị cắt ngắn: Kết nối đã bị kết thúc trước khi Google nhận được phản hồi đầy đủ.
  • Kết nối bị từ chối: Máy chủ của bạn đã từ chối kết nối với Googlebot.
  • Kết nối không thành công: Mạng máy chủ của bạn bị lỗi hoặc không thể truy cập được.
  • Kết nối hết thời gian: Quá trình xử lý kết nối.
  • Không có phản hồi: Kết nối với máy chủ của bạn đã bị kết thúc trước khi có thể gửi bất kỳ phản hồi nào.

Robot bị hỏng

Lỗi robot ám chỉ việc Google không thể tìm và đọc file robots.txt của trang web tại www.yoursite.com/robots.txt. Nếu DNS là bước 1 và tạo kết nối máy chủ là bước 2, thì đọc robots.txt là bước 3 trong Google thu thập thông tin website.

Google không muốn thu thập thông tin và lập chỉ mục bất kỳ trang nào bạn không muốn, vì vậy nếu không thể truy cập file robots.txt mà Google biết là có ở đó, thì Google sẽ hoãn thu thập thông tin cho đến khi có thể đọc file. Mặc dù, nếu bạn muốn Google thu thập dữ liệu mọi trang trên website của mình, bạn có thể bỏ thêm tệp này vào miền của mình và bỏ qua lỗi này.

Nếu bạn thấy lỗi này trong Google Search Console, hãy kiểm tra cách bạn đã thiết lập file robots.txt của mình.

  • Bạn đã tạo nó dưới dạng file văn bản thuần túy?
  • Bạn đã không cho phép trang chủ của mình?
  • File robots.txt của bạn có trả về trạng thái 200 hay lỗi 404 không?
  • Bạn đã kiểm tra gấp đôi, gấp ba và gấp bốn lần dòng Disallow: / chưa?

Khi bạn gặp phải lỗi rô bốt, cần lưu ý rằng không có tệp robots.txt nào tốt hơn là có tệp được định cấu hình không đúng, vì file robots.txt bị hỏng sẽ khiến Google tránh hoàn toàn việc thu thập dữ liệu website của bạn.

Lỗi URL

Lỗi URL khác với lỗi trang web ở chỗ chúng chỉ áp dụng cho trang cụ thể, không phải website của bạn nói chung. Họ lưu ý các trường hợp mà Google yêu cầu một trang cụ thể, nhưng không thể đọc được.

Soft 404

Tên “soft 404” có thể gây hiểu lầm một chút đối với một số người. Đây không phải là các trang trả lại mã trạng thái 404. Trên thực tế, đây là những trang trả về trạng thái 200 HTTP. Vấn đề là, chúng hầu hết là các trang trống.

Google khá giỏi trong việc tìm vị trí của nội dung trên một trang. Vì vậy, khi một URL chứa một trang không có nhiều hoặc bất kỳ “nội dung chính” nào, nó sẽ gọi đó là soft 404. Về mặt kỹ thuật, trang tồn tại và trả về trạng thái 200, nhưng đó là một trang trống.

Google ghi nhận những trang này vì chúng không hữu ích cho người dùng, chúng khiến Googlebot hoạt động không có lý do và chúng làm giảm hiệu quả thu thập thông tin website của bạn.

Đặt cược tốt nhất của bạn là thêm nội dung vào các trang này để làm cho chúng hữu ích hoặc không lập chỉ mục chúng để Google không còn nhìn thấy chúng nữa.

Lưu ý rằng nếu bạn sử dụng trang 404 tùy chỉnh không trả về trạng thái 404, thì trang đó có thể sẽ được Google ghi nhận là trang 404 mềm.

Không tìm thấy

Không tìm thấy URL là lỗi 404 thực tế gặp phải trên một website. Google đã yêu cầu một URL không tồn tại trên website của bạn.

Mặc dù việc nhìn thấy nhiều URL “không tìm thấy” trong báo cáo Lỗi thu thập dữ liệu có thể khiến bạn giảm cân, nhưng nó không quá thảm hại như vẻ ngoài của bạn.

Trên thực tế, theo chính Google, lỗi 404 không ảnh hưởng đến việc lập chỉ mục hoặc xếp hạng website của bạn.

Phần lớn các lỗi 404 mà bạn sẽ thấy không cần phải sửa. Khi quyết định có sửa một URL 404 hay không, hãy cân nhắc…

  • URL có nhiều liên kết bên ngoài chất lượng cao không?
  • Nó có nhận được nhiều lưu lượng truy cập không?
  • Nó có phải là một URL mà người dùng/người liên kết rõ ràng sẽ mong đợi tồn tại không?

Nếu câu trả lời cho một hoặc nhiều câu hỏi này là có, có lẽ bạn nên tìm hiểu nguyên nhân gây ra lỗi. Nếu 404 là do liên kết nội bộ bị lỗi, bạn chắc chắn nên sửa nó.

Việc sửa lỗi 404 của bạn sẽ tùy thuộc vào nguyên nhân. Nó có thể đơn giản như sửa lỗi chính tả trong liên kết nội bộ. Nếu trường hợp các liên kết bên ngoài đến các trang cũ, hãy sử dụng chuyển hướng 301 để trỏ nó đến một trang mới. Nếu có vẻ như một URL mà mọi người mong đợi sẽ tồn tại trên website của bạn, hãy xem xét thêm trang hoặc chuyển hướng đến nội dung có liên quan ở những nơi khác trên website của bạn.

Access denied (Quyền truy cập bị từ chối)

Những lỗi này xảy ra khi Google không được phép truy cập vào một trang nhất định. Chúng thường do:

  • Mật khẩu bảo vệ trang
  • Các trang không được robots.txt cho phép
  • Nhà cung cấp dịch vụ lưu trữ của bạn đang chặn Googlebot (điều này có thể xảy ra!)

Nếu bạn không muốn các URL được liệt kê trong khu vực Lỗi thu thập thông tin này xuất hiện trong kết quả tìm kiếm, bạn không cần phải làm gì ở đây. Đây thực sự là xác nhận rằng điều gì đó đúng.

Tuy nhiên, nếu bạn muốn những trang này xuất hiện trong kết quả tìm kiếm, bạn sẽ phải khắc phục những gì đang chặn Google.

  • Xóa yêu cầu đăng nhập khỏi trang
  • Xóa URL khỏi file robots.txt của bạn.
  • Liên hệ với nhà cung cấp dịch vụ lưu trữ của bạn để đưa Googlebot vào danh sách trắng

Not allowed

Đừng nhầm lẫn lỗi này với chỉ thị liên kết hoặc thẻ meta robot. Những URL này không liên quan gì đến những URL đó. Các URL không được theo dõi trong Lỗi thu thập thông tin chỉ đơn giản là các URL mà Google không thể hoàn toàn theo dõi đến đích của chúng.

Lý do cho điều này có thể là

  • Flash, JavaScript hoặc nội dung đang hoạt động khác chặn Google
  • Chuyển hướng, vòng lặp hoặc chuỗi bị hỏng
  • Liên kết tương đối trong chuyển hướng
  • URL được chuyển hướng có trong sitemap của bạn

Một lần nữa, như với 404 và quyền truy cập bị từ chối, hãy quyết định xem các URL ở đây có đáng sửa hay không. Nếu các trang không thực sự quan trọng đối với website của bạn, bạn có thể quyết định không lo lắng về việc sửa chúng.

Lỗi server và lỗi DNS

Đây là những loại lỗi tương tự gặp phải trong các lỗi website ở trên. Google không thể tìm thấy DNS của URL hoặc đã xảy ra sự cố với server của bạn đang cố gắng phân phát trang. Sự khác biệt ở đây là những lỗi này được giới hạn trong các URL riêng lẻ được liệt kê, thay vì ảnh hưởng đến toàn bộ website của bạn.

Công cụ kiểm tra URL

Google Search Console cho phép bạn tra cứu các trang riêng lẻ trên website của mình để tìm các sự cố lập chỉ mục và lỗi thu thập thông tin. Bạn có thể truy cập kiểm tra URL cho từng URL theo 3 cách:

1. Nhấp vào liên kết kiểm tra URL trên điều hướng bên trái hoặc nhập URL vào thanh tìm kiếm ở đầu trang sau khi bạn chọn một sản phẩm từ trang chào mừng của Search Console.

2. Nhấp vào biểu tượng kính lúp trên hàng của URL trong báo cáo Hiệu suất.

3. Qua

Công cụ cho bạn biết liệu một trang có trong chỉ mục của Google hay không và nêu chi tiết những gì Google gặp phải khi cố gắng gọi trang.

  • Trang mà Google đã tìm thấy liên kết đến trang của bạn.
  • Lần cuối cùng trình thu thập thông tin của Google cố gắng truy cập trang

Dưới đây là những gì báo cáo của công cụ bao gồm cho một trang trả về trạng thái HTTP 404:

Kết luận

Vấn đề rõ ràng nhất khi gặp lỗi thu thập thông tin trên website của bạn là những lỗi này ngăn Google truy cập nội dung của bạn. Google không thể xếp hạng các trang mà họ không thể truy cập. Tỷ lệ lỗi thu thập thông tin cao cũng có thể ảnh hưởng đến cách Google xem website của bạn.

Nhiều lỗi thu thập thông tin cũng có thể ảnh hưởng đến cách Google xem tình trạng tổng thể của website của bạn. Khi trình thu thập thông tin của Google gặp nhiều sự cố khi truy cập nội dung của một website, họ có thể quyết định rằng những trang này không đáng để thu thập thông tin thường xuyên. Điều này sẽ dẫn đến việc các trang mới của bạn mất nhiều thời gian hơn để vào chỉ mục của Google so với các trang khác.

Quý khách quan tâm đến dịch vụ của 2T Media vui lòng liên hệ:

Hotline/zalo: 0937 64 65 64

Email: 2tmedia.net@gmail.com

Facebook: https://www.facebook.com/2TMEDIA.NET

***

Dịch vụ của chúng tôi:

Giới thiệu dịch vụ Seo tổng thể

Bảng giá dịch vụ seo tổng thể

Bảng giá dịch vụ Quản trị chăm sóc website toàn diện

Bảng giá dịch vụ Copy Sao chép Tin nhanh - Quét tin - Copy Write