Cách tìm Orphan page trên website

Orphan page là các trang không được liên kết đến từ bất kỳ trang hoặc phần nào khác trên website của bạn. Điều này có nghĩa là người dùng không thể truy cập trang mà không biết URL trực tiếp. Ngoài ra, trình thu thập thông tin của công cụ tìm kiếm không thể theo dõi các trang này từ một trang khác, điều đó có nghĩa là chúng hiếm khi được các công cụ tìm kiếm lập chỉ mục.

Orphan page là gì?

Một trang không có bất kỳ liên kết nào đến nó được gọi là orphan page. Dưới đây là cách tìm tất cả orphan page của bạn và tại sao việc sửa chúng lại quan trọng đối với SEO tổng thể.

Việc tìm kiếm các trang không có liên kết là rất khó, nhưng không phải là không thể.

Nếu có các trang trên website của bạn mà người dùng và công cụ tìm kiếm không thể truy cập thì đây là vấn đề bạn cần khắc phục.

Trong bài viết này, bạn sẽ tìm hiểu orphan page là gì, tại sao việc sửa chúng lại quan trọng đối với SEO và cách tìm mọi orphan page trên website của bạn.

Một trang không có bất kỳ liên kết nào đến nó được gọi là orphan page.

Các công cụ tìm kiếm, như Google, thường tìm các trang mới theo một trong hai cách:

  • Trình thu thập thông tin theo một liên kết từ một trang khác.
  • Trình thu thập thông tin tìm thấy URL được liệt kê trong sơ đồ trang sitemap XML.

Vì vậy, nếu bạn muốn Google thu thập dữ liệu và lập chỉ mục trang thì Google cần phải có khả năng tìm thấy nó.

Tại sao các orphan page là một vấn đề về SEO?

Các công cụ tìm kiếm không thể tìm thấy các orphan page thông qua các liên kết, vì vậy các trang orphan page thường không được lập chỉ mục và không bao giờ hiển thị trong kết quả tìm kiếm.

Ngay cả khi orphan page của bạn được liệt kê trong sơ đồ sitemap XML của bạn, chúng vẫn là một vấn đề đối với SEO.

Orphan page có phải là vấn đề hay không?

Các orphan page không tốt cho cả người dùng hoặc trình thu thập thông tin.

Người dùng không thể truy cập các trang đó thông qua cấu trúc tự nhiên của website của bạn, vì vậy nếu có thông tin quan trọng hoặc hữu ích trên các trang đó, điều đó thật lãng phí.

Điều này có thể tạo ra trải nghiệm người dùng khó chịu.

Không có liên kết nội bộ, không có thẩm quyền nào được chuyển đến các trang và các công cụ tìm kiếm (search engine) không có ngữ cảnh hoặc ngữ cảnh cấu trúc để đánh giá trang.

Nếu không có bất kỳ cách nào để biết vị trí trang phù hợp với tổng thể website của bạn, có thể khó khăn hơn để xác định trang có liên quan đến những truy vấn nào.

Những cách xác định orphan page

Xác định được các orphan page sẽ giúp cho bạn quản lý và thêm vào các bài viết các liên kết nội bộ giúp cho website trở nên tốt hơn, đặc biệt là đối với Google Bot vì nó có thể thu thập thông tin dễ dàng hơn.

Xác định các trang có thể thu thập thông tin

Bạn sẽ cần danh sách tất cả các URL hiện có thể truy cập được bằng cách thu thập thông tin các liên kết của website của bạn.

Bạn sẽ cần trình thu thập thông tin của riêng mình – một crawler SEO, để làm điều này. ScreamingFrog là một lựa chọn tốt.

Dù bạn sử dụng trình thu thập thông tin nào, hãy đảm bảo rằng trình thu thập thông tin được đặt để chỉ thu thập thông tin các trang có thể lập chỉ mục bởi các công cụ tìm kiếm.

Do đó, ý tôi là nó không nên thu thập dữ liệu các trang:

– Noindexed
– Bị ẩn khỏi công cụ tìm kiếm bởi robots.txt.

Bắt đầu thu thập thông tin từ trang chủ của website.

Đảm bảo sử dụng URL chuẩn, bao gồm https hoặc http thích hợp và www hoặc không phải www.

Khi bạn đã thu thập dữ liệu website của mình, hãy xuất các URL sang một bảng tính như sau:

xác định orphan page bằng cách trích xuất file excel

Giải quyết 2 nguyên nhân phổ biến của orphan page

Có hai nguyên nhân phổ biến khiến orphan page cần được khắc phục và xử lý ngay.

Cả hai nguyên nhân này về cơ bản là các bản sao trang sẽ tự động chuyển hướng nhất quán đến chỉ một URL.

Nếu không có thì có khả năng một số phiên bản của trang không được liên kết đến và do đó là orphan page.

Trong trường hợp này, thực tế rằng chúng là các orphan page không phải là vấn đề chính, thực tế là họ là bản sao.

Những điều này có thể xuất hiện sau khi bạn đang tìm kiếm các trang orphan page và cần được xử lý, vì vậy bạn nên xử lý chúng trước.

Không hợp quy https / http hoặc www / không phải www

Mọi trang công khai trên website của bạn tốt nhất nên sử dụng http hoặc https một cách nhất quán (tốt nhất là https) và www hoặc không phải www.

Để kiểm tra xem có đúng như vậy không, hãy thử nhập tất cả các biến thể sau của trang chủ của website vào trình duyệt của bạn:

https://www.example.com
http://www.example.com
https://example.com
http://example.com

Tất cả bốn biến thể sẽ tự động chuyển hướng đến cùng một URL.

Để nhất quán, trang đó phải là trang chuẩn cho chính nó.

Nếu một trong những biến thể này không chuyển hướng đúng cách, đó có thể là dấu hiệu của các vấn đề tương tự trên website rộng lớn hơn.

Kiểm tra các URL khác, sử dụng biến thể đó, để xem liệu đó có phải là vấn đề phổ biến hơn không.

Bạn nên kiểm tra một vài trang khác trên website của mình và kiểm tra file .htaccess của website để đảm bảo rằng các chuyển hướng cho những trang này được thiết lập đúng cách.

Đây là cách buộc https trong .htaccess. Nếu bạn làm điều này, hãy xác minh rằng mọi trang trên website của bạn đều có khả năng SSL, nếu không người dùng của bạn sẽ nhận được cảnh báo trình duyệt đáng sợ.

Dấu gạch chéo

Một điều khác cần chú ý là việc sử dụng nhất quán các dấu gạch chéo sau.

Ví dụ: hai URL này có thể tạo ra cùng một nội dung, nhưng các URL không giống nhau:

https://example.com/page1/
https://example.com/page1

Kiểm tra một vài trang trên website của bạn cả có và không có dấu gạch chéo ở cuối và đảm bảo rằng chúng tự động chuyển hướng đến cùng một URL và chúng làm như vậy một cách nhất quán.

Xác minh rằng điều này được thiết lập đúng cách trong .htaccess.

Nhận danh sách URL từ Google Analytics

Theo định nghĩa, trình thu thập thông tin sẽ gặp khó khăn trong việc tìm kiếm các trang orphan page.

Vì vậy, sử dụng bất kỳ công cụ SEO nào để tìm một công cụ chắc chắn sẽ có vấn đề.

Một trong những nơi tốt nhất để bắt đầu tìm kiếm các trang orphan page là dữ liệu Google Analytics của riêng bạn (hoặc bất kỳ gói phân tích nào khác mà bạn sử dụng).

Miễn là các trang được đề cập đã cài đặt Google Analytics, nếu trang đó đã từng được truy cập, thì sẽ có bản ghi về trang đó ở đâu đó trong Google Analytics.

Để có được danh sách đầy đủ các URL, từ thanh bên trái, hãy chuyển đến Hành vi> Nội dung website> Tất cả các trang.

Bởi vì các trang orpan page của chúng ta rất khó tìm, số lần chúng được truy cập có khả năng khá thấp.

Nhấp vào “Số lần xem trang” để mũi tên hướng lên trên, cho biết rằng danh sách các URI được sắp xếp theo thứ tự tăng dần từ ít nhất đến hầu hết các lần xem trang.

Điều này sẽ chuyển các trang có nhiều khả năng là orphan page nhất lên đầu:

Để đảm bảo danh sách của chúng tôi toàn diện nhất có thể, hãy chuyển đến phạm vi ngày ở trên cùng bên phải.

Đặt ngày bắt đầu trở lại thời điểm trước khi có Google Analytics và nhấp vào nút Áp dụng:

Bây giờ chúng ta sẽ cần mở rộng danh sách URL của mình nhiều nhất có thể.

Ở dưới cùng bên phải, nhấp vào menu thả xuống Hiển thị hàng và chọn số lượng hàng cao nhất.

Trở ngại lớn nhất của chúng tôi là Analytics chỉ có thể liệt kê tối đa 5.000 URL cùng một lúc:

Nếu bạn có nhiều hơn mức này, bạn sẽ phải xuất 5.000 trang cùng một lúc cho đến khi bạn có tất cả dữ liệu khách truy cập Google Analytics của mình.

Tuy nhiên, chúng tôi đang sắp xếp số lần xem trang theo cách tăng dần, vì vậy, danh sách của chúng tôi hy vọng sẽ bao gồm tất cả và rất có thể sẽ bao gồm hầu hết các orphan URL đã có khách truy cập.

Có thể sẽ mất một chút thời gian để Analytics tìm nạp tất cả dữ liệu.

Hãy kiên nhẫn và đừng cố gắng gấp rút mọi thứ, nếu không bạn sẽ có nguy cơ làm hỏng trình duyệt của mình.

Sau khi các URL được tải, hãy đi lên phía trên cùng bên phải, chọn xuất và xuất Google Sheet, file Excel hoặc bảng tính CSV để lấy URL của bạn.

Nếu bạn kỹ thuật hơn một chút, bạn có thể sử dụng API Google Analytics để tăng tốc quá trình này; thử sử dụng chỉ số số lần xem trang so với thứ nguyên Đường dẫn trang.

Bây giờ sao chép các URL từ tệp phân tích đã xuất của bạn vào orphan sheet của bạn, như sau:

Chúng ta sẽ cần đưa chúng vào định dạng URL để chúng hữu ích.

Để thực hiện việc này, hãy chèn một cột mới và dán URL trang chủ xuống, như sau:

Và sử dụng công thức concat () để kết hợp chúng với nhau thành một URL trong cột tiếp theo:

Sau đó, chỉ cần kéo công thức xuống để có danh sách đầy đủ các URL:

Xác định orphan URL

Để xác định các orphan URL của chúng tôi, chúng tôi sẽ cần so sánh danh sách các URL có thể thu thập thông tin và danh sách các URL Analytics được tìm thấy trong bảng tính của chúng tôi.

Trong ví dụ giả định của chúng tôi, rõ ràng https://example.com/11 là một trang orphan page, nhưng trên thực tế, hầu như bạn luôn có nhiều URL hơn để sàng lọc và chúng tôi sẽ cần tự động hóa quá trình xác định URL orphan page của mình .

Để làm điều này, chúng ta cần một công thức kiểm tra xem mỗi URL trong danh sách Analytics của chúng ta có được tìm thấy trong danh sách URL có thể thu thập thông tin của chúng ta hay không.

Dưới đây là một ví dụ về công thức sẽ thực hiện điều này:

Công thức “đối sánh” mà chúng tôi đã sử dụng trong ô E2 ở đây là:

=match(D2,$A$2:$A$11,0)

Công thức này kiểm tra xem URL trong ô D2 có nằm trong phạm vi $ A $ 2: $ A $ 11 hay không.

(Nếu bạn không quá quen thuộc với bảng tính, các ký hiệu đô la ở đó để đảm bảo rằng khi chúng ta kéo công thức xuống cột, phạm vi sẽ không thay đổi.)

Giá trị “0” cho Google Trang tính biết rằng các cột không nhất thiết phải được sắp xếp.

Nếu có một kết quả phù hợp, công thức sẽ trả về vị trí của nó trong phạm vi, trong trường hợp này là vị trí đầu tiên trong phạm vi.

Tuy nhiên, điều chúng tôi quan tâm hơn là nếu không có kết quả phù hợp.

Như bạn có thể thấy, công thức trả về lỗi “# N / A” cho https://example.com/11, vì nó không được tìm thấy trong danh sách URL có thể thu thập thông tin của chúng tôi. Điều này có nghĩa là nó là một trang orphan page.

Sau đó, để có được danh sách các trang orphan page của chúng ta, tất cả những gì chúng ta cần làm là sắp xếp cột Đối sánh để thu thập tất cả các kết quả “# N / A” vào một nơi.

Sau đó, chúng ta có thể sao chép danh sách các orphan URL và dán chúng vào một trang tính mới, nơi chúng tôi có thể giải quyết cách sửa chúng.

Những nơi khác để tìm kiếm orphan URL

Bạn có thể lặp lại quy trình này để xác định orphan URL bằng cách sử dụng các nguồn dữ liệu khác ngoài Google Analytics.

Bất kỳ công cụ nào sau đây sẽ có danh sách các trang được thu thập thông tin từ website của bạn:

SEMrush và Ahrefs có các công cụ và thực tiễn cụ thể để giúp bạn khám phá các orphan.

Có thể trong một số trường hợp, các công cụ này sẽ tìm thấy các trang không thể thu thập thông tin trực tiếp vì chúng được tìm thấy bằng các phương tiện khác, thường là tại một số thời điểm trong lịch sử khi trang có thể thu thập thông tin:

Thảo luận với nhóm lập trình viên của công ty để xem liệu họ có thể lấy danh sách URL đầy đủ trên website trực tiếp từ máy chủ hay không, vì đây phải là danh sách đầy đủ nhất có sẵn ở bất kỳ đâu.

Bạn cũng có thể xem qua các file nhật ký của mình để tìm dữ liệu này.

File nhật ký chứa thông tin về:

  • Ai đã truy cập website của bạn.
  • Họ đến từ đâu.
  • Những trang họ đã truy cập.

Bạn có thể thực hiện lần thu thập dữ liệu thứ hai trên website của mình, bỏ qua các lệnh như “nofollow” và “noindex” và so sánh nó với lần thu thập thông tin ban đầu của bạn.

Có thể có những trang chỉ có thể truy cập được bởi trình thu thập thông tin bỏ qua các chỉ thị đó và những trang đó có thể là một nguồn orphan page khác.

Cuối cùng, bạn có thể nhận được danh sách các URL từ báo cáo Phân tích tìm kiếm của Google Search Console.

Mặc dù các trang này rõ ràng đã được lập chỉ mục nếu chúng hiển thị ở đây, bạn vẫn có thể tìm thấy các trang không thể thu thập dữ liệu từ các liên kết nội bộ của mình và cần được sửa.

Kết luận

Các công cụ tìm kiếm không thể lập chỉ mục các trang orphan page nếu chúng không hiển thị trong sitemap của bạn và chúng có thể tạo ra các vấn đề SEO khác ngay cả khi Google thu thập thông tin và lập chỉ mục.

Khi bạn đã thực hiện các bước này và tìm thấy các trang orphan page của mình, hãy lưu ý một số câu hỏi sau:

– Trang này có quan trọng không? Nếu có, hãy tìm nơi để tích hợp nó. Nếu không, hãy loại bỏ nó.

– Trang này có xếp hạng cho bất kỳ từ khóa nào không, mặc dù là một orphan page? Nếu có, hãy tìm nơi để tích hợp nó. Nếu không, hãy loại bỏ nó.

– Trang nên tồn tại ở đâu trong bảng phân loại website?

– Trang này trùng lặp hay gần trùng lặp? Cân nhắc gấp nội dung đó vào một trang tương tự không phải là trang dành cho orphan page.

– Trang này có được tối ưu hóa không? Nó có thể được tối ưu hóa và liên kết tốt hơn từ?

– Trang có được liên kết đến từ các nguồn bên ngoài không?

Sử dụng các phương pháp được nêu trên để tìm các trang orphan page và giải quyết vấn đề này.

Quý khách quan tâm đến dịch vụ của 2T Media vui lòng liên hệ:

Hotline/zalo: 0937 64 65 64

Email: 2tmedia.net@gmail.com

 

 

 

Đánh Giá Bài Viết

Leave a Reply

Your email address will not be published. Required fields are marked *