noindex là một chỉ thị yêu cầu công cụ tìm kiếm "không lập chỉ mục trang này", thường xuất hiện trong mã của trang web dưới dạng thẻ meta hoặc tiêu đề phản hồi HTTP. Khi trình thu thập dữ liệu của các công cụ tìm kiếm như Google, Bing truy cập một trang có gắn thẻ noindex, chúng sẽ đọc chỉ thị này và chọn không đưa trang đó vào chỉ mục kết quả tìm kiếm, ngay cả khi trình thu thập đã lấy được nội dung trang.
Chỉ thị này tưởng chừng đơn giản, nhưng cách áp dụng lại rất tinh tế. Nhiều quản trị viên trang web lầm tưởng "càng được lập chỉ mục nhiều càng tốt", nhưng thực tế có vô số trang không nên xuất hiện trong kết quả tìm kiếm: trang đăng nhập, trang giỏ hàng, trang kết quả lọc, trang thử nghiệm, trang chính sách bảo mật, v.v. Những trang này có chức năng thực tế đối với người dùng, nhưng nếu bị công cụ tìm kiếm lập chỉ mục, có thể làm loãng trọng lượng tổng thể của trang web bởi các trang chất lượng thấp, thậm chí gây ra vấn đề nội dung trùng lặp. noindex tồn tại để tránh những nội dung này lọt vào kho chỉ mục của công cụ tìm kiếm, đồng thời vẫn duy trì khả năng truy cập của trang.
Các công cụ tìm kiếm xử lý một lượng lớn trang web mỗi ngày và chúng quyết định có nên lập chỉ mục hay xếp hạng dựa trên các yếu tố như chất lượng trang, trải nghiệm người dùng, tính độc đáo của nội dung, v.v. Không phải tất cả các trang đều đáng để lập chỉ mục, việc lập chỉ mục không phù hợp thậm chí có thể mang lại tác động tiêu cực.
Ví dụ, một trang web thương mại điện tử có thể có hàng nghìn trang kết hợp lọc theo giá, màu sắc, thương hiệu, các trang này có nội dung rất giống nhau, tiêu đề và mô tả cũng tương tự nhau. Nếu tất cả đều được lập chỉ mục, công cụ tìm kiếm có thể cho rằng trang web có quá nhiều nội dung trùng lặp, làm giảm mức độ tin cậy tổng thể. Lúc này, việc sử dụng noindex cho các trang lọc này có thể tránh sự phình to của chỉ mục, tập trung sự chú ý của công cụ tìm kiếm vào các trang chi tiết sản phẩm và trang danh mục thực sự có giá trị.
Ngoài ra, nhiều trang chức năng như trang cảm ơn, trang xác nhận, trang kết quả tìm kiếm nội bộ, người dùng sau khi truy cập khó có thể quay lại thông qua công cụ tìm kiếm, việc lập chỉ mục chúng hoàn toàn vô nghĩa, thậm chí có thể bị đánh giá là trang chất lượng thấp do thiếu nội dung thực chất.
Cách phổ biến nhất là thêm thẻ meta vào phần <head> của HTML trang:
<meta name="robots" content="noindex">
Chỉ thị này có hiệu lực với tất cả các công cụ tìm kiếm. Nếu chỉ muốn nhắm mục tiêu đến một công cụ tìm kiếm cụ thể, bạn có thể sử dụng:
<meta name="googlebot" content="noindex">
Ngoài thẻ meta, tiêu đề phản hồi HTTP cũng có thể đạt được hiệu quả tương tự, phù hợp với các tệp không phải HTML (như PDF, hình ảnh):
X-Robots-Tag: noindex
Bạn cũng có thể đặt quy tắc Disallow trong tệp robots.txt, nhưng điều này khác biệt về bản chất so với noindex: robots.txt ngăn trình thu thập dữ liệu truy cập, trong khi noindex cho phép truy cập nhưng không lập chỉ mục. Nếu bạn đồng thời sử dụng robots.txt để cấm truy cập và thẻ noindex, trình thu thập dữ liệu có thể hoàn toàn không nhìn thấy chỉ thị noindex, dẫn đến việc trang vẫn bị lập chỉ mục.
Nhiều người dễ nhầm lẫn giữa noindex và nofollow, chúng thường xuất hiện cùng nhau nhưng có chức năng hoàn toàn khác nhau.
noindex kiểm soát liệu chính trang đó có được lập chỉ mục hay không, không ảnh hưởng đến việc trình thu thập dữ liệu có truy cập các liên kết trong trang hay không. Ngay cả khi một trang được gắn thẻ noindex, trình thu thập dữ liệu vẫn sẽ theo dõi các liên kết trong trang và truy cập các trang khác.
nofollow kiểm soát liệu các liên kết trong trang có được theo dõi hay không, có thể áp dụng cho toàn bộ trang (thẻ meta) hoặc từng liên kết riêng lẻ (thuộc tính liên kết). Nó yêu cầu công cụ tìm kiếm "không theo dõi các liên kết này và không chuyển quyền".
Trong thực tế, <meta name="robots" content="noindex, nofollow"> có nghĩa là cả trang đó sẽ không được lập chỉ mục và bất kỳ liên kết nào trong trang cũng sẽ không được theo dõi, thường được sử dụng cho các trang hoàn toàn vô giá trị hoặc các trang thử nghiệm tạm thời.
Khi người dùng lọc sản phẩm bằng nhiều điều kiện, hệ thống sẽ tạo ra vô số các tổ hợp URL, những trang này có mức độ tương đồng nội dung cực cao, việc lập chỉ mục chúng dễ bị công cụ tìm kiếm coi là nội dung trùng lặp. Sử dụng noindex cho các trang này có thể giữ cho chỉ mục của trang web tinh gọn và chất lượng.
Các trang thông tin cá nhân sau khi đăng nhập, trang lịch sử đơn hàng, trang giỏ hàng, v.v., những trang này có giá trị đối với người dùng nhưng không nên xuất hiện trong kết quả tìm kiếm công khai. Sử dụng noindex có thể bảo vệ quyền riêng tư của người dùng và tránh việc lập chỉ mục vô nghĩa.
Chức năng tìm kiếm nội bộ của trang web tạo ra các URL động, mỗi lần tìm kiếm có thể tạo ra các kết quả khác nhau. Những trang này có chất lượng không đồng đều, việc lập chỉ mục chúng có thể làm loãng trọng lượng tổng thể của trang web.
Các trang thử nghiệm, trang nháp, trang sự kiện tạm thời trước khi ra mắt chính thức nên sử dụng noindex trước khi công bố chính thức, tránh bị lập chỉ mục sớm. Sau khi nội dung hoàn thiện mới gỡ bỏ thẻ.
Một số trang thẻ tự động tạo, trang lưu trữ, trang danh sách có độ sâu phân trang lớn, v.v., có giá trị nội dung thấp, việc lập chỉ mục chúng có thể làm giảm điểm tổng thể của trang web.
Mặc dù noindex là một công cụ hiệu quả để kiểm soát lập chỉ mục, nhưng việc sử dụng không đúng cách có thể mang lại tác dụng ngược.
Gắn thẻ nhầm các trang quan trọng là vấn đề phổ biến nhất. Nếu bạn vô tình sử dụng noindex trên các trang sản phẩm cốt lõi, trang danh mục chính hoặc các trang nội dung chất lượng cao, các trang này sẽ biến mất khỏi kết quả tìm kiếm, dẫn đến lưu lượng truy cập giảm trực tiếp. Do đó, trước khi sửa đổi thẻ noindex, hãy đảm bảo xác nhận tầm quan trọng của trang, thường xuyên kiểm tra nhật ký trang web và báo cáo phạm vi phủ sóng của Google Search Console.
noindex không có hiệu lực tức thì. Các công cụ tìm kiếm cần thu thập lại trang để nhận diện được thẻ mới và sau khi gỡ bỏ noindex, trang cũng sẽ không xuất hiện lại ngay lập tức trong kết quả tìm kiếm. Nếu trang đã bị lập chỉ mục, việc thêm noindex có thể mất vài tuần để loại bỏ hoàn toàn khỏi chỉ mục.
Xung đột giữa robots.txt và noindex cũng cần cảnh giác. Nếu bạn sử dụng robots.txt để cấm một trang, trình thu thập dữ liệu sẽ không thể truy cập trang đó, do đó cũng không nhìn thấy thẻ noindex trong trang, kết quả là trang vẫn có thể bị lập chỉ mục nhưng chỉ hiển thị URL mà không có mô tả. Cách làm đúng là cho phép trình thu thập truy cập và chỉ thêm noindex vào trang.
Hầu hết các trang web đều có các tình huống cần áp dụng noindex, nhưng trang web thương mại điện tử, nền tảng tổng hợp nội dung, trang web thành viên đặc biệt cần chú trọng.
Trang web thương mại điện tử vì có số lượng sản phẩm lớn, điều kiện lọc phức tạp, dễ tạo ra vô số trang trùng lặp hoặc chất lượng thấp; hệ thống thẻ của nền tảng nội dung, phân loại và lưu trữ có thể tạo ra hàng nghìn trang danh sách, nếu không kiểm soát sẽ làm loãng trọng lượng; các trang tài khoản của trang web thành viên, trang xem trước nội dung trả phí liên quan đến quyền riêng tư và chiến lược kinh doanh, phải tránh bị công khai lập chỉ mục.
Đối với chuyên gia SEO, nhà phát triển trang web, nhân viên vận hành nội dung, hiểu logic hoạt động và các trường hợp ứng dụng của noindex là kỹ năng cơ bản để cải thiện hiệu suất tìm kiếm của trang web. Sử dụng chỉ thị này một cách hợp lý có thể giúp các công cụ tìm kiếm hiểu cấu trúc trang web hiệu quả hơn, tập trung ngân sách thu thập dữ liệu vào nội dung thực sự có giá trị, từ đó nâng cao thứ hạng tổng thể và chất lượng lưu lượng truy cập.