Google bot là gì ?
Googlebot truy cập hàng tỷ trang web và liên tục truy cập vào khắp nơi trên trang web
Web crawler là gì ?
Web crawler (còn được gọi là bot, robot hoặc spiders) là một loại phần mềm được thiết kế chuyên để đi theo link, thu thập thông tin và sau đó gửi thông tin thu thập được đến một nơi nào đó.
Google bot làm gì ?
Googlebot và trang web của mọi người
Thông tin mà Googlebot gửi trở lại các máy tính của Google cập nhật Google index
Google index là nơi mà các trang web được so sánh và xếp hạng.
Để cho trang web của mọi người được tìm thấy trong Google, họ phải được hiển thị cho Googlebot.
Để cho trang web của mọi người để xếp hạng tối ưu, tất cả trang web tài nguyên phải được truy cập bằng Googlebot.
Sự khác biệt giữa Googlebot và Google index
GoogleBot
Google index
=> Bước đầu tiên để được xếp hạng ở Google là được Google bot lấy nội dung !
Đảm bảo Googlebot có thể xem trang của mọi người
Google cập nhật index , đó là điều cần thiết mà Googlebot có thể nhìn thấy trang của mọi người.
Đều mà SEOer hay webmaster nên lưu ý là :
1. Googlebot có "nhìn thấy" trang web của tôi ?
Nếu mọi người không biết Google bot có thấy trang web của mọi người hay không cứ thử ra Google và tìm theo cú pháp
site:yourwebsite.com
Lưu ý :
- Mọi người thay cái yourwebsite bằng trang web của mọi người ạ, nhớ lúc dán ra thanh search là ko có http:// đâu ạ
- Hãy chắc chắn rằng không có dấu cách giữa "site:" và tên miền của mọi người
Ví dụ :
site:seoiclick.com
Nếu mọi người nhìn thấy index ít hơn mọi người mong đợi, mọi người sẽ phải chắc chắn rằng website của mọi người không chặn Googlebot qua robots.txt hoặc chặn nó bằng meta robots
2. Googlebot có truy cập tất cả các nội dung và liên kết của tôi ?
Bước tiếp theo để đảm bảo Google nhìn thấy nội dung và liên kết của mọi người một cách chính xác.
Chỉ vì Googlebot có thể xem trang của mọi người không có nghĩa rằng Google có một hình ảnh hoàn hảo của chính xác là những gì các trang đó.
Google bot không nhìn thấy một trang web cùng một cách như con người làm. Trong hình ảnh ở trên là một trang web với một hình ảnh trên nó. Con người có thể xem hình ảnh, nhưng những gì Googlebot thấy là code gọi hình ảnh đó.
Googlebot có thể truy cập vào trang web đó (các tập tin html), nhưng không thể truy cập vào hình ảnh tìm thấy trên trang web đó vì nhiều lý do.
Trong kịch bản mà Google lập chỉ mục sẽ không bao gồm hình ảnh đó, có nghĩa là Google có một sự hiểu biết không đầy đủ trang web của mọi người .
Làm thế nào Goolebot "nhìn thấy" trang web
Googlebot không nhìn thấy toàn bộ trang web, nó chỉ thấy các phần riêng lẻ của trang đó.
Nếu trang bất kỳ của những phần riêng lẻ Googlebot không thể truy cập, nó sẽ không lập chỉ mục
Như ví dụ trước đó chúng ta nhắc tới việc Google không thể đọc được hình ảnh, Google chỉ đọc được các html hoặc css, chính vì thế nó không lập chỉ mục hình ảnh.
Nó không phải là chỉ cần hình ảnh. Có rất nhiều mảnh để một trang web. Đối với Google để có thể để xếp hạng trang web của mọi người tối ưu, Google nhu cầu bức tranh hoàn chỉnh.
Có rất nhiều tình huống mà Googlebot có thể không có thể truy cập web nội dung, dưới đây là một vài những cái phổ biến.
Hầu hết những điều này có thể được kiểm tra một cách nhanh chóng bằng cách sử dụng công cụ hướng dẫn của Google.
Nếu mọi người có một tài khoản Google sử dụng công cụ "fetch và render" có trong giao diện Google search console, mọi người có thể kiểm tra nhanh chóng
3. Googlebot truy cập tất cả tài nguyên trang của tôi ?
Nếu tập tin CSS và javascript đang bị chặn bởi tập tin robots.txt của mọi người sau đó nó có thể gây ra một số hiểu lầm trầm trọng về nội dung trang web của mọi người (nhiều tồi tệ hơn chỉ là một hình ảnh mất tích).
Một trang web có thể thực sự là khác nhau, hoặc có nội dung khác nhau nếu các nguồn tài nguyên trang không được nạp.
Một ví dụ để minh họa điều này sẽ là một trang điện thoại di động sử dụng CSS hoặc javascript để xác định những gì để hiển thị tùy thuộc vào những gì điện thoại nhìn vào trang. Nếu Googlebot có thể không truy cập vào các CSS hoặc Javascript của trang đó, nó có thể không nhận ra trang có thể được điện thoại di động.
Trong trường hợp này và những người khác như nó, Google sẽ "thấy" trang web của mọi người , và thậm chí có thể hiểu nó, nhưng nó có thể không biết nó đủ để nhận ra rằng nó có thể được xếp hạng trong nhiều trường hợp khác hơn những gì HTML một mình trình bày.
Điều này cũng có thể được kiểm tra để sử dụng công cụ hướng dẫn của Google.
Tôi có thể kiểm soát Googlebot?
Googlebot theo các hướng dẫn nó nhận được thông qua các tiêu chuẩn robots.txt và thậm chí đã nâng cao cách để kiểm soát nó là Google cụ thể.
Một số cách mọi người có thể kiểm soát Googlebot là...
Phổ biến nhất cách bởi đến nay sử dụng các tập tin robots.txt
Một tập tin robots.txt là gì?
Các tập tin robots.txt kiểm soát như thế nào công cụ tìm kiếm nhện như Googlebot xem và tương tác với trang web của mọi người.
Trong ngắn hạn, một file robots.txt cho Googlebot những việc cần làm khi nó truy cập vào trang của mọi người theo danh sách tập tin và thư mục mà mọi người không muốn Googlebot truy cập.
Tìm hiểu thêm về nó trong hướng dẫn của tôi để các tập tin robots.txt.
Để xem tập tin robots.txt của mọi người,mọi người có thể nhập một url (ví dụ trang chủ của mọi người) trong công cụ dưới đây và nó sẽ cho mọi người thấy nó ngay ở đây trên Trang này.
Đây là một vài nguồn lực từ Google mà nói về robot hướng dẫn:
Site map và Googlebot
Sơ đồ trang web là một cách mà mọi người có thể giúp Googlebot hiểu trang web của mọi người, hoặc là Google nói...
"Một sơ đồ trang web là một tập tin mà mọi người có thể liệt kê các trang web của trang web của mọi người để cho Google và các công cụ tìm kiếm về tổ chức của nội dung trang web của mọi người. Tìm kiếm web trình thu thập như Googlebot đọc tập tin này một cách thông minh hơn thu thập dữ liệu trang web của mọi người."
Google nói rằng sơ đồ trang web tốt nhất sử dụng trong các tình huống nhất định, đặc biệt...
Sơ đồ trang web đang được sử dụng cho nhiều điều bây giờ, nhưng như xa như Googlebot đi, sơ đồ trang web về cơ bản tạo ra một danh sách các URL và dữ liệu khác mà Googlebot có thể sử dụng làm hướng dẫn khi truy cập vào trang web của mọi người.
Google giải thích làm thế nào để xây dựng sơ đồ trang web ở đây https://support.google.com/webmasters/answer/183668?ref_topic=4581190
Googlebot và Google search console
Một nơi mọi người có thể kiểm soát Googlebot là Google search console
Nếu Googlebot truy cập vào máy chủ web của mọi người quá nhanh, mọi người có thể thay đổi tỷ lệ thu thập dữ liệu.
Mọi người có thể cũng xem tổng quan về làm thế nào Googlebot truy cập vào trang web của mọi người, kiểm tra robots.txt của mọi người, hãy xem Googlebot thu thập dữ liệu lỗi, và thực hiện "lấy và đưa ra" yêu cầu đó sẽ giúp mọi người hiểu cách Google nhìn thấy trang web của mọi người.
Có chín loại khác nhau của Google webcrawlers
Nếu mọi người muốn chi tiết về mỗi loại mọi người hãy xem ở đây ạ https://support.google.com/webmasters/answer/1061943
Googlebot và ngôn ngữ / địa điểm
Nếu trang của mọi người hiển thị các ngôn ngữ khác nhau hoặc các nội dung này tùy thuộc vào vị trí người truy cập hoặc ngôn ngữ người truy cập lựa chọn, Googlebot có thể không luôn luôn nhìn thấy tất cả các nội dung của mọi người (vì vậy mà Google khuyên mọi người nên sử dụng hreflang).
Khi sếp của mọi người trước đó yêu cầu với mọi người rằng : " tôi muốn người dùng tại Việt Nam truy cập vào website sẽ thấy tiếng việt ngay lập tức, tuy nhiên nếu họ là người Nga cũng phải ngay lập tức nhìn thấy tiếng nga xuất hiện và tất nhiên ở Mỹ thì tiếng anh phải trước mặt người dùng ".
Tuy nhiên mọi người hẳn rất băn khoăn : " Vậy, Googlebot có trụ sở tại Mỹ, thì làm thế nào mà làm việc với tất cả các ngôn ngữ kia, làm thế nào Googlebot ở Mỹ lại đọc được tiếng Nga "
Googlebot sử dụng hai kỹ thuật chính (mà Google nói với chúng tôi) để tạo ra thu thập dữ liệu miền địa phương, nhận thức...
Vì vậy nói cách khác, Googlebot sử dụng các phương pháp thu thập dữ liệu các trang web như là một người sử dụng từ bất cứ nơi nào.
Lý do Google bot không index
Dưới đây em sẽ gợi ý thêm một vài lý do mà Google bot không nhận website của mọi người, mà trước đó một số anh em hay hỏi em :
Nói chung bài về Google bot này nó khá trừu tượng có thể nó sẽ khiến anh em khó hiểu, tuy nhiên nếu có câu hỏi nào anh em cứ comment ở cái box dưới, em sẽ giải đáp hết ạ.
Nguồn: Tienanhplus.com
Tác giả: quanly | Đăng lúc: 07/02/17 08:49 | Lần sửa cuối: 07/02/17 08:49 | Số lượt xem: 4,811