Google: 15 МБ содержимого HTML-файла – это много
В начале этой недели Google обновил документацию, касающуюся работы Googlebot, добавив в нее сведения об ограничениях по размеру сканируемого файла.
Может показаться странным, но узнав о том, что робот сканирует лишь первые 15 МБ содержимого html-файла или поддерживаемого текстового файла, многие западные вебмастера запаниковали. Многие от чего-то решили, что 15 МБ необработанного HTML на страницу недостаточно, и начали писать в поддержку Google, требуя прокомментировать такие ограничения.
В Google пояснили, что 15 МБ HTML-файла – это огромное количество. Это не включает в себя загрузку видео, изображений и т. д., это просто исходный код HTML. Это достаточно высокий порог, более того, он был таким уже много лет, просто сейчас сведения об этом были добавлены в документацию.
«Мы добавили его в нашу документацию, потому что это может быть полезно некоторым людям при отладке, и потому, что он редко меняется», – сообщается в блоге Google Search Central.
Для большинства вебмастеров это ничего не значит, так как в интернете очень мало страниц, которые были бы больше указанного размера. Средний размер HTML-файла примерно в 500 раз меньше: 30 килобайт (кБ).
Ранее Google объяснил, как проходит сканирование страниц с бесконечной прокруткой, а о том, что значит статус «Страница просканирована, но пока не проиндексирована», можно узнать из этой статьи.