60-дневная Песочница для Google & AskJeeves; Самые быстрые Индексы MSN, Yahoo Затем
Поисковая машина, перечисляющая задержки, прибыла, чтобы быть названной Google, Sandboxeffect фактически верны практически в каждой из четырех вершин tiersearch двигатели в одной форме или другом. MSN, это кажется, имеет theshortest, вносящий задержку в указатель в 30 дней. Эта статья - thesecond в ряду после пауков через марку newweb участок, начинающийся 11 мая 2005, когда участок был firstmade, живым в тот день под недавно купленным доменным именем.
Ранее мы смотрели на первые 35 дней и детализировали thecrawling поведение Googlebot, Teoma, MSNbot и Хлебать asthey, пересекал страницы этого нового участка. Мы обнаружили, что theeach паук робота показывает отчетливо различное поведение incrawling частота и так же отличающиеся образцы индексации.
Для ссылки есть приблизительно 15 - 20 новых страниц, добавил tothe участок ежедневно, которые каждый связаны со дня форумов домашней страницы. Структура участка является нетрадиционной без categoriesand, связавшаяся структура, привязанная, чтобы создать страницы, перечисляющие theirarticles так же как "связанные статьи" индекс, изменила bylinking к соответствующим страницам, содержащим подобное содержание.
Так давайте рассматривать, где мы с каждым пауком, ползающим andlook в сползавших страницах и сравнивать страницы, внесенные в указатель двигателем.
Паук AskJeeves, Teoma сползал большинство страниц onthe участок, все же индексы никакие страницы 60 дней спустя при этом письме. Это - ясно участок, старящий задержку, это смоделировано на поведении Google'sSandbox. Хотя паук Teoma от Спрашивает. com hascrawled больше страниц на этом участке чем любой другой двигатель за a60 период дня и, кажется, устал от ползания, поскольку they'venot возвратился с 13 июля - их первый перерыв в 60 днях.
За первые два дня Googlebot проглотил 250 страниц и не возвращался до 60 дней спустя, но не внес evena единственную страницу в указатель через 60 дней, так как они сделали то начальное ползание. Но Googlebot проявляет возобновленный интерес к ползанию участка, так как эта ползающая статья социологического исследования была опубликована на нескольких высоких транспортных участках. Теперь Googlebot смотрит на afew страницы каждый день. Пока не больше, чем приблизительно 20 страниц в решительно тусклом темпе, истинное "Ползание", которое будет держать занятое в течение многих лет если продолжено это медленно.
MSNbot сползал робко в течение первых 45 дней, смотря over30 к 50 страницам ежедневно, но только когда они нашли роботы. txtfile, который мы забыли отправлять к участку в течение недели andthen, потерял шар, поскольку мы изменили структуру участка, thenfailed, чтобы осуществить роботы. txt в новых подобластях до дня 25 - и ЗАТЕМ MSNbot не возвращался до дня 30. Если littleelse были обнаружены о начальном ползании и индексации, wehave замеченный, что MSNbot полагается тяжело на это роботы. txt fileand надлежащее выполнение того файла ускорит ползание.
Хлебайте становится странно бездействующим тогда поочередно гиперактивный для промежутков времени. Ползущий Yahoo будет смотреть на 40 pagesone дней и затем 4000 следующее, тогда просто смотреть на начальную страницу в течение нескольких дней и затем подскакивать, въезжают задним ходом для 3000 страниц thenext день и назад к только рассмотрению роботов. txt в течение двух дней. Последовательность не проклятие, перенесенное, Хлебают. Yahoo теперь shows6 страницы в их индексе, один ошибочная страница и другой - страница "индекса/из", поскольку мы не отправили домашнюю страницу к severalsubdomains. Но Хлебайте, сползал легко 15 000 страниц до настоящего времени.
Уроки, изученные за первые 60 дней на новом участке, следуют:
1) Google ползает 250 страниц на первом открытии связей к участку. Тогда они не возвращаются, пока они не находят больше связей и crawlslowly. Google был не в состоянии внести новую область в указатель в течение 60 дней.
2) Yahoo ищет ошибочные страницы и как только они находят плохо linkswill, ползают их непрерывно, пока Вы не говорите им останавливать его. Тогда не будет ползать вообще в течение многих недель до ползания heavilyone день и слегка следующее случайным способом.
3) MSNbot требует роботов. файлы txt и как только они решают theylike Ваш участок, могут сползать слишком быстро, требуя инструкций "задержки ползания" в этом роботы. файл txt. Орудие немедленно.
4) Плохие личинки могут напрячь ресурсы и поразить слишком много страниц tooquickly, пока Вы не говорите им отсутствовать. Мы запретили 3 botsoutright после того, как они хлопнули нашими серверами в течение дня или два. Отмеченный "aipbot" сползал сначала тогда, "BecomeBot" прибыл alongand тогда, "Pbot" от Picsearch. com сползал тяжело lookingfor файлы изображения, которые мы не имеем. Плохие личинки, отсутствовать. Лучше всего роботы toimplement. исключения txt для почти главные двигатели iftheir ползущие напрягают Ваши ресурсы сервера. Мы consideredexcluding китайская поисковая машина по имени Baidu. com whenthey начали ползать тяжело вначале. Мы не ожидаем muchtraffic из Китая, но почему исключают один миллиард человек? Тем более, что Google известен по слухам, чтобы рассмотреть покупку apossible Baidu. com как вход в китайский рынок.
Практический результат - то, что мы обнаружили, что все двигатели кажутся индексацией todelay новых доменных имен в течение по крайней мере тридцати дней. Google пока задерживал индексацию ЭТОЙ новой области в течение 60 дней начиная с первого ползания этого. AskJeeves сползал thousandsof страницы, не внося ни одного в указатель из них. Индексы MSN быстрее thanall двигатели, но требуют роботов. файл txt. Yahoo Хлебает crawlson снова прочь снова в течение 60 дней, но индексов, только шесть из total15,000 или большего количества страниц сползали до настоящего времени.
Мы, кажется, уладили это есть ясная задержка индексации, но является ли этот участок определенно "Sandboxed", и whetherdelays применяются, универсально менее ясно. Много webmasters claimthat они были внесены в указатель полностью в течение 30 дней после первой регистрации новой области. Мы хотели бы видеть, что другие отслеживают spidersthrough новые участки после запуска, чтобы зарегистрировать их resultspublicly так, чтобы, внося в указатель и ползая поведение было доказано.
© Авторское право 18 июля 2005 Банки Майка Валентин