/* GoogleAds */

Главная

ПРОЕКТ "ЧЕЛОВЕК. ЗЕМЛЯ. ВСЕЛЕННАЯ"

Инструменты пользователя

Инструменты сайта


project:comp:metody_i_sposoby_snizhenija_nagruzki_sajta_na_server

Методы и способы снижения нагрузки сайта на сервер

Рано или поздно любой владелец сайта (сервера) сталкивается с ситуацией, когда хостер предупреждает его о том, что сайт создаёт нагрузку на сервер. Иногда эти предупреждения носят разовый характер. Но если нагрузка сайта на сервер продолжает расти, хостер может настоятельно так предложить владельцу сайта перейти на более дорогой тариф. Или в случае отказа - перенести сайт на более медленный сервер.

Уменьшая нагрузку на сервер, создаваемую сайтом - фактически, вы уменьшаете свои затраты на хостинг.

Что такое нагрузка на сервер?

Нагрузка на сервер - это:

  • высокий расход оперативной памяти сервером;
  • нагрузка на процессор (процессорное время);
  • нагрузка на интернет канал.

Кто создает нагрузку? На обычном сайте посетители (люди) создают процентов 5-10 нагрузки, остальные ресурсы «съедают» поисковые роботы и прочие боты. Если сайт достаточно молодой и страниц на нём мало, то, скорее всего, вы не будете получать предупреждений о нагрузке на сервер. Если сайт уже в возрасте, и тем более имеет много страниц (сотни и даже тысячи), то посещения различных поисковых роботов и ботов будут происходить намного чаще и нагрузка на сервер будет приличной.

Главный сайт и зеркало сайта

Обычно сайт доступен по двум адресам - с www и без. Например, данный сайт доступен по двум адресам:

Но если вы нажмёте на первую ссылку, вы всё равно перейдёте на сайт http://www.verim.org.

Большинство поисковых роботов (ботов) (кроме самых умных - Яндекса и Гугла) считают, что это два разных сайта, а значит и скачивают ваш сайт два раза. Необходимо решить, какой URL сайта сделать главным, а с какого делать 301 редирект на главный URL.

Пример: Перейдите по ссылке вида: http://webmaster.yandex.ru/check.xml?hostname=verim.org (вместо verim.org укажите ваш сайт).

Сайт verim.org является зеркалом www.verim.org.

Теперь делаем 301 редирект с verim.org на www.verim.org. Для этого необходимо в корневом каталоге вашего сайта в файл .htaccess добавить такие строки:

RewriteEngine on
RewriteCond %{HTTP_HOST} ^verim.org$ [NC]
RewriteRule ^(.*)$ http://www.verim.org/$1 [R=301,L]

Если необходимо, чтобы главным доменом был сайт без www, то в .htaccess добавьте следующие строки:

RewriteEngine on
RewriteCond %{HTTP_HOST} ^www.verim.org$ [NC]
RewriteRule ^(.*)$ http://verim.org/$1 [R=301,L]

Такая принудительная склейка сайтов заметно снизит посещаемость сайта поисковыми роботами (ботами), так как они не будут по два раза выкачивать один и тот же сайт. В среднем это снизит нагрузку на сервер до 20%.

Файл robots.txt

Индексация разделов сайта регулируется с помощью файла robots.txt, который должен быть расположен в корневом каталоге (папке) сайта, как и файл .htaccess

Укажите главный сайт в robots.txt:1)

Host: www.verim.org

Через robots.txt можно разрешить или запретить работу отдельных поисковых роботов (ботов).

Например, запретить весь сайт для индексации всеми поисковыми роботами (ботами):

User-agent: *
Disallow: / 

Разрешить всем поисковым роботам (ботам) индексировать весь сайт:

User-agent: *
Disallow: 

Или можете просто создать пустой файл «robots.txt».

Запретить индексацию сайта только для одного поискового робота (бота):

User-agent: BadBot
Disallow: / 

Разрешить индексацию сайта одному поисковому роботу (боту) и запретить всем остальным:

  User-agent: Yandex
  Disallow: 
  User-agent: *
  Disallow: / 

Некоторые каталоги (папки) сайта не нужно вообще индексировать. Например это могут быть каталоги с бинарными файлами, архивами, картинками, фото и т.д., каталоги со списками пользователей, wap, pda и print версии сайта и т.п. Укажите файле robots.txt все каталоги (папки), которые не нужно индексировать поисковым роботам (ботам):

 User-agent: *
 Disallow: /cgi-bin/
 Disallow: /tmp/
 Disallow: /private/ 

Можно также запретить индексацию конкретных страниц:

User-agent: *
Disallow: /private.html
Disallow: /users.html
Disallow: /wap.html 

Ограничение доступа роботов (ботов) к сайту по их именам

Практически каждый поисковый робот (бот) имеет собственное имя, которое он «оставляет» в логах сайта. Зная эти имена, можно вообще запретить доступ этих поисковых роботов (ботов) к вашему сайту.

В .htaccess прописываем следующие строки:

## Блокировка по USER AGENT:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^[Ww]eb[Bb]andit [OR]
RewriteCond %{HTTP_USER_AGENT} ^1-More\ Scanner [OR]
RewriteCond %{HTTP_USER_AGENT} ^192.comAgent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Accelerator [OR]
RewriteCond %{HTTP_USER_AGENT} ^Accoona [OR]
RewriteCond %{HTTP_USER_AGENT} ^Alexibot [OR]
RewriteCond %{HTTP_USER_AGENT} ^almaden.ibm.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ants [OR]
RewriteCond %{HTTP_USER_AGENT} ^Aport [OR]
RewriteCond %{HTTP_USER_AGENT} ^AppleWebKit [OR]
RewriteCond %{HTTP_USER_AGENT} ^archive.org [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ask\ Jeeves [OR]
RewriteCond %{HTTP_USER_AGENT} ^asterias [OR]
RewriteCond %{HTTP_USER_AGENT} ^attach [OR]
RewriteCond %{HTTP_USER_AGENT} ^BabalooSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^BackDoorBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^BackWeb [OR]
RewriteCond %{HTTP_USER_AGENT} ^Badex-Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bandit [OR]
RewriteCond %{HTTP_USER_AGENT} ^BecomeBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^BilgiBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^BilgiFeedBot/experimental [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bingbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Birubot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Black.Hole [OR]
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^BlowFish [OR]
RewriteCond %{HTTP_USER_AGENT} ^BotALot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Brontok.A\ Browser [OR]
RewriteCond %{HTTP_USER_AGENT} ^Buddy [OR]
RewriteCond %{HTTP_USER_AGENT} ^BuiltBotTough [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bullseye [OR]
RewriteCond %{HTTP_USER_AGENT} ^BunnySlippers [OR]
RewriteCond %{HTTP_USER_AGENT} ^Butterfly [OR]
RewriteCond %{HTTP_USER_AGENT} ^CamontSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^CazoodleBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Cegbfeieh [OR]
RewriteCond %{HTTP_USER_AGENT} ^CFNetwork [OR]
RewriteCond %{HTTP_USER_AGENT} ^CheeseBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^ConveraCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Copier [OR]
RewriteCond %{HTTP_USER_AGENT} ^CopyRightCheck [OR]
RewriteCond %{HTTP_USER_AGENT} ^cosmos [OR]
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
RewriteCond %{HTTP_USER_AGENT} ^Dead\ Link\ Checker [OR]
RewriteCond %{HTTP_USER_AGENT} ^DepSpid [OR]
RewriteCond %{HTTP_USER_AGENT} ^DIIbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DittoSpyder [OR]
RewriteCond %{HTTP_USER_AGENT} ^Dolphin [OR]
RewriteCond %{HTTP_USER_AGENT} ^DotBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^dotnetdotcom [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Master [OR]
RewriteCond %{HTTP_USER_AGENT} ^Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Drip [OR]
RewriteCond %{HTTP_USER_AGENT} ^e-SocietyRobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailCollector [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ^EroCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Exabot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ezooms [OR]
RewriteCond %{HTTP_USER_AGENT} ^FairShare [OR]
RewriteCond %{HTTP_USER_AGENT} ^FAST\ MetaWeb\ Crawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Feedfetcher-Google [OR]
RewriteCond %{HTTP_USER_AGENT} ^FileHound [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Flexum\ spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Foobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^FrontPage [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^Gets [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR]
RewriteCond %{HTTP_USER_AGENT} ^Gigabot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^gotit [OR]
RewriteCond %{HTTP_USER_AGENT} ^GoZilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^Gulliver [OR]
RewriteCond %{HTTP_USER_AGENT} ^Harvest [OR]
RewriteCond %{HTTP_USER_AGENT} ^help.naver.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^hloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} ^holmes [OR]
RewriteCond %{HTTP_USER_AGENT} ^HP\ Web\ PrintSmart [OR]
RewriteCond %{HTTP_USER_AGENT} ^HTMLParser [OR]
RewriteCond %{HTTP_USER_AGENT} ^httplib [OR]
RewriteCond %{HTTP_USER_AGENT} ^HTTrack [OR]
RewriteCond %{HTTP_USER_AGENT} ^humanlinks [OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver [OR]
RewriteCond %{HTTP_USER_AGENT} ^IBrowse [OR]
RewriteCond %{HTTP_USER_AGENT} ^ichiro [OR]
RewriteCond %{HTTP_USER_AGENT} ^IDBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Indy\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} ^InetURL [OR]
RewriteCond %{HTTP_USER_AGENT} ^InfoNaviRobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^InternetSeer [OR]
RewriteCond %{HTTP_USER_AGENT} ^Iria [OR]
RewriteCond %{HTTP_USER_AGENT} ^IRLbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Java [OR]
RewriteCond %{HTTP_USER_AGENT} ^JennyBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC [OR]
RewriteCond %{HTTP_USER_AGENT} ^JS-Kit [OR]
RewriteCond %{HTTP_USER_AGENT} ^JustView [OR]
RewriteCond %{HTTP_USER_AGENT} ^Kenjin.Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Keyword.Density [OR]
RewriteCond %{HTTP_USER_AGENT} ^kmSearchBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Konqueror [OR]
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]
RewriteCond %{HTTP_USER_AGENT} ^leech [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^LexiBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^lftp [OR]
RewriteCond %{HTTP_USER_AGENT} ^libWeb/clsHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^libwww [OR]
RewriteCond %{HTTP_USER_AGENT} ^likse [OR]
RewriteCond %{HTTP_USER_AGENT} ^Linguee [OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkExchanger [OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkextractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkScan [OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkWalker [OR]
RewriteCond %{HTTP_USER_AGENT} ^ListChecker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Lupa\.ru [OR]
RewriteCond %{HTTP_USER_AGENT} ^lwp-trivial [OR]
RewriteCond %{HTTP_USER_AGENT} ^LWP::Simple [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mag-Net [OR]
RewriteCond %{HTTP_USER_AGENT} ^Magnet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mail.Ru [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mata.Hari [OR]
RewriteCond %{HTTP_USER_AGENT} ^Memo [OR]
RewriteCond %{HTTP_USER_AGENT} ^Microsoft.URL [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIIxpc [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mirror [OR]
RewriteCond %{HTTP_USER_AGENT} ^Missigua [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^MLBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^moget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Moreoverbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^MSFrontPage [OR]
RewriteCond %{HTTP_USER_AGENT} ^MSIECrawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^msnbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^NaverBot/1.0 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net.*Reaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetCache [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetMechanic [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^NextGenSearchBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^nicebot [OR]
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^NjuiceBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Nokia6682 [OR]
RewriteCond %{HTTP_USER_AGENT} ^noxtrumbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^NPBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Nutch [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline [OR]
RewriteCond %{HTTP_USER_AGENT} ^OmniExplorer_Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^OneTouchSystems [OR]
RewriteCond %{HTTP_USER_AGENT} ^Openfind [OR]
RewriteCond %{HTTP_USER_AGENT} ^Page.*Saver [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^PEAR [OR]
RewriteCond %{HTTP_USER_AGENT} ^PHP.*/ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ping [OR]
RewriteCond %{HTTP_USER_AGENT} ^Pita [OR]
RewriteCond %{HTTP_USER_AGENT} ^Pockey [OR]
RewriteCond %{HTTP_USER_AGENT} ^Port\ Huron\ Labs [OR]
RewriteCond %{HTTP_USER_AGENT} ^PostRank [OR]
RewriteCond %{HTTP_USER_AGENT} ^ProPowerBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^ProWebWalker [OR]
RewriteCond %{HTTP_USER_AGENT} ^psbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^ptd-crawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Pump [OR]
RewriteCond %{HTTP_USER_AGENT} ^Purebot [OR]
RewriteCond %{HTTP_USER_AGENT} ^PycURL [OR]
RewriteCond %{HTTP_USER_AGENT} ^Python [OR]
RewriteCond %{HTTP_USER_AGENT} ^QihooBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^QueryN.Metasearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^Reaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Recorder [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^RepoMonkey [OR]
RewriteCond %{HTTP_USER_AGENT} ^RMA [OR]
RewriteCond %{HTTP_USER_AGENT} ^RPT-HTTPClient [OR]
RewriteCond %{HTTP_USER_AGENT} ^RufusBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^rulinki [OR]
RewriteCond %{HTTP_USER_AGENT} ^SBIder [OR]
RewriteCond %{HTTP_USER_AGENT} ^shelob [OR]
RewriteCond %{HTTP_USER_AGENT} ^ShopWiki [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^sitecheck.internetseer.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Slurp [OR]
RewriteCond %{HTTP_USER_AGENT} ^SlySearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^SMILE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Snagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Snake [OR]
RewriteCond %{HTTP_USER_AGENT} ^Sogou\ web\ spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Sosospider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Soup [OR]
RewriteCond %{HTTP_USER_AGENT} ^SpaceBison [OR]
RewriteCond %{HTTP_USER_AGENT} ^SpankBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^spanner [OR]
RewriteCond %{HTTP_USER_AGENT} ^spbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Speedy [OR]
RewriteCond %{HTTP_USER_AGENT} ^Speedy\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^StackRambler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^suggybot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SurveyBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^suzuran [OR]
RewriteCond %{HTTP_USER_AGENT} ^SWeb [OR]
RewriteCond %{HTTP_USER_AGENT} ^Szukacz [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} ^Telesoft [OR]
RewriteCond %{HTTP_USER_AGENT} ^The.Intraformant [OR]
RewriteCond %{HTTP_USER_AGENT} ^TheFreeDictionary.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^TheNomad [OR]
RewriteCond %{HTTP_USER_AGENT} ^TightTwatBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Titan [OR]
RewriteCond %{HTTP_USER_AGENT} ^TMCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^toCrawl/UrlDispatcher [OR]
RewriteCond %{HTTP_USER_AGENT} ^Triton [OR]
RewriteCond %{HTTP_USER_AGENT} ^True_Robot [OR]
RewriteCond %{HTTP_USER_AGENT} ^ttCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^turingos [OR]
RewriteCond %{HTTP_USER_AGENT} ^TurnitinBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^TurtleScanner [OR]
RewriteCond %{HTTP_USER_AGENT} ^Twiceler [OR]
RewriteCond %{HTTP_USER_AGENT} ^UniversalFeedParser [OR]
RewriteCond %{HTTP_USER_AGENT} ^URLy.Warning [OR]
RewriteCond %{HTTP_USER_AGENT} ^User-Agent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Vacuum [OR]
RewriteCond %{HTTP_USER_AGENT} ^VCI [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoilaBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^voyager [OR]
RewriteCond %{HTTP_USER_AGENT} ^Weazel [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web.*Image.*Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web.*Spy [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web.*Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web.Image.Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAlta [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebBandit [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCapture [OR]
RewriteCond %{HTTP_USER_AGENT} ^webcollage [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebData [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebEMailExtrac.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebEnhancer [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebEx [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebExtractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebmasterWorldForumBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebMirror [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebRecorder [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSite.*Extractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website.*Quester [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website.Quester [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSpy [OR]
RewriteCond %{HTTP_USER_AGENT} ^Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^Webster.Pro [OR]
RewriteCond %{HTTP_USER_AGENT} ^Webster\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZip [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Whacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^WordPress [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWW-Collector-E [OR]
RewriteCond %{HTTP_USER_AGENT} ^www.cuill.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^www.metacrawler.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^www\.asona\.org [OR]
RewriteCond %{HTTP_USER_AGENT} ^www\.cys\.ru [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wysigot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xenu's [OR]
RewriteCond %{HTTP_USER_AGENT} ^Yahoo [OR]
RewriteCond %{HTTP_USER_AGENT} ^YahooSeeker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Yanga [OR]
RewriteCond %{HTTP_USER_AGENT} ^Yeti [OR]
RewriteCond %{HTTP_USER_AGENT} ^YottosBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZyBorg
RewriteRule ^.* - [F,L]

Данный способ уменьшит посещаемость вашего сайта поисковыми роботами (ботами) примерно на 30-40%.

Блокировка по IP

Иногда блокировка по USER-Agent не даёт желаемого результата, так как программы скачивания сайтов умеют «притворяться» браузерами и тогда даже по логам не поймёшь, что же создаёт нагрузку на сервер. В этом случает отсортируйте и проанализируйте логи вашего сайта. Если с какого-то IP-адреса страницы вашего сайта запрашиваются слишком часто, то скорее всего, это не человек, а программа. Тогда этот IP-адрес можно заблокировать.

Пример: Вы определи, что идёт интенсивное скачивание вашего сайта с IP-адреса 83.222.14.3. Чтобы запретить доступ к вашему сайту и сократить нагрузку на сервер вставьте в файл .htaccess строку:

deny from 95.134.55.8

Если нужно заблокировать несколько IP-адресов, то укажите для каждого адреса отдельную строку:

deny from 95.134.55.8
deny from 93.212.12.9

Можно также вычислить, чей это IP-адрес. Если выяснится, что данный IP-адрес принадлежит хостеру, то можно заблокировать всю подсеть целиком:

Так можно проверить, кому принадлежит данный IP-адрес.

http://whois.domaintools.com/81.152.13.4

Данный способ блокировки позволяет снизить нагрузку на сервер на 5-10%.

Блокировка самописных поисковых роботов (ботов)

Часто некоторые умельцы запускают самописные поисковые роботы (боты), которые не подчиняются никаким правилам. Как правило, у них ничего не написано в заголовках HTTP_USER_AGENT и HTTP_REFERER. Это можно проверить средствами PHP. Для этого в самое начало скриптов (до вызова конфигов, подключений к базе и т.п. тяжелых процессов) вставьте код:

if ($_SERVER["HTTP_REFERER"] == '' AND $_SERVER["HTTP_USER_AGENT"] == '') {die('Good bye');}

Данный способ блокировки позволяет снизить нагрузку на сервер на 5-10%.

Послесловие

Применение вышеизложенных методов позволяет снизить нагрузку вашего сайта на сервер хостера на 80-90%. Если на вашем сайте нескольких тысяч страниц или сайтов много - вам ОБЯЗАТЕЛЬНО нужно проделать вышеописанное. Тогда вы сможете с большей долей вероятности очень долго находиться на дешёвом тарифе, не получая предупреждений о критической нагрузке на сервер хостера.

Пример robots.txt

User-Agent: Yandex
Disallow: /users/
Disallow: /jpg/
Disallow: /css/
Host: www.verim.org
User-Agent: Mail.ru
Disallow: /
User-Agent: Aport
Disallow: /
User-Agent: *
Crawl-delay: 2
Disallow: /users/
Disallow: /jpg/
Disallow: /css/
Sitemap: http://www.verim.org/sitemap.xml
1)
Директива host Является корректной только для робота Яндекса
project/comp/metody_i_sposoby_snizhenija_nagruzki_sajta_na_server.txt · Последние изменения: 2011/09/20 01:17 (внешнее изменение)

Вы можете оставить свои комментарии в разделе "Обсуждение".
Рекомендуем оформить подписку на новости данного раздела. Для этого нажмите на кнопку "Подписаться", расположенную справа снизу каждой страницы (знак конверта).




Индекс цитирования