- Философия, эзотерика:
- Религии:
- Познавательное
(обо всём)
/* GoogleAds */
Рано или поздно любой владелец сайта (сервера) сталкивается с ситуацией, когда хостер предупреждает его о том, что сайт создаёт нагрузку на сервер. Иногда эти предупреждения носят разовый характер. Но если нагрузка сайта на сервер продолжает расти, хостер может настоятельно так предложить владельцу сайта перейти на более дорогой тариф. Или в случае отказа - перенести сайт на более медленный сервер.
Уменьшая нагрузку на сервер, создаваемую сайтом - фактически, вы уменьшаете свои затраты на хостинг.
Нагрузка на сервер - это:
Кто создает нагрузку? На обычном сайте посетители (люди) создают процентов 5-10 нагрузки, остальные ресурсы «съедают» поисковые роботы и прочие боты. Если сайт достаточно молодой и страниц на нём мало, то, скорее всего, вы не будете получать предупреждений о нагрузке на сервер. Если сайт уже в возрасте, и тем более имеет много страниц (сотни и даже тысячи), то посещения различных поисковых роботов и ботов будут происходить намного чаще и нагрузка на сервер будет приличной.
Обычно сайт доступен по двум адресам - с www и без. Например, данный сайт доступен по двум адресам:
Но если вы нажмёте на первую ссылку, вы всё равно перейдёте на сайт http://www.verim.org.
Большинство поисковых роботов (ботов) (кроме самых умных - Яндекса и Гугла) считают, что это два разных сайта, а значит и скачивают ваш сайт два раза. Необходимо решить, какой URL сайта сделать главным, а с какого делать 301 редирект на главный URL.
Пример: Перейдите по ссылке вида: http://webmaster.yandex.ru/check.xml?hostname=verim.org (вместо verim.org укажите ваш сайт).
Сайт verim.org является зеркалом www.verim.org.
Теперь делаем 301 редирект с verim.org на www.verim.org. Для этого необходимо в корневом каталоге вашего сайта в файл .htaccess добавить такие строки:
RewriteEngine on RewriteCond %{HTTP_HOST} ^verim.org$ [NC] RewriteRule ^(.*)$ http://www.verim.org/$1 [R=301,L]
Если необходимо, чтобы главным доменом был сайт без www, то в .htaccess добавьте следующие строки:
RewriteEngine on RewriteCond %{HTTP_HOST} ^www.verim.org$ [NC] RewriteRule ^(.*)$ http://verim.org/$1 [R=301,L]
Такая принудительная склейка сайтов заметно снизит посещаемость сайта поисковыми роботами (ботами), так как они не будут по два раза выкачивать один и тот же сайт. В среднем это снизит нагрузку на сервер до 20%.
Индексация разделов сайта регулируется с помощью файла robots.txt, который должен быть расположен в корневом каталоге (папке) сайта, как и файл .htaccess
Укажите главный сайт в robots.txt:1)
Host: www.verim.org
Через robots.txt можно разрешить или запретить работу отдельных поисковых роботов (ботов).
Например, запретить весь сайт для индексации всеми поисковыми роботами (ботами):
User-agent: * Disallow: /
Разрешить всем поисковым роботам (ботам) индексировать весь сайт:
User-agent: * Disallow:
Или можете просто создать пустой файл «robots.txt».
Запретить индексацию сайта только для одного поискового робота (бота):
User-agent: BadBot Disallow: /
Разрешить индексацию сайта одному поисковому роботу (боту) и запретить всем остальным:
User-agent: Yandex Disallow:
User-agent: * Disallow: /
Некоторые каталоги (папки) сайта не нужно вообще индексировать. Например это могут быть каталоги с бинарными файлами, архивами, картинками, фото и т.д., каталоги со списками пользователей, wap, pda и print версии сайта и т.п. Укажите файле robots.txt все каталоги (папки), которые не нужно индексировать поисковым роботам (ботам):
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/
Можно также запретить индексацию конкретных страниц:
User-agent: * Disallow: /private.html Disallow: /users.html Disallow: /wap.html
Практически каждый поисковый робот (бот) имеет собственное имя, которое он «оставляет» в логах сайта. Зная эти имена, можно вообще запретить доступ этих поисковых роботов (ботов) к вашему сайту.
В .htaccess прописываем следующие строки:
## Блокировка по USER AGENT: RewriteEngine on RewriteCond %{HTTP_USER_AGENT} ^[Ww]eb[Bb]andit [OR] RewriteCond %{HTTP_USER_AGENT} ^1-More\ Scanner [OR] RewriteCond %{HTTP_USER_AGENT} ^192.comAgent [OR] RewriteCond %{HTTP_USER_AGENT} ^Accelerator [OR] RewriteCond %{HTTP_USER_AGENT} ^Accoona [OR] RewriteCond %{HTTP_USER_AGENT} ^Alexibot [OR] RewriteCond %{HTTP_USER_AGENT} ^almaden.ibm.com [OR] RewriteCond %{HTTP_USER_AGENT} ^Ants [OR] RewriteCond %{HTTP_USER_AGENT} ^Aport [OR] RewriteCond %{HTTP_USER_AGENT} ^AppleWebKit [OR] RewriteCond %{HTTP_USER_AGENT} ^archive.org [OR] RewriteCond %{HTTP_USER_AGENT} ^Ask\ Jeeves [OR] RewriteCond %{HTTP_USER_AGENT} ^asterias [OR] RewriteCond %{HTTP_USER_AGENT} ^attach [OR] RewriteCond %{HTTP_USER_AGENT} ^BabalooSpider [OR] RewriteCond %{HTTP_USER_AGENT} ^BackDoorBot [OR] RewriteCond %{HTTP_USER_AGENT} ^BackWeb [OR] RewriteCond %{HTTP_USER_AGENT} ^Badex-Bot [OR] RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [OR] RewriteCond %{HTTP_USER_AGENT} ^Bandit [OR] RewriteCond %{HTTP_USER_AGENT} ^BecomeBot [OR] RewriteCond %{HTTP_USER_AGENT} ^BilgiBot [OR] RewriteCond %{HTTP_USER_AGENT} ^BilgiFeedBot/experimental [OR] RewriteCond %{HTTP_USER_AGENT} ^Bingbot [OR] RewriteCond %{HTTP_USER_AGENT} ^Birubot [OR] RewriteCond %{HTTP_USER_AGENT} ^Black.Hole [OR] RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR] RewriteCond %{HTTP_USER_AGENT} ^BlowFish [OR] RewriteCond %{HTTP_USER_AGENT} ^BotALot [OR] RewriteCond %{HTTP_USER_AGENT} ^Brontok.A\ Browser [OR] RewriteCond %{HTTP_USER_AGENT} ^Buddy [OR] RewriteCond %{HTTP_USER_AGENT} ^BuiltBotTough [OR] RewriteCond %{HTTP_USER_AGENT} ^Bullseye [OR] RewriteCond %{HTTP_USER_AGENT} ^BunnySlippers [OR] RewriteCond %{HTTP_USER_AGENT} ^Butterfly [OR] RewriteCond %{HTTP_USER_AGENT} ^CamontSpider [OR] RewriteCond %{HTTP_USER_AGENT} ^CazoodleBot [OR] RewriteCond %{HTTP_USER_AGENT} ^Cegbfeieh [OR] RewriteCond %{HTTP_USER_AGENT} ^CFNetwork [OR] RewriteCond %{HTTP_USER_AGENT} ^CheeseBot [OR] RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR] RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR] RewriteCond %{HTTP_USER_AGENT} ^Collector [OR] RewriteCond %{HTTP_USER_AGENT} ^ConveraCrawler [OR] RewriteCond %{HTTP_USER_AGENT} ^Copier [OR] RewriteCond %{HTTP_USER_AGENT} ^CopyRightCheck [OR] RewriteCond %{HTTP_USER_AGENT} ^cosmos [OR] RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR] RewriteCond %{HTTP_USER_AGENT} ^Custo [OR] RewriteCond %{HTTP_USER_AGENT} ^Dead\ Link\ Checker [OR] RewriteCond %{HTTP_USER_AGENT} ^DepSpid [OR] RewriteCond %{HTTP_USER_AGENT} ^DIIbot [OR] RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR] RewriteCond %{HTTP_USER_AGENT} ^DittoSpyder [OR] RewriteCond %{HTTP_USER_AGENT} ^Dolphin [OR] RewriteCond %{HTTP_USER_AGENT} ^DotBot [OR] RewriteCond %{HTTP_USER_AGENT} ^dotnetdotcom [OR] RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR] RewriteCond %{HTTP_USER_AGENT} ^Download\ Master [OR] RewriteCond %{HTTP_USER_AGENT} ^Downloader [OR] RewriteCond %{HTTP_USER_AGENT} ^Drip [OR] RewriteCond %{HTTP_USER_AGENT} ^e-SocietyRobot [OR] RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR] RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR] RewriteCond %{HTTP_USER_AGENT} ^EmailCollector [OR] RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR] RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR] RewriteCond %{HTTP_USER_AGENT} ^EroCrawler [OR] RewriteCond %{HTTP_USER_AGENT} ^Exabot [OR] RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR] RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR] RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR] RewriteCond %{HTTP_USER_AGENT} ^Ezooms [OR] RewriteCond %{HTTP_USER_AGENT} ^FairShare [OR] RewriteCond %{HTTP_USER_AGENT} ^FAST\ MetaWeb\ Crawler [OR] RewriteCond %{HTTP_USER_AGENT} ^Feedfetcher-Google [OR] RewriteCond %{HTTP_USER_AGENT} ^FileHound [OR] RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR] RewriteCond %{HTTP_USER_AGENT} ^Flexum\ spider [OR] RewriteCond %{HTTP_USER_AGENT} ^Foobot [OR] RewriteCond %{HTTP_USER_AGENT} ^FrontPage [OR] RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR] RewriteCond %{HTTP_USER_AGENT} ^Gets [OR] RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR] RewriteCond %{HTTP_USER_AGENT} ^Gigabot [OR] RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR] RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR] RewriteCond %{HTTP_USER_AGENT} ^gotit [OR] RewriteCond %{HTTP_USER_AGENT} ^GoZilla [OR] RewriteCond %{HTTP_USER_AGENT} ^Grabber [OR] RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR] RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR] RewriteCond %{HTTP_USER_AGENT} ^Gulliver [OR] RewriteCond %{HTTP_USER_AGENT} ^Harvest [OR] RewriteCond %{HTTP_USER_AGENT} ^help.naver.com [OR] RewriteCond %{HTTP_USER_AGENT} ^hloader [OR] RewriteCond %{HTTP_USER_AGENT} ^HMView [OR] RewriteCond %{HTTP_USER_AGENT} ^holmes [OR] RewriteCond %{HTTP_USER_AGENT} ^HP\ Web\ PrintSmart [OR] RewriteCond %{HTTP_USER_AGENT} ^HTMLParser [OR] RewriteCond %{HTTP_USER_AGENT} ^httplib [OR] RewriteCond %{HTTP_USER_AGENT} ^HTTrack [OR] RewriteCond %{HTTP_USER_AGENT} ^humanlinks [OR] RewriteCond %{HTTP_USER_AGENT} ^ia_archiver [OR] RewriteCond %{HTTP_USER_AGENT} ^IBrowse [OR] RewriteCond %{HTTP_USER_AGENT} ^ichiro [OR] RewriteCond %{HTTP_USER_AGENT} ^IDBot [OR] RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR] RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR] RewriteCond %{HTTP_USER_AGENT} ^Indy\ Library [OR] RewriteCond %{HTTP_USER_AGENT} ^InetURL [OR] RewriteCond %{HTTP_USER_AGENT} ^InfoNaviRobot [OR] RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR] RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR] RewriteCond %{HTTP_USER_AGENT} ^InternetSeer [OR] RewriteCond %{HTTP_USER_AGENT} ^Iria [OR] RewriteCond %{HTTP_USER_AGENT} ^IRLbot [OR] RewriteCond %{HTTP_USER_AGENT} ^Java [OR] RewriteCond %{HTTP_USER_AGENT} ^JennyBot [OR] RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR] RewriteCond %{HTTP_USER_AGENT} ^JOC [OR] RewriteCond %{HTTP_USER_AGENT} ^JS-Kit [OR] RewriteCond %{HTTP_USER_AGENT} ^JustView [OR] RewriteCond %{HTTP_USER_AGENT} ^Kenjin.Spider [OR] RewriteCond %{HTTP_USER_AGENT} ^Keyword.Density [OR] RewriteCond %{HTTP_USER_AGENT} ^kmSearchBot [OR] RewriteCond %{HTTP_USER_AGENT} ^Konqueror [OR] RewriteCond %{HTTP_USER_AGENT} ^larbin [OR] RewriteCond %{HTTP_USER_AGENT} ^leech [OR] RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR] RewriteCond %{HTTP_USER_AGENT} ^LexiBot [OR] RewriteCond %{HTTP_USER_AGENT} ^lftp [OR] RewriteCond %{HTTP_USER_AGENT} ^libWeb/clsHTTP [OR] RewriteCond %{HTTP_USER_AGENT} ^libwww [OR] RewriteCond %{HTTP_USER_AGENT} ^likse [OR] RewriteCond %{HTTP_USER_AGENT} ^Linguee [OR] RewriteCond %{HTTP_USER_AGENT} ^LinkExchanger [OR] RewriteCond %{HTTP_USER_AGENT} ^LinkextractorPro [OR] RewriteCond %{HTTP_USER_AGENT} ^LinkScan [OR] RewriteCond %{HTTP_USER_AGENT} ^LinkWalker [OR] RewriteCond %{HTTP_USER_AGENT} ^ListChecker [OR] RewriteCond %{HTTP_USER_AGENT} ^Lupa\.ru [OR] RewriteCond %{HTTP_USER_AGENT} ^lwp-trivial [OR] RewriteCond %{HTTP_USER_AGENT} ^LWP::Simple [OR] RewriteCond %{HTTP_USER_AGENT} ^Mag-Net [OR] RewriteCond %{HTTP_USER_AGENT} ^Magnet [OR] RewriteCond %{HTTP_USER_AGENT} ^Mail.Ru [OR] RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR] RewriteCond %{HTTP_USER_AGENT} ^Mata.Hari [OR] RewriteCond %{HTTP_USER_AGENT} ^Memo [OR] RewriteCond %{HTTP_USER_AGENT} ^Microsoft.URL [OR] RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR] RewriteCond %{HTTP_USER_AGENT} ^MIIxpc [OR] RewriteCond %{HTTP_USER_AGENT} ^Mirror [OR] RewriteCond %{HTTP_USER_AGENT} ^Missigua [OR] RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR] RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [OR] RewriteCond %{HTTP_USER_AGENT} ^MLBot [OR] RewriteCond %{HTTP_USER_AGENT} ^moget [OR] RewriteCond %{HTTP_USER_AGENT} ^Moreoverbot [OR] RewriteCond %{HTTP_USER_AGENT} ^MSFrontPage [OR] RewriteCond %{HTTP_USER_AGENT} ^MSIECrawler [OR] RewriteCond %{HTTP_USER_AGENT} ^msnbot [OR] RewriteCond %{HTTP_USER_AGENT} ^NaverBot/1.0 [OR] RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR] RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR] RewriteCond %{HTTP_USER_AGENT} ^Net.*Reaper [OR] RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR] RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR] RewriteCond %{HTTP_USER_AGENT} ^NetCache [OR] RewriteCond %{HTTP_USER_AGENT} ^NetMechanic [OR] RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR] RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR] RewriteCond %{HTTP_USER_AGENT} ^NextGenSearchBot [OR] RewriteCond %{HTTP_USER_AGENT} ^nicebot [OR] RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR] RewriteCond %{HTTP_USER_AGENT} ^Ninja [OR] RewriteCond %{HTTP_USER_AGENT} ^NjuiceBot [OR] RewriteCond %{HTTP_USER_AGENT} ^Nokia6682 [OR] RewriteCond %{HTTP_USER_AGENT} ^noxtrumbot [OR] RewriteCond %{HTTP_USER_AGENT} ^NPBot [OR] RewriteCond %{HTTP_USER_AGENT} ^Nutch [OR] RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR] RewriteCond %{HTTP_USER_AGENT} ^Offline [OR] RewriteCond %{HTTP_USER_AGENT} ^OmniExplorer_Bot [OR] RewriteCond %{HTTP_USER_AGENT} ^OneTouchSystems [OR] RewriteCond %{HTTP_USER_AGENT} ^Openfind [OR] RewriteCond %{HTTP_USER_AGENT} ^Page.*Saver [OR] RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR] RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR] RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR] RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR] RewriteCond %{HTTP_USER_AGENT} ^PEAR [OR] RewriteCond %{HTTP_USER_AGENT} ^PHP.*/ [OR] RewriteCond %{HTTP_USER_AGENT} ^Ping [OR] RewriteCond %{HTTP_USER_AGENT} ^Pita [OR] RewriteCond %{HTTP_USER_AGENT} ^Pockey [OR] RewriteCond %{HTTP_USER_AGENT} ^Port\ Huron\ Labs [OR] RewriteCond %{HTTP_USER_AGENT} ^PostRank [OR] RewriteCond %{HTTP_USER_AGENT} ^ProPowerBot [OR] RewriteCond %{HTTP_USER_AGENT} ^ProWebWalker [OR] RewriteCond %{HTTP_USER_AGENT} ^psbot [OR] RewriteCond %{HTTP_USER_AGENT} ^ptd-crawler [OR] RewriteCond %{HTTP_USER_AGENT} ^Pump [OR] RewriteCond %{HTTP_USER_AGENT} ^Purebot [OR] RewriteCond %{HTTP_USER_AGENT} ^PycURL [OR] RewriteCond %{HTTP_USER_AGENT} ^Python [OR] RewriteCond %{HTTP_USER_AGENT} ^QihooBot [OR] RewriteCond %{HTTP_USER_AGENT} ^QueryN.Metasearch [OR] RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR] RewriteCond %{HTTP_USER_AGENT} ^Reaper [OR] RewriteCond %{HTTP_USER_AGENT} ^Recorder [OR] RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR] RewriteCond %{HTTP_USER_AGENT} ^RepoMonkey [OR] RewriteCond %{HTTP_USER_AGENT} ^RMA [OR] RewriteCond %{HTTP_USER_AGENT} ^RPT-HTTPClient [OR] RewriteCond %{HTTP_USER_AGENT} ^RufusBot [OR] RewriteCond %{HTTP_USER_AGENT} ^rulinki [OR] RewriteCond %{HTTP_USER_AGENT} ^SBIder [OR] RewriteCond %{HTTP_USER_AGENT} ^shelob [OR] RewriteCond %{HTTP_USER_AGENT} ^ShopWiki [OR] RewriteCond %{HTTP_USER_AGENT} ^SiteBot [OR] RewriteCond %{HTTP_USER_AGENT} ^sitecheck.internetseer.com [OR] RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR] RewriteCond %{HTTP_USER_AGENT} ^Slurp [OR] RewriteCond %{HTTP_USER_AGENT} ^SlySearch [OR] RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR] RewriteCond %{HTTP_USER_AGENT} ^SMILE [OR] RewriteCond %{HTTP_USER_AGENT} ^Snagger [OR] RewriteCond %{HTTP_USER_AGENT} ^Snake [OR] RewriteCond %{HTTP_USER_AGENT} ^Sogou\ web\ spider [OR] RewriteCond %{HTTP_USER_AGENT} ^Sosospider [OR] RewriteCond %{HTTP_USER_AGENT} ^Soup [OR] RewriteCond %{HTTP_USER_AGENT} ^SpaceBison [OR] RewriteCond %{HTTP_USER_AGENT} ^SpankBot [OR] RewriteCond %{HTTP_USER_AGENT} ^spanner [OR] RewriteCond %{HTTP_USER_AGENT} ^spbot [OR] RewriteCond %{HTTP_USER_AGENT} ^Speedy [OR] RewriteCond %{HTTP_USER_AGENT} ^Speedy\ Spider [OR] RewriteCond %{HTTP_USER_AGENT} ^StackRambler [OR] RewriteCond %{HTTP_USER_AGENT} ^Stripper [OR] RewriteCond %{HTTP_USER_AGENT} ^Sucker [OR] RewriteCond %{HTTP_USER_AGENT} ^suggybot [OR] RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR] RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR] RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR] RewriteCond %{HTTP_USER_AGENT} ^SurveyBot [OR] RewriteCond %{HTTP_USER_AGENT} ^suzuran [OR] RewriteCond %{HTTP_USER_AGENT} ^SWeb [OR] RewriteCond %{HTTP_USER_AGENT} ^Szukacz [OR] RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR] RewriteCond %{HTTP_USER_AGENT} ^Teleport [OR] RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR] RewriteCond %{HTTP_USER_AGENT} ^Telesoft [OR] RewriteCond %{HTTP_USER_AGENT} ^The.Intraformant [OR] RewriteCond %{HTTP_USER_AGENT} ^TheFreeDictionary.com [OR] RewriteCond %{HTTP_USER_AGENT} ^TheNomad [OR] RewriteCond %{HTTP_USER_AGENT} ^TightTwatBot [OR] RewriteCond %{HTTP_USER_AGENT} ^Titan [OR] RewriteCond %{HTTP_USER_AGENT} ^TMCrawler [OR] RewriteCond %{HTTP_USER_AGENT} ^toCrawl/UrlDispatcher [OR] RewriteCond %{HTTP_USER_AGENT} ^Triton [OR] RewriteCond %{HTTP_USER_AGENT} ^True_Robot [OR] RewriteCond %{HTTP_USER_AGENT} ^ttCrawler [OR] RewriteCond %{HTTP_USER_AGENT} ^turingos [OR] RewriteCond %{HTTP_USER_AGENT} ^TurnitinBot [OR] RewriteCond %{HTTP_USER_AGENT} ^TurtleScanner [OR] RewriteCond %{HTTP_USER_AGENT} ^Twiceler [OR] RewriteCond %{HTTP_USER_AGENT} ^UniversalFeedParser [OR] RewriteCond %{HTTP_USER_AGENT} ^URLy.Warning [OR] RewriteCond %{HTTP_USER_AGENT} ^User-Agent [OR] RewriteCond %{HTTP_USER_AGENT} ^Vacuum [OR] RewriteCond %{HTTP_USER_AGENT} ^VCI [OR] RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR] RewriteCond %{HTTP_USER_AGENT} ^VoilaBot [OR] RewriteCond %{HTTP_USER_AGENT} ^voyager [OR] RewriteCond %{HTTP_USER_AGENT} ^Weazel [OR] RewriteCond %{HTTP_USER_AGENT} ^Web.*Image.*Collector [OR] RewriteCond %{HTTP_USER_AGENT} ^Web.*Spy [OR] RewriteCond %{HTTP_USER_AGENT} ^Web.*Sucker [OR] RewriteCond %{HTTP_USER_AGENT} ^Web.Image.Collector [OR] RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR] RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR] RewriteCond %{HTTP_USER_AGENT} ^WebAlta [OR] RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR] RewriteCond %{HTTP_USER_AGENT} ^WebBandit [OR] RewriteCond %{HTTP_USER_AGENT} ^WebCapture [OR] RewriteCond %{HTTP_USER_AGENT} ^webcollage [OR] RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR] RewriteCond %{HTTP_USER_AGENT} ^WebData [OR] RewriteCond %{HTTP_USER_AGENT} ^WebEMailExtrac.* [OR] RewriteCond %{HTTP_USER_AGENT} ^WebEnhancer [OR] RewriteCond %{HTTP_USER_AGENT} ^WebEx [OR] RewriteCond %{HTTP_USER_AGENT} ^WebExtractor [OR] RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR] RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR] RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR] RewriteCond %{HTTP_USER_AGENT} ^WebmasterWorldForumBot [OR] RewriteCond %{HTTP_USER_AGENT} ^WebMirror [OR] RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR] RewriteCond %{HTTP_USER_AGENT} ^WebRecorder [OR] RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR] RewriteCond %{HTTP_USER_AGENT} ^WebSite.*Extractor [OR] RewriteCond %{HTTP_USER_AGENT} ^Website.*Quester [OR] RewriteCond %{HTTP_USER_AGENT} ^Website.Quester [OR] RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR] RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR] RewriteCond %{HTTP_USER_AGENT} ^WebSpy [OR] RewriteCond %{HTTP_USER_AGENT} ^Webster [OR] RewriteCond %{HTTP_USER_AGENT} ^Webster.Pro [OR] RewriteCond %{HTTP_USER_AGENT} ^Webster\ Pro [OR] RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR] RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR] RewriteCond %{HTTP_USER_AGENT} ^WebZip [OR] RewriteCond %{HTTP_USER_AGENT} ^Wget [OR] RewriteCond %{HTTP_USER_AGENT} ^Whacker [OR] RewriteCond %{HTTP_USER_AGENT} ^Widow [OR] RewriteCond %{HTTP_USER_AGENT} ^WordPress [OR] RewriteCond %{HTTP_USER_AGENT} ^WWW-Collector-E [OR] RewriteCond %{HTTP_USER_AGENT} ^www.cuill.com [OR] RewriteCond %{HTTP_USER_AGENT} ^www.metacrawler.com [OR] RewriteCond %{HTTP_USER_AGENT} ^www\.asona\.org [OR] RewriteCond %{HTTP_USER_AGENT} ^www\.cys\.ru [OR] RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR] RewriteCond %{HTTP_USER_AGENT} ^Wysigot [OR] RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR] RewriteCond %{HTTP_USER_AGENT} ^Xenu's [OR] RewriteCond %{HTTP_USER_AGENT} ^Yahoo [OR] RewriteCond %{HTTP_USER_AGENT} ^YahooSeeker [OR] RewriteCond %{HTTP_USER_AGENT} ^Yanga [OR] RewriteCond %{HTTP_USER_AGENT} ^Yeti [OR] RewriteCond %{HTTP_USER_AGENT} ^YottosBot [OR] RewriteCond %{HTTP_USER_AGENT} ^Zeus [OR] RewriteCond %{HTTP_USER_AGENT} ^ZyBorg RewriteRule ^.* - [F,L]
Данный способ уменьшит посещаемость вашего сайта поисковыми роботами (ботами) примерно на 30-40%.
Иногда блокировка по USER-Agent не даёт желаемого результата, так как программы скачивания сайтов умеют «притворяться» браузерами и тогда даже по логам не поймёшь, что же создаёт нагрузку на сервер. В этом случает отсортируйте и проанализируйте логи вашего сайта. Если с какого-то IP-адреса страницы вашего сайта запрашиваются слишком часто, то скорее всего, это не человек, а программа. Тогда этот IP-адрес можно заблокировать.
Пример: Вы определи, что идёт интенсивное скачивание вашего сайта с IP-адреса 83.222.14.3. Чтобы запретить доступ к вашему сайту и сократить нагрузку на сервер вставьте в файл .htaccess строку:
deny from 95.134.55.8
Если нужно заблокировать несколько IP-адресов, то укажите для каждого адреса отдельную строку:
deny from 95.134.55.8 deny from 93.212.12.9
Можно также вычислить, чей это IP-адрес. Если выяснится, что данный IP-адрес принадлежит хостеру, то можно заблокировать всю подсеть целиком:
Так можно проверить, кому принадлежит данный IP-адрес.
http://whois.domaintools.com/81.152.13.4
Данный способ блокировки позволяет снизить нагрузку на сервер на 5-10%.
Часто некоторые умельцы запускают самописные поисковые роботы (боты), которые не подчиняются никаким правилам. Как правило, у них ничего не написано в заголовках HTTP_USER_AGENT и HTTP_REFERER. Это можно проверить средствами PHP. Для этого в самое начало скриптов (до вызова конфигов, подключений к базе и т.п. тяжелых процессов) вставьте код:
if ($_SERVER["HTTP_REFERER"] == '' AND $_SERVER["HTTP_USER_AGENT"] == '') {die('Good bye');}
Данный способ блокировки позволяет снизить нагрузку на сервер на 5-10%.
Применение вышеизложенных методов позволяет снизить нагрузку вашего сайта на сервер хостера на 80-90%. Если на вашем сайте нескольких тысяч страниц или сайтов много - вам ОБЯЗАТЕЛЬНО нужно проделать вышеописанное. Тогда вы сможете с большей долей вероятности очень долго находиться на дешёвом тарифе, не получая предупреждений о критической нагрузке на сервер хостера.
User-Agent: Yandex Disallow: /users/ Disallow: /jpg/ Disallow: /css/ Host: www.verim.org
User-Agent: Mail.ru Disallow: /
User-Agent: Aport Disallow: /
User-Agent: * Crawl-delay: 2 Disallow: /users/ Disallow: /jpg/ Disallow: /css/
Sitemap: http://www.verim.org/sitemap.xml