15 Aralık 2013 Pazar

Brett Tabke Bot yasaklanması üzerine röportaj

Brett Tabke, sahibi WebmasterWorld, ayrıcalık WebmasterWorld arama motoru botlarının tarama gelen yasakları son haberler üzerine bir sürü soru sor bana verdi. İşte...Barry: Brett...Örümcekler sitenize erişimini engellemek için yaptığınız son değişiklikler hakkında bazı soruları cevaplamak için WebmasterWorld de telaşlı bu dönemde zaman ayırdığınız için teşekkür ederiz.Barry: Büyük bir değişiklik, tüm botlara Web sitenize erişimini engellemek için robots.txt dosyanıza 18 Kasım değiştirildi oldu. Sen Foo WebmasterWorld forum başladı iplik içinde adlandırılmış sağlar Bu bir ay veya üç deneyin... zarif insanlara göstermek için robots.txt dosyasına bağlanır. Ve altyazılı tel, "son müracaat rogue botlara karşı." Elbette eylem en son nedendi? İle konuştum seninkiler gibi büyük sitelerin çalıştırmak site sahiplerinin düzine. En söyle bana bu rogue botlara bir mücadele edebilirsiniz, ama bu botlar içine barındırma fiyatları maliyeti faktör gerekir. Buna nasıl cevap?Brett: Fırça omuz ile güvenlik konuları ile ilgili sorunlar hakkında konuşmak zor. Bir kez bir şey ve sayaç kamuoyunda bu problem davranışların hakkında konuşmak, invert sayaç ölçmek için neden olmaktadır. Söyledi, biz uzun yıllar bu site bizim bir numaralı sorunu olduğunu söyleyerek edilmiştir. Ben bir forumlarda beş yıl önce bir robot dahil standart (yerine standart bir dışlama) yaptı.Hangi ile biz sürünerek kolaylığı WebmasterWorld ayarlar diğer benzer siteler dışında bir şey var. Tüm kapalı botlara site dizine ekleyebilir ve url dizeleri CGI parametre vardır. Tüm site - cookie desteği ile bile indirir 5 dakikada 15 hat perl programı yazabilirsiniz. (Diğer Forumlar ve temel CGI ile açık artırma sitesi veya standart olmayan URLler gibi) serbestçe taranabilir olmayan siteler hakkında aynı şey söylenemez. Bize üye giriş yolu ile cookie desteği gerektiren değişiklik oldu. Eylem her iki giriş sayfasında site yaşanacağını birkaç milyon sayfa görüntüleme sayfası yerine ziyafeti onaylanmış büyük arama motoru tarayıcıları izin görev % 100 öncekinden farklı olarak. Bunun için en kolay çözüm tüm tarayıcıları robots.txt yasağını ayarlamaktır. Bu tartışmalı bir eylem olduğunu biliyordum. Bu gibi durumlarda kendinizi konu getirmek her zaman daha iyidir ya da en azından insanlar kendi hiçbir eylem tarafından yapıldı yanlış bir izlenim olsun. Böylece insanlar eylem kendimizi almıştı ve geleceğimi biliyordu sadece bir işareti olarak yazı kadar attı sonra işler biraz daha sakin yerleşti sonra daha fazla bilgi ile. Temmuz ortalarında başladığı ana tarayıcılarının. birçok engelleme hakkında bu yoldan başlamıştı > neden bu eylem son ders oldu? Botlara durdurmak için her şeyi denedik. Biz birkaç bin IP s sistemi ban listesinde aldıktan sonra sistem performansını ciddi bir etki sahip oldu. Zaman zaman da nerede bir IP yasak olacak ve o zaman o ip download krizi ile ilgisi yoktu başka bir üyesine geri dönüşümlü alacağı bir durum vardı. Bir AOL IP gibi bir IP bloke etmek zor çünkü birkaç milyon kullanıcılarının IP AOL proxy önbelleğini. kullanarak blok > ile konuştum seninkiler gibi büyük sitelerin çalıştırmak site sahiplerinin düzine.


> Çoğu mücadele edebilirsiniz söylemek bu rogue botlara tek tek, Ya, bir saat ya da iki günde bu sorunu ilgili harcama vardı. Bir kişi tam zamanlı gidermenin kiralamanın amacı için yapıldı.Barry: Bölüm bu süreci, cookie desteği, en botlara-ebilmek değil çekmek bir şey şimdi gerektiren bir değişiklik yaptı. Bir yan etkiler relogin WebmasterWorld için tüm üyeler gerekiyordu. İlk soru, sana kaç kere "Şifremi unuttum" işlevi son 5 gün içinde kullanılan herhangi bir durum var mı? :) Ve ikinci soru; Bu botlara mücadele için daha sonra arama motoru trafiği tamamen kaybetmek için bir tam zamanlı sunucu adam üzerinde para harcamak için daha etkili olmaz mıydı?Brett: İnsanların çoğunluğu browsers öyle aynı derecede Opera kullanıyorsanız veya Yani o auto şifreleri hatırla. Ayrıca bizim Çerezler hakkında 60 günde bir kere bu çok nedenle geçiş yaptınız. Bu tutar insanlar ortalarda internet cafe veya üzerinde kendi iş makinesi. kurabiye bırakarak > bu botlara mücadele için daha sonra arama motoru trafiği tamamen kaybetmek için bir tam zamanlı sunucu adam üzerinde para harcamak için duygusal mı? Hatta bu noktada tam zamanlı birini işe sorunu çözmek değil. Biz-si olmak kullanılmış tüm araçları, kanser tedavisi çalışırken yalnızca bir bandaid çözüm vardır. Biz-si olmak güvenilir: sayfa görünümü daraltma, bant genişliği azaltma, agent ad çözümleme, çerez gereksinimlerden seçili ISS (500 tüm Avrupa/Çin dahil olmak üzere), IP yasaklama, bağlantı zehirlenmesi, çeşitli otomatik yasaklama ve gizleme ve site obfuscation se botlar için uncrawlable site yapmak için çeşitli formları. En büyük sorunu, askılı sistem büyük miktarda olduğunu ve bunları yönetmek için gereken zaman. Bütünlük tüm şaşırtıcı olduğunu. Ham kodu, server kurulumu, günlük dosyalarının ayrıştırması yönetmek için tüm alır gereğinden fazla zaman. Bu hata yapmak çok kolaydır. (orada büyük ISSnin proxy sunucu yasaklandı çünkü gibi zaman biz Yeni Zelanda ziyaretçi yasak) Site üyeleri için - rogue botlar işte. Barry: Unutmayın; Bu eylem alacaktı sanayi hemen hemen tüm büyük isimler şok oldular. Hemen hemen 30 gün içinde yalnız 60 gün delisted olmaz dedim güldüler. Danny Sullivan dedi ki;Alternatif almak için Google gibi yerlerden sayfalar bayılana kadar 60 gün onda Brett rakamlar yerine çözüm arayın. Bana iyimser gibi görünüyor. WebmasterWorld belirgin bir site ve alt günlük olarak--revisited. Arama motorları bu robots.txt yasağı tekrar tekrar isabet vardır, bu sayfaları kısa sürede bırakarak iyi olur veya çok iyi arama motorları değil. Yani, Google ve Yahoo WebmasterWorld üzerinde uzun zamandır yasak yerine koymak sonra bunun için söylendi sonra sayfaları silmek için ayırdığınız için rezil ironi hayal edebiliyorum.Arama uzmanları gibi ibadet, petrolcü, SEGuru ve diğerleri de aynı şeyleri hissettim. Neden bu kadar hızlı olacağını değil gerçekten hissettin mi?Brett: GigaBlast, 120 gün biz MSN bloke ve neredeyse 60 gün engelledik beri ağzını şapırdatarak yemek beri 90 gün içinde Jeeves, bloke bloke 180 gün içinde olmuştur. Geçen Salı günü Teoma hariç hepsi hala listede. MSN oldukça hızlı, ama hala bir parçası olmayan URLler listelenir.Google site üzerine kadar robots.txt yasak koymak sonra 90 gün kapatma. Site tamamen ulaşılamaz olsa da, biz hala url tek siteler olarak up için altı ay sonra listelenen siteler gördüm. Sadece Google url kaldırma programı nerede bu oluşum-ecek var olmak daha hızlı olduğunu. Ben değil Google üzerinde uzun yıllar kullanılan ve tamamen gözden kaçan bir özelliktir. Barry: Özet iş parçacığı, yukarıda listelenen bu de seni hayal kırıklığını "gayet iyi ve kabul edilen bir internet standardı değiştirme" motorları ile ifade Üzerinde genişletebilirsiniz ve sence hangi adımların onlar robots.txt sözdizimi 2005 için olması gerektiği şekilde almak için sürer?Brett: Web Yöneticisi girişi olmadan robots.txt standardı değişen sadece diğerleri de standart ile oynamak için teşvik. Çevrimdışı tarayıcı botlara Tucows baktı bunların çoğunluğu robots.txt yoksaymak için ayarlanabilir. Neden, çünkü standart takdir değil, onaylanan veya motorları gibi olacak yanı sıra çevrimdışı tarayıcı veya site ripper programcılar tarafından yapıştırılır. Motorlar robots.txt saygısızlık bir dönemde teşvik. Motorları kendi uygun standart değiştirme ihtiyacı var, Netscape ve Microsoft tarayıcı Savaşları sırasında HTML standartları ile uğraşırken olarak aynıdır. Yalnızca bağlı kalarak ve standartları onaylamadan biz birlikte net şimdikinden daha kaotik olmaktan tutabilirsiniz. Alçakça bir webmaster zaten bilmesine gerek yok, zaten çok fazla bir kişi için. Internet ihtiyacı olan son şey, bu sürümü robots.txt standart ile çıkıyor her büyük arama motorudur. Standart destek veya açık bir komisyon (Bu 5 yıldır onaylamadan) yeni bir gelmek yukarıya onların ve bizim eş form için onlara ihtiyacımız var. Bu, 1998 yılında ilk robots.txt validator yazarı olarak standart ciddiye alıyoruz dedi. Zaman biri neden bir "İzin ver" hattı ile kendi robots.txt kötü robots.txt validator tarafından işaretlenmiş soran bir e-posta alamadım çok zor bir gün geçiyor. Barry: Aslında nedeniyle SEO uzmanı mısınız, insanlar neden bunu yaptığına dair çılgın teorilerine ile geldi. Bazı insanlar gizleme için yasak söyledi. Bazı insanlar göz önünde deli bir PR dublör olduğunu söyledi. Arama motorları bir üniforma sitesi gönderme aracı ve sen o kullanan ilk olmak istedim geleceğini bir PR stunt oldu. Diğer arama motorları onları gerekmez göstermek istedim dedi. Eminim pek çok diğer teoriler duydum. Hangi en komik buluyorsun? Hangi size en çirkin buluyor musunuz? Ve biraz-in onları nasıl yanıt vereceğini?Brett: Sık sık ne kadar büyük WebmasterWorld ölçeğini haline gelmiştir ve kaç kişi bu liderlik gibi konularda bize saygı unutma. Neden işler tersine kavramları halkı kurtarmak çalışıyor verdik. Her şapka kalay folyo ve her helikopter siyah olduğunu. > Bazı insanlar gizleme için yasak söyledi. Kötü niyetli site ripper konularda birçok adres için biz açıkça Ajan düzeyde bazı şeyleri gizlemek. İyi se bot nedir ve ne olmadığını belirlemek mümkün olmak zorundayız. Eğer biz rasgele ne bot bot ne olduğunu bilmeden autobans için yol zehir bağlantıları etrafında atma git - biz se botlar ve sol yasaklayan. Ayrıca bir rasgele reklam içeriği sayfanın dışına tutmak için tek fark görüntü dosyasının dosya adı nerede kullanıyoruz. Bu büyük miktarda respidering tavsiye ederim. Rogue botlar fox dışarı denemek için her şeyi yaparız. SE botlar her zaman aynı içeriği üye olarak ikram edildi ve biz bu yüzden IP gizlemek için temizleyin

Hiç yorum yok:

Yorum Gönder