Blogger tarafından desteklenmektedir.

ARAMA MOTORUNDA ROBOTS.TXT/ REL=NOFOLLOW/CAPTCHA SEO AYARLARI

                            Robots.txt Nedir?

Sitenizin ana dizininde bulunan ve arama motorlarının sitenizi indeksleyip, indekslemeyeceği komutunu arama motorlarına veren dosyadır.Google, Yahoo v.b. bütün arama motorları web sitelerini robot (örümcek) adı verilen programlar sayesinde taramakta ve arama sonuçlarında gösterilmek üzere indekslemektedirler. Arama motorlarına ait robotlar bir siteye ilk girdikleri zaman ilk inceledikleri şey ana dizinde robots.txt dosyası olup olmadığıdır ve eğer varsa içerisinde hangi komutların olduğudur.İşte bu dosyada yazan komutlara göre indekslenmesine izin verdiğiniz siteler robotlar tarafından algılanır ve yine indekslenmesini istemediğiniz içerikler de algılanırlar. Sonrasında arama motorunun sahip olduğu algoritmaya göre içeriğiniz ya indekslenir veya indekslenmez. Burada "indekslenme" derken kastımızın arama motorlarında ilgili arama sonuçlarında çıkma durumu olduğunu hatırlatmamıza sanırım gerek yok :) sitenize gelen arama motoru robotları eğer sitenizin ana dizininde robots.txt dosyası ile karşılaşmazlarsa, bu durumda sitenizdeki tüm içeriği okur (crawl) ve indeksleyebilirler. Yani en azından indekslememeleri için ortada hiçbir durum yok demektir.Yani eğer sitenizdeki herşeyin ama herşeyin (ki bu genelde iyi değildir) arama sonuçlarında çıkmasını istiyorsanız herhangi bir robots.txt dosyasına ihtiyacınız yok demektir.fakat eğer dizinde bir robots.txt dosyanız olmazsa, sitenize gelen her robot bu dosyayı bulmak isteyeceği için ve bulamayacağı için hep "404 Bulunamadı" sayfası ile karşılaşacak demektir. Bu da log dosyalarınızda listelenir, bu durumdan kaçınmak için robots.txt dosyasını içi boş şekilde anadizine yükleyebilirsiniz.

Nerelerde Niçin Kullanılır?

Eğer sitenizdeki herhangi bir dizinin veya sayfanın arama sonuçlarında görünmemesini istiyorsanızSitenizde aynı içerikten birden fazla varsa, SEO açısından zararlı olan bu durumu engellemek ve bu içeriklerden birini arama motorlarından gizlemek içinSite içi arama sayfalarınızın, arama motorları tarafından indekslenmemesi içinSite haritanızın nerede olduğunu arama motorlarına anlatmak içinEğer aynı içeriğin hem HTML formatında, hem de PDF formatına sahipseniz, hangisinin indeksleneceğini arama motorlarına anlatmak içinBu noktada şunu da not etmek gerekir ki; robots.txt dosyası içeriklerinizi tamamen ulaşılamaz hale getirmez. Sadece arama motorlarının bu içerikleri indekslememesini sağlar, yoksa bu içerikler hala çeşitli yöntemlerle ulaşılabilir durumdadırlar.

Nasıl Oluşturulur?

Eğer site adresinizin sonuna /robots.txt (örn: siteadi.com/robots.txt) yazınca, 404 bulunamadı gibi bir sonuçla karşılaşıyorsanız bu durumda sitenizde robots.txt yok demektir, dilerseniz hemen bir tane oluşturabilirsiniz. Robots.txt dosyası oluşturmak için:bilgisayarınızdaki editörü (Not Defteri veya Notepad++ olabilir) açın ve boş dosyayı robots.txt ismi ile kaydedin. Böylece en basitinden bir robots.txt oluşturmuş olacaksınız bile.Bu dosyayı sitenizin ana dizinine yükleyin. Yani site dosyalarının bulunduğu ana dizin kısmıdır, eğer siteniz bir alt alan adında ise (siteadi.com/portal gibi) bu durumda dosyayı bu dizine yüklemeniz gerekir.Eğer birden fazla alt alanadınız varsa, her biri için ayrı ayrı robots.txt oluşturmanız gerekmektedir.

robots.txt Dosyasına Ne Yazılır?

Henüz bu konuda herkesin mutabakata vardığı bir durum yok, yani ne koyup koymayacağınız tamamen size, sizin ihtiyaçlarınıza ve sitenizin durumuna bağlı.Mesela siteniz Joomla gibi bir içerik yönetim sistemi (CMS) ise ve bir yönetim paneli varsa, bu yönetim panelinin indekslenmesini engelleyebilirsiniz.robots.txt dosyası, robotlara nereye gideceklerini veya gitmeyeceklerini anlatan bir rehberdir, bu nedenle sitenizin hangi içeriklerinin arama sonuçlarında çıkmamasını istiyorsanız o içerikleri ekleyebilirsiniz.

Hangi Komutları Kullanabilirim?

Bu noktada biraz gözünüzü açmanızı ve beğendiğiniz ve takip ettiğiniz sitelerin tavsiye ederiz. Çekinmeyin ve sitelerin, rakiplerinizin robots.txt dosyalarını inceleyin ve hangi içerikleri engellediklerini görün. Bu size bir fikir verecektir...

User-agent: Arama motorlarının robotlarını selamlayan komuttur. Yıldız ile kullanılırsa bütün arama motorlarının robotları için demektir:

User-agent: *

Sadece Google robotları için ise:

User-agent: Googlebot

Disallow: En çok kullanılan robots.txt komutudur ve arama motorlarına hangi sayfa ve içerikleri indekslememesi gerektiğini anlatır.

Mesela bütün arama motorlarının, sitenizdeki "hiçbirşeyi" indekslememesini isterseniz dosyaya şu ibareyi ekleyebilirsiniz:

User-agent: *

Disallow: /

Veya mesela Google'ın sadece sitelerdeki resimleri indeksleyen robotunun, images klasöründeki resimleri indekslememesi ama diğer bütün herşeyi indekslemesi için şu ibareyi ekleyebilirsiniz:Allow: Disallow komutunu tam tersidir, yani indekslenmesini istediğiniz içerik ve sayfalarınız için kullanabilirsiniz. Mesela tüm robotların, sitenizdeki herşeyi ama herşeyi indekslemesi için yazmanız gereken komut:

User-agent: *

Allow: /

Peki varsayılan olarak disallow ile komutlandırmadığınız müddetçe bütün içerikler zaten indeksleniyorsa, bu allow komutu neden var diye soracak olursanız cevabı basit... Eğer bir dizini disallow olarak işaretlediyseniz ama bu dizin içerisindeki belirli bir sayfanın indekslenmesini istiyorsanız allow komutunu kullanabilirsiniz. Yani mesela günlük isimli dizinin indekslenmemesini ama bu dizinde yer alan hakkimda sayfasının indekslenmesini istiyorsanız aşağıdaki kullanım işinizi görecektir:

User-agent: *

Disallow: /gunluk/

Allow: /gunluk/hakkimda.html

Sitemap: Site haritalarınızın arama motorları tarafından daha çabuk bulunması için bu komutu kullanabilirsiniz. 

Örnek kullanım:Sitemap: http://www. siteniz.com/sitemap.xmlDosya tiplerini bloklamak için ; ( Bu kod ile .gif dosyalarını indekslemesin diyoruz google botlarına)Dinamik web sayfalarını bloklamak için; User-agent: GooglebotAyrıca indexlenmesini istemediğiniz tekil sayfalar varsa metatag bölümüne aşağıdaki kodu ekleyerek botların o sayfayı indekslemesini önleyebilirsiniz :

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />

Önemli Not : robots.txt dosyanızı sadece root klasörünüze atmalısınız. Alt klasörlere koymamalısınız! Tekil dosyalar için yukarıdaki metatagı kullanmanız faydalı olacaktır. Eğer robots.txt kullanmazsanız google botları varsayılan olarak sitenize ulaşabildiği (linklenmiş) tüm sayfa ve klasörleri indeksleyecektir.Captcha websitelerini botlara karşı koruyan bir programdır. Bunu insanların çözebileceği ama bilgisayar programlarının çözemeyeceği testlerle yapar. Örneğin aşağıdaki resmi bir insan okuyabilecekken, şu anki bilgisayarlar okuyamaz.
















Açılımı ;Completely Automated Public Turing test to tell Computers andHumans Apart’tır.

Kullanıldığı yerler

Bloglara spam yollanmasını önlemek: Çoğu blog yazarı yorum olarak gelen spamlerin farkındadır. Botlar yazdıkları spam comment’ler sayesinde arama motorlarında spam’i yapılan web sitesinin üst sıralara çıkmasını amaçlıyor. Bu yorumların önüne geçebilmek için captcha kullanılıyor. Bu sayede bloglara yorum yapmak için üye olmaya da gerek kalmıyor. Üye olmayan kullanıcı captcha testini geçtikten sonra insan olduğunu ispatlıyor.
Website üyeliğini kontrol etmek: Üyelik ile sunulan ücretsiz hizmetlerden botlar kullanılarak milyonlarca üyeliğin alınması sağlanabiliyor. Sistemin bu şekilde milyonlarca email vs. hizmetler vererek çalışmaz hale gelmemesi için captcha kullanılıyor.
EMail adreslerini gizlemek: Spammer’lar spam yapabilmek için email adreslerini kullanıyorlar. Bu email adreslerini bulabilmek için de web’de text araması yapıyorlar. Bunu önlemek için de web sayfalarında bir email adresini görebilmek için öncelikle captcha testini geçmeniz ve insan olduğunuzu ispatlamanız gerekiyor.
Şifreyle giriş sistemlerinde, bildiğiniz üzere, bir hesaba belirli sayıda hatalı giriş uygulandıktan sonra, o hesap belli bir süre kilitleniyor. Botlar, bu kilitlenmeyi kullanarak sistemdeki çoğu hesabın kullanılmaz olmasını hedefliyor. 

  • Digg
  • Del.icio.us
  • StumbleUpon
  • Reddit
  • RSS

0 yorum:

Yorum Gönder