Ce NU poți găsi pe Google? [închis] (Aplicații web, Google Search)

samthebrand a intrebat.

Google pretinde că este corect și că este în interesul companiei (de cele mai multe ori) să scotocească internetul pentru tot ceea ce pot accesa păianjenii săi. Eu vreau să știu:

  • Ce tip de conținut (accesibil publicului) nu reușește Google să livreze?
  • Există un anumit tip de conținut pe care Google nu îl poate prelua?

Referințele, în special la documentația proprie a Google, ar fi deosebit de grozave.

Comentarii

7 răspunsuri
amh

Câteva idei despre tipul de lucruri:

  1. Conținut interzis în mod explicit de către un domeniu de robots.txt file este exclus din indexul Google.
  2. Site-uri care nu sunt legate de alte site-uri pe care Google le cunoaște deja. Adică, probabil că există o mulțime de site-uri web care nu sunt legate de pagini vizibile, acele site-uri web nu vor fi găsite niciodată de păianjenul Google decât dacă sunt trimise manual la Google prin intermediul aplicației Webmaster Tools.
  3. Site-urile web care se află în spatele unor formulare web pe care trebuie să le completați.
  4. Imagini de recensământ. Deoarece conținutul sunt imagini care sunt adesea indexate manual, acestea se găsesc de obicei pe site-uri plătite, cum ar fi ancestry.com.

Aflați mai multe despre Deep Web

Comentarii

  • Punctul 2 nu este adevărat. Puteți trimite un site la Google prin intermediul aplicației Instrumente Webmaster, , iar acesta va fi indexat chiar dacă nu este legat de alte site-uri web. –  > Por Alex.
  • Este adevărat. O bună clarificare. –  > Por amh.
  • De fapt, nu voi fi de acord cu al doilea punct. Am avut un server web de test pe PC-ul meu și a fost indexat. Am constatat acest lucru prin verificarea jurnalului de acces. –  > Por Bakudan.
  • Am înregistrat domenii noi, am început să le dezvolt și am constatat că Googlebot le crawlează după doar câteva zile. Am crezut că acest lucru este oarecum înfiorător până când am realizat… s-ar putea să nu fiu prima persoană care deține acest domeniu. 🙂 Ei nu dezvăluie detalii, dar sunt sigur că țin evidența domeniilor pe care oamenii le-au considerat suficient de importante pentru a le înregistra și cel puțin câțiva au vizitat la un moment dat, cel puțin pentru o anumită perioadă de timp. –  > Por Tim Post.
David

În afară de Twitter, Google nu indexează Tumblr atât de bine. Articolele de blog de pe Tumblr sunt mai ușor de găsit folosind Tumblr search. De asemenea, tot ceea ce se află pe Google Sites nu este (sau este cu greu) indexat. Dacă începeți un site Google, obțineți-vă propriul domeniu.

Blogurile mai mici care nu sunt actualizate în mod regulat sunt adesea eliminate din rezultatele căutării. În plus, orice lucru pe care ei îl consideră un splog.

Alex

Ei bine, cea mai mare parte a conținutului de pe Twitter nu este indexat de Google, chiar dacă este public. Înainte era disponibil pentru Google, dar nu mai este cazul de când a expirat acordul lor.

Sursa.

Comentarii

  • Deși este adevărat, întrebarea se referă la ce „conținut de înaltă calitate” nu este disponibil în Google. Cea mai mare parte a Twitter nu ar îndeplini acest criteriu 🙂 Totuși, văd tweet-uri ciudate care apar în căutarea Google. –  > Por HappyTimeGopher.
Hellagot

Depinde în ce țară te afli. În Germania nu arată mii de site-uri pe care guvernul consideră că nu sunt bune pentru tine, iar lista crește cu miile în fiecare an.

Google este motorul cenzurii pe internet. Dacă doriți un internet liber, folosiți unele companii care nu sunt rele, cum ar fi DuckDuckGo sau altele.

Franck Dernoncourt

Nu puteți căuta un cuvânt cheie cu caractere speciale în Google Search:

În general, punctuația este ignorată, inclusiv @#$%^&*()=+[] și alte caractere speciale.

Acest lucru este deosebit de enervant atunci când Google unele coduri.

einpoklum

Google elimină rezultatele căutărilor considerate a încălca drepturile de proprietate intelectuală în urma unor cereri DMCA take-down și a altor solicitări similare. A se vedea Formularul de solicitare de eliminare a rezultatelor de căutare de la Google (este posibil să aibă un URL suplimentar, btw).

Josephine Bonaparte

Site-uri cu atât de mult conținut încât Google pur și simplu nu a avut timp (sau chef) să le indexeze pe toate.

Este posibil ca site-urile care nu au o hartă a site-ului care poate fi parcursă de crawlere și care necesită ca google să furnizeze termeni de căutare pentru a accesa rezultatele disponibile pe site să nu fie indexate complet.