Nel 2016, Google ha gestito oltre trilioni di query di ricerca, ma i risultati forniti dal motore di ricerca hanno rappresentato solo una parte del contenuto disponibile online. Molte delle informazioni disponibili online non sono accessibili dai motori di ricerca, quindi è necessario utilizzare strumenti speciali o investigare siti Web per trovare queste pagine nascoste. Conosciute come deep web, queste informazioni nascoste rappresentano fino a 5.000 volte ciò che è disponibile utilizzando le tecniche di ricerca tipiche.
Tipi di contenuti nascosti
Le pagine nascoste dei siti web cadono in categorie che descrivono perché rimangono invisibili ai motori di ricerca.
Alcuni costituiscono contenuti dinamici, pubblicati solo quando un visitatore invia una richiesta specifica su un sito Web che utilizza codice basato su database per presentare risultati mirati. Ad esempio, queste pagine potrebbero includere risultati di acquisto basati su combinazioni specifiche di criteri di prodotto. I motori di ricerca non sono progettati per tenere traccia e archiviare le informazioni archiviate in questi database. Per trovare queste pagine, dovresti andare sul sito Web e cercare le informazioni specifiche che stai cercando, oppure utilizzare un servizio di ricerca orientato al database come Bright Planet.
Alcune pagine non hanno link che Le risorse temporanee, come più versioni di siti Web in via di sviluppo, possono rientrare in questa categoria, così come siti Web mal progettati. Ad esempio, se qualcuno creasse una pagina Web e la caricasse sul server del sito Web, ma non riuscisse ad aggiungere un link ad essa nelle pagine correnti del sito Web, nessuno avrebbe saputo che era lì, inclusi i motori di ricerca.
Ancora più pagine richiedono credenziali di accesso per visualizzarle o raggiungerle, come i siti di abbonamento. I web designer designano pagine e sezioni di siti come off limits per i motori di ricerca, eliminandone efficacemente la ricerca attraverso mezzi convenzionali. Per accedere a queste pagine, in genere è necessario creare un account prima di ricevere l'autorizzazione ad accedervi.
Uso dei file Robots.txt
I motori di ricerca eseguono la scansione del pagine su un sito Web e indicizzarne il contenuto in modo che possa essere visualizzato in risposta alle query. Quando un proprietario di un sito Web desidera escludere alcune parti del suo dominio da queste procedure di indicizzazione, aggiunge gli indirizzi di queste directory o pagine a un file di testo speciale denominato robots.txt, memorizzato nella radice del suo sito. Poiché la maggior parte dei siti Web include un file robot indipendentemente dal fatto che aggiungano esclusioni, è possibile utilizzare il nome prevedibile del documento per visualizzarne il contenuto.
Se si digita "[nome dominio] /robots.txt" senza le virgolette nella riga della posizione del browser, sostituendo "[nome dominio]" con l'indirizzo del sito, il contenuto del file robot appare spesso nella finestra del browser dopo aver premuto il tasto "Invio". Le voci precedute da "non consentire" o "nofollow" rappresentano parti del sito che rimangono inaccessibili attraverso un motore di ricerca.
Pirateria informatica fai-da-te
Inoltre nei file robot.txt, puoi spesso trovare contenuti altrimenti nascosti digitando gli indirizzi web per pagine e cartelle specifiche nel tuo browser web. Ad esempio, se stavi guardando il sito Web di un artista e notassi che ogni pagina utilizzava la stessa convenzione di denominazione - come gallery1.html, gallery2.html, gallery4.html - potresti riuscire a trovare una galleria nascosta digitando la pagina " gallery3.html ". nel tuo browser web.
Allo stesso modo, se vedi che il sito Web utilizza le cartelle per organizzare le pagine - come example.com/content/page1.html, con "/content" come cartella - allora potresti essere in grado per visualizzare la cartella stessa digitando il sito Web e la cartella, senza una pagina, ad esempio "esempio.com/content/" nel browser Web. Se l'accesso alla cartella non è stato disabilitato, potresti essere in grado di navigare tra le pagine in essa contenute, nonché le pagine in qualsiasi sottocartella, per trovare contenuti nascosti.
Computer © www.354353.com