Det usynlige internet - the invisible web / deep web

The invisible web, på dansk ”det usynlige internet”, består af minimum 500 mia. usynlige dokumenter som ligger på internettet, men uden at nogen søgemaskiner kan finde dem. I hvert fald ikke de officielle søgemaskiner – og dog. Med tiden er de nye søgemaskiner, såsom Google, blevet ret gode til alligevel at opsnappe de usynlige hjemmesider, men ikke dokumenterne. I starten fandt de almindelige søgemaskiner kun html hjemmesider, i dag finder de også excel, word og andre almindelige filformater.

Man anslår at der findes 10 mia. dokumenter og hjemmesider på internettet. Herudover findes der også 500 mia. usynlige dokumenter, som der ikke direkte linkes til.

Tre årsager til at der eksisterer usynlige dokumenter

Ingen linker direkte til dokumenterne
Søgemaskinerne fungerer således, at de kun finder hjemmesider der linkes til, fra en hjemmeside som allerede er kendt af søgemaskinen. Den primære årsag til, at der ikke linkes til dokumenterne fra nogle hjemmeside er, at de personer der har lagt dokumenterne på nettet ikke ønsker at alle og enhver skal kunne få adgang til dem, så det er kun relevante personer der kender dokumentets placering. Når der ikke linkes til dokumentet på nogle hjemmesider så forbliver dokumentet simpelthen usynligt for søgemaskinerne, som hverken kan se eller finde dem.

Søgemaskinerne kan ikke trække oplysninger ud af databaser
Den anden årsag til, at der eksisterer et usynligt internet er, at de almindelige søgemaskiner ikke kan søge i databaser. De oplysninger og dokumenter som ligger i databaser, kan kun komme frem når der søges i databasen, altså laves en forespørgsel. De alm. søgemaskiner finder kun dokumenter der linkes direkte til, de kan ikke søge i databaser på det søgeord du angiver på søgemaskinen.

Nogle dokumentformater er svære at læse for søgemaskinerne
Den sidste årsag til, at der eksisterer usynlige dokumenter er, at hele pdf-dokumenter ikke kan forventes indekseret af Google (og andre almindelige søgemaskiner). Google ser nemlig ud til at stoppe ved 120K hvorimod alletheweb.com ser ud til at indeksere hele pdf-dokumentet.

Nogle søgemaskiner indekserer slet ikke bestemte fil-formater (såsom pdf og lign.), og igen er det heller ikke sikkert at de indekserer hele indholdet fra dokumentet.

Der er altså en hel del begrænsninger i de almindelige søgemaskiner. Begrænsningerne ligger i søgemaskinens crawler. Crawleren er den store computer der gennemsøger internettet for indhold og den er ikke i stand til, at trække dokumenter og oplysninger ud af databaser.

Der findes en række søgemaskiner som arbejder på at finde og registrere dokumenter fra det usynlige internet (de kaldes for deep web eller invisible web search engines). Søgemaskinerne forsøger at søge dybere på hver hjemmeside end andre søgemaskiner eller de kan henvise dig videre til en database som indeholder det dokument du søger.

Nogle af disse søgemaskiner er generelle - andre er fagportaler. Hvis man virkelig skal finde et godt gemt dokument, så skal man have en god viden om hvilke dokumenter man går efter, hvem der kan have produceret dokumentet samt hvilken institution, virksomhed, myndighed eller person der kan have lagt dokumentet på nettet.

Du skal væk fra tankegangen om, at hvis en søgemaskine ikke kan finde dokumentet, så eksisterer det nok ikke. Søgemaskinerne er ikke den eneste vej til at finde oplysninger på nettet. Du skal muligvis have fat i en deep web/invisible web søgemaskine, som kan henvise dig til de databaser der kan indeholde de oplysninger du skal bruge. Når du har fundet databasen skal du selv finde oplysningerne ved at søge i den.

Du vil derfor nogen gange få behov for deep web fagsøgemaskiner, som kan finde den helt korrekte database til dig, eller præsentere dig for en oversigt over de databaser der findes indenfor området, så du selv kan prøve dig frem og finde databasen med de rigtige oplysninger.

Nogle oplysninger kan altså være sværere at finde end andre, men det betyder ikke at de er usynlige eller utilgængelige. De er kun usynlige for søgemaskinerne.

Sådan kommet du ud på The Invisible Web / Deep Web:
www.completeplanet.com Indeholder direkte links til 70.000 databaser som søgemaskinerne ikke kan trække oplysninger ud af. Du skal derfor selv søge i databaserne for at finde de oplysninger du skal bruge. Completeplanet kalder sig selv for hoveddøren til Invisible web. For en meget effektiv Invisible web-søgning, prøv Advanced Search med mulighed for datointervalsøgning.

Pipl.com Finder informationer om personer som ikke er at finde via normale søgemaskiner. Søgemaskinen er indstillet anderledes end de normale søgemaskiner, så den i højere grad har succes med at opsnappe persondata fra f.eks. Hoovers, Icq, Myspace osv. Ved at søge i mapper og filer på hjemmesiderne som normale søgemaskiner ikke kender.

Infomine Er en database opbygget i samarbejde af forskellige biblioteker i USA. Her findes informationer fra elektroniske databaser, tidsskrifter, bøger og mange andre ressourcer fra the invisible web.

DeepPeep DeepPeep forespørger forskellige Invisble web sider om informationer via formularer på siden. Siden viser kortlivede resultater der er så kort på nettet at de ikke kan indekseres af normale søgemaskiner. F.eks. indenfor biologi, bøger, hotel, job og forskellig udlejning. Databasen trækker indtil videre informationer ud af 7 domæner.

Incywincy.com Er en ægte Invisible web-søgemaskine.

Læs selv videre om emnet
Deepwebwhitepaper.pdf Rapport om The Deep Web



Tilbage

© Copyright Kim Henrik Larsen & Netdetektiverne. Materialet må under ingen omstændigheder anvendes i andre sammenhæng eller under nogen form kopieres eller gengives på andre hjemmesider. Der må heller ikke linkes direkte til denne underside eller deep linkes. Artiklen må dog gerne anvendes af undervisere og journalister, med kildehenvisning.