Onze zoektechnologie is anders dan die van alle andere zoekmachines. We zouden er nu een hoop ingewikkelde termen tegen aan kunnen gaan gooien, zoals verfijning en relevantie en geavanceerde algoritmes. En al deze termen beschrijven waarom zoeken met Ask.com zo krachtig is. Maar… Wat echt belangrijk isgenc
te weten, is dat wij een hele nieuwe dimensie aan uw zoekresultaten toevoegen. In plaats van dat we de rangorde van onze resultaten baseren op de websites waarnaar de meeste koppelingen verwijzen, analyseren wij het web op natuurlijke wijze - in de gemeenschappen die specifiek zijn voor een onderwerp – en bepalen op die manier welke resultaten het meest relevant zijn.
Veel gestelde vragen over onze webcrawler
De Ask-webcrawler is de indexeerrobot van Ask.com (of crawler/spider, zoals ze worden genoemd in de wereld van "het zoeken"). De crawler verzamelt bestanden van het Internet om de immer uitdijende index te bouwen die we gebruiken voor de geavanceerde zoekfunctionaliteiten van Ask.com.
Ask.com is uniek en verschilt van alle andere zoektechnologieën omdat het zijn analyse van het Internet doet zoals het Internet is – verdeeld in gemeenschappen die specifiek voor een onderwerp zijn. Het proces begint bij de ontwikkeling van een allesomvattende index van hoge kwaliteit. Webcrawlen is een belangrijk aspect van dit proces en het zorgt ervoor dat we de meeste recente zoekresultaten kunnen leveren.
Op deze pagina vindt u antwoorden op veel gestelde vragen over de webcrawler van Ask.com.
A: Een webcrawler (ook wel spider of robot) is een softwareprogramma dat ontwikkeld is om alle koppelingen te volgen op een website en om de pagina's van websites op te halen en te indexeren, met als doel deze te gebruiken voor de zoektechnologie van Ask.com. De webcrawlers zijn onschadelijk en richten geen schade aan op websites of servers.
V: Waarom maakt Ask.com gebruik van webcrawlers?
A: Ask.com maakt gebruik van webcrawlers om onbewerkte gegevens en informatie te verzamelen en die te gebruiken om ons immer groeiende zoekindex mee te bouwen. Het webcrawlen zorgt ervoor dat de informatie in onze resultaten zo recent en zo relevant mogelijk is. Onze webcrawlers zijn van hoogwaardige kwaliteit en worden vakkundig toegepast. Ze leveren een service van onschatbare waarde die voldoen aan de normen van de zoektechnologie-industrie.
V: Hoe werkt de webcrawler?
De webcrawler gaan naar een Internetadres (URL) en haalt de HTML-pagina op.
De webcrawler volgt de koppelingen van de pagina, die zich op dezelfde website of op andere websites kunnen bevinden.
De webcrawler voegt nieuwe URL's toe aan zijn lijst van internetadressen die later ook bezocht zullen gaan worden door de webcrawler. Het herhaalt deze handeling stelselmatig en ontdekt op deze manier steeds nieuwe internetadressen, volgt vervolgens weer de koppelingen op deze nieuwe pagina's en haalt ze op.
De webcrawler sluit sommige internetadressen uit als er een voldoende aantal pagina's van de desbetreffende website zijn opgehaald of als het erop lijkt dat het internetadres identiek is aan een internetadres dat al eerder opgehaald was.
De bestanden van de internetadressen die via de webcrawler opgehaald zijn, worden vervolgens in een zoekcatalogus geïntegreerd. Deze internetadressen worden als onderdeel van zoekresultaten getoond op de website, die worden gestuurd door de technologie van Ask.com als een relevant passend paar wordt gevonden.
V: Hoe vaak haalt de Ask- webcrawler pagina's van mijn website op?
A: De webcrawler haalt één slechts een pagina per bezoek van uw website op (en in het bijzonder van uw IP-adres). Als hij een pagina heeft ontvangen, onderbreekt hij zijn actie even alvorens de volgende pagina op te halen. Deze onderbrekingstijd kan variëren van 0,1 seconde tot uren. Hoe sneller uw website reageert op het verzoek van de webcrawler, hoe korter de onderbrekingstijd.
V: Kan ik voorkomen dat de zoekmachine van Ask.com een kopie van mijn pagina uit het cachegeheugen toont?
A: Ja. Wij eerbiedigen de "noarchive" meta tag. Als u de volgende opdracht in uw HTML-pagina zet, zullen we geen gearchiveerde kopie van het document aan de gebruiker beschikbaar stellen. < META NAME = "ROBOTS" CONTENT = "NOARCHIVE" >
Als u deze restrictie alleen voor Ask.com wilt instellen, kunt u "Teoma" in plaats van "robots" gebruiken.
V: Eerbiedigt Ask.com de Robot Exclusion Standard?
A: Ja, wij eerbiedigen de 1994 Robots Exclusion Standard (RES), die deel uitmaakt van het Robot Exclusion Protocol. Het Robot Exclusion Protocol is een methode waarmee systeembeheerders aan kunnen geven welke delen van hun website niet door de robot bezocht mogen worden. Voor meer informatie over de RES en het Robot Exclusion Protocol, kunt u http://www.robotstxt.org/wc/exclusion.html (in het Engels) raadplegen.
V: Kan ik voorkomen dat de Ask-webcrawler mijn website/URL of een deel ervan indexeert?
A: Ja. De Ask-webcrawler eerbiedigt en volgt opdrachten waarmee gevraagd wordt om delen van of hele Internetadressen (URL) niet te indexeren. Om aan te geven dat de Ask-webcrawler alleen pagina's waarvan het pad begint met /public mag bezoeken, voegt u de volgende zinnen toe:
# Allow only specific directories
User-agent: Teoma
Disallow: / Allow: /public
V: Waar plaats ik mijn robots.txt bestand?
A: Uw bestand moet zich bevinden op het topniveau van uw website. Als bijvoorbeeld www.mijnsite.nl de naam is van uw website, dan moet het bestand robot.txt zich bevinden op http://www.mijnsite.nl/robots.txt.
V: Hoe kan ik zien dat de Ask-webcrawler mijn website/URL heeft bezocht?
A: Om vast te stellen dat uw website door de Ask-webcrawler bezocht is, moet u naar de logbestanden van uw server kijken. In het bijzonder moet u naar de volgende reeks van de user-agent zoeken:
User-Agent: Mozilla/2.0 (compatible; Teoma)
V: Hoe kan ik voorkomen dat de Ask-webcrawler mijn pagina of verwijzende koppelingen van een specifieke pagina indexeert?
A: Als u de volgende opdracht in de sectie van uw HTML-pagina plaatst, zal de Ask-webcrawler het bestand niet indexeren en zal het dus ook niet in onze zoekresultaten verschijnen:
< META NAME = "ROBOTS" CONTENT = "NOINDEX" >
De volgende opdracht laat de Ask-webcrawler weten dat het een bestand moet indexeren maar niet de koppelingen ervan moet volgen:
< META NAME = "ROBOTS" CONTENT = "NOFOLLOW" >
U kunt alle opdrachten UIT zetten met het volgende:
V: Waarom haalt de Ask-webcrawler dezelfde pagina meerdere keren op?
A: In het algemeen zou de Ask-webcrawler maar één kopie van ieder bestand van uw website moeten maken tijdens een webcrawl. Er zijn twee uitzonderingen:
Een URL kan een opdracht bevatten die de crawler "redirect" naar een andere URL. Dit kan bereikt worden door middel van de HTML-opdracht:
< META HTTP-EQUIV="REFRESH" CONTENT="0; URL=http://www.your page address here.html" >
of met de HTTP status codes 301 of 302. In dit geval haalt de webcrawler de tweede pagina op in plaats van de eerste. Als veel URL's naar de zelfde pagina verwijzen, kan het zijn dat deze tweede pagina vele malen opgehaald wordt voordat de webcrawler zich realiseert dat deze pagina's duplicaten zijn.
Een HTML-pagina kan een "frameset" zijn. Dergelijke pagina's zijn samengesteld uit meerdere componenten, genaamd "frames". Als veel frameset-pagina's hetzelfde frame als componenten bevatten, kan het zijn dat de componentpagina vele malen opgehaald wordt voordat de webcrawler zich realiseert dat deze componenten duplicaten zijn.
V: Waarom probeert de Ask-webcrawler incorrecte koppelingen van mijn server op te halen? Of van een server die niet bestaat?
A: Het is een eigenschap van het Internet dat koppelingen verbroken kunnen worden of niet meer geldig kunnen zijn. Als een internetpagina een verbroken of gedateerde koppeling naar uw website bevat, of naar een website die nooit bestaan heeft of niet meer bestaat, bezoekt Ask.com deze koppeling om te proberen de webpagina te vinden waarnaar verwezen wordt. Dit kan tot gevolg hebben dat de webcrawler URL's opvraagt die niet meer bestaan of nooit bestaan hebben, of HTTP-verzoeken doet op IP-adressen die geen webserver hebben of nooit een hebben gehad. De webcrawler genereert geen willekeurige adressen: hij volgt koppelingen. Daarom is het mogelijk dat u ook bedrijvigheid kunt waarnemen op een computer die geen webserver is.
V: Hoe heeft de Ask-webcrawler mijn URL gevonden?
A: De Ask-webcrawler vindt pagina's door koppelingen (HREF tags in HTML) van andere pagina's. Als de webcrawler een pagina vindt die frames bevat (het is dus een frameset), haalt de webcrawler de componentframes op en neemt de inhoud ervan op als deel van de oorspronkelijke pagina. De Ask-webcrawler indexeert geen componentframes als URL's als zodanig tenzij ze gekoppeld zijn door middel van de HREF opdracht van andere websites.
V: Wat voor type koppelingen volgt de Ask-webcrawler?
A: De Ask-webcrawler volgt koppelingen van het type HREF, SRC and redirects.
V: Neemt de Ask-webcrawler ook dynamische URL's op?
A: We nemen een selectief aantal dynamische URL's in onze index op. Er wordt echter wel zo goed mogelijk gecontroleerd dat er geen duplicaten worden opgehaald.
V: Waarom heeft de Ask-webcrawler mijn URL niet bezocht?
A: Als de Ask-webcrawler uw URL niet bezocht heeft, komt dat omdat we geen koppeling naar die pagina hebben ontdekt vanaf andere pagina's die we bezocht hebben.
V: Ondersteunt de Ask-webcrawler HTTP compressie?
A: Jazeker. Client en server HTTP moeten dit ondersteunen om de HTTP-compressie te laten werken. Indien dit ondersteund wordt, laat het webservers gecomprimeerde bestanden verzenden (met gebruik van gzip of andere formaten) in plaats van de werkelijke bestanden. Dit zou moeten resulteren in een verminderd gebruik van de bandbreedte aan de server en clientkant. Er zal wat verlies optreden door het coderen/decoderen, maar toch een netto positief resultaat opleveren. Gebruik maken van een bekende compressiemethode zoals gzip is het mogelijk om de bestandsgrootte met 75% te verminderen.
V: Hoe meld ik mijn website/URL aan bij Ask.com, opdat hij geïndexeerd zal worden?
A: We waarderen uw belangstelling voor de opname van uw website in de index van Ask.com Nederland. U kunt het best het door Ask.com ondersteunde Sitemaps-protocol raadplegen, dat te vinden is op: http://www.sitemaps.org/. Als u een sitemap voor uw website gemaakt heeft, kunt de sitemap auto-discovery directive aan uw robots.txt-bestand toevoegen, of uw sitemap direct bij ons aanmelden via de ping URL. (Voor meer informatie kunt u ook kijken bij "Ondersteunt Ask.com sitemaps?"). Merk op dat het aanmelden van sitemaps geen garantie is dat de URL's ook geïndexeerd worden.
Als u de eigenaar/webmaster van een website bent, raden we u aan om onderzoek te doen op het Internet naar tips en nuttige informatie over hoe u het best uw website kunt bouwen en te optimaliseren voor zoekmachines, hoe ze indexeren en hoe ze reageren op verschillende zoektermen.
V: Waarom verschijnen de pagina's die de Ask-webcrawler geïndexeerd heeft, niet in de zoekresultaten?
A: Als u uw pagina's niet geïndexeerd ziet in onze zoekresultaten, maakt u zich geen zorgen. Omdat we zoveel aandacht besteden aan de kwaliteit van onze index, kan het soms even duren voordat de resultaten van een crawl verwerkt zijn en verschijnen in onze databank. Ask.com verwerkt niet alle websites per definitie in zijn index.
V: Kan ik de verzoekratio van de Ask-webcrawler voor mijn website zelf beheersen?
A: Ja. We ondersteunen "Crawl-Delay" robots.txt verzoeken. Hiermee kunt u de minimale tijdseenheid tussen twee ophaalverzoeken van onze webcrawler instellen.
V: Hoe kan ik de Ask Crawler authentiseren?
A: Een User-Agent geeft geen garantie van authenticiteit en het is eenvoudig voor kwaadwillige gebruikers om de eigenschappen van de Ask Crawler na te bootsen. Om de Ask Crawler eenduidig the authentiseren is een round trip DNS lookup vereist. Hiervoor moet het IP-adres van de Ask Crawler gebruikt worden en een reverse DNS lookup uitgevoerd worden om er zeker van te zijn dat het IP-adres tot het domein van Ask.com behoort. Doe daarna een forward DNS lookup met de naam van de host om er zeker van te zijn dat het resulterende IP-adres identiek aan het origineel is.
V: Ondersteunt Ask.com sitemaps?
A: Ja, Ask.com ondersteunt het open-format Sitemaps protocol. Als de sitemap klaar voor gebruik is, kan het aan robots.txt toegevoegd worden volgens de auto-discovery richtlijnen. Dit gaat als volgt:
SITEMAP: http://www.de URL van uw sitemap hier.xml.
De sitemaplocatie moet de volledige sitemap-URL zijn. U kunt ook uw sitemap aanmelden via de ping URL:
http://submissions.ask.com/ping?sitemap=http://www.de URL van uw sitemap hier.xml
Merk op dat het aanmelden van sitemaps geen garantie is dat de URL's ook geïndexeerd worden. Om meer over dit protocol te weten te komen, kunt u de Sitemaps-website raadplegen op: http://www.sitemaps.org.
V: Hoe kan ik Ask.com zoeken aan mijn website toevoegen?
A: Klik hier voor instructies om Ask.com zoeken aan uw website toe te voegen.
Welke karaktercodering moet ik gebruiken? Ask.com gaat er vanuit dat de zoektermen die u invoert UTF-8 codering gebruiken. Als dit niet het geval is, kunt u de codering die uw website gebruikt aanpassen in het verborgen formulierveld "genc". Bekijk de lijst van ondersteunde karaktersets hieronder.
Het is van groot belang dat u ons laat weten welke codering u heeft gebruikt zodat we de zoekopdracht op de juiste manier benaderen. Dit is zeker het geval bij het gebruik van speciale karakters of als non-latin karaktersets gebruikt worden. Als u niet de juiste codering instelt, kunnen er karakters in de zoektermen ontbreken of misschien zelfs incorrecte karakters in de zoektermen verschijnen (meestal een vraagteken). In beide gevallen zal het resulteren in slechte zoekresultaten voor de gebruiker.
De volgende karaktersets worden momenteel door de "genc" parameter ondersteund:
utf-8
iso-8859-1
shift_jis
euc-jp
Hoe bepaal ik de codering van mijn website?
De codering die u gebruikt wordt door uw website wordt waarschijnlijk bepaald in de META tag in uw broncode. Bekijk de bron van de pagina waaraan u de Ask.com zoeken search box wilt toevoegen en zoek de volgende tekst:
Charset bepaalt de codering die uw website gebruikt. In dit geval geeft charset aan dat de paginacodering ISO-8859-1 (or, Latin-1) is. Als gevolg daarvan zou u de bovenstaande HTML formuliercode moeten bijwerken door de waarde van het "genc" verborgen formulierveld op "ISO-8859-1" in te stellen.
Wat gebeurt er als de codering van mijn pagina niet in de lijst van ondersteunde karaktersets staat?
Als uw website een codering gebruikt die niet in de lijst hierboven staat en u toch een Ask.com zoeken search box aan uw pagina wilt toevoegen, neemt u dan contact op met onze Helpdesk en voeg er de volgende informatie aan toe:
1. De URL van de pagina waaraan u de Ask.com zoeken search box wilt toevoegen
2. De codering die u ondersteund wilt zien door Ask.com
We doen ons best om de ondersteuning voor de gewenste codering te realiseren en laten het weten zodra de ondersteuning voor het verkeer op uw website gereed is.