Definitie van Web Spidering en Webcrawlers
Intro To Web Crawlers & Scraping With Scrapy
Inhoudsopgave:
- Spammers Spider Websites om informatie te verzamelen
- Tips voor het beschermen van uw website tegen ongewenste robotcrawlers
- Gerelateerde artikelen en informatie
Spiders zijn programma's (of geautomatiseerde scripts) die door het web 'kruipen' op zoek naar gegevens. Spiders reizen door website-URL's en kunnen gegevens ophalen van webpagina's zoals e-mailadressen. Spiders worden ook gebruikt voor het voeden van informatie die op websites wordt gevonden voor zoekmachines.
Spiders, ook wel 'webcrawlers' genoemd, doorzoeken het internet en zijn niet allemaal vriendelijk in hun opzet.
Spammers Spider Websites om informatie te verzamelen
Google, Yahoo! en andere zoekmachines zijn niet de enigen die geïnteresseerd zijn in het crawlen van websites, net als oplichters en spammers.
Spiders en andere geautomatiseerde hulpmiddelen worden door spammers gebruikt om e-mailadressen (op internet deze praktijk wordt vaak 'oogsten' genoemd) op websites te vinden en deze vervolgens te gebruiken om spamlijsten te maken.
Spiders zijn ook een hulpmiddel dat door zoekmachines wordt gebruikt om meer informatie over uw website te vinden, maar als dit niet wordt aangevinkt, kan een website zonder instructies (of 'permissies') over het crawlen van uw site belangrijke informatiebeveiligingsrisico's met zich meebrengen. Spiders reizen door het volgen van links, en ze zijn erg bedreven in het vinden van links naar databases, programmabestanden en andere informatie waartoe je misschien niet wilt dat ze toegang hebben.
Webmasters kunnen logboeken bekijken om te zien welke spiders en andere robots hun sites hebben bezocht. Deze informatie helpt webmasters bij het indexeren van hun site en hoe vaak.
Deze informatie is nuttig omdat het webmasters toestaat hun SEO te verfijnen en robot.txt-bestanden bij te werken om te voorkomen dat bepaalde robots hun site in de toekomst zullen doorzoeken.
Tips voor het beschermen van uw website tegen ongewenste robotcrawlers
Er is een redelijk eenvoudige manier om ongewenste crawlers buiten uw website te houden. Zelfs als u niet bang bent dat kwaadwillende spiders uw site crawlen (versluierend e-mailadres beschermt u niet tegen de meeste crawlers), moet u toch zoekmachines belangrijke instructies geven.
Alle websites moeten een bestand hebben dat zich in de hoofdmap bevindt en dat een robots.txt-bestand wordt genoemd. Met dit bestand kunt u webcrawlers aangeven waar ze naar indexpagina's moeten kijken (tenzij anders vermeld in de metagegevens van een specifieke pagina om niet te worden geïndexeerd) als ze een zoekmachine zijn.
Net zoals u gewenste crawlers kunt aangeven waar u ze wilt laten bladeren, kunt u ze ook vertellen waar ze mogelijk niet naartoe gaan en zelfs specifieke crawlers blokkeren van uw hele website.
Het is belangrijk om in gedachten te houden dat een goed samengesteld robots.txt-bestand een enorme waarde heeft voor zoekmachines en zelfs een sleutelelement kan zijn bij het verbeteren van de prestaties van uw website, maar sommige robotcrawlers zullen uw instructies nog steeds negeren. Om deze reden is het belangrijk om altijd al uw software, plug-ins en apps up-to-date te houden.
Gerelateerde artikelen en informatie
Vanwege de prevalentie van het verzamelen van informatie die werd gebruikt voor schandelijke (spam) doeleinden, werd in 2003 wetgeving aangenomen om bepaalde praktijken illegaal te maken. Deze consumentenbeschermingswetgeving valt onder de CAN-SPAM-wet van 2003.
Het is belangrijk dat u de tijd neemt om de CAN-SPAM-wet te lezen als uw bedrijf massaal mailt of informatie verzamelt.
U kunt meer lezen over antispamwetten en hoe u met spammers moet omgaan, en wat u als bedrijfseigenaar misschien niet doet, door de volgende artikelen te lezen:
- CAN-SPAM Act 2003
- CAN-SPAM-actieregels voor non-profitorganisaties
- 5 CAN-SPAM-regels Eigenaars van kleine bedrijven moeten het begrijpen
Definitie en gevolgen van overspel in het leger
Is overspel nog steeds een misdrijf onder het militaire rechtssysteem? Hoewel het geen officiële overtreding is onder het UCMJ, is het antwoord zowel ja als nee.
Definitie van "Turnkey-voorwaarde" in onroerend goed
De definitie van "Turnkey-voorwaarde" in onroerend goed beschrijft een ruimte voor aankoop of huur die zich in in-toestand bevindt.
Definitie van Legal Process Outsourcing (LPO)
Uitbesteding van juridische processen, of LPO, is de export van juridische diensten naar lagelonenlanden in het buitenland. Hier is een overzicht van de praktijk.