Përkufizimi i Spidering dhe Crawlers Web

Spiders & Crawlers Web: Çfarë duhet të dini për të mbrojtur të dhënat e internetit

Spiders janë programe (ose scripts automatizuar) që 'zvarriten' përmes Web në kërkim të të dhënave. Merimangat udhëtojnë përmes URL-ve të internetit dhe mund të tërheqin të dhëna nga faqet e internetit si adresat e-mail. Spiders gjithashtu janë përdorur për të ushqyer informacionin e gjetur në faqet e internetit për motorët e kërkimit.

Merimangat, të cilave u referohemi edhe si 'web crawlers' kërkojnë në Web dhe jo të gjitha janë miqësore në qëllimin e tyre.

Spammers Spider Websites për të mbledhur informacione

Google, Yahoo!

dhe motorë të tjerë të kërkimit nuk janë të vetmit që janë të interesuar në faqet e internetit të zvarritjes - kështu që janë të përhershme dhe spammers.

Spiders dhe mjete të tjera të automatizuara përdoren nga spammers për të gjetur adresat e e-mail (në internet kjo praktikë shpesh përmendet si 'korrje') në faqet e internetit dhe pastaj përdoret për të krijuar lista spam.

Spiders janë gjithashtu një mjet i përdorur nga motorët e kërkimit për të zbuluar më shumë informacion në lidhje me faqen tuaj të internetit, por nuk janë kontrolluar, një faqe interneti pa udhëzime (ose 'leje') se si të zvarritësh faqen tënde mund të paraqesë rreziqe të mëdha të sigurisë së informacionit. Spiders udhëtojnë duke ndjekur lidhjet, dhe ata janë shumë të aftë të gjejnë lidhje me bazat e të dhënave, skedarët e programeve dhe informacione të tjera për të cilat ju nuk dëshironi që ata të kenë qasje.

Webmasters mund të shikoni shkrimet për të parë se çfarë merimangat dhe robotët e tjerë kanë vizituar faqet e tyre. Ky informacion ndihmon webmasters të dinë se kush po indekson faqen e tyre dhe sa shpesh.

Ky informacion është i dobishëm, sepse lejon webmasters të rregullojnë mirë SEO-in e tyre dhe përditësojnë skedarët robot.txt për të ndaluar robotë të caktuar nga zvarritja e faqes së tyre në të ardhmen.

Këshilla për mbrojtjen e faqes tuaj nga robotët e padëshiruar robot

Ka një mënyrë mjaft të thjeshtë për të mbajtur crawlers padëshiruar nga faqen tuaj te internetit. Edhe nëse nuk jeni të shqetësuar për spiders keqbërës zvarritje faqen tuaj (obfuscating adresën e-mail nuk do të ju mbrojnë nga shumica e crawlers), ju duhet ende të sigurojë motorët e kërkimit me udhëzime të rëndësishme.

Të gjitha faqet e internetit duhet të kenë një skedar të vendosur në direktorinë rrënjë të quajtur një skedar robots.txt. Ky skedar ju lejon të udhëzoni crawlers web ku ju doni që ata të shikojnë në faqet e indeksit (përveç nëse nuk është deklaruar ndryshe në meta të një faqeje specifike për t'u indeksuar) nëse ato janë një motor kërkimi.

Ashtu si ju mund të tregoni crawlers të kërkuar, ku ju dëshironi që ata të shfletoni, ju gjithashtu mund të tregoni atyre ku ata nuk mund të shkojnë dhe madje të bllokojnë crawlers specifike nga faqja juaj e internetit.

Është e rëndësishme të kihet parasysh se një skedar robots.txt me një vlerë të mirë do të ketë vlerë të madhe për motorët e kërkimit dhe mund të jetë edhe një element kyç në përmirësimin e performancës së faqes suaj, por disa robot crawlers do të injorojnë udhëzimet tuaja. Për këtë arsye, është e rëndësishme që të gjitha softuerët, shtojcat dhe aplikacionet tuaja të përditësohen në çdo kohë.

Artikuj dhe informacione të ngjashme

Për shkak të prevalencës së korrjeve të informacionit të përdorur për qëllime të poshtërta (spam), legjislacioni u miratua në vitin 2003 për të bërë disa praktika të paligjshme. Këto ligje të mbrojtjes së konsumatorit bien nën aktin CAN-SPAM të vitit 2003.

Është e rëndësishme që të merrni kohë për të lexuar në CAN-SPAM Akti në qoftë se biznesi juaj angazhohet në ndonjë postim në masë ose mbledhjen e informacionit.

Ju mund të gjeni më shumë rreth ligjeve anti-spam dhe se si të merreni me spammers, dhe atë që ju si një pronar biznesi nuk mund të bëni, duke lexuar nenet e mëposhtme: