Scritto il: lunedì, 8 settembre 2008 - 09:54:16

JobCrawlerBot

Con che frequenza JobCrawlerBot accede alle pagine da indicizzare?

Normalmente l’indicizzazione dei siti viene fatta ogni ora. Può accadere però che, per motivi di aggiornamento dei dati o di manutenzione, tali tempistiche non siano rispettate. In questi casi, la successiva indicizzazione recupera le informazioni non indicizzate dalla precedente scansione. Se noti dei dati non allineati o discordanti, informaci alla nostra pagina dei contatti

 

Come posso verificare se JobCrawlerBot accede al mio sito? Con quale User-Agent indicizzate i siti?

Dal punto di vista tecnico puoi controllare nel log degli accessi del tuo webserver e cercare se appare come User-Agent una scritta uguale a JobCrawlerBot 1.0 oppure più semplicemente contattarci da questa pagina: saremo lieti di risponderti.

 

Come posso fare in modo che JobCrawlerBot non indicizzi alcune parti del mio sito?

Tramite il documento standard robots.txt, è possibile avvisare JobCrawlerBot di non indicizzare delle pagine del proprio sito. Il formato di robots.txt è indicato negli standard di esclusione dei Robot. Quando viene decisa l’indicizzazione di una pagina, JobCrawlerBot controlla se, all’interno di robots.txt vi è un’esclusione diretta verso di lui verificando se il proprio User-Agent, è indicato in questo file. Se non è indicato vi è un successivo controllo per “*”.
Le specifiche di robots.txt sono disponibili a questo indirizzo http://www.robotstxt.org/wc/exclusion.html#robotstxt. Per gestire il file robots.txt, è sufficiente porre tale file all’interno del proprio web server. Tale file farà da filtro sia a JobCrawlerBot che ad ogni altro motore di ricerca.

 

Perché JobCrawlerBot cerca il file robots.txt che non è presente sul mio server?

robots.txt è uno standard che indica, ai motori di ricerca, di non indicizzare delle pagine sul proprio sito. Per evitare l’errore di file non trovato, all’interno dei tuoi log, basta creare un file robots.txt vuoto.

 

Perché JobCrawlerBot prova a scaricare pagine che non esistono sul mio sito?

JobCrawlerBot è programmato per andare, in momenti stabiliti, ad indicizzare determinate pagine. Se la struttura del sito cambia, e il motore non se ne accorge, potrebbe esserci un periodo di tempo in cui, le vecchie pagine, continuano ad essere cercate. In questi casi, appena l’errore viene scoperto, viene tendelzialmente sistemato. Eventualmente puoi avvisarci tramite la nostra pagina dei contatti

 

Perché JobCrawlerBot non obbedisce alle direttive presenti nel file robots.txt?

JobCrawlerBot obbedisce alle direttive presenti in robots.txt. Può capitare il caso in cui, per errori software o problemi di configurazione, le indicazioni di tale file non siano osservate nel modo corretto. Se è questo il caso, prima di tutto controlla che il tuo file sia correttamente configurato e risponda allo standard http://www.robotstxt.org/wc/exclusion.html#robotstxt. Nel caso sia tutto corretto, scrivi nella nostra pagina dei contatti, indicando quale pagina è stata indicizzata per errore.

 

Voglio che JobCrawlerBot indicizzi il mio sito di offerte di lavoro. Come posso fare?

Contattaci usando questa pagina: ti risponderemo il piu' presto possibile. Ti anticipiamo che verranno messe in priorità quelle pagine nelle quali gli annunci di lavoro seguono uno schema fisso nella loro definizione, quelle pagine che siano ben dscrittive e contengano tutti quei dati minimi per definire seria un'offerta di lavoro, che daremo priorità a quei siti dove è ben chiaro chi è il datore di lavoro; in alcuni casi potrà esser necessario richiedere una compartecipazione delle spese poter per effettauare tale integrazione, soprattutto quando il sito che si propone in modo voluto ha una forma tecnologicamente complessa o contiene un numero di dati da elaborare e verificare in automatico importante.