![]() |
|
TLink
Pour plus d'aide, consultez le forum.
I. Présentation
TLink est un moteur permettant de parcourir le WWW. Il parcourt les pages, récupère les liens qu'elles contiennent et navigue ensuite sur les nouvelles pages ainsi découvertes. TLink permet donc l'exploration du WWW.
Bien entendu, TLink ne se contente pas de parcourir le WWW. Il peut effectuer différents travaux lors de sa navigation, comme par exemple, la détection des liens morts.
TLink est conçu pour pour effectuer des tâches modérées. En général, un parcours ne devrait pas excéder quelques 100'000 liens. Le but de TLink est d'effectuer des travaux divers sur des parties présicément définies du WWW (parcours d'un site en particulier par exemple). Cela dit, TLink est très personnalisable, ce qui permet de lui faire effetuer des tâches qui sortiraient de son cadre de conception. N'espérez cependant pas transformer TLink en Googlebot.
TLink fonctionne grâce à un système de plugins. Vous pouvez créer ou télécharger des plugins effectuant différentes tâches. La tâche la plus évidente est le test des liens morts mais vous pouvez créer un plugin permettant de traquer les URL d'une certaine formes ou encore un plugin établissant une carte de votre site... Il vous suffira de paramétrer TLink pour utilisez le plugin que vous avez réalisé ou téléchargé.
La création de plugins a été simplifiée au maximum. Si vous possédez quelques connaissances en C++ (et si vous savez créer des DLLs), la réalisation d'un plugin devrait être l'affaire de quelques heures. Ceci vous permet de personnaliser TLink au maximum pour effectuer les tâches les plus diverses.
TLink a été conçu pour pouvoir être exécuté par des programmes externes, un script ou un planificateur de tâches par exemple. Dans cette optique, l'ensemble de la configuration de TLink peut se faire par fichier d'option (au format texte). Un script peut ainsi générer un fichier d'options, puis appeler TLink sans aucune intervention de la part de l'utilisateur.
II. Fonctionnement
1. Aperçu
De manière très générale, TLink parcours le WWW de page en page. Sur chaque page parcourue, TLink récupère les liens et les ajoute à sa liste de parcours. Dès qu'une page est parcourue, TLink passe un certain nombre d'informations (URL de la page, code de l'entête HTTP...) concernant cette page au plugin qui effectue ensuite le travail demandé. Ce travail peut être extrèmement varié. Lorsque le parcours prend fin, le plugin est appelé une nouvelle fois pour créer les fichiers de sortie (compte rendu, résultat du parcours, rapport d'erreur...).
Le problème est que le parcours d'un site pourrait très rapidement se transformer en parcours du WWW tout entier en passant de lien en lien. Pour éviter celà, vous devez imposer un certain nombre de restrictions a TLink, indiquant quels sites il est autorisé à parcourir. Lors de son parcours, TLink évitera les sites qui ne lui sont pas explicitement autorisé. De cette manière il est possible de restraindre l'exploration à la partie du WWW désirée, comme par exemple, votre site WEB.
TLink peut cependant être configuré pour tester les liens qu'il n'est pas autorisé à parcourir. Si TLink rencontre un lien vers un site extérieur, il testera si la page est valide ou non et appelera le plugin avec les informations obtenues. TLink se limitera au test de la validité de la page. Il ne récupérera pas les liens contenus dans la page. C'est une manière de tester les liens morts (même si ils sont externes au site parcouru) sans parcourir tout le WWW.
Pour accélérer la navigation, TLink peut parcourir plusieurs pages à la fois. Le problème est que le parcours d'un nombre trop important de pages simultannées peut entrainer des erreurs sur certains sites (par exemple les sites accédant à des bases de données). Pour éviter cela, TLink permet de spécifier le nombre maximal de connexions simultannées en fonction du type de page. Par exemple, vous pouvez parcourir lentement les pages PHP, ASP ou HTML et rapidement les images. De cette manière vous n'obtiendrez pas d'erreurs car seules les pages peuvent invoquer des connexions à des bases de données. Ce principe permet une exploration beaucoup plus rapide d'un site tout en évitant les erreurs. La vitesse navigation du site peut ainsi être augmentée de 30 à 60%.
2. Navigation
Lors de la navigation, TLink utilise un gestionnaire de liens. Ce gestionnaire permet de mémoriser les pages à parcourir et les pages déjà parcourues. C'est ce qui permet a TLink de parcourir le WWW sans passer deux fois par la même page. Vous pouvez déterminer le nombre maximal de liens pouvant être stockés par ce gestionnaire. Si le nombre maximal de lien est atteint et que de nouveaux liens sont rencontrés, ils seront ignorés.
Pour permettre à TLink de commencer la navigation, vous devrez au moins passer une URL à ce gestionnaire. C'est la seule URL que vous devrez passer à TLink de manière explicite. C'est a partir de cette URL que la navigation commencera. Si vous le désirez, vous pouvez passer plusieurs liens au gestionnaire de manière explicite. Par exemple, vous pouvez établir une liste de pages à tester et les ajouter explicitement.
Pensez tout de même que même si ces URLs sont passées de manière explicite, elles seront sujettes aux restrictions en vigeur. Une URL peut être passée explicitement au gestionnaire et ne pas être autorisée pour autant. Dans ce cas, elle ne sera pas parcourue ou sera simplement testée (sans récupération des nouveaux liens) selon la configuration pour laquelle vous avez opté.
3. Restrictions
Pour restraindre le champ de parcours de TLink, vous devrez utiliser les restrictions. On distinguera 2 types de liens : les liens inclus, qui entrent dans le cadre du parcours, et les liens restraints qui ne sont pas autorisés par les restrictions. Si une adresse est incluse, la page correspondante sera parcourue, les liens qu'elle contient seront récupérés et ajoutés au gestionnaire de liens. Si une page est restrainte, vous avez deux choix (configurables grâce au fichier d'options) : soit la page est ignorée, soit elle est simplement testée (sans récupération du contenu). Par défaut, un lien sera toujours considéré comme restraint, sauf si une règle l'autorise explicitement.
L'établissement des restrictions est effectué uniquement à partir des URLs. Pour inclure un lien dans le parcours, vous devez créer une règle qui l'autorise explicitement. Vous pouvez également établir des règles qui restaignent une catégorie de liens. Vous pouvez établir 4 types de règles (qui sont décrites ci-après). Lorsqu'un nouveau lien est trouvé, TLink teste toutes les règles dans l'ordre (l'ordre est celui dans lequel vous avez entré les règles dans le fichier d'options). La dernière règle s'appliquant au lien sera utilisée pour déterminer si le lien est inclu ou restraint. L'ordre dans lequel vous ajoutez vos restrictions dans le fichier d'options est donc significatif.
Voici une liste des différentes règles applicables :
Restriction_Domain
Inclus tous les liens dont le domaine est exactement celui spécifié.
Exemple : Vous établissez une règle Domain "www.domaine.com"
Les liens suivants seront inclus :
Les liens suivants seront restraints :
Restriction_DomainEnd
Inclus tous les liens dont le domaine se termine par la chaîne de caractère spécifiée.
Exemple : Vous établissez une règle DomainEnd ".domaine.com"
Les liens suivants seront inclus :
Les liens suivants seront restraints :
Restriction_UrlBegin
Inclus tous les liens dont l'URL commence par la chaîne spécifiée.
Exemple : Vous établissez une règle UrlBegin "www.domaine.com/dossier"
Les liens suivants seront inclus :
Les liens suivants seront restraints :
Restriction_NUrlBegin
Restraint tous les liens dont l'URL commence par la chaîne spécifiée.
Exemple : Vous établissez une règle NUrlBegin "http://www.domaine.com/forum"
Les liens suivants seront inclus :
Les liens suivants seront restraints :
Vous devrez donc systématiquement vous arranger pour que tous les liens du site que vous voulez parcourir soient inclus par les restrictions. Gardez bien à l'esprit que si aucune des règles n'est applicable, le lien sera considéré comme restraint.
Si vous désirez passer explicitement à TLink une liste de liens à tester, il vous suffit de ne pas définir de règles et de passer l'ensemble des liens explicitement au gesionnaire de liens grâce au fichier d'options. De cette manière les liens seront testés, mais TLink n'effectuera aucune navigation supplémentaire.
Si vous désirez parcourir l'ensemble d'un site sauf une partie, vous pouvez utiliser les restrictions NUrlBegin. Si par exemple, vous désirez parcourir tout le domaine www.domaine.com en évitant le forum, il vous suffit de définir les règles suivantes (dans l'ordre) :
4. Classes de liens
Certains sites émettent des pages d'erreur si vous parcourez trop de pages simultanément. C'est le cas par exemple si le site accède à une base de données pour chaque page (un forum par exemple). Les bases de données sont souvent limitées en nombre de connexions simultannées. Si vous parcourez trop de pages simultanément, vous risquez donc d'obtenir des messages d'erreur au lieu des véritables pages du site. De même, un grand nombre de sites FTP publics limitent le nombre de connexions simultannées.
Au contraire, les pages statiques (généralement .HTML), les images, les fichiers PDF... peuvent généralement être parcourus rapidement avec un nombre important de connexions simultannées.
TLink indroduit donc un système de 3 classes de liens. Le parcours de chaque classe de lien se fera a une vitesse spécifiée. Vous pouvez paramétrer indépendament la vitesse de parcours de chaque classe de page. La classe des pages est déterminées uniquelent à partir des URLs (généralement à partir des extensions).
Voici les trois classes de liens :
TLink utilise le protocole (HTTP ou FTP) spécifié dans l'URL pour déterminer si le lien est de classe 3 ou non. Si le lien n'est pas de classe 3, TLink utilise les extensions pour essayer de déterminer si le lien est de classe 1 ou 2. Un lien sera systématiquement considéré comme classe 1 sauf si son extension est identifiée comme celle d'un lien de classe 2. Si vous le désirez, vous pouvez définir vos propres listes d'extensions de classe 2.
Par défaut les pages restraintes sont automatiquement considérées comme classe 2 (car leur contenu n'est pas récupéré). Vous pouvez cependant laisser TLink appliquer les règles classiques pour déterminer la classe des liens retraints.
Vous pourrez ensuite définir indépendament le nombre de connexions simultannées autorisées pour les liens de classe 1, 2 ou 3.
Bien que cela ne soit pas recommandé, vous pouvez désactiver le système de classification des liens. Dans ce cas, tous les liens seront considérés comme classe 1. Vous devrez alors spécifier un nombre de connexion simultannées suffisament faible pour ne pas provoquer d'erreurs.
III. Configuration
1. Fichier d'options
TLink se configure grâce à un fichier d'options. Vous devez passer en paramètre à TLink le chemin du fichier d'options à utiliser. Le chemin doit être pleinement qualifié et ne doit être placé entre guillemets.
Exemple :
Le fichier d'options doit êter au format texte (UNIX ou DOS). L'extension n'a aucune importance, vous pouvez donc créer des fichiers d'options en .cfg, .config... si vous préférez.
Le format général d'une entrée dans le fichier d'options est le suivant :
Paramètre est un nom d'option.
La nature de Valeur dépend de l'option que vous désirez configurer.
Si Valeur contient des espaces, vous devez placer des guillemets (simples ou doubles).
Pour placer des commentaires, utilisez le symbole #. Ce symbole peut être placé en début ou en milieu de ligne. Il indique à TLink d'ignorer le reste de la ligne.
Exemple :
2. Configuration de base
Voici la liste des options utilisables :
3. Restrictions
Les restrictions sont elles aussi définiées dans le fichier d'options. Pour ajouter une restriction utilisez la syntaxe suivante :
Ou Type_Restriction peut être : Restriction_Domain, Restriction_DomainEnd, Restriction_UrlBegin ou Restriction_NUrlBegin.
Exemple : pour ajouter une règle autorisant le domaine www.domaine.com, utilisez :
L'ordre des restrictions est significatif. Elles sont exécutées dans l'ordre où elles sont placées dans le fichier d'options.
4. Liens explicites
Vous devez passer au moins un liens à TLink de manière explicite pour qu'il puisse commencer le parcours. Utilisez la syntaxe suivante :
Exemple :
Vous pouvez passer à TLink autant de liens que nécessaire. Ces liens seront soumis aux restrcitions que vous avez défini.
IV. Exemples d'utilisation
Voici quelques exemples de configurations types
Vous désirez parcourir un site en entier :
Vous désirez parcourir un site en entier en évitant le forum :
Vous désirez parcourir seulement une partie d'un site :
Vous désirez tester une liste de liens (sans parcours du site) :
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||