Fr:FAQ

Aus YaCyWiki
Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

Généralités

De quoi s'agit-il?

YaCy est un moteur de recherche distribué basé sur un réseau pair-à-pair.

Qu'est-ce qu'un proxy?

Un proxy (de l'anglais "proxy" = représentant/mandataire, ou du latin "proximus" = le prochain) est un programme servant d'intermédiaire pour accéder à un réseau - Source: Wikipedia.
YaCy est ce que l'on appelle un serveur de cache, parce qu'il met en cache (enregistre) les éléments que vous consultez (pages web, graphiques, etc.). Lorsque vous cherchez à consulter à nouveau ces éléments, ils sont chargés à partir de la mémoire cache du proxy et non depuis Internet. Cela permet de réduire la charge du réseau et donc de traiter les requêtes plus rapidement. De plus amples informations sur le proxy YaCy sont disponibles dans cet article.

Qu'est-ce que l’indexation ?

Indexer une page web signifie la découper en fonction des mots qu'elle contient. Ces mots sont stockés dans une base de données avec l'URL du site. Par la suite, lorsque vous effectuez une recherche contenant tels ou tels mots, toutes les pages web contenant ces mots sont alors trouvées rapidement.

Que signifie DHT ?

DHT est l'acronyme pour Distributed Hash Table (table de hachage distribuée). C'est la structure de données selon laquelle l'index du réseau YaCy est organisé. Elle permet à YaCy de savoir très rapidement sur quel pair se trouve la partie de l'index nécessaire pour trouver les termes recherchés. Vous trouverez une description détaillée sur Wikipédia.

Qu'est-ce qu'un "balayage" (crawl) ?

Un robot d'indexation (ou collecteur, en anglais "crawler") commence par explorer une page web, puis suit tous les liens jusqu'à une certaine profondeur (profondeur parfois illimitée). C'est la méthode utilisée par la plupart des moteurs de recherche conventionnels pour indexer de nouvelles ressources. Elle permet d'indexer complètement une page web sans visiter individuellement toutes ses sous-pages.

Qu'est-ce qu'un réseau P2P?

P2P signifie pair-à-pair: les ordinateurs (pairs) ne dépendent pas d'un serveur central, mais forment entre eux un réseau où chacun assume de manière égale la transmission des informations.

Qu'est-ce qu'un pair?

Par "pair" on entend un point de terminaison d'une communication dans un réseau informatique. Chaque pair offre ses services et fait appel aux services d'autres pairs: chaque pair joue ainsi à la fois le rôle d'un serveur et d'un client. Dans YaCy, un pair désigne une instance de YaCy (par exemple le programme YaCy installé sur votre ordinateur) qui est reliée à un réseau de recherche YaCy. Des informations plus détaillées sur les réseaux pair-à-pair sont disponibles ici.

Que signifie RWI?

RWI est l'acronyme pour Reverse Word Index (index de mots inversé). Il est généré à partir des données recueillies par l'indexeur et enregistré dans la base de données.

Le P2P n'est-il pas illégal?

Non.
L'expression "pair-à-pair" (P2P) désigne uniquement une technologie permettant d'échanger des données entre des ordinateurs. L'élément déterminant, ce sont les données elles-mêmes. Il est possible d'échanger des fichiers illégaux au travers d'un sytème pair-à-pair d'échange de fichiers; cependant, cela ne veut pas dire que la technologie utilisée pour le faire est illégale. En outre, YaCy n'est pas un système d'échange de fichiers.

YaCy en général

Index local, index global: qu'est-ce que c'est?

Dès que vous utilisez le proxy, un index local contenant les données indexées est créé automatiquement. L'index global, quant à lui, n'est accessible que si le programme dispose d'une connexion au réseau YaCy. Il est pour ainsi dire la combinaison de tous les index locaux.

Je ne suis pas un technicien. Est-il possible pour moi d'installer YaCy facilement et de l'utiliser pour indexer mes propres pages web (internes)?

Installer YaCy est très facile. Aucunes connaissances ni logiciel supplémentaire ne sont nécessaires, pas plus que d'installer une base de données. Indexer vos propres pages web est également très simple: il suffit de lancer un balayage et de désactiver la réception et la transmission de DHT pour conserver l'index de vos pages sur votre pair.

Puis-je explorer et indexer le web avec YaCy?

Oui. Il peut être un crawl séparée a débuté et il est également possible de démarrer une analyse distribuée, ce qui signifie que le propre YaCy peer autres pairs avec des commandes spéciales ramper en service. Ceci peut être affectée par un grand nombre de paramètres pour un ensemble limité de sites.

Y a-t-il un serveur central? Est-ce que le réseau du moteur de recherche besoin?

Non. La structure du réseau de YaCy ne nécessite pas un serveur central et il n'y a pas. Il existe actuellement quatre soi-disant serveur semences liste qui ont été écrites dur dans le code source, car ils sont sur le serveur le plus élevée disponible et fournissent des informations de liste de graines très précis (plus de détails

  1. Qu'est-ce qu'un réseau P2P? ici

)

Les moteurs de recherche ont besoin de beaucoup de téraoctets d'espace, n'est-ce pas? De combien d'espace ai-je besoin sur mon ordinateur?

L'indice global est partagé, mais pas copié les pairs. Si vous exécutez YaCy, vous avez besoin d'un moyen de la même quantité de mémoire de disque pour l'indice que vous avez besoin pour le cache. En fait, l'espace global de l'indice peut atteindre l'espace de téraoctets, mais pas tous fait sur votre machine!

Ai-je besoin d'une machine dédiée ? Les moteurs de recherche ont besoin de grandes fermes de serveurs, n'est-ce pas ?

Vous n'avez presque pas besoin d'une machine pour exécuter YaCy. Donc, vous n'avez pas besoin de beaucoup d'espace. Vous pouvez configurer la quantité de mégaoctets que vous souhaitez pour le cache et l'index. Les tâches de "crawl" et d'indexation sont suspendues quand vous faite des recherches et reprennent lorsque vous ne l'utilisez plus (cela ne fonctionne que si vous utilisez YaCy comme proxy http).

Combien de temps dure une recherche prendre?

Le temps d'une recherche dépend de nombreux facteurs. On est, si vous effectuez une recherche en local uniquement ou une recherche globale à base de DHT. Un autre facteur entre en lieu lorsque l'option Activer heuristiques de recherche. Un troisième facteur important est si vous avez pour elle chercha Déjà Souvent (court laps de temps entre deux recherches communes), dans ce cas, la recherche peut être mis en cache silencieux. Un autre facteur est que les paramètres vérifient = vrai, comme si le code HTML récupéré s'est vérifié, dire tiré par les cheveux à nouveau. Si vous utilisez vérifier = faux Cela peut vous donner les résultats de recherche moins précis (peut-être tort), mais ils sont beaucoup plus rapide.

L'architecture de YaCy en général ne fait peer-saut, donc il n'a pas de TTL (time-to-live). On s'attend n'ont résultats de recherche sont immédiatement réagi à la demanderesse. Cela peut être fait en demandant au peer-index détenant directement qui est en fait possibleness en utilisant DHT de (tables de hachage distribuée). Parce que YaCy doit une certaine redondance à compensate_for_errors pour ses pairs disparus, il pose plusieurs pairs simultanément. Pour recueillir Leur réponse, YaCy attend un peu de temps d'au plus 6 secondes (par défaut, vous pouvez changer cela).

Ai-je besoin de mettre en place et gérer une base de données distincte ?

Non. YaCy contient son propre moteur de base de données, qui ne nécessite aucune configuration supplémentaire ou configuration.

Quel type de base de données utilisez-vous? Est-il assez rapide ?

Les magasins de bases de données ou l'autre des tableaux ou des listes de propriété des fichiers avec la structure de l'arbre AVL (qui sont des arbres binaires réglementés hauteur). Un tel arbre de recherche Assure un ordre logarithmique de temps de calcul. Par exemple, une recherche à l'intérieur de AVL arbre avec un million d'entrées a besoin d'une moyenne de 20 comparaisons, et au plus 24 dans le pire des cas. Cette base de données est donc extrêmement rapide. Il manque dans l'API comme SQL ou le protocole LDAP, mais il n'en a pas besoin, car il fournit une structure de base de données hautement spécialisé. L'interface manquant paye avec une très petite tête de l'organisation, ce qui améliore encore la vitesse par rapport à d'autres bases de données avec SQL ou LDAP API. Cette base de données est suffisamment rapide pour des millions de pages web indexées, alors peut-être des milliards.

Pourquoi utilisez-vous votre propre base de données? Pourquoi ne pas utiliser MySQL et OpenLDAP ?

La structure de base de données dont nous avons besoin est très spécial. Une demande est fait les entrées peuvent être récupérées en temps logarithmique et peuvent être énumérés dans n'importe quel ordre. Énumération dans un ordre spécifique est nécessaire pour créer des conjonctions de tables très rapide. Ceci est nécessaire lorsque quelqu'un cherche depuis plusieurs mots. Nous œuvre met en œuvre la recherche de mots Conjonction par paire et simultanous énumération / comparisment d'arbres d'index / séquences. Cela nous oblige à utiliser des arbres binaires comme structure de données. Une autre demande est n'avons nous avons besoin de la capacité d'avoir de nombreuses tables d'index, voire des millions de tables. La taille des tables peut-être pas grand dans la moyenne, mais nous avons besoin de beaucoup d'entre eux. Ceci est en contraste de l'organisation des bases de données relationnelles, où l'accent est mis sur la gestion des très grandes tables, mais pas de beaucoup d'entre eux. Une troisième demande est la facilité d'installation et de maintenance: l'utilisateur ne doit pas être obligé d'installer un RBMS premier, se soucient de tables et autres. La base de données intégrée est complètement sans entretien.

Qu'est-ce qui se passe avec l'index global et local tout au sujet ?

Une fois que vous utilisez le proxy, automatiquement avec les données indexées, un index local est créé. Mais seulement si le programme dispose d'une connexion au réseau YaCy, vous pouvez accéder à l'indice global. C'est pour ainsi dire la combinaison de tous les index locaux.

Quel est le statut de la Vierge junior, senior et principal ?

Statut' 'vierge' signifie que YaCy n'a toujours pas de contact avec le réseau. Donc vous êtes hors ligne, pour ainsi dire. Il peut juste être l'indice local à rechercher.

Statut junior signifie que vous vous contactez le réseau YaCy. Mais d'autres pairs ne peuvent pas vous contacter. Une raison à cela peut être un pare-feu. Encore une fois, seul l'indice local à rechercher.

Le statut haut a, si l'on a une connexion au réseau YaCy aussi d'autres pairs peut atteindre. C'est peut-être l'indice local et global sont recherchés.

Un principale est une personne âgée, qui télécharge une liste de pairs supplémentaire sur un serveur. Cette liste prend en charge les autres pairs pendant le processus de démarrage d'établir une connexion avec le réseau composé YaCy.

En général, vous devriez viser au statut supérieur. Seulement de cette manière peut profiter pleinement de YaCy. Si vous avez un moyen de charger un fichier sur un serveur FTP, vous pourriez aussi bien être capital, ce qui aide le réseau.

Et pourquoi devrais-je croire en mode haut de pairs fonctionner ?

Certains programmes P2P face aux pairs qui ne contribuent en rien, avec une très faible priorité. Nous pensons que ce n'est pas toujours juste, puisque l'opérateur n'est pas toujours en mesure d'ouvrir le pare-feu ou configurer le routeur différemment. Notre notion de «produits d'information» et leur remplacement peut également être appliquée à des pairs juniors: ils doivent contribuer à l'indice global de présenter activement leurs index. Seniors pairs, cependant, garder à l'passif. Ainsi, nous devons pairs juniors de ne pas donner une faible priorité: ils contribuent en parts égales, de sorte qu'ils peuvent également participer de façon égale. Mais que cette architecture fonctionne, nous devons pairs supérieurs. Étant donné que chaque poste représente près le même montant, qu'elle soit active ou passive, vous devriez laisser sa course comme mode principal de pairs.

Mon pairs fonctionne en 'Mode Junior'. Comment puis-je lancer dans le "haut-mode" ?

Ouvert dans votre pare-feu le port 8090 (le port qui écoute l'YaCy), ou mettre en place sur votre routeur au port avant de ce port à votre ordinateur.

En voie de disparition YaCy pas ma vie privée ?

YaCy respecte la vie privée des utilisateurs. Toutes les pages qui utilisent GET ou POST lorsque le chargement-paramètre, les cookies, ou la protection par mot de passe doivent être exclus de l'indexation. Il ne indexe les pages qui peuvent être téléchargés sans le mot de passe. Remarques à la technique exacte: [[1]]

Can parce que d'autres personnes trouvent mes habitudes de surf ?

Il n'est pas possible d'interroger les pages qui sont tous stockés sur un pair. Une recherche est la seule façon de déterminer les pages sauvegardées sur un mot spécifique. Les mots sont réparties à l'aide de tables de hachage distribuées (DHT) par l'intermédiaire des concurrents. Ainsi, les données de tous les utilisateurs' de mélange. Ainsi, le comportement de surf de A certains Beutzers de ne peut être tracée.

YaCy, La page ne peut pas charger.

La page par défaut est http://localhost:8090. Si vous utilisez Internet Explorer, l'URL doit commencer par http://'. Si un port différent est sélectionné lors de la configuration, doit être remplacé par le nouveau port de la 8090. En outre, bien sûr, devrait fonctionner YaCy ;-). Une autre raison peut-être mal configuré les paramètres de proxy doivent notamment veiller à ce que le proxy pour les adresses locales contourné / non utilisés.

YaCy a des résultats tout à fait différents de ceux de Google.

YaCy sûr a des résultats différents de ceux de Google. À l'heure actuelle trop peu pairs YaCy doit livrer autant de résultats que Google. C'est pourquoi il est important que le plus de gens gèrent leurs propres pairs. Mais même si YaCy a assez de ses pairs, il faudra encore produire des résultats différents de ceux de Google. Enfin, il devrait être mieux que Google, pas une seconde de Google.

Je n'arrive pas à désinstaller YaCy, car il est encore en cours.

Abord voir si YaCy n'a encore été lancé. Sinon, il se peut que YaCy n'a pas été rempli correctement. Dans ce cas, il suffit de YaCy recommencer, puis désinstallez-le. Sinon, le fichier yacy.running dans YaCy / DATA dossier / supprimer, puis désinstallez-le.

Comment puis-je aider?

Tout d'abord : exécuter YaCy en mode senior. Cela contribue à enrichir l'indice global et YaCy à rendre plus attractif. Si vous voulez ajouter votre propre code, vous êtes les bienvenus, mais n'hésitez pas à contacter l'auteur d'abord et discuter de votre idée de voir comment il peut s'intégrer à l'architecture globale. Vous pouvez aider beaucoup simplement en nous donnant vos commentaires ou à nous parler de nouvelles idées. Ainsi, vous pouvez aider en disant à d'autres personnes sur ce logiciel. Et si vous trouvez une erreur ou d'exception que vous voyez sur, nous nous félicitons de votre rapport de défaut. Toute feed-back est la bienvenue.

Technologie

Quelque chose n'est pas avec moi. Que dois-je faire maintenant ?

Depuis YaCy est actuellement encore en développement, une récente version stable devrait être utilisé. Ceux-ci peuvent être téléchargés à partir du site Web http://www.yacy.net. L'erreur persiste, le wiki et le forum http://forum.yacy-websuche.de doivent être recherchés pour les problèmes connus dans le message d'erreur. Si l'erreur est encore inconnue, une aide supplémentaire dans le forum peut être. Ce post sur le forum, le numéro de version de YaCy, et une description détaillée de l'erreur doit être incluse. Aider aussi d'autres extraits des fichiers de log.

Comment puis-je pages d'index Tor ou Freenet ?

L'indexation de Tor ou Freenet pages est délibérément empêché en partie dans le code source, car il n'est pas souhaitable à ce stade du développement de YaCy à ces pages index. Toutefois, il est prévu à l'avenir pour permettre l'exploration de ces sites, mais les résultats d'analyse sont probablement pas distribué au niveau mondial, mais ne sont disponibles que pour le peer respective.

Comment puis-je obtenir de l'indice à partir d'un poste à l'autre ?

Cela se fait automatiquement par DHT distribution des mots. Cependant, il est également possible de transmettre l'ensemble de l'indice à un autre poste. Cela peut être fait par un soi-disant Index de transfert ou: | faire [[En Index Import] indice de Import].

Quels types de données / MIME types sont indexés par la vitesse ?

Par défaut, il YaCy seuls les fichiers HTML et texte, c'est à dire des fichiers avec des types MIME indexé.

  • Text / plain
  • Text / html
  • Application / xhtml + xml

Peut être indexée à d'autres types de fichiers pour les extensions optionnelles à YaCy ruterladen et installation. Ce paquet contient supplémentaire parmi d'autres fonctionnalités utiles contenu supplémentaire parser pour les documents PDF, DOC, RTF, RSS et autres formats. Pour une liste complète des formats pris en charge peuvent être trouvés ici.

Pages indexées déjà (par exemple via DHT échangés, etc) Si réindexer automatiquement après X années / jours ?

Malheureusement, non. Mais il ya la possibilité, pour un auszufuehrendenes réexploration chronologique l'URL (ou site web entier si vous le souhaitez) ensemble. Pour en savoir plus, voir «Index configuration -> Index Création".

Sont entrées de DHT dans un réseau de recherche une fois ou urls peuvent également se produire deux fois trois fois / ?

Ils sont même lieu plusieurs fois, de sorte que la partie n'est pas perdue sur l'index de recherche en restant à l'écart d'un pair. Les données de l'indice sont ainsi conservées de manière redondante sur plusieurs pairs.

Comment puis-je modifier le délai de connexion ?

Cela peut se faire via la page de configuration "console d'administration" -> "comportement Avancé" http://localhost:8090/ConfigProperties_p.html être faite. Il suffit de chercher le bien nommé "client-timeout" et modifiez la valeur là-bas. Le délai d'attente est spécifié en millisecondes.

Après le changement de la valeur de YaCy pas oublier de redémarrer.

Sinon, la configuration peut être modifiée via le fichier de configuration httpProxy.conf dans les données de /Paramètres. Si ce type de configuration choisie, cependant, aurait dû être déjà terminée YaCy.

Le YaCy bot traîne mon site. Que dois-je faire ?

Pour éviter que le bot YaCy explore un site web, un robots.txt fichier avec le contenu suivant à créer:  User-Agent: YaCy  Disallow: /

Le bot lui-même n'est pas affectée, car il n'a pas été démarré par un YaCy de l'utilisateur, et au centre du projet YaCy.

Je ne peux plus me connecter. Comment puis-je réinitialiser mon mot de passe ?

Pour perdu votre mot de passe, vous pouvez l'éditer en DATA / Paramètres / réinitialiser yacy.conf ou même complètement re-régler. À cette fin, ce fichier:

  • Suppression de l'entrée serverAccountBase64MD5
  • Entrée compte admin supprimer (si disponible)
  • Entrée de serveur compte à <compte>: <password> assis, donc par exemple compte du serveur = admin: mysecretpassword

Au prochain redémarrage de ce compte / mot de passe Kobination est lu, chiffré et supprimé de yacy.conf, si cette info est nulle part en texte brut.

Maintenant, vous pouvez définir un nouveau mot de passe en utilisant l'interface web.

Espace

Comment puis-je limiter la taille du fichier de téléchargement pour télécharger les fichiers ?

La taille du fichier peut vous faire des réglages sur chenilles sous Advanced Settings->. Différentes tailles peuvent être spécifiées pour HTTP et FTP. La taille du fichier en octets. Un convertisseur peut être trouvé à bit et octet (bits et d'octets)

Combien de liens/mots ne peuvent gérer une instance de YaCy et combien d'espace disque t-il ?

Le nombre de liens/mots stockables est en principe illimité, mais le nombre est limité par le ralentissement du processus d'indexation avec l'augmentation de lien / mot compte. Il ya des utilisateurs de plus de 10 millions de pages Web dans une instance de YaCy. L'espace nécessaire à l'index d'une page Web dépend également de la taille et du type du document. Avec 10 millions de sites Web, d'une taille d'index de 20 Go n'est pas atypique.

Puis-je limiter la taille de l'index dans mon assiette ?

Actuellement pas. Limiter automatiquement l'annulation, qui sera moins exigé par la plupart des utilisateurs, la limitation signifier. La taille de l'index n'est guère un problème actuellement d'espace disque disponible dar.

FAQ Liste de souhaits / TODO

Questions qui devraient être prises ...

  • Pourquoi est-il pas de support pour la vitesse MySQL?
  • Vous devez changer la mémoire plus tard, ou changer en général.

Flag-england.gif There is an english version of this page.

Flag-france.gif Il y a une version française de cette page.