RAUdo-CLARA
María Paz Mirosevic
El buscador experto ha
llegado... y es para quedarse
Bastó una frase para que en la cabeza de Luis Castillo, ingeniero
de RAU, surgiera una gran idea: “Necesitamos que las redes
nos comuniquen sus actividades, sus noticias; queremos informar
acerca de lo que ocurre en sus instituciones, tardamos mucho en
revisar sus sitios web, para conseguir sus novedades”. Comunicaciones
y Relaciones Públicas de CLARA, en la reunión de San
Salvador (noviembre de 2006), hablaba de escasez de tiempo y pedía
información para poder difundirla oportunamente dentro de
la comunidad. Al terminar la reunión, el 25 de noviembre
por la tarde, Luis dijo: “En RAU tenemos algo que les puede
ayudar a solucionar este problema”.
El 15 de diciembre de
2006, supe a qué se refería Luis, pues la búsqueda
que RAUdo-CLARA realiza sólo en los sitios web de las redes
integrantes de CLARA, es MUY efectiva; y el manejo del sistema,
más fácil que la tabla del 1.
Bueno, probada y aprobada
con creces la herramienta, la tarea siguiente era afinar detalles
e instalarla en la web de CLARA. El producto estuvo listo el día
8 de marzo de 2007. RAUdo-CLARA ya es una realidad a la que todos
los usuarios de la web de CLARA pueden acceder mediante el menú
que encabeza el sitio, sólo mediante un clic. Pero antes
de que pruebe RAUdo-CLARA, pongámonos serios y conversemos
con el cerebro de la idea: Luis Castillo.
En pocas palabras, ¿Qué
es RAUdo?
Es un buscador que recupera información de los sitios WWW
miembros de CLARA http://www.rau.edu.uy/raudo/clara/.
¿Quién diseñó
e implementó esta herramienta en RAU y desde cuándo
opera?
En la RAU el buscador se llama RAUdo (http://www.rau.edu.uy/raudo/)
y fue desarrollado en el año 2000, basado en el motor de
búsqueda ht://Dig, con licencia GNU. En el grupo de compañeros
de la RAU que lo adaptó estaba Alicia García, María
Cervantes, Julio Cardozo y yo.
A partir de la reunión
en San Salvador, iniciaste el trabajo tendiente a generar un RAUdo
para CLARA, ¿qué te motivó a implementar esta
herramienta para nuestra comunidad?
El conocimiento de lo útil que ha resultado para la RAU,
y el hecho de que la búsqueda en los grandes motores devuelve
mucho “ruido”, por lo que resulta imprecisa. Con esto
en mente, pensé que sería útil para la comunidad
CLARA, contar con un RAUdo adaptado a ella, pues los resultados
de la búsqueda son solo de los sitios de CLARA. Además,
nuestra herramienta recupera términos escritos en castellano
y en portugués.
Un trabajo como este implica
muchas horas, ¿quiénes colaboraron en este esfuerzo?
El trabajo de darle “formato” para CLARA ha llevado
algunas semanas; colaboraron María Cervantes, María
José López y yo.
Un motor de búsqueda
tan especializado como este, requiere de un constante chequeo de
la información existente en los sitios en el que éste
opera. ¿Cómo se realiza este trabajo y con qué
periodicidad?
Con una frecuencia de una vez por semana (configurable) se realiza
una indización de todos los sitios, actualmente once, permitiendo,
de esta forma, que se mantenga actualizada la información
en la base de datos del buscador.
¿Pueden las redes
conectadas a RedCLARA cooperar con RAUdo-CLARA? ¿De qué
modo?
Claro que pueden. Avisando los cambios de servidores, si los hay.
Filtrando los directorios que no quieren que sean indexados para
que el buscador no los publique (indicándolo en el archivo
robot.txt en cada uno de los sitios). Chequeando con cierta frecuencia
en RAUdo-CLARA que los sitios están siendo alcanzados por
el buscador y que el número de documentos, es el que corresponde.
Aparte de colaborar, también
se pueden beneficiar de él, pues el buscador hace un chequeo
de los links y los archivos que cada sitio tiene, generando un informe
de inconsistencia que lo pueden activar los webmasters para mejorar
sus sitios.
¿De qué modo los usuarios de RAUdo-CLARA pueden sacar
mejor partido a esta herramienta?
Cuando se tiene claro cómo busca o cuáles son las
formas correctas de hacerlo, se le saca más provecho a la
herramienta, para eso recomendamos que se vea la Ayuda en http://www.rau.edu.uy/raudo/clara/ayuda.htm.
Pero el uso de RAUdo-CLARA
es muy simple: básicamente se puede buscar por los términos
escritos en español, portugués o inglés (como
estén escritos en origen) y/o realizar búsquedas booleanas.
En tus propias palabras,
¿qué es lo mejor de RAUdo-CLARA?
Contar con una herramienta propia para la recuperación de
información para nuestra comunidad.
Así opera RAUdo-CLARA
Sitios en los que busca
(indexados):
• http://www.cedia.org.ec
• http://www.cudi.edu.mx
• http://www.raap.org.pe
• http://www.ragie.org.gt
• http://www.raices.org.sv
• http://www.rau.edu.uy
• http://www.reacciun2.edu.ve
• http://www.redclara.net
• http://www.renata.edu.co
• http://www.renia.net.ni
• http://www.retina.ar
• http://www.reuna.cl
• http://www.rnp.br
Tipo de documentos indexados:
Se indexan documentos en formato Word, PDF y RTF. Se excluyen las
siguientes terminaciones: /cgi-bin/ .cgi .wav .gz .z .sit .au .zip
.tar .hqx .exe .com .gif .jpg .jpeg .aiff .class .map .ram .tgz
.bin .rpm .mpg .mov .avi .ps .ppt .tex .ra .Z. Tampoco se indexan
valores numéricos.
Número de documentos
que recupera RAUdo-CLARA:
16.000.
Consideraciones sobre
las búsquedas de RAUdo-CLARA:
Interpreta palabras con tilde, ñ, (ISO 8859-1).
Recupera por alguna de las palabras ingresadas.
Recupera por todas las palabras ingresadas.
Permite utilizar operadores Booleanos.
No reconoce mayúsculas y minúsculas.
Estrategia de operación
de RAUdo-CLARA:
Se indexa cada palabra de los documentos: cada documento es examinado
y todas las palabras presentes en él son extraídas
y almacenadas.
• Las palabras tales como: la, los, de, etc. no son indexadas
(stopword).
• Cada palabra tiene un contexto que está definido
por el código HTML que se le aplica. Por ejemplo, palabras
que están entre <h1>...</h1> tienen un contexto
diferente de las palabras dentro del título (title) del documento.
• Cada contexto tiene un "peso" asociado por lo
que algunos contextos son más importantes que otros: 'title_factor'
y 'heading_factor_4'.
• Además del contexto de una palabra, la ubicación
de la palabra dentro del documento se emplea para determinar el
"peso" de la misma; a las palabras que aparecen al comienzo
de un documento se les asigna más "peso" que a
las palabras que aparecen al final del mismo.
• El número de ocurrencias de una palabra dentro de
un documento, también es tomado en cuenta.
• El “peso” resultante de todos los factores combinados,
es almacenado en la base de datos de las palabras.
Operación del algoritmo
de búsqueda de RAUdo-CLARA:
Cada palabra es buscada, y se genera una lista de documentos en
los que ocurre la palabra. A cada documento se le asigna un "peso"
que es computado usando el "peso" combinado de todas las
palabras que tiene la lista de resultados. Una vez que todos los
documentos han sido identificados, son ordenados por "peso".
Al documento con "peso" mayor se le asigna el número
máximo de estrellas (4) para los demás, se aplica
una escala descendente. Luego, los resultados son ordenados de acuerdo
al "peso" asociado de las palabras buscadas y el "peso"
del algoritmo que generó la palabra.
|