Recuperación y Organización de la Información

Metadatos y documentos XML/RDF para recuperación

Introducción al metalenguaje XML

XML,(eXtensible Markup Language), es un metalenguaje extensible de etiquetas desarrollado por el World Wide Web Consortium (W3C). Permite definir la gramática de lenguajes específicos, por lo que XML no es realmente un lenguaje en particular, sino una manera de definir lenguajes aplicable a diversas utilidades y contextos. Algunos ejemplos de lenguajes definidos mediante el uso de XML son XHTML, SVG, MathML.

XML no solamente sería utilizable en Internet, sino que es perfwectamente válido para intercambiar información estructuradamente entre diferente aplicaciones y/o sistemas. Se puede usar en bases de datos, editores de texto, hojas de cálculo y casi cualquier cosa imaginable.

XML es una tecnología sencilla, pero existen muchas otras a su alrededor que la complementan y la hacen mucho más grande y con unas posibilidades mucho mayores. Tiene un papel muy importante en la actualidad ya que permite la compatibilidad entre sistemas para compartir la información de una manera segura, fiable y fácil.


Estructura de un documento XML


La tecnología XML busca dar solución al problema de expresar información estructurada de la manera más abstracta y reutilizable posible. Que la información sea estructurada quiere decir que se compone de partes bien definidas, y que esas partes se componen a su vez de otras partes. Entonces se tiene un árbol de pedazos de información. Ejemplos son un tema musical, que se compone de compases, que están formados a su vez con notas. Estas partes se llaman elementos, y se las señala mediante etiquetas.

Una etiqueta consiste en una marca hecha en el documento, que señala una porción de este como un elemento, un pedazo de información con un sentido claro y definido. Las etiquetas tienen la forma <nombre>, donde nombre es el nombre del elemento que se está señalando.

A continuación se muestra un ejemplo para entender la estructura de un documento XML:

<?xml version=”1.0”?>
<!DOCTYPE MENSAJE SYSTEM “mensaje.dtd”>
<mensaje>
        <remitente>
                <nombre>Alfredo Reino</nombre>
                <mail>alf@ibium.com</mail>
        </remitente>
        <destinatario>
                <nombre>Bill Clinton</nombre>
                <mail>president@WhiteHouse.gov</mail>
        </destinatario>
        <asunto>Hola Bill</asunto>
        <texto>
                <parrafo>¿Hola que tal? Hace <enfasis>mucho</enfasis> que
                no escribes. A ver si llamas y quedamos para tomar algo. </parrafo>
        </texto>
</mensaje>

Documentos XML bien formados


Se llama documentos "bien formados" (del inglés well formed) a los documentos que cumplen con todas las definiciones básicas de formato y pueden, por lo tanto, ser analizados correctamente por cualquier "parser" (Analizador Sintáctico) que cumpla con la norma. Se separa esto del concepto de validez que se explica más adelante.


  • Los documentos han de seguir una estructura estrictamente jerárquica con lo que respecta a las etiquetas que delimitan sus elementos. Una etiqueta debe estar correctamente incluida en otra, es decir, las etiquetas deben estar correctamente anidadas. Los elementos con contenido deben estar correctamente cerrados.

  • Los documentos XML sólo permiten un elemento raíz del que todos los demás sean parte, es decir, sólo puede tener un elemento inicial.

  • Los valores atributos en XML siempre deben estar encerrados entre comillas simples o dobles.

  • El XML es sensible a mayúsculas y minúsculas. Existe un conjunto de caracteres llamados espacios en blanco (espacios, tabuladores, retornos de carro, saltos de línea) que los procesadores XML tratan de forma diferente en el marcado XML.

  • Es necesario asignar nombres a las estructuras, tipos de elementos, entidades, elementos particulares, etc. En XML los nombres tienen alguna característica en común.

  • Las construcciones como etiquetas, referencias de entidad y declaraciones se denominan marcas; son partes del documento que el procesador XML espera entender. El resto del documento entre marcas son los datos entendibles por las personas.


Página creada por Eduardo Galán Herrero

Última Actualización: 19-09-2007

Valid XHTML 1.0 Strict Recuperacion y organizacion de la informacion Recuperacion y organizacion de la informacion- Nivel WAI - AA recuperacion y organizacion de la informacion TAW. Nivel doble A. WCAG 1.0 WAI Metadatos y documentos XML/RDF para recuperación [Valid RSS]