martes, 23 de julio de 2013

Intro

Intro: En episodios anteriores de “Aprendiendo Ruby a fuerza de cabezazos”

Han pasado muchas lunas ya desde la última vez que visité este garito. Pero no creáis que he estado perdiendo el tiempo desde entonces.

Bueno, quizá sí. Os cuento.

Lo último que recuerdo es que había terminado un proyecto y lo había publicado todo en este blog. Y que consistía en unas cuantas clases de Ruby que me servían para analizar un fichero en formato HTML y convertirlo en un array de objetos relativamente manejables.

Pero en mi cofre del tesoro había algo más. Unos cuantos folios en los que creaba una nueva clase mucho más potente. El único problema es que, sin saber cómo, se me había caído el contenido de una botella de ron sobre ellos y la tinta se había disuelto.

Ilegible. Y mi providencial memoria, como era de esperar, no recordaba un solo punto y coma de aquello. Así que me puse y dispuse a intentar descifrar, casi diría adivinar, qué había escrito yo allí. No fue fácil, con aquel aroma a alcohol seco siempre presente.

Siempre presente...

Quizá lo que voy a describir en éste y los siguientes posts no tenga mucho que ver con el contenido original de aquellos documentos primigenios. Pero es cuanto fui capaz de sacar en claro, dadas las circunstancias.

El desafío

Eso de tener un array con las etiquetas y elementos del documento HTML está muy bien. Pero es francamente mejorable. Uno querría acceder al documento y su contenido de forma similar a como lo hace habitualmente en JavaScript o Visual Basic Script. Con instrucciones del tipo:

document = HtmlDoc.new(File.read('test.html'))
a = document.getElementById('menu')
opciones = a.getElementsByTagName('div')
print opciones[1].attributes['onmouseover']

Así sí que daría gusto trabajar con documentos HTML. Y si además podemos introducir cambios en el documento, entonces sería para premio.

La idea

Y no es tan difícil. Únicamente vamos a necesitar crear una nueva clase cuyas instancias representarán o bien el documento HTML completo, o bien uno de los elementos y otros nodos que lo componen.

La primera idea que podría venírsele a uno a la cabeza sería crear una estructura en árbol que represente el documento. Y eso estaría muy bien si se tratara de analizar XML. Pero HTML y los programas que lo manejan son muy... permisivos. De forma que cosas que en XML serían intolerables como etiquetas mal anidadas...

<B><U>Vaya con el HTML</B></U>

… pues vienen los navegadores web y se las tragan sin rechistar.

Así que había que buscar alguna alternativa. La que se me ocurrió no es seguramente la mejor, pero funciona (al menos, relativamente bien). Vayamos por partes.

Los objetos tendrán un atributo @nodes en el que se copiará el resultado de analizar el documento HTML con un HTMLParser de los que creamos en su día. Ese atributo @nodes estará compartido por el objeto que representa el documento y por todos los elementos y nodos que puedan generarse a partir de él (por ejemplo, con getElementById).

Cada objeto necesitará saber también si es un documento original o un nodo generado a partir de él. Para eso habrá otro atributo llamado @type que podrá tomar los valores :document y :node. Además, existirá un tercer valor, :deleted, para identificar los nodos que puedan haber sido eliminados como resultado de la manipulación del documento.

Cada objeto hará referencia a una parte del documento o bien al documento completo. Para determinarla tendremos dos índices, @starts_at y @ends_at, que indican su inicio y su final dentro del array de nodos @nodes.

Para los nodos que no representen etiquetas HTML, @starts_at y @ends_at contendrán el mismo valor. Pero si una etiqueta tiene otras cosas dentro, la cosa puede cambiar.

Por ejemplo, si tenemos un documento del tipo:

Posición Nodo representado
0 <div>
1 <ul>
2 <li>
3 Un elemento
4 <li>
5 Otro elemento
6 </ul>
7 </div>

… podemos ver que la etiqueta “<ul>” comienza en la posición 1 y que su contenido se extiende hasta la posición 6, donde se cierra con “</ul>”. De modo que, para un objeto que represente esta etiqueta, @starts_at debe valer 1; y @ends_at, 6.

Para ir acabando, cada nodo generado a partir de un documento dado mantendrá una referencia al mismo mediante el atributo @document. Y el documento tendrá un array con enlaces a los nodos creados a partir de él, @nodes_created. Ya veremos para qué.

Aunque seguro que hay quien se hace ya una idea.

No hay comentarios:

Publicar un comentario