Top Qs
Línea de tiempo
Chat
Contexto

Anexo:Referencias a entidades de caracteres XML y HTML

artículo de lista de Wikimedia De Wikipedia, la enciclopedia libre

Remove ads

En los documentos SGML, HTML y XML, las construcciones lógicas llamadas character data y attribute values consisten en secuencias de caracteres, en la cual cada carácter puede manifestarse directamente (es decir, representándose a sí mismo), o puede representarse mediante una serie de caracteres llamadas referencia de caracteres, de las cuales hay dos tipos: una referencia numérica de carácter y una referencia a entidades de caracteres. Este anexo lista las referencias a entidades de caracteres válidas en los documentos HTML y XML.

Una referencia de entidad de carácter hace referencia al contenido de una entidad nombrada. Las entidades son declaradas en una DTD, utilizando la sintaxis <!ENTITY nombre "valor">.

Remove ads

Formato

Una referencia de carácter numérica hace referencia a un carácter por su código Universal Character Set/Unicode, y usa el formato:

&#nnnn;

o

&#xhhhh;

donde nnnn es el código en base decimal, y hhhh es el código en base hexadecimal. La x debe ser minúscula en los documentos XML. La forma nnnn o hhhh puede ser cualquier número de dígitos y puede incluir ceros. La forma hhhh puede combinar mayúsculas y minúsculas, siendo las mayúsculas el estilo usual.

Por otro lado, una referencia a entidades de caracteres hace referencia a un carácter por su nombre en una entidad SGML que posee el carácter deseado como su reemplazo. La entidad debe estar ya predefinida (incluida dentro del lenguaje de marcado) o explícitamente declarada en una DTD. El formato es el mismo para cualquier entidad de referencia:

&name;

donde name es el nombre sensible a mayúsculas de la entidad. El punto y coma es obligatorio.

Remove ads

Estándares públicos de conjuntos entidades de caracteres

Resumir
Contexto
ISO Entity Sets
SGML proveyó un conjunto considerable de declaraciones de entidades para los caracteres más usados en la publicación occidental, para los sistemas de escritura latina, griega y cirílica. La American Mathematical Society también contribuyó para añadir símbolos matemáticos.
HTML Entity Sets
Las versiones tempranas de HTML construyeron pequeños conjuntos de caracteres, relacionados con los caracteres encontrados en el árbol de fuentes Western 8-bit.
MathML Entity Sets
El W3C desarrolló un conjunto de entidades de caracteres para MathML.
XML Entity Sets
El W3C MathML Working Group mantiene el conjunto público de entidades ISO, combinadas con las entidades MathML en el XML Entity Definitions for Characters. Este conjunto suple las necesidades en los documentos XHTML, MathML y las futuras versiones de HTML.
HTML5
HTML5 adopta las entidades XML como named character references, sin embargo, las reafirma sin referencia a sus fuentes y no las agrupa en conjuntos. Adicionalmente, la especificación de HTML5 provee mapeo entre nombre y cadena de caracteres Unicode con el uso de JSON.

Numerosos conjuntos de entidades se han desarrollado a partir de requerimientos particulares, y para scripts largos y cortos. Sin embargo, la llegada de Unicode ha mermado ampliamente su uso.

Remove ads

Entidades predefinidas en XML

Resumir
Contexto

La especificación de XML no utiliza el término "character entity" o "character entity reference". La especificación XML utiliza cinco "entidades predefinidas" representando caracteres especiales, y requiere que todos los procesadores de XML los utilicen. Las entidades también pueden ser declaradas explícitamente en el DTD[note 1], pero si se hace eso, el texto reemplazado debe ser el mismo que en su versión original. XML también permite otras entidades nombradas de cualquier tamaño para ser definidos en un entorno por documento.

La tabla siguiente lista cinco entidades predefinidas de XML:

  • La columna "Nombre" menciona el nombre de la entidad.
  • La columna "Carácter" muestra el carácter en sí mismo, para reproducir el carácter se utiliza el prefijo "&" y el sufijo ";": &nombre;. Por ejemplo, el carácter et se codifica como &amp; y se reproduce como &.
  • La columna "Punto de código Unicode" cita el carácter mediante el código estándar de notación UCS/Unicode "U+", que muestra el punto de carácter en hexadecimal. El equivalente decimal del carácter está escrito en el paréntesis.
  • La columna "Estándar" indica la primera versión de XML que incluye la entidad. La columna "Descripción" cita el carácter por su nombre común, casi siempre, una traducción de los asignados en la notación UCS/Unicode.
Más información Nombre, Carácter ...

Referencias de entidades de caracteres en HTML

Resumir
Contexto

La DTD de HTML4 define 252 entidades con un nombre, referencias que actúan como aliases mnemotécnicos para algunos caracteres de Unicode.[1] La especificación de HTML4 requiere el uso de DTDs estándar y no permite a los usuarios usar entidades adicionales.

En la tabla de abajo, La columna "Estándar" indica la primera versión del HTML DTD que define la referencia de la entidad del carácter. HTML 4.01 no provee ninguna referencia de caracteres nueva.

Para usar alguna de estas referencias en un documento HTML o XML, ingresa un ampersand (&) seguido por el nombre de la entidad y un punto y coma (;), por ejemplo, &amp; para el ampersand ("&").

Más información Nombre, Carácter ...
Remove ads

Entidades que representan caracteres especiales en XHTML

Resumir
Contexto

Las DTDs de XHTML declaran explícitamente 253 entidades (incluyendo las 5 ya predefinidas de XML 1.0), por lo que son expandidas en un solo carácter, son referidas informalmente como entidades de caracteres. Éstas (con la excepción de &apos;) tienen los mismos nombres y representan los mismos caracteres que las 252 referencias de entidades de caracteres en HTML. Además, como una ventaja de XML, los documentos XHTML referenciar la entidad predefinida &apos;, el cual no forma parte del grupo anterior. Entidades adicionales de cualquier tamaño pueden ser definidas por documento. Sin embargo, la usabilidad de las referencias de entidades en XHTML es afectada por la forma en que el documento es procesado:

  • Si el documento es leído por un analizador sintáctico HTML, entonces solo las 252 entidades de caracteres HTML pueden ser usadas confiablemente. El uso de &apos; o alguna entidad propia no será soportado y puede producir resultados inesperados.
  • Si el documento es leído por un analizador sintáctico XML que no lee entidades externas, entonces solo las 5 entidades de caracteres XML pueden ser usadas con seguridad, aunque otras entidades pudiesen ser usadas si son declaradas en una DTD interna.
  • Si el documento es leído por un analizador sintáctico XML que lee entidades externas, las 5 entidades de caracteres XML pueden ser usadas con seguridad. Las otras 248 entidades HTML pueden ser usadas siempre y cuando la DTD de XHTML sea accesible por el analizador mientras el documento es analizado. Otras entidades pueden ser usadas si se declaran en una DTD interna.

Debido al caso especial de &apos; ya mencionado, solo &quot;, &amp;, &lt; y &gt; funcionarán en todas las situaciones.

Remove ads

Notas

  1. Las referencias normativas hacia el RFC 2070 (hallada en DTDs que definen las entidades de caracteres para HTML o XHTML) es histórica; este RFC (junto con otros RFCs relacionados con partes diferentes de la especificación HTML) se volvió obsoleta en favor del RFC 2854, el cual define el MIME type "text/html" y referencia directamente a la especificación W3C para el contenido HTML actual.
  2. DTD: el FPI de las DTDs donde las entidades anteriores son definidas son obtenidas de una de las siguientes tres entidades:
    • HTMLlat1 refiere a:
      • PUBLIC "-//W3C//ENTITIES Latin 1//EN//HTML" in HTML (la DTD es definida implícitamente, no es necesario especificar la URI);
      • PUBLIC "-//W3C//ENTITIES Latin 1 for XHTML//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent" en XHTML 1.0;
    • HTMLsymbol refiere a:
    • HTMLspecial refiere a:
  3. Subconjunto ISO antiguo: son subconjuntos documentados de caracteres antiguos usados en codificaciones heredadas antes de la unificación en la norma ISO 10646.
  4. Espacios: un fondo azul es usado para mostrar el ancho de cada espacio.
  5. hace referencia a la viñeta rellenada, en contraposición a la hueca.
  6. Propuestos por ISO: estos caracteres fueron estandarizados en la norma ISO 10646 después del lanzamiento de HTML 4.0.
  7. alefsym: 'alef symbol' no es el mismo que U+05D0 'letra hebrea alef', aunque el mismo glifo sea usado para mostrar ambos caracteres.
Remove ads

Referencias

Enlaces externos

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads