Senarai rujukan entiti aksara XML dan HTML

rencana senarai Wikimedia From Wikipedia, the free encyclopedia

Senarai rujukan entiti aksara XML dan HTML
Remove ads

Dalam dokumen HTTP, HTML dan XML, pembinaan logik yang dikenali sebagai data askara dan nilai atribut terdiri daripada urutan askara, di mana setiap askara boleh nyata (mewakili dirinya sendiri), atau boleh diwakili oleh satu siri aksara yang dipanggil rujukan askara, yang mana terdapat dua jenis: rujukan aksara angka dan rujukan entiti askara. Artikel ini menyenaraikan rujukan entiti askara yang sah dalam dokumen HTML dan XML.

Rujukan entiti askara merujuk kepada kandungan entiti yang dinamakan. Pengisytiharan entiti dicipta dengan menggunakan sintaks <!ENTITY name "value"> dalam Document Type Definition (DTD).

Remove ads

Gambaran keseluruhan rujukan aksara

Rujukan askara angka merujuk kepada askara mengikut titik kod Universal Character Set/Unicode, dan menggunakan format berikut:

&#nnnn;

atau

&#xhhhh;

dimana nnnn adalah titik kod dalam bentuk perpuluhan, dan hhhh adalah titik kod dalam bentuk heksadesimal. x mesti huruf kecil dalam dokumen XML. nnnn atau hhhh mungkin bilangan digit dan mungkin dimulakan dengan sifar. hhhh boleh mencampur huruf besar dan huruf kecil, walaupun huruf besar adalah gaya biasa.

Sebaliknya, rujukan entiti askara merujuk kepada askara dengan nama entiti yang mempunyai askara yang diingini sebagai teks penggantian. Entiti mestilah dipratentukan (dibina dalam bahasa markup) atau secara eksplisit diisytiharkan dalam Document Type Definition (DTD). Formatnya adalah sama dengan mana-mana rujukan entiti:

&nama;

dimana nama adalah entiti nama sensitif huruf. Koma bertitik diperlukan.

Remove ads

Entiti awam piawai ditetapkan untuk aksara

Set Entiti ISO: SGML membekalkan satu set lengkap pengisytiharan entiti untuk aksara yang digunakan secara meluas dalam penerbitan teknikal dan rujukan Barat, untuk skrip Latin, Yunani dan Cyrillic. Persatuan Matematik Amerika juga menyumbang entiti untuk aksara matematik.

Set Entiti HTML: Versi awal HTML dibina dalam subset kecil ini, yang berkaitan dengan askara-askara yang terdapat dalam tiga fon Western 8-bit.

Set Entiti MathML: W3C membangunkan satu set perisytiharan entiti untuk aksara MathML.

Set Entiti XML: W3C Kumpulan Kerja MathML mengambil alih penyelenggaraan set entiti awam ISO, digabungkan dengan MathML dan dokumen mereka dalam Definisi Entiti XML untuk Askara. Set ini boleh menyokong keperluan XHTML, MathML dan sebagai input kepada versi HTML masa depan.

HTML 5: HTML5 mengguna pakai entiti XML sebagai rujukan askara dinamakan, namun ia menyatakan semula XML tanpa merujuk kepada sumber XML dan tidak menyusunnya ke dalam set. Spesifikasi HTML 5 juga menyediakan pemetaan dari nama kepada urutan aksara Unicode menggunakan JSON.

Banyak set entiti lain telah dibangunkan untuk keperluan khas, dan bagi skrip utama dan minoriti. Bagaimanapun, kemunculan Unicode sebahagian besarnya menggantikannya.

Remove ads

Entiti yang ditetapkan dalam XML

Spesifikasi XML tidak menggunakan istilah "entiti askara" atau "rujukan entiti askara". Spesifikasi XML mentakrifkan lima "entiti yang telah ditetapkan" yang mewakili aksara khas, dan menghendaki semua pemproses XML menghormati mereka. Entiti-entiti itu boleh dinyatakan secara eksplisit dalam DTD, juga, tetapi jika ini dilakukan, teks penggantian mestilah sama dengan definisi terbina dalam. XML juga membenarkan entiti yang dinamakan lain apa-apa saiz yang akan ditakrifkan pada setiap dokumen.

Jadual di bawah menyenaraikan lima entiti yang telah ditetapkan terlebih dahulu oleh XML. Lajur "Nama" menyebut nama entiti. Lajur "Askaara" menunjukkan aksara. Untuk menjadikan asakara itu, formatnya &nama; digunakan; contohnya, &amp; menjadi &. Lajur "titik kod Unicode" memetik askara melalui standard notasi UCS/Unicode "U+", yang menunjukkan titik kod askara dalam heksadesimal. Persamaan perpuluhan titik kod kemudian ditunjukkan dalam kurungan. Lajur "Standard" menunjukkan versi XML pertama yang merangkumi entiti. Lajur "Penerangan" memaparkan askara melalui nama kanji UCS/Unicode, dalam Bahasa Melayu dan bahasa Inggeris jika tiada penerangan rasmi di PRPM.

Maklumat lanjut Nama, Askara ...

Rujukan entiti askara dalam HTML

HTML 4 DTDs menentukan 252 entiti yang dinamakan, rujukan yang bertindak sebagai alias mnemonik untuk aksara Unicode tertentu. Spesifikasi HTML 4 memerlukan penggunaan DTD standard dan tidak membenarkan pengguna untuk menentukan entiti tambahan. Disebabkan kenyataan ini beberapa "Penerangan" Unicode tidak dapat diterjemahkan dalam Bahasa Melayu kerana takut tersasar dari senarai rasmi yang dibuat oleh Unicode dan XML.

Dalam jadual di bawah, lajur "Standard" menunjukkan versi pertama HTML DTD yang mentakrifkan rujukan entiti askara. HTML 4.01 tidak menyediakan sebarang rujukan aksara baru.

Untuk menggunakan salah satu rujukan entiti askara dalam dokumen HTML atau XML, masukkan ampersan diikuti dengan nama entiti dan titik koma, cth., &amp; untuk ampersan ("&").

Maklumat lanjut Nama, Askara ...

Nota:

  1. DTD: nama DTD awam penuh (di mana nama entiti watak didefinisikan) sebenarnya dipetakan dari salah satu daripada tiga entiti yang dinamakan yang dinyatakan:
    • HTMLlat1 dipetakan kepada:
      • PUBLIC "-//W3C//ENTITIES Latin 1//EN//HTML" dalam HTML (DTD secara tersirat ditentukan, tiada sistem URI diperlukan);
      • PUBLIC "-//W3C//ENTITIES Latin 1 for XHTML//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent" dalam XHTML 1.0;
    • HTMLsymbol dipetakan kepada:
    • HTMLspecial dipetakan kepada:
  2. Subset ISO lama: ini adalah subset aksara lama (didokumenkan) yang digunakan dalam pengekodan lama sebelum penyatuan dalam ISO 10646.
  3. Penerangan: nama standard ISO 10646 dan Unicode dipaparkan terlebih dahulu untuk setiap aksara, dengan sinonim yang tidak standard tetapi warisan yang ditunjukkan dalam huruf miring di antara kurungan selepas tanda yang sama.
  4. spaces: latar belakang biru digunakan untuk memaparkan jarak setiap ruang.
  5. ligatur: ini adalah salah tafsiran standard kerana ini adalah askara yang berasingan dalam beberapa bahasa.
  6. black: disini bermaksud filled (penuh) yang bertentangan dengan hollow (kosong).
  7. Cadangan ISO: askara-askara ini telah diseragamkan dalam ISO 10646 selepas pembebasan HTML 4.0.
  8. alefsym: 'simbol alif' ini tidak sama dengan U+05D0 'alif huruf Ibrani', walaupun glyph yang sama boleh digunakan untuk menggambarkan kedua-dua aksara.
  9. lArr: ISO 10646 tidak mengatakan 'leftwards double arrow' (anak panah berganda ke kiri) sama dengan anak panah 'is implied by' (diimplikasikan oleh), tetapi juga tidak mempunyai askara lain untuk fungsi itu. Jadi lArr boleh digunakan untuk 'is implied by' selepas dicadangkan oleh ISOtech.
  10. rArr: ISO 10646 tidak mengatakan 'rightwards double arrow' (anak panah berganda ke kanan) sama dengan askara 'implies' (mengimplikasikan) tetapi tidak mempunyai asakara lain dengan fungsi ini, jadi rArr boleh digunakan untuk 'implies' selepas dicadangkan oleh ISOtech.
  11. prod: 'n-ary product' bukanlah sama dengan askara U+03A0 'Huruf besar Yunani Pi' walaupun glif yang sama mungkin digunakan untuk kedua-duanya.
  12. sum: 'n-ary summation' bukanlah sama dengan askara U+03A3 'Huruf besar Yunani Sigma' walaupun glif yang sama mungkin digunakan untuk kedua-duanya.
  13. sim: 'tilde operator' bukanlah sama dengan askara U+007E 'tilde', walaupun glyph yang sama mungkin digunakan untuk mewakili kedua-duanya.
  14. sup: ambil perhatian bahawa nsup, U+2283 'not a superset of', tidak meliputi dan tidak termasuk oleh pengekod fon Symbol. Sekiranya berlaku untuk simetri? Ia berada dalam subset ISOamsn.
  15. perp: Unicode hanya mentakrifkan U+22A5 sebagai "up tack". Simbol Unicode untuk "perpendicular" adalah U+27C2. Kedua-dua simbol ini kelihatan sama, tetapi berasingan di Unicode. Walau bagaimanapun, penggunaan HTML U+22A5 sebagai simbol "perpendicular"nya. Ini adalah percanggahan antara HTML dan Unicode. Juga, askara U+22A4 (simbol "down tack") dijana dalam pelayar seperti Firefox 3.6 boleh memadankan fon sama ada "up tack" atau "perpendicular", tetapi tidak kedua-duanya, bergantung kepada sama ada lebar tetap atau fon berkadar digunakan. Apabila dilihat di Firefox 3.6, simbol yang diberikan dalam susunan U+22A5, U+22A4, U+27C2 dalam fon berkadar: ⊥ ⊤ ⟂ dan lebar tetap: ⊥ ⊤ ⟂, menunjukkan bahawa "down tack" sangat serupa dengan U+22A5 ("perpendicular" bagai HTML) dalam kes pertama tetapi sepadan U+27C2 dalam kes kedua. Ini merupakan contoh kesulitan semiotika yang terlibat dalam menafsirkan glif, simbol dan askara secara amnya.
  16. sdot: 'dot operator' bukanlah sama dengan askara U+00B7 'middle dot'.
  17. lang: U+2329 'left-pointing angle bracket' bukanlah sama dengan askara U+003C 'less than' (kurang daripada), U+2039 'single left-pointing angle quotation mark' (tanda petikan sudut kiri tunggal), U+27E8 'mathematical left angle bracket' (kurungan sudut kiri matematik), atau U+3008 'left angle bracket' (kurungan sudut kiri). Dalam HTML 5.0, lang telah dipetakan semula kepada U+27E8 'mathematical left angle bracket', kerana U+2329 'left-pointing angle bracket' telah ditanda usang dalam Unicode (Unicode.org - Proposal for Additional Deprecated Characters).
  18. rang: U+232A 'right-pointing angle bracket' bukanlah sama dengan askara U+003E 'greater than' (lebih daripada), U+203A 'single right-pointing angle quotation mark' (tanda petikan sudut kanan tunggal), U+27E9 'mathematical right angle bracket' (kurungan sudut kanan matematik), atau U+3009 'right angle bracket' (kurungan sudut kanan). Dalam HTML 5.0, rang telah dipetakan semula kepada U+27E9 'mathematical right angle bracket', kerana U+232A 'right-pointing angle bracket' telah ditanda usang dalam Unicode (Unicode.org - Proposal for Additional Deprecated Characters).
Remove ads

Entiti mewakili aksara khas dalam XHTML

XHTML DTD dengan jelas mengisytiharkan 253 entiti (termasuk 5 entiti yang telah ditentukan terawal XML 1.0) yang pengembangannya adalah askara tunggal yang boleh secara tidak rasmi dirujuk sebagai "entiti askara". Ini (dengan pengecualian entiti &apos;) mempunyai nama yang sama dan mewakili askara yang sama seperti 252 entiti askara dalam HTML. Juga, oleh kerana dokumen XML, XHTML mungkin merujuk kepada entiti &apos; yang telah ditetapkan,yang bukan salah satu daripada 252 entiti askara dalam HTML. Entiti tambahan mana-mana saiz boleh ditakrifkan pada setiap dokumen. Walau bagaimanapun, kegunaan rujukan entiti dalam XHTML dipengaruhi oleh cara dokumen diproses:

  • Jika dokumen dibaca oleh pemproses HTML yang sesuai, maka hanya 252 entiti askara HTML yang dapat digunakan dengan selamat. Penggunaan &apos; atau rujukan entiti tersuai mungkin tidak disokong dan boleh menghasilkan hasil yang tidak menentu.
  • Sekiranya dokumen tersebut dibaca oleh XML parser yang tidak dapat membaca entiti luaran, maka hanya lima entiti askara XML terbina (lihat di atas) selamat boleh digunakan, walaupun entiti lain dapat digunakan jika mereka dinyatakan dalam subset DTD dalaman.
  • Jika dokumen dibaca oleh parser XML yang tidak membaca entiti luaran, maka entiti aksara XML terbina dalam dapat digunakan dengan selamat. Lain 248 entiti askara HTML boleh digunakan selagi XHTML DTD boleh diakses oleh parser pada masa dokumen dibaca. Entiti lain juga boleh digunakan jika mereka diisytiharkan dalam subset DTD dalaman.

Kerana yang kes istimewa &apos; yang dinyatakan diatas, hanya &quot;, &amp;, &lt;, dan &gt; akan berfungsi dalam semua keadaan pemprosesan.

Remove ads

Lihat juga

  • Pengekodan askara dalam HTML
  • Penjanaan aksara perpuluhan HTML
  • Entiti SGML
  • Digraf dan Trigraf (konsep yang sama untuk memasukkan aksara yang tidak tersedia)

Rujukan

Remove ads

Pautan luaran

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads