מוויקיפדיה, האנציקלופדיה החופשית
ISO 8859, או ISO/IEC 8859 באופן רשמי יותר, הוא תקן לקידוד תווים ב־8 סיביות. התקן מכיל 15 חלקים (ממוספרים, למשל ISO 8859-2 לחלק השני) בהתאם לכתב הנוסף ללטינית בסיסית שבו כל תקן תומך.
ערך ללא מקורות | |
ISO 8859 מבוסס על ASCII. תקן ASCII הוא קידוד בן 7 סיביות המקודד את האלפבית הלטיני הבסיסי (כלומר ללא אקצנטים) ומספרים וסימני פיסוק וכן תווי בקרה במספרים 0x00 עד 0x7F (בכתיב הקסדצימלי). כל החלקים של תקן ISO 8859 נאמנים לקידוד זה והם תואמים את ASCII ב־128 המקומות הראשונים שלהם. הם מרחיבים את ASCII בכך שהם מקצים תווים נוספים ל־128 המקומות הבאים, 0x80 עד 0xFF.
החלקים של ISO 8859 בנויים, עד כמה שאפשר, כך:
יש לשים לב כי קידודי 8 הסיביות של Windows נבדלים מקידודי ISO 8859 בכך שהם מקצים תווים גרפיים במקום תווי הבקרה בתחום 0x80 עד 0x9F. למשל 0x97 בקידוד מערב־אירופה של Windows הוא המקף הארוך. השימוש בתווים אלה אינו תקני והוא עלול לגרום לתופעות לא רצויות (כגון סימני שאלה) בהתקני תצוגה ההולכים לפי ISO 8859. רצוי לקודד תווים אלה ביוניקוד.
לתקן ISO 8859 ישנם 16 חלקים, בהתאם לשפה ולמיקום בה הטקסט נכתב ואליו הוא מיועד:
ISO 8859 אומץ בהתלהבות משום שהוא פתרון טוב לאין ערוך מהווריאנטים של ASCII (המסודרים בתקן ISO 646). עם זאת, אין הוא הפתרון האולטימטיבי, משום שהוא סובל מאותה בעיה של רב־משמעות של הקודים. למשל, הקוד 0xE0 יכול להיות à או ŕ או ā או р (קירילית) או ΰ (יוונית) או א, תלוי בקידוד. דבר זה נסבל כשעובדים בסביבה אחידה של שפה אחת, אך ברגע שמעבירים נתונים מסביבה לסביבה, כמו באינטרנט, יוצר הדבר בעיות.
הפתרון האולטימטיבי למגדל בבל זה של קידודים שונים הוא קידוד המאחד את כל הקידודים והמקצה קוד אחד ויחיד וחד־משמעי לכל תו. קידוד כזה הוא יוניקוד, שהתפתח ונקבע כדי לענות על הצורך הזה.
בתקן יוניקוד עצמו, התווים U+0000 עד U+00FF זהים לתווים 0x00 עד 0xFF בתקן ISO 8859-1. אולם מעבר לכך אין תאימות בין יוניקוד לבין ISO 8859, אם כי הנטייה היא לסדר את התווים באותם מיקומים יחסיים כמו בתקני ISO 8859 (למשל U+05D0 עד U+05EA לאותיות העבריות כמו ש־ISO 8859-8 מקצה להם את המקומות 0xE0 עד 0xFA). קידוד UTF-8 שובר עוד יותר את התאימות עם ISO 8859-1 בכך שהאותיות הלטיניות עם האקצנטים בכלל לא נראות בו באותו אופן כמו ב־ISO 8859-1 (למשל à הוא 0xE0 ב־ISO 8859-1 אך 0xC3 0xA0 ב־UTF-8).
Seamless Wikipedia browsing. On steroids.