ما هي ترميزات الأحرف مثل ANSI و Unicode ، وكيف تختلف؟
ASCII، UTF-8، ISO-8859… ربما تكون قد رأيت هذه الألقاب الغريبة العائمة ، ولكن ماذا تعني في الواقع؟ اقرأ كما أشرنا إلى ما هو تشفير الأحرف وكيف ترتبط هذه الاختصارات بالنص العادي الذي نراه على الشاشة.
اللبنات الأساسية
عندما نتحدث عن اللغة المكتوبة ، نتحدث عن الحروف التي تشكل اللبنات الأساسية للكلمات ، والتي ثم بناء الجمل والفقرات ، وهلم جرا. الحروف هي رموز تمثل الأصوات. عندما تتحدث عن اللغة ، فأنت تتحدث عن مجموعات من الأصوات التي تتجمع معاً لتشكل نوعًا من المعنى. يحتوي كل نظام لغة على مجموعة معقدة من القواعد والتعاريف التي تحكم تلك المعاني. إذا كانت لديك كلمة ، فستكون عديمة الفائدة ما لم تكن تعرف اللغة التي تنتمي إليها وتستخدمها مع الآخرين الذين يتحدثون تلك اللغة.
(مقارنة بين غرانثا ، تولو ، ومخطوطات مالايالامية ، صورة من ويكيبيديا)
في عالم الحواسيب ، نستخدم المصطلح "الشخصية". الحرف هو نوع من المفهوم التجريدي ، محدد بمعلمات محددة ، ولكنه الوحدة الأساسية للمعنى. لا يشبه الحرف اللاتيني "أ" كلمة "ألفا" يونانية أو "ألف" باللغة العربية لأن لها سياقات مختلفة - فهي من لغات مختلفة ولها نطق مختلف قليلاً - لذلك يمكننا القول أنها شخصيات مختلفة. يسمى التمثيل البصري للحرف "glyph" وتسمى المجموعات المختلفة من الحروف الرسومية بالخطوط. تنتمي مجموعات الأحرف إلى "مجموعة" أو "مرجع".
عندما تكتب فقرة وتغير الخط ، فأنت لا تغير القيم الصوتية للحروف ، فأنت تقوم بتغيير شكلها. انها مجرد مستحضرات التجميل (ولكن ليس غير مهم!). بعض اللغات ، مثل المصريين والصينيين القدماء ، تحتوي على إيديوجرامات ؛ هذه تمثل أفكارًا كاملة بدلاً من الأصوات ، ويمكن أن تختلف نطقها بمرور الوقت والمسافة. إذا استبدلت حرفًا بآخر ، فأنت تستبدل فكرة. إنها أكثر من مجرد تغيير في الحروف ، إنها تقوم بتغيير أيديوغرام.
ترميز الأحرف
(صورة من ويكيبيديا)
عند كتابة شيء ما على لوحة المفاتيح ، أو تحميل ملف ، كيف يعرف الكمبيوتر ما يتم عرضه؟ هذا هو ما ترميز الأحرف هو ل. لا يمثل النص الموجود على الكمبيوتر الخاص بك في الواقع أحرفًا ، فهو عبارة عن سلسلة من القيم الأبجدية الرقمية المقترنة. يعمل ترميز الأحرف كمفتاح تتطابق فيه القيم مع الأحرف ، مثلما تملي طريقة التهجئة الأصوات التي تتوافق مع الأحرف. رمز مورس هو نوع من ترميز الأحرف. وهو يوضح كيف أن مجموعات الوحدات الطويلة والقصيرة مثل أصوات التنبيهات تمثل الأحرف. في شفرة مورس ، الحروف هي فقط الأحرف الإنجليزية والأرقام والتوقفات الكاملة. هناك العديد من ترميزات الكمبيوتر التي تترجم إلى حروف وأرقام وعلامات تشكيل وعلامات ترقيم ورموز دولية وما إلى ذلك.
في كثير من الأحيان حول هذا الموضوع ، يستخدم مصطلح "صفحات الرموز". وهي في الأساس ترميزات شخصية كما تستخدمها شركات معينة ، وغالباً ما يتم إدخال تعديلات طفيفة عليها. على سبيل المثال ، تعد صفحة رموز Windows 1252 (المعروفة سابقًا باسم ANSI 1252) نموذجًا معدلاً من ISO-8859-1. يتم استخدامها في الغالب كنظام داخلي للإشارة إلى ترميزات الأحرف القياسية والمعدلة الخاصة بالنظام نفسه. في وقت مبكر ، لم يكن ترميز الأحرف مهمًا نظرًا لأن أجهزة الكمبيوتر لم تتواصل مع بعضها البعض. مع تزايد أهمية الإنترنت والربط بين الشبكات أمرًا شائعًا ، أصبح الأمر مهمًا بشكل متزايد في حياتنا اليومية دون أن نتمكن من تحقيق ذلك.
العديد من الأنواع المختلفة
(صورة من سارة سوسياك)
هناك الكثير من ترميزات الشخصيات المختلفة هناك ، وهناك الكثير من الأسباب لذلك. يعتمد ترميز الأحرف الذي اخترت استخدامه على احتياجاتك. إذا كنت تتواصل باللغة الروسية ، فمن المنطقي استخدام ترميز الأحرف الذي يدعم السيريلية جيدًا. إذا كنت تتواصل باللغة الكورية ، فستحتاج إلى شيء يمثل Hangul و Hanja جيدًا. إذا كنت عالم رياضيات ، فأنت تريد شيئًا يحتوي على جميع الرموز العلمية والرمزية بشكل جيد ، بالإضافة إلى الرموز الإغريقية واللاتينية. إذا كنت من المخادعين ، فربما تستفيد من النص المقلوب. وإذا كنت تريد أن يتم عرض جميع هذه الأنواع من المستندات من قِبل أي شخص معين ، فإنك تريد تشفيرًا شائعًا جدًا ويمكن الوصول إليه بسهولة.
دعونا نلقي نظرة على بعض من أكثر شيوعا.
(مقتطف من جدول ASCII ، صورة من asciitable.com)
- ASCII - تُعدّ "الشفرة القياسية الأمريكية لتبادل المعلومات" أحد ترميزات الأحرف القديمة. تم تصميمها في الأصل استنادًا إلى رموز التلغراف وتطورت بمرور الوقت لتضم المزيد من الرموز وبعض رموز التحكم غير المطبوعة التي أصبحت قديمة الآن. ربما تكون أساسية بقدر ما يمكنك الحصول عليها فيما يتعلق بالأنظمة الحديثة ، لأنها تقتصر على الأبجدية اللاتينية بدون حروف معلمّة. يسمح ترميزها المكون من 7 بتات بـ 128 حرفًا فقط ، وهذا هو سبب وجود العديد من المتغيرات غير الرسمية المستخدمة حول العالم.
- ISO-8859 - تمثل مجموعة ترميز الأحرف الأكثر استخدامًا على مستوى المنظمة الدولية للتوحيد القياسي رقم 8859. ويتم تعيين كل ترميز محدد برقم ، غالبًا ما يكون مسبوقًا بعلامة وصفية ، على سبيل المثال. ISO-8859-3 (Latin-3)، ISO-8859-6 (لاتيني / عربي). إنها مجموعة شاملة من ASCII ، وهذا يعني أن قيم 128 الأولى في الترميز هي نفس ASCII. ومع ذلك ، فهي 8 بت ، وتسمح بـ 256 حرفًا ، بحيث يتم إنشاؤها من هناك وتضم مجموعة أكبر من الأحرف ، مع كل ترميز محدد يركز على مجموعة مختلفة من المعايير. تضمنت Latin-1 مجموعة من الأحرف والرموز المحوسبة ، ولكن تم استبدالها لاحقًا بمجموعة منقحة تسمى Latin-9 تتضمن رموزًا محدثة مثل رمز Euro..
(مقتطف من نص التبت ، Unicode v4 ، من unicode.org)
- يونيكود - يهدف معيار الترميز هذا إلى العالمية. وهي تضم حاليًا 93 نصًا برمجيًا مُنظمًا في عدة كتل ، مع العديد من الأعمال الأخرى. يعمل Unicode بشكل مختلف عن مجموعات الأحرف الأخرى في ذلك بدلاً من الترميز المباشر لـ glyph ، يتم توجيه كل قيمة أبعد إلى "نقطة التعليمة البرمجية". هذه هي القيم السداسية العشرية التي تتوافق مع الأحرف ولكن يتم توفير الحروف الرسومية نفسها بطريقة منفصلة بواسطة البرنامج ، مثل متصفح الويب الخاص بك. يتم تصوير نقاط الرمز هذه على النحو التالي: U + 0040 (الذي يُترجم إلى "@"). ترميزات محددة وفقًا لمعيار Unicode هي UTF-8 و UTF-16. محاولات UTF-8 للسماح بأقصى قدر من التوافق مع ASCII. إنها 8 بت ، ولكنها تسمح لجميع الشخصيات من خلال آلية استبدال وأزواج متعددة من القيم لكل حرف. UTF-16 تخلل توافق ASCII مثالي لتوافق 16 بت أكثر اكتمالاً مع المعيار.
- ISO-10646 - هذا ليس ترميزًا فعليًا ، فقط مجموعة أحرف من Unicode تم توحيدها بواسطة ISO. إنها مهمة في الغالب لأنها ذخيرة الشخصيات التي تستخدمها HTML. بعض الوظائف الأكثر تقدمًا التي يوفرها Unicode والتي تسمح بالترتيب ومن اليمين إلى اليسار جنبًا إلى جنب مع البرمجة النصية من اليسار إلى اليمين مفقودة. ومع ذلك ، فإنه يعمل بشكل جيد للغاية للاستخدام على الإنترنت لأنه يسمح باستخدام مجموعة كبيرة من البرامج النصية ويسمح للمتصفح بتفسير الحروف الرسومية. هذا يجعل التعريب أسهل بعض الشيء.
ما ترميز يجب أن أستخدم?
حسنا ، ASCII يعمل لمعظم المتحدثين باللغة الإنجليزية ، ولكن ليس لشيء آخر. في كثير من الأحيان سترى ISO-8859-1 ، والتي تعمل لمعظم لغات أوروبا الغربية. تعمل الإصدارات الأخرى من ISO-8859 على النصوص السيريلية أو العربية أو اليونانية أو غيرها من البرامج النصية المحددة. ومع ذلك ، إذا كنت تريد عرض نصوص متعددة في نفس المستند أو على نفس صفحة الويب ، فإن UTF-8 يسمح بتوافق أفضل. كما أنه يعمل جيدًا للأشخاص الذين يستخدمون علامات ترقيم مناسبة أو رموز رياضيات أو أحرف خارج الكفة ، مثل المربعات ومربعات الاختيار.
(لغات متعددة في وثيقة واحدة ، لقطة من gujaratsamachar.com)
هناك عيوب لكل مجموعة ، ولكن. ASCII محدود في علامات الترقيم الخاصة به ، لذا فهو لا يعمل بشكل جيد للغاية لإجراء التعديلات الصحيحة المطبعية. من أي وقت مضى نوع نسخ / لصق من Word فقط لديك بعض مزيج غريب من الصور الرمزية؟ هذا هو عيب ISO-8859 ، أو بشكل أكثر دقة ، قابلية التشغيل المفترضة مع صفحات التعليمات البرمجية الخاصة بنظام التشغيل (نحن ننظر إليك ، Microsoft!). عيب UTF-8 الرئيسي هو عدم وجود دعم مناسب في تحرير ونشر التطبيقات. مشكلة أخرى هي أن المتصفحات لا تفسر في كثير من الأحيان وتعرض فقط علامة ترتيب البايت لحرف ترميز UTF-8. هذا يؤدي إلى عرض الصور الرسومية غير المرغوب فيها. وبالطبع ، فإن الإعلان عن ترميز واستخدام شخصيات من شخص آخر دون التصريح بها / الإشارة إليها بشكل صحيح على صفحة ويب يجعل من الصعب على المتصفحات تقديمها بشكل صحيح ولمحركات البحث لفهرستها بشكل مناسب..
للحصول على مستنداتك ومخطوطاتك وما إلى ذلك ، يمكنك استخدام كل ما تحتاجه لإنجاز المهمة. على الرغم من أن الويب يذهب ، على الرغم من ذلك ، يبدو أن معظم الناس يوافقون على استخدام إصدار UTF-8 الذي لا يستخدم علامة ترتيب البايت ، ولكن هذا ليس بالإجماع كليًا. كما ترون ، كل ترميز الأحرف له استخدامه الخاص ، وسياقه ، ونقاط القوة والضعف. كمستخدم نهائي ، ربما لن تضطر للتعامل مع هذا ، ولكن الآن يمكنك اتخاذ خطوة إضافية للأمام إذا اخترت ذلك.