UTF-8 | Linguist | اللُّــغَــوِيّــــ
O Allah, lift the affliction from Gaza 🤲🏻 🇵🇸

Linguist | اللُّــغَــوِيّــــ

“Arabic: Your Key to the Quran”



ما هو الترميز؟

فكر في الترميز كطريقة لتمثيل الحروف والأرقام والرموز في الحاسوب. مثلما يستخدم الكود السري رموزًا لتمثيل الحروف، يستخدم الترميز أرقامًا لتمثيل الحروف.

لماذا نحتاج الترميز؟

الحواسيب تفهم فقط الأرقام، تحديدًا تسلسلات من الأصفار والواحدات (الكود الثنائي). لعرض النص على الشاشة، تحتاج هذه الأرقام إلى أن تُترجم إلى حروف يمكن للبشر قراءتها، مثل الحروف وعلامات الترقيم.

ما هو UTF-8؟

UTF-8 هو طريقة شائعة لترميز الحروف لكي يمكن استخدامها في الحواسيب وعلى الإنترنت. تعني UTF-8 “تنسيق تحويل يونيكود، 8-بت”.

كيف يعمل UTF-8؟

  1. معيار يونيكود: تخيل أن يونيكود هو كتاب ضخم حيث يُخصص لكل حرف في كل لغة رقم فريد. على سبيل المثال، الحرف ‘A’ قد يكون رقمه 65، والحرف الصيني ‘你’ قد يكون رقمه 20320.

  2. ترميز بطول متغير: UTF-8 مميز لأنه يستخدم عددًا مختلفًا من البايتات (مجموعة من 8 بتات) لتمثيل الحروف المختلفة. إليك كيف يعمل:

    • 1 بايت: بالنسبة لمعظم الحروف الشائعة (مثل الحروف الإنجليزية)، يستخدم فقط 1 بايت (8 بتات).
    • 2-4 بايت: بالنسبة للحروف الأكثر تعقيدًا (مثل العديد من الرموز أو الحروف من لغات أخرى)، يستخدم 2 أو 3 أو 4 بايت.

مثال

دعنا نرى بعض الأمثلة لتوضيح الفكرة:

لماذا نستخدم UTF-8؟

  1. التوافق: UTF-8 متوافق مع ASCII (ترميز أبسط للحروف الإنجليزية). هذا يعني أن أي نص في ASCII يمكن قراءته كـ UTF-8 بدون أي تغييرات.
  2. الكفاءة: بالنسبة للحروف الشائعة (مثل الحروف والأرقام الإنجليزية)، يستخدم UTF-8 فقط 1 بايت، مما يوفر مساحة.
  3. الشمولية: يمكن لـ UTF-8 ترميز كل حرف في يونيكود، مما يعني أنه يمكنه التعامل مع النص في أي لغة.

كيف تستخدم الحواسيب UTF-8؟

عندما تكتب شيئًا على لوحة المفاتيح، يتم تحويل كل ضغطة مفتاح إلى رقم باستخدام ترميز UTF-8. يتم بعد ذلك تخزين هذا الرقم في ذاكرة الحاسوب أو إرساله عبر الإنترنت. عندما يحين وقت عرض النص، يستخدم الحاسوب UTF-8 لفك تشفير هذه الأرقام مرة أخرى إلى حروف يمكن قراءتها على الشاشة.

خلاصة

بفهم هذه المفاهيم الأساسية، يمكنك رؤية كيف يساعد UTF-8 الحواسيب في التعامل مع مجموعة متنوعة من اللغات والرموز التي نستخدمها اليوم.

ترميز UTF-8