ما هي الموارد اللغوية الموَسَّمة؟
الموارد اللغوية الموَسَّمة هي مجموعات من البيانات اللغوية التي تم إثراؤها بمعلومات إضافية أو بيانات وصفية لتوفير المزيد من السياق وجعلها أكثر فائدة للبحث والتحليل وتطوير التطبيقات في معالجة اللغة الطبيعية (NLP) واللغويات الحاسوبية. يمكن أن تغطي هذه الشروحات مستويات لغوية مختلفة، بما في ذلك الصوتيات، الصرف، النحو، الدلالات، البراغماتية، والخطاب. فيما يلي بعض الأنواع الشائعة من الموارد اللغوية الموَسَّمة:
أنواع الشروحات
-
التوسيم الصرفي:
- الغرض: يشير إلى البنية الصرفية للكلمات، بما في ذلك جذورها، والبادئات، واللواحق، والأشكال الانعكاسية.
- مثال: وضع علامة على كلمة كفعل، اسم، صفة، إلخ.
-
التوسيم النحوي:
- الغرض: يوفر معلومات عن البنية النحوية للجمل، بما في ذلك تمييز الأجزاء اللغوية (POS) وأشجار التحليل النحوي.
- مثال: وضع علامات على الكلمات في الجملة بعلامات الأجزاء اللغوية مثل اسم (NN)، فعل (VB)، صفة (JJ)، إلخ.
-
التوسيم الدلالي:
- الغرض: يضيف معلومات حول معنى الكلمات والعبارات، بما في ذلك الكيانات المسماة (مثل الأشخاص، المنظمات، المواقع) والمعاني المختلفة للكلمات.
- مثال: التعرف على ووضع علامة على “Apple” كشركة بدلاً من فاكهة في سياق معين.
-
التوسيم البراغماتي:
- الغرض: يتعامل مع السياق واستخدام اللغة في التواصل، مثل أفعال الكلام والعلاقات الخطابية.
- مثال: وضع علامات على أفعال الحوار مثل الأسئلة، الطلبات، التصريحات، إلخ.
-
التوسيم الخطابي:
- الغرض: يلتقط هيكل وتدفق الخطاب، بما في ذلك حل الإحالات والروابط الخطابية.
- مثال: التعرف على الإشارات وربط الضمائر بالكائنات التي تشير إليها في النص.
-
التوسيم النغمي:
- الغرض: يضع علامات على الميزات النغمية للغة المنطوقة، مثل التنغيم، والتأكيد، والإيقاع.
- مثال: وضع علامات على أنماط الإجهاد في الجمل المنطوقة.
أمثلة على الموارد اللغوية الموَسَّمة
-
بنوك الشجر:
- مجموعات من الجمل المحللة بأشجار نحوية.
- مثال: Penn Treebank.
-
المتراكمات:
- مجموعات كبيرة ومنظمة من النصوص.
- مثال: المتراكم الوطني البريطاني (BNC)، الذي يتضمن علامات الأجزاء اللغوية والتحليلات النحوية.
-
شبكات الكلمات:
- قواعد بيانات معجمية تجمع الكلمات في مجموعات من المترادفات وتوفر العلاقات الدلالية بينها.
- مثال: شبكة الكلمات بجامعة برينستون.
-
مجموعات التعرف على الكيانات المسماة (NER):
- نصوص مشروحة حيث يتم وضع علامات على الكيانات مثل أسماء الأشخاص، المنظمات، المواقع، التواريخ، إلخ.
- مثال: مجموعة بيانات CoNLL-2003 NER.
-
مجموعات بيانات الكلام:
- مجموعات من بيانات اللغة المنطوقة مشروحة بالتفريغات الصوتية والميزات النغمية.
- مثال: TIMIT Acoustic-Phonetic Continuous Speech Corpus.
التطبيقات
- الترجمة الآلية: تحسين نماذج الترجمة من خلال التدريب على المتراكمات الموازية الموَسَّمة.
- التعرف على الكلام: تحسين النماذج باستخدام بيانات الكلام الموَسَّمة.
- استرجاع المعلومات: تحسين خوارزميات البحث مع الكيانات المسماة الموَسَّمة.
- تحليل المشاعر: تحسين النماذج باستخدام متراكمات المشاعر الموَسَّمة.
تعد الموارد اللغوية الموَسَّمة ضرورية لتطوير وتحسين أدوات وتطبيقات معالجة اللغة الطبيعية، حيث توفر السياق والمعلومات التفصيلية اللازمة التي تفتقر إليها البيانات الخام.
الموارد اللغوية الموسمة