عرض مشاركة واحدة
قديم 08-18-2008   رقم المشاركة : ( 3 )
alsewaidi
أبو ماجد

الصورة الرمزية alsewaidi

الملف الشخصي
رقــم العضويـــة : 585
تـاريخ التسجيـل : 05-08-2006
الـــــدولـــــــــــة :
المشاركـــــــات : 2,046
آخــر تواجــــــــد : ()
عدد الـــنقــــــاط : 20
قوة التـرشيــــح : alsewaidi مبدع


alsewaidi غير متواجد حالياً

افتراضي رد: المُدَوَّنات النَّصِّيَّة ودور اللغة العربية في التعامل معها


1.المجالات ذات العلاقة: وهناك العديد من الأبحاث ذات الصلة. ولمزيد من المعلومات، راجع المصدر التالي :
http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/*******/corpora/
ونذكر منها المجالات في أدناه:
علم اللغة الحاسوبي Computational Linguistics
الدراسات الثقافية Cultural Studies
تحليل الحديث والبرجماتية (الفائداتية) Discourse Analysis and Pragmatics
النحو والقواعد Grammar/Syntax
علم اللغة التاريخي Historical Linguistics
اكتساب اللغة Language Acquisition
تدريس اللغات Language Teaching
التنوع اللغوي Language Variation
علم المعاجم Lexicography
علم اللغة Linguistics
الترجمة الآلية Machine Translation
معالجة اللغات الطبيعية Natural Language Processing (NLP)
علم اللغة النفسي Psycholinguistics
علم الدلالة Semantics
علم اللغة الاجتماعي Sociolinguistics
الكلام Speech
علم الأسلوب Stylistics
2.أنواع المتون النصية:
1)من حيث التحليل اللغوي:
1-متون نصية خام "Raw corpus":يقصد بها مجموعات كبيرة وشاملة من النصوص متوفرة إلكترونيا جمعت دون ترتيب أو منهجية.
2-متون نصية معلَّمة "Annotated corpus": مجموعات كبيرة وشاملة من النصوص محللة تحليلًا لغويًا بأية صورة من الصور أو على أي مستوى من المستويات اللغوية. وهذا التحليل تم يدويا عن طريق متخصصين لغويين.
3-المدونات النصية أو المتون النصية المرمزة "Tagged corpus": – مجموعات كبيرة وشاملة من النصوص محللة تحليلًا لغويًا على مستوى أجزاء الكلام POS. وهذا التحليل تم إما يدويًا أو آليًا أو نصف آلي.
2)من حيث آلية البحث:
ويقصد بها طريقة استرجاع ما نبحث عنه من مفردات أو مركبات أو حتى جمل عن طريق:
1.مطابقة القالب الشكلي template/ pattern keyword ونصوص المتن. وفى نفس الوقت تقوم آلية الاسترجاع بعد تكرار هذا القالب في المتن وعرض الأجزاء النصية الَّتي يوجد بها بعدد كلمات تحدد من قبل المستخدم فبل وبعد القالب المطلوب.
2.البحث الصرفي: وهو البحث عن كل جذور الكلمات موضوع البحث بجميع المشتقات. وهذا النوع مازال يعاني قصورًا شديدا إذ إنه يحتاج لقاعدة صرفية كبيرة. وكاتبة البحث تشرف على عمل آلية توفر هذا النوع من البحث ولها نتائج طيبة.
3.البحث الصرفي الدلالي وهو نفس البحث السابق لكن بتحديد معنى واحد من جميع المعاني المتاحة للكلمة. البحث السابق غطي هذه النقطة بالربط بين الكلمات المصاحبة والكلمة اللبسية.
وعلى هذا تنقسم آلية البحث على المدونات والمتون إلى :
متون نصية ذات واجهة بحثية فقط وأخرى ذات واجهة بحثية إحصائية وتنقسم إلى:
1.آلية بحث نصية ذات واجهة إحصائية قالبية:
هذه الآلية غالبا ما تكون مصممة من أجل اللغة الإنجليزية أو مماثلة لما صمم من أجل اللغة الإنجليزية وتعمل عن طريق مطابقة القالب الشكلي template/- pattern/ keyword. أي أنها ليست مدعمة بأي قاعدة لغوية وإنما تقوم على التطابق الشكلي في آلية البحث. ومع تطور الحاسبات تطورت استخدامات المتون ودعمت كل الأعمال في جميع المجالات ومن أشهر وأهم وأنفع آليات البحث هي آلية البحث على الشبكات - Yahoo , Google, … - الَّتي تمد العاملين في جميع المجالات بمطلبهم من أحدث المعلومات والمعارف– ساعة حدوثها أحيانًا- بأقصى سرعة.
2.آلية بحث نصية ذات واجهة إحصائية وآلية تحليل صرفي:
وتختص بالبحث الصرفي وهو البحث عن كل جذور الكلمة موضوع البحث بجميع المشتقات. هذه الآلية مصممة من أجل اللغة العربية فقط لتميزها بخاصية الاشتقاق. وتشمل نفس التطبيق في المتون ذات الواجهة إحصائية بالإضافة لمولد صرفي يولد جميع الكلمات الممكنة من جذر القالب المطلوب البحث عنه يبحث عنها أيضا. وقد يتميز الإحصاء هنا بحساب مجموع التكرارات الكلية للمشتقات وتكرار كل مشتقة على حدة لتحديد أي المشتقات أكثر استخدما فالأقل ثم الأقل. وتعمل عن طريق مطابقة القالب الشكلي للمشتقات دون أي علاقة للمعنى. وغالبا ما تقيد بمنتج لغوي محدد. انظر أي آلية بحث مع برنامج بحثي مثل برامج البحث في القران الكريم.
3.آلية البحث نصية ذات واجهة إحصائية وآلية تحليل صرفي وقاعدة بيانات معجمية دلالية:
هذه الآلية مصممة من أجل اللغة العربية أيضا وتشمل نفس التطبيق في المتون النصية ذات واجهة إحصائية وآلية تحليل صرفي بالإضافة لقاعدة بيانات معجمية دلالية حيث يخزن مع كل مشتقة معلوماتها المعجمية وقيودها الدلالية. وكذلك برامج شركة صخر وغيرها.
3)من حيث اللغة( وحيدة اللغة وثنائية اللغة ومتعددة اللغات):
a)النص في المُدَوَّنة وحيدة اللغة monolingual corpus وهو نص مكتوب بلغة واحدة فقط. انظر جدول (1).
b)النص في المُدَوَّنة ثنائية اللغة Bilingual corpus وهو نص مكتوب بلغتين إحداهما اللغة المصدر والأخرى اللغة الهدف.
c)النص في المُدَوَّنة متعددة اللغات Multilingual corpus or Parallel Corpora وهو نص مكتوب بلغات متعددة بحيث يتم عمل تنظير بين الجمل المتقابلة في كل اللغات. وهى مثل المُدَوَّنة متعددة اللغات المشار إليها في جدول (1). وهي مُدَوَّنة مكتوبة وحجمها 107 مليون كلمة تمثل العربية في مليون كلمة منها. وهناك المُدَوَّنة المتوازية ع/ا التي طورت بجامعة الكويت وهي عبارة عن 3 مليون كلمة والغرض منها تدريس الترجمة.
4)من حيث التطبيق اللغوي والعلاقة بين اللغات في المُدَوَّنة متعددة اللغات
هل هدفها التناظر كالمدونات المتوازية Parallel corpora أم المقابلة كالمدونات المتقابلة Comparable Corpus
5)من حيث العموم:
تمتعمليةتصنيفالمدوناتمنذالتسعينيات،والآنيوجدالعديدمنهذهالأنواع:
· المدوناتالعامةGeneral Corpora ، وهى متعددة الأغراض كمُدَوَّنة براون التي استُخدِمَت – ولا تزال – لأغراضٍ مُتَعدِّدة، كَصَنَاعة المَعاجم وتصميم برامج مُعالَجة النُّصوص، بالإضافة إلى استخدامها لأغراض تعليميَّة.
· المدونات الخاصة.Specialized Corpora وتُستَخدَم لِغَرَضٍ مُعَيَّن. كمُدَوَّنة كوبيلد الَّتي تُستَخدَم لصَناعة المَعاجِم التَّعليميَّة. (وكثيرٌ مِن صُنَّاع المَعاجم المُتَخَصِّصَة يستخدِمون مُدَوَّناتِهم لأغراض أخرى) كتحديد المتصاحبات، أو التعبيرات الاصطلاحية، وغيرها... وفي المُدَوَّنة اللغوية Sublanguage Corpora تجمع وتختار المُدَوَّنة طبقا لموضوع محدد: طبي، أو أدبي، أو جغرافي، ...
آخر مواضيعي
  رد مع اقتباس