رد: المُدَوَّنات النَّصِّيَّة ودور اللغة العربية في التعامل معها
المدونات الإلكترونية:
ما هو النص الإلكتروني
هو أي نص مخزن على جهاز إلكتروني. هذا النص يمكن التعامل معه باستخدام هذا الجهاز: مثل رسائل الهاتف الجوال
أو رسائل البريد الإلكتروني
أو نصوص معالجة الكلمات
ولهذه الأخيرة صور عديدة.
2) ما المقصود بالمدونات النصية Corpus؟
كلمة “Corpus” كلمة إنجليزية مشتقة من كلمة لاتينية بمعنى “الجسد” وترجمة الكلمة اللاتينية الأصل “corpse” التي تقابل في الإنجليزية “body” وجمعها في اللاتينية هو “corpora”. وهي عبارة عن مجموعة من النصوص المتاحة للاستخدام الحاسوبي، ويُطلق على مجموعة Corpus / المدونات بالإنجليزية لفظ .”corpora” ونظريًا، يجوز أن نطلق على أكثر من نص مصطلح (مُدَوَّنة). وقد عرفها معجم أكسفورد [1] للغة الإنجليزية بأنها "جسم من المادة المكتوبة أو المنطوقة يبنى عليه التحليل اللغوي". أما معجم ديفيد كرستال فعرَّفَها بأنها "مجموعة من البيانات اللغوية المكتوبة أو المُحَوَّلة لمادَّة مكتوبة من تسجيلاتٍ صوتية، يمكن أن تستخدم كنقطة بداية لوصف اللغة أو طريقة لإثبات الفرضيات اللغوية" [2].
وبالرغم من أن المتون كانت فيما قبل نصوصًا ورقية؛ إلا أن المتون تُعٌرف الآن على أنها النصوص المقروءة آليا، وأطلق عليها مدونات حاسوبية computer corpora. وعندما نتحدث عن المتون والمدونات فإننا نعنى الحاسوبية - النصوص الالكترونية - ما لم نذكر خلاف ذلك. وتعرف المدونات في علم معالجة اللغات الطبيعية بأنها؛ "بناء كبير من النصوص الإلكترونية يستخدم في التحليل الإحصائي اللغوي ويتحقق من تكرار أو صحة القواعد اللغوية".
3) هل هناك مجموعات من النصوص الإلكترونية لا تمثل متنًا أو مُدَوَّنة؟
نصوص شبكات المعلومات ليست متنًا [3] لأنها:
1. غير محددة
2. تتغير باستمرار وبمعدل الثواني وبدون أية منهجية.
3. لم تصمم لأغراض لغوية.
4. تتخلَّلها الصور والأشكال والخطوط وغير ذلك.
ونحن نرى أنه يمكن التعامل معها كمصدر للمدونات إذ يتم حصر النصوص المتوفرة عليها وتنظيمها بصورة مُدَوَّنة، بل أن البعض يعتبرها أهم مصادر المدونات.
الأرشيفات والسجلات
1. تجمع لأغراض مختلفة[3].
2. تصنف بأولويات متغيرة.
النص الواحد لا يمثل مُدَوَّنة.
تجميع الشواهد اللغوية citationأو المقتبساتquotation لا يمثل مُدَوَّنة لعدم وجود اتصال نصي أو معرفة بالمنهجية التي اتبعت في تكوين كل منهما[3].
4) التدوين اللغوي
يعتبر التدوين اللغوي نهجا حديثا وعلما جديدا من العلوم اللغوية، خاصة في مجال اللغة العربية. وقد طور هذا العلم في الفترة الأخيرة اعتمادًا على ما قدمته تقنية الحاسبات من دعمٍ لها في مجال معالجة اللغات الطبيعية آليًا. وقد سهلت هذه التقنيات تمثيل المدونات بطريقة تلائم البحث الآلي.
وهدف التدوين اللغوي ليس استخراج البيانات آليًا، ولكن دراسة وتحليل البيانات المستخرجة من المدونات مما يتطلب المعالجة الحاسوبية التي قد لا نستغني عنها أحيانًا. إذن التدوين اللغوي هو دراسة للغة والظواهر اللغوية مبنية على المدونات الآلية، وهو يختلف عن الدراسات التقليدية بتوفير قاعدة نصية هائلة من العالم الحقيقي والاستخدام الفعلي للغة. وفي حقيقة الأمر أن القدامى قد قاموا بعمل مدوناتهم الشخصية الورقية من العالم الحقيقي والاستخدام الفعلي للغة. وجمعوا بياناتهم على كروت ورقية صنفت كيفما تراءى لهم من مناهج إلا أن ذلك كله كان محدودا بالجهد والطاقات البشرية. ومن ثم فإن البحث الذي كان يحتاج لعشرات السنين لعمله أصبح من الممكن عمله في وقت قصير. وتتفوق الطرق التي تستخدم البحث الحاسوبي على الطرق التقليدية في السرعة، وتقليل الجهد، والدقة، والشمول.
و التدوين اللغوي هو دراسة اللغة كما تمثلها عينة من النصوص الحياتية الحقيقية "real world" على كافَّة المستويات (الصوت، والبنية، والتركيب، والدلالة، والمُعجَم، والجوانب البراجماتية...). والتدوين اللغوي ليس مجرد استخراج بيانات لغوية بمساعدة الحاسب ولكنها تحليل لهذه البيانات. تقول لطيفة: إن المدونات اللغوية ليست علما مستقلاً من علوم اللغة[4] بل هي طريقة لدراسة اللغة. ونقول: إنها مصدر لدراسة اللغة تختلف الآليات المعالجة له.
ولكي نطلق على مجموعة من النصوص "مُدَوَّنة لغوية" فيجب أن تخضع مادَّة المُدَوَّنة اللُّغَوِيَّة لمجموعة من الأسُس والمعايير، فهي ليست نصوصًا مجموعة بطريقة عشوائية؛ بالرغم من إنها كتلة غير منتظمةٍ من النُّصوص. هذه الأسُس والمعايير، يُحَدِّدها الهدف المنشود من المُدَوَّنة اللُّغَوِيَّة؛ فالمُدَوَّنة التي يُعتَمَد عليها في صَناعة مُعجَمٍ لُغَويٍّ، ستختلف مادَّتُها عن تلك المُستَخدَمةِ في حَصر مجموعة من الأنماط التركيبية أو البِنَوِيَّة للُّغة، كما تختلف مادَّة المُدَوَّنة المُستخدَمة في صَناعة مُعجَمٍ تكراريّ عن تلك التي يُعتَمَد عليها في صَناعة المَعاجم التاريخية. كذلك.. فإنَّ المُعالَجة الآليَّة للنُّصوص تتَّفِق وطبيعةَ المُدَوَّنة؛ فالبرامج الحاسوبيَّة المُستَخدَمة، وطريقة مُعالَجة النصوص، وطرائق إدارة قواعد البيانات، كلُّ هذا يخضَع لتلك الأسُس والمعايير التي يُحدِّدها هدف المُدَوَّنة اللُّغَوِيَّة. وعلى الرغم من هذا كله فأنا أؤيد عمل مُدَوَّنة تغطي جميع الأغراض السابقة أو بعبارة أخري فإن المُدَوَّنة الممثلة للغة يجب أن تصلح لجميع الأغراض.
وظل الحديث هنا قاصرًا على المدونات النصية باللغة العربية التي تعاني تقلصًا هائلاً نسبة لنظائرها في اللغة الإنجليزية. ولا ننكر جهود الباحثين المخلصين في هذا المجال مثل لطيفة [4] التي سعت لجمع مدونه نصية هائلة ومتنوعة لسد حاجة اللغويين في هذا المجال إلا أن عملها ظل محدودا بالوقت المخصص للبحث وبالجهد الفردي أيضًًا.
واستغلال الحاسب في التطبيقات اللغوية على المدونات النصية غيَّرَ من كفاءة ونوعية الأبحاث التي كانت تعتمد على دراسة التراكيب اللغوية وأصبحت الآن تعتمد على الاستعمال اللغوي والتطبيق الفعلي. فباستخدام اللغة الحية، أي اللغة من الواقع اللغوي –المستخدمة عمليا في الحياة اليومية - في التحليل نحُصل على أكبرِ قَدْرٍ من الاستعمالات اللُّغَوِيَّة للمُفردات والتَّراكيب العربيَّة بينَ أهلِها، وَهذا بدوره يخدِم جانِبَ الاستعمال اللُّغَوِيّ Pragmatics الَّذي يتجاهله كثيرٌ مِن صُنَّاعِ المُدَوَّنات اللُّغَوِيَّة مُكتَفِينَ في تحلِيلِهم اللُّغَوِيّ للنُّصُوص بجوانِب التَّحلِيل البِنَوِيّ والتَّركيبيّ، وإن وُجِدَ الجانب البرجماتي فهو مرتبط بخبرتهم الخاصة، أو بما استطاعوا تحليله بالجهد البشري فقط. وقد وجد كثير من الأخطاء المعجمية والصرفية والنحوية والتركيبية والدلالية الشائعة في الاستخدام في هذه المدونات. وهذه الأعمال كانت استكمالاً لأعمال كثير من اللغويين مثل فاروق شوشة –برنامج قل ولا تقل- ومثل د/ محمد حسن الأخطاء اللغوية في الصحافة المعاصرة [5]. وقد لجأ هؤلاء جميعا للجهد البشري الخالص بالرغم من جودة النتائج.
|