الانتقال للخلف   منتديات بلاد ثمالة > الأقسام الــعــامة > الــمـنـتـدى الـعـام

 
 
 
أدوات الموضوع انواع عرض الموضوع
قديم 08-18-2008   رقم المشاركة : ( 4 )
alsewaidi
أبو ماجد

الصورة الرمزية alsewaidi

الملف الشخصي
رقــم العضويـــة : 585
تـاريخ التسجيـل : 05-08-2006
الـــــدولـــــــــــة :
المشاركـــــــات : 2,046
آخــر تواجــــــــد : ()
عدد الـــنقــــــاط : 20
قوة التـرشيــــح : alsewaidi مبدع


alsewaidi غير متواجد حالياً

افتراضي رد: المُدَوَّنات النَّصِّيَّة ودور اللغة العربية في التعامل معها

5) من حيث نوعية النص/ المادة النصية:

· مدونات اللغة المكتوبة Written Corpora .

· ومدونات اللغة المنطوقةSpoken Corpora مثل مدونات البرامج الإذاعية أو المكالمات التليفونية باللغة العربية والمستخدمة بحامعة بنسلفانيا [5] Pennsylvania. توجَد المادَّة المنطوقة على إحدى صورَتَين:

- الأولى: مادَّة صوتِيَّة مُسَجَّلة غير مكتوبة، ويكثر استخدامها لغرض تعليم اللُّغات، كما في المُدَوَّنات المنطوقة لمؤسَّسة LDC.

- الأخرى: مادَّة منطوقة تمَّ تحويلها إلى مادَّة مكتوبة باستخدام المُحوِّلات الصَّوتِيَّة، ويكثُر استخدامها لِغَرَض صَناعة المَعاجم والدِّراسات النَّحوِيَّة، كما في المُدَوَّنات المنطوقة لِسِلسِلة Collins-COBUILD.

6) مدونات اللهجاتDialect Corpora مثل المدونات الخاصة بلهجة واحدة كمدونات اللهجة المصرية.

7) من حيث نوعية مستخدم المُدَوَّنة:

هل هي لاستخدام ابن اللغة native speaker أم متعلم اللغة learner. وهنا يرتبط تصميم المُدَوَّنة بهذا الفرق.

8) من أصل اللغة:

هل لغة المُدَوَّنة أصلية original أم تمت ترجمتها translations. ويجب التمييز بين النوعين هنا لتأثر لغة المُدَوَّنة المترجمة بأسلوب وطريقة ودقة الترجمة.

10) من حيث زمن اللغة

· مُدَوَّنة محددة بفترة زمنية محددة Synchronic Corpora كمُدَوَّنة العربية الفصحى (2004) بجامعة مانشستر، وهي محددة من الفترة قبل الإسلام حتى القرن الحادي عشر.

· مُدَوَّنة شاملة مختلفة الفترات Diachronic Corpora.

11) من حيث الإتاحة:

وقد أدي ظهور شبكات الاتصال إلى التمييز بين المدونات الرسميَّة – Standard Corpora وهي مدونات مصممة وفقًا لمبادئ خاصة- ومُدَوَّنة حرة Free Corpora مثل المتاحة على شبكات الاتصال والتي تضم نصوصًا لا نهاية لها.

12) من حيث تحشية المدونات:

سبق وأوضحنا أن هناك نوعين من المدونات:

1- مدونات خام :Raw Corpora وهي نصوص توجد على صورتها الخام ولم تتم أي إضافة لها ونسميها أيضا متونا نصية.

2- مدونات مزودة بمعلومات لغوية :Annotated Corpora ورغم شيوع استخدام المدونات الخام في الدراسات اللغوية، فإن هناك بعض القضايا اللغوية التي تتطلب استخدام النوع الآخر من المدونات والمزودة بمعلومات لغوية مختلفة ومتنوعة. وأحد أهم المزايا الأساسية لهذه المدونات أنها تحولت من صورتها الخام إلى صورة يتضح فيها شتى المعلومات اللغوية. وتسمى هذه المعلومات "تحشية". وهناك العديد من الأبحاث حول عملية التحشية ومبادئها وقواعدها.

13) من حيث المنتج:

1- مؤسسات أو هيئات Organization:

وهي خاصة بمشروعات تجارية وتمتاز بتوفر الدعم المادي والبحثي والحكومي أحيانًا مثل مدونات LDC [6].

2- أفراد أو مجموعات بحثية:

وهي التي ينتجها أفراد للمشاركة في مشروعات بحثية أول للحصول على درجات علمية مثل لطيفة[4].

5. تخزين المُدَوَّنة:

يوجد كثير من الصور الإلكترونية للنصوص لا تمكنا من التعامل معها تعاملا مباشرا سواء باستخدام برامج التحليل اللغوي أو المفهرسات الآلية، لذلك يجب تحويل هذه الصور جميعها إلى الصورة النصية plan text format مثل (Doc, Text, Rtf,..) حتى يسهل التعامل معها بأي مصحح نصي text editor. من هذه الصور:

§ صورة لغة الربط بين النصوص التشعبية (HTML): وهي من أشهر صور التعامل النصي مع شبكات الاتصالات؛ فهي لغة كتابة معظم صفحات الشبكة. وهي ليست لغة برمجة وإنما لغة وصفية لعرض محتويات المواقع والروابط الملحقة بها من خلال متصفحات إلكترونية. وهذه الصفحات بطبيعة الحال لا يمكن التعديل بأي صورة من الصور فيها كنوع من أنواع التأمين لكن يمكن نسخها لأي صورة نصية. وهي بطبيعة الحال رغم شهرتها ليس اللغة الوحيدة للتعامل مع صفحات الشبكات وإنما يوجد لغات أخرى مثل: Java , Active ,Home page وجميعها امتداد لHTML لذلك يمكن تحويلها لصورة نصية بسهولة.

§ صورة الوثيقة المحمولة (PDF): وهي من أعم وأهم صور تبادل النصوص بين الباحثين في جميع بلدان العالم من خلال شبكات الاتصال حيث تخضع لأغلب نظم التشغيل مثل: Microsoft, Linux. وهي متاحة للقراءة فقط من خلال Adobe Reader ولكن يمكن تحويلها من خلال برامج كثيرة لصورة نصية، مثل برنامج المحول المحترف PDF Converter Professional وهو متوفر على الموقع : www.ScanSoft.com. وغالبا ما تكون صورته رقمية طبق الأصل من النص الأصلي تحتفظ بجميع خواصه وسماته خاصة نصوص اللغة الإنجليزية، ولكنها لا تدعم كل الخطوط العربية والرموز وعلامات التشكيل والترقيم مما يسبب أخطاء أثناء تحويل النصوص العربية لذلك يجب مراجعتها قبل استخدامها.

§ الصورة النصية، وهي أسهل الصور في التعامل الحاسوبي وفي تحليل اللغات وغيرها من البرامج والتطبيقات.

أما في حالة المتون الصوتية فهي تحتاج نوعية خاصة من التعامل، وكذلك اللغات التي لا يمكن لجميع الحواسيب التعامل معها مثل الصينية واليابانية. ويفضل تخزين المتون في صورة قواعد بيانات يتم ربطها بالمعلومات الخاصة بها.

6. صور تصميم المدونات:

1- مجموعة من النصوص a text collection.

2- مجموعة معبرة عن اللغة من النصوص a representative text collection.

3- مجموعة معبرة عن اللغة وبنائية من النصوص a representative and structured text collection.

4- مجموعة معبرة عن اللغة وبنائية مرمزة من النصوص مقروءة آليًا a representative, structured and annotated text collection(in order to be machine readable)

7. استخدامات المدونات في معالجة اللغة قديما وحديثًا:

عملية تجميع النصوص لدراستها عملية قديمة وشاقة وتتطلب وقتا طويلًا، وقد كانت في حدود قدرات الباحثين البشرية قبل ظهور الحاسب الآلي. وقد كانت المدونات تُستخدم بصورة منتظمة تطورت إلى أحد فروع علم اللغويات المعني بدراسة المدونات .Corpus Linguistics وكانت المدونات الكبيرة تستخدم ليس فقط للتحقق من النظريات اللغوية الجديدة، ولكن أيضًا لإنتاج قواميس ومعاجم لغوية ومناهج لتعليم اللغات والقواعد، جميعها يعتمد عليها في بناء هذه المدونات. وفي العصر الحديث، بعد التطور الهائل والتقاء تكنولوجيا الحاسوب بالمتون النصية أصبحت المدونات اللغوية أساسا من أسس البحث اليوم. وقيمة المدونات ترجع لما تقدمه من شواهد لغوية تدعم البحوث اللغوية. وقد ظهرت أهميتها في علم اللغة الحاسوبي.Computational Linguistics ويعنى علم اللغة الحاسوبي بتطوير أدوات لتحليل المدونات لتطوير خوارزميات algorithms لمعالجة اللغات الطبيعية ولدراسة وتحليل اللغة بكافة صوره – صرفي؛ معجمي ؛ نحوي؛ دلالي ..- والظواهر اللغوية. تقول لطيفة [4] أن أول من استخدم المتون النصية باللغة الإنجليزية في التعليم هو لي عام 1997 [4]. وأصبح من السهل على المتعلم البحث عن المثل والتحقق من المعلومة من خلال المتون النصية. لمزيد من التفصيل انظر لطيفة[4]. وأهم ما نتطلع له هو إنشاء قاعدة بيانات نصية تخدم جميع مجالات الدراسة اللغوية باللغة العربية وتطبيقاتها ويمكن عن طريقها عمل برامج إحصائية.

1) المدونات والإحصاء اللغوي: الإحصاء اللغوي الذي يتم على المدونات يمكن أن يثري معالجة اللغات الطبيعية ومن بعض إسهاماته:

1-المستوى الصرفي:

- الإحصاء الصرفي وما يمكن أن يضيفه للقواعد الصرفية.

- التحليل والتوليد الصرفي الآلي.

- تصحيح الأخطاء الإملائية الناتجة عن الصرف.

- دعم التشكيل الآلي للنصوص.

2- المستوى النحوي:

- التحليل النحوي وتفكيك الجملة لعناصرها النحوية الأولية "مبتدأ، خبر، فعل، فاعل …".
- الإحصاء النحوي وما يمكن أن يضيفه للقواعد النحوية.
- التحليل والتوليد النحوي للنصوص.

- التشكيل الآلي للنصوص.

- تعليم النحو للصغار ولغير الناطقين بالعربية باستخدام الحاسوب.

3- المستوى الدلالي:

- الترجمة الآلية.

- الفهم الآلي للنصوص.

- دراسة تطور أساليب الكتابة من حيث الشكل والمضمون.

- دراسة الترابط النصي في النصوص الحديثة.

- تحديد المفردات الأكثر شيوعًا.

- تحديد المترادفات الأكثر شيوعًا، وكذلك الأضداد والمتضادات، وجميع الظواهر اللغوية الأخرى.

- دراسة مدى تأثير غياب حركات التشكل،وعلامات الترقيم على التحليل اللغوِيّ.

- تحديد مدى استخدام وتأثير المفردات والتراكيب العامية والأجنبية في اللغة.

- دراسة ومقارنة في النحو والأساليب بين اللغة العربية الأصلية واللغة المستخدمة اليوم وتحديد نواح التطور.

- تحديد أشكال الجمل والتراكيب والمفردات في الكتابات المعاصرة.

- تحديد الأساليب اللغوية في الكتابات المعاصرة.

- تحديد الأخطاء اللغوية الشائعة في الكتابات المعاصرة.

ومن ثم إقرار الصحيح منها ورفض الخطأ وتصحيحه بما يتناسب مع قواعد اللغة العربية وأساليبها الصحيحة، وعمل تصور للقواعد اللغوية يمكن الرجوع إليه من قبل جميع الكتاب،والمفكرين ومن ثم الرقي باللغة العربية.

- دراسة أساليب الكتابة للكتاب المعاصرين من حيث الشكل والمضمون. ويمكن أن يفيد الحاسوب في مجال النصوص الأدبية وأساليب الكتاب بتحليل أساليب الكتاب المعاصرين مثلًا، من حيث أطوال الجمل والمفردات والتراكيب النحوية واستخدامها للضمائر والعطف والظروف والجمل الاعتراضية والظواهر اللغوية وغيرها. ومن ثم إنتاج الوثائق النصية بأسلوب كاتب معين. كذلك يكمن عندها حصر وشرح هذه الأساليب للكتاب المبدعين في المدارس والجامعات لتوليد جيل ذو لغة جميلة.

- إنشاء معجم آلي يضم السمات اللغوية على جميع المستويات أنظر [5]. وهذا بدوره يؤدى إلى لسهولة فك اللبس انظر [7]. انظر [5] لماذا يجب أن نحل اللبس؟

- عمل عقول حاسوبية اصطناعية تحاكى القدرات البشرية لاستخدامها في تطبيقات شتى.

- تدعيم المعجم العربي بسمات وخصائص ودلالات جديدة. إثراء المعاجم العربية بالعلاقات والسمات [8].

- إمكانية تحليل النصوص آليًّا ومن ثم إعراب النصوص آليًّا والعودة إلى التشكيل تدريجيًّا.

- سهولة الترجمة.

- اختصار النصوص واستخلاص المعلومات من النص مثل .Information extraction or text mining.

- تصحيح الأخطاء (الصرفية – النحوية – الدلالية).

- الارتقاء بالأساليب التعليمية للغة العربية، وعرضها بشكل مفيد جذاب .

- تحليل النصوص الأدبية وحفظ سماتها ؛ مما يمكننا فيما بعد من توليد نصوص بالصياغة والأداء أنفسهما.

- قراءة الكتب آليًّّا، وعمل ملخصات لأهم النقاط بها .

- استعادة المعلومات عن طريق المحادثة باللغة الطبيعية مع الحاسوب ومع شبكات المعلومات.

- ترجمة الكتب والمقالات من وإلى جميع اللغات، والاستفادة منها وخدمة قضية التعريب.

- حصر دقيق لخصائص العلاقة بين اللغة العربية.

- إقامة نماذج حاسوبية لفهم الأداء الشامل لمنظومة اللغة العربية[9].

- تطبيق أساليب الذكاء الاصطناعي في تفهم اللغة العربية غير المشكولة .

2) استخدامات خاصة في مجال اللغويات:

تستخدم في دراسة النصوص:

1. مقارنة بين استخدامات الكلمة.

2. تحليل الكلمات.

3. تحليل تردد الكلمات.

4. إيجاد وتحليل الفقرات والتعبيرات الاصطلاحية.

عمل الفهارس وقوائم الكلمات
آخر مواضيعي
  رد مع اقتباس
 

مواقع النشر

أدوات الموضوع
انواع عرض الموضوع

ضوابط المشاركة
لا تستطيع إضافة مواضيع جديدة
لا تستطيع الرد على المواضيع
لا تستطيع إرفاق ملفات
لا تستطيع تعديل مشاركاتك

BB code متاحة
كود [IMG] متاحة
كود HTML معطلة

الانتقال السريع

المواضيع المتشابهه
الموضوع كاتب الموضوع المنتدى الردود آخر مشاركة
الترادف في اللغة العربية مناهل اللغة العربية وعلومها 7 05-24-2011 07:33 PM
ترجم اي موقع بأي لغة الي اللغة العربية :- بَنتْ الأصَآيلْ منتدى الكمبيوتر والأنترنت 6 01-29-2007 01:43 PM
مجلة اللغة العربية ABO TURKI الديوان الأدبي 22 09-07-2006 11:37 PM
اللغة العربية ....!!!!! أبو عبيدة الــمـنـتـدى الـعـام 8 04-28-2006 04:14 PM


الساعة الآن 11:36 PM.


Powered by vBulletin® Version 3.8.7
Copyright ©2000 - 2025, vBulletin Solutions, Inc. Trans by