المحتوى الثقافي العربي: رؤية مستقبلية لغوية

المحتوى الثقافي العربي: رؤية مستقبلية لغوية

يمكن القول إن هناك عاملين أساسيين يوجهان مسيرة تطور المحتوى الثقافي: العامل الأول هو التطور المتسارع للإنترنت بوصفها الأداة المثلى للتواصل الثقافي بلا منازع. والعامل الآخر هو مدى التقدم في تطوير أساليب معالجة مواد المحتوى عموما وأساليب معالجة اللغات الإنسانية حاسوبيا على وجه الخصوص، لكون اللغة - في رأي الكثيرين - هي محور منظومة الثقافة.

انطلاقاً من هذين العاملين أتمنى أن أطرح هنا رؤية مستقبلية عن مسيرة تطور المحتوى الثقافي ممثلة في سلسلة من النقلات النوعية تم إدراجها تحت العناوين التالية:

  • المحتوى المرقمن Digitized
  • المحتوى المعزز Augmented
  • المحتوى المشتق Derived
  • المحتوى المولد بالاحتشاد Swarm - Generated
  • المحتوى المولد آليا Machine - Generated

سلسلة النقلات النوعية لتطور المحتوى الثقافي

وسنتناول فيما يلي بإيجاز كل نوع من أنواع المحتوى هذه مقرونة بأدوات معالجة اللغة العربية آليا اللازمة لدعمها.

أ- المحتوى المرقمن: تمثل الرقمنة العملية الأساسية لتحويل موارد المعلومات إلى صورة يمكن للكمبيوتر التعامل معها، ويتم ذلك من خلال تحويل المعلومات، المقروءة والمسموعة والمرئية، إلى الكود الرقمي Binary code القائم - كما هو معروف - على ثنائية الصفر والواحد. بعد رقمنتها تدين هذه المعلومات إلى المعالجة الآلية على اختلاف مستوياتها، كما يرى البعض، فإن الرقمنة بالنسبة لموارد المعلومات تناظر الحرارة بالنسبة للمواد المعدنية، فهي - أي الرقمنة - تحيل موارد المعلومات على اختلاف أنواعها إلى صورة متجانسة من سلاسل الصفر والواحد، وهو ما يسمح بدمجها في «سبائك رمزية» - إن جاز التعبير - تنصهر في صلبها الأجناس المختلفة لتسجيل المعلومات: حروفا وأصواتا وأشكالا وصورا ثابتة وحية.

إن هذا التجانس الفائق بين هذه الأنساق من الرموز يسمح بإجراء تحويلات مثيرة فيما بينها فيمكن تحويل الكلمات إلى أصوات والأصوات إلى أشكال والمسطحات إلى منحوتات.

يحتاج المحتوى المرقمن إلى عدة أدوات برمجية لغوية تشمل أساساً:

- نظاماً لقراءة النصوص العربية أوتوماتيكيا باستخدام ما يعرف بـ «ماسح الحروف الضوئي OCR»، وقد تم بالفعل تطوير هذا النظام، بيد أن درجة دقته مازالت منخفضة خاصة في قراءة النصوص التي تم تجميعها بقوالب حروف الرصاص قبل ظهور الوسائل الحديثة لتجميع النصوص ضوئيا Photocomposing، حيث عادة ما تكون حروف هذه النصوص مشوهة وغير متجانسة نظرا لأن حروف الرصاص تبلى وتتآكل مع كثرة الاستخدام.

- أدوات لتدقيق النصوص هجائيا ونحويا تحاكي المهمة التي يقوم بها المصححون البشريون Proofreaders، ومن المعروف أن النظم الآلية المتوافرة لتصويب النصوص العربية هجائيا ليست فعالة مقارنة بالإنجليزية، وذلك نظرا للترابط الشديد بين الصرف والنحو أي بين بنية الكلمة وسياقها النحوي الذي ترد به داخل الجملة، وهو ما يجعل التصويب على مستوى الكلمات غير كاف، فجملة مثل: «إن المواطنون الصالحون يقدموا أعمال ذات نفعا للجميع»، جميع كلماتها - كما هو واضح - سليمة هجائيا، إلا أنها مليئة بالأخطاء النحوية، وفي حالات عديدة يمكن أن تكون الجملة سليمة هجائيا ونحويا بيد أنها غير صائبة دلاليا أي من حيث المعنى، مثال لذلك جمل من قبيل تلك التي هنا والتي أبرزنا فيها الكلمات الخاطئة دلاليا بوضعها بين قوسين: «هناك عدة آيات تؤكد (تجميد) العقل في القرآن (بدلا من تمجيد)، «يؤمن أقباط هذه المدرسة (بدلا من أقطاب)»، «من (الأخرى به أن يقر بذلك (بدلا من الأحرى)».

- نظام آلي لتمييز الكلام العربي يمكن تطويعه للأصوات المختلفة من الذكور والإناث بمختلف الأعمار، وقد تم بالفعل تطوير هذا النظام إلا أن درجة دقته مازالت منخفضة، وهو ما يستوجب تعزيز آلية التمييز الصوتي بوسائل لغوية قادرة على أن تصوب أوتوماتيكيا أكبر قدر، مما فشلت في تمييزه هذه الآلية. بسبب الإدغام والخلط بين أصوات الحروف المتقاربة في النطق، وكمثال بغرض التوضيح، إذا ما فشل النظام في تمييز نطق كلمتي القوى العظمى فأخرجها على صورة «الكوا العزمى» نظرا لصعوبة التمييز بين القاف والكاف وبين الزاي والظاء، فباستخدام الوسائل اللغوية يتم تصويب كلمة «العزمى» إلى «العظمى»، ومن ثم تصويب «الكوا» إلى «القوى» على أساس وجود أكلشيه معجمي هو «القوى العظمى».

ب - المحتوى المعزز: يتم تعزيز المحتوى بعناصر إضافية لتسهيل قراءته وأرشفته والبحث فيه وربطه بمصادر المحتوى الأخرى. إن هذه القيمة المضافة هي التي تكسب مصادر المحتوى الثقافي جدارة سريانها عبر شبكة الإنترنت، فتعزيز المحتوى بهذه العناصر الإضافية هو الذي يكسب المصادر القدرة على الصمود أمام الكم الهائل من مصادر المعلومات الأخرى التي تنافسها على اجتذاب حجيج زوار الإنترنت. لقد أصبحت القيمة المضافة في ظل تزايد وفرة المعلومات هي العامل الحاسم الذي يميز الوثيقة الإلكترونية.

يحتاج تعزيز المحتوى الثقافي إلى عدة وسائل لغوية آلية من أهمها:

- نظم آلية لفهرسة الوثائق واستخلاص الكلمات المفتاحية الدالة على مضمونها، وكانت هناك بعض محاولات لفهرسة النصوص العربية بصورة تقريبية باستخدام أساليب إحصائية تم استنساخها من النظم المصممة - أساسا - للنصوص الإنجليزية وهو ما يحد كثيرا من أدائها ودقتها نظرا للتباين الشديد بين بنية النص العربي ونظيره الإنجليزي، وربما تجدر الإشارة هنا إلى أن الكتب العربية مازالت تصدر دون فهرس أسوة بما يتم في الكتب الإنجليزية وغيرها من اللغات، وهو ما يحرم قراء هذه الكتب من الوصول مباشرة إلى الفقرات التي تضمن كلمة معينة.

* وسائل آلية لإبراز المصطلحات الواردة بالنص وتذييلها بتعريفاتها ونشأتها وترجماتها ومجالات استخداماتها.

* نظم آلية، أو شبه آلية، لتعزيز المحتوى بحلقات التشعب النصي hypertext Links التي يمكن تقسيمها من منظور هذه الدراسة إلى نوعين رئيسيين:

- حلقات التشعب الخارجية التي تربط مصدر المحتوى بالمصادر الأخرى، وهي تحتاج إلى تصنيف الوثائق الإلكترونية موضوعيا حتى يمكن الربط بين الوثائق ذات الموضوع المشترك، ومع الأسف فإن المكتبة العربية مازالت تفتقد إلى مكانز التصنيف الموضوعي باستثناء محاولة قامت بها المؤسسة الأكاديمية بالقاهرة، وقد استهدت في وضعها بمكنز التصنيف الموضوعي لمكتبة الكونجرس، وهناك حاليا جهود جارية بين معهد الكويت للأبحاث العلمية ومكتبة الإسكندرية لوضع الكتالوج الموحد للمكتبات العربية الذي يعد خطوة همة في هذا الاتجاه.

- حلقات التشعب الداخلية داخل النص التي تربط لغويا بين عناصر النص مثال: الربط بين الكلمات التي تشترك في أصل الاشتقاق مثل الربط بين كلمات «يختلف، مختلف، اختلاف»، أو الربط بين الكلمات التي تترادف أو تتلازم معجميا كترادف كلمات مثل: ثمن، سعر، قيمة، وتلازم أزواج كلمات من قبيل: الحقوق والواجبات، المدارس الفكرية، وبنود العقد». وغني عن القول إن إقامة الحلقات الداخلية للتشعب النصي يحتاج إلى بحوث أعمق لتحليل البنية التركيبية للأجناس المختلفة لسرد النصوص العربية من أجل تحديد قرائن التماسك السياقي والترابط المنطقي لهذه النصوص.

جـ - المحتوى المشتق: لم يعد المحتوى الخام، أي المحتوى في صورته الأصلية، هو المصدر الوحيد للمعلومات أو أساس الكشف عن المعرفة التي يتضمنها، حيث يمكن أن تشتق من هذا الأصل صور أخرى، منها صور تلخصه وتقطره لمواجهة حمل المعلومات الزائد الناجم عن الكم الهائل من الوثائق التي تقذفنا بها محركات البحث في الإنترنت، ومنها صور تترجمه من لغة إلى أخرى، أو تحوله من شكل إلى آخر كتحويل جداول الأرقام إلى رسومات إحصائية أو خرائط بيانية.

يحتاج المحتوى المشتق إلى عدة وسائل برمجية لغوية من أهمها:

- نظم آلية لتجريد النص، وذلك باستخلاص أهم الجمل التي وردت به، ويتم ذلك عادة باستخدام أساليب إحصائية ومعجمية لتحديد الثقل المعلوماتي للجمل والكلمات الواردة بها.

- نظم آلية لتلخيص مضمون الوثائق الإلكترونية، وتحتاج عملية التلخيص إلى نظم آلية لتحليل نص الوثيقة، أي فهم، مضمونها أوتوماتيكية، وللحديث بقية في الفقرة (هـ).

- نظم آلية عالية الجودة للترجمة العلمية، أو بقول ما دون الأدبية ما بين العربية واللغات الأجنبية وعلى رأسها الإنجليزية، وذلك بهدف تحقيق درجة جودة أعلى من تلك لنظم الترجمة الآلية الحالية التي تبني النهج الإحصائي.

- استخلاص الكلمات أو مجموعة الكلمات الأجنبية المرشحة لأن تكون مصطلحاterm candid ates يلزم ترجمته إلى العربية من قبيل ما تصادفه في خطاب الإنترنت الراهن مثل: Semantic web, collective filtering, cyber security.

د - النص المولد بالاحتشاد: إنتاج المعرفة - كما قيل - عمل جماعي، وقد جاءت التطورات الحديثة للإنترنت لتؤكد بقوة صدق هذه المقولة، حيث أتاحت هذه التطورات طرقا مبتكرة لإنتاج المعرفة من خلال احتشاد عقود الأفراد عن طريق تواصلهم المتفاعل الفعال عبر ما بات يعرف بـ «الشبكات الاجتماعية» كـ «الفيس بوك Facebook»، أو إنتاجها - أي المعرفة - من خلال احتشاد الوثائق الإلكترونية ومن خلال احتشاد الوثائق الإلكترونية عن طريق تجاورها المباشر عبر ما يطلق عليه تكنولوجيا «الويب الدلالي» Semantic web.

تستخدم تكنولوجيا الويب الدلالي أساليب مستحدثة مثل: «الهندسة الأنطولوجية» لبناء خرائط المفاهيم للمجالات المعرفية المختلفة، فهناك - على سبيل المثال - أنطولوجيا الفيزياء النووية، أنطولوجيا الاقتصاد - السياسي، أنطولوجيا صناعة النقل الجوي.

يحتاج المحتوى المولد بالاحتشاد إلى وسائل برمجية لغوية من أهمها:

- نظم بناء الأنطولوجيات ذات الصلة بالثقافة العربية مثل تلك الخاصة بالتراث الديني والثقافي، وهو ما يتطلب تحديدا دقيقا للمفاهيم التي ترد في أصول هذا التراث. تقوم الأنطولوجيات على فكرة وضع مجموعة المفاهيم في صورة تراتبية (سلمية).

- وكل مفهوم يرث سمات ما يعلوه. فالطواف حول الكعبة في مثالنا يرث سمتي التوقيت وشرط الإحرام من مراسم الحج التي ترث - بدورها - شرط الإلزام من أركان الإسلام، وهكذا.

- صياغة قواعد النحو العربي في صورة مقولات منطقية أسوة بما تم في لغات أخرى مثل الإنجليزية والفرنسية والألمانية، ويقصد بذلك ربط كل التراكيب النحوية الممكنة للجمل العربية.

- توفير أدوات الدعم للإعلام الشعبي أو الاجتماعي Socila Media ودعم تحرير المدونات وتحليلها.

- ضرورة مشاركة الخبراء العرب في الجهود الجارية حاليا لوضع قياسات الويب الدلالي، وسنكتفي هنا بذكر بعض المصطلحات المستخلصة من قائمة هذه القياسات إثباتا لمدى تعددها: Oil, Owl, Xml, Rdf, Daml, Ilp, Swss, Cms.

- وسائل مبتكرة لدعم التواصل عبر الشبكات الاجتماعية تقوم على ما يعرف بـ «هندسة التخاطب Conversational Engineering»، بهدف تطوير نظم لمتابعة مسالك التخاطب لرصد آراء المشاركين ومواقعهم ومدى تعاونهم. علاوة على ما سبق، من المتوقع أن تندمج وسائل هندسة التخاطب مع نظم المعالجة المنطقية فيما يعرف حاليا بـ «تكنولوجيا الإقناع بمعاونة الكمبيوتر Computer - Assisted Persuasive Technology».

هـ - المحتوى المولد آليا: وهو يمثل ذروة تطبيق أساليب الذكاء الاصطناعي في المجال اللغوي، حيث يتم توليد المحتوى الثقافي آليا من مصادر معلومات قائمة بالفعل، ويشمل المحتوى المولد آليا أربعة أصناف أساسية هي:

* المحتوى المكتشف آليا: حيث يتم اكتشاف المعرفة الكامنة في جوف البيانات، وذلك من خلال ما يعرف بتكنولوجيا «التنقيب في مناجم البيانات Data Mining».

* المحتوى المستنبط: من المعروف أن ظاهر النص لا يعكس سوى قدر ضئيل مما يكمن في جوفه من معارف. بقول آخر، هناك كم هائل من المعارف التي يمكن استنباطها، ففي جملة بسيطة مثل: «تم عقد قران عادل بسامية»، يمكن استنباط أن عادل وسامية مسلمان، وأنهما بالغان، وأن عقد القران قد تم بواسطة مأذون شرعي، وقد تم ذلك غالبا وسط جمع من الأهل والأصدقاء»، وكل هذه المعلومات المستنبطة - كما هو واضح - ليست واردة في النص، بل يتم استنباطها من خلال نظم الفهم الأوتوماتي التي تقوم باستخلاص البنية المفهومية للنص كاشفة عن شبكة العلاقات الدلالية التي تموج بداخله. المعضلة الأساسية أن عملية الفهم لا يمكن أن تتم دون معرفة شاملة عن العالم لبيان معالمه وكياناته وكائناته وما يجري فيه من أحداث وما يقام به من علاقات.

* المحتوى المؤلف آليا: يطمح أهل الذكاء الاصطناعي إلى إكساب الآلة القدرة على تأليف المقالات، أي قيام الآلة بصياغة نص ما بتغذيتها بحزمة المفاهيم المراد التعبير عنها.

* المحتوى المعاد صياغته آليا: يمكن صياغة النص آليا بأسلوب مختلف يراعي - على سبيل المثال -مستوى الصعوبة وخلقية معينة للمتلقي.

يحتاج المحتوى المولد آليا إلى عدة وسائل برمجية لغوية من أهمها:

- توليد نظم الفهم الأوتوماتي وتصنف عادة إلى نظم فهم ضحلة، وتعتمد أساسا على تطبيق أسس الدلالة المعجمية أي على مستوى الكلمات أساسا دون الخوض في غياهب الجمل، ونظم فهم متعمقة تستخدم آلة ذكية للاستنباط Intelligent Inference Machine.

- تطوير نظم آلية لتوليد النصوص آليا Automatic text Generation، ويتطلب ذلك بحوثا متقدمة في علوم البلاغة والأسلوبية.

- نظم ذكية للتنقيب في مناجم النصوص Textual data Mining لاستخلاص أنماط العلاقات التي تربط بين عناصر النصوص.

- نظم متقدمة لتوليد النصوص العربية تقوم على بحوث متقدمة لتحليل أنماط الكتابة العربية باستخدام أدوات الأسلوبية الحاسوبية.

- آلة استنتاج عربية Arabic Inference Machine، قادرة على تطبيق قواعد المنطق الاستنباطي والاستقرائي على المقولات اللغوية لاستنتاج ما لم يذكر بصورة سافرة داخل النص.

 

 

نبيل علي