ملتقيات العربي
ندوة الغرب في عيون عربية
اليوم الثاني الجلسة الصباحية الأولى
النشر الإلكتروني:
المنظور اللغوي
الباحث د. نبيل علي *
أولا- عن الهوة اللغوية:
التواجد على الإنترنت عربيا يرتكز على توافر قدرة القراءة والكتابة معا، ويقصد بذلك قدرة البحث والإبحار باللغة العربية لاسترجاع المعلومات وتحليلها وترشيحها فيما يخص شق القراءة، والقدرة على النشر باللغة العربية وتوليد النصوص العربية آليا فيما يخص شق الكتابة. كما هو معروف، تسود اللغة الإنجليزية شبكة الإنترنت بصورة طاغية سواء من حيث معدل إنتاج وتبادل الوثائق الإلكترونية، أو اللغة المستخدمة في آلات البحث والبرمجيات اللازمة للتعامل مع جوانب الشبكة المختلفة. إن اللغة العربية مهددة بهوة لغوية linguistic divide تفصل بينها وبين اللغة الإنجليزية السائدة، وهي الهوة التي تمثل الشق اللغوي للهوة الأشمل ونقصد بها الهوة الرقمية digital divide الأشمل التي تفصل بين دول العالم المتقدم ودول العالم النامي، ولهذه الهوة اللغوية انعكاساتها المختلفة نذكر منها على سبيل المثال لا الحصر:
- هوة في معدل وتبادل إنتاج الوثائق الإلكترونية، وبالتالي في ثقل المواقع العربية على الشبكة، وقدرتها بالتالي على نقل صورة الثقافة العربية والحضارة الإسلامية.
- هوة في تطوير المعاجم الإلكترونية واستخدامها.
- هوة في قواعد النصوص الكاملة (قواعد ذخائر النصوص ) full text data base .
- هوة في تعليم وتعلم اللغات عن بعد.
- هوة في الترجمة، ونقل المعارف وحوار الثقافات.
- هوة في التنظير اللغوي.
والأهم من ذلك هو تلك الهوة فيما يخص التواجد إعلاميا على شبكة الإنترنت التي يتزايد دورها يوما بعد يوم كوسيط إعلامي مثير سواء من حيث الصحافة التفاعلية أو الإعلام التلفزيوني التفاعلي.
ثانيا- عن أهمية النشر الإلكتروني العربي:
لا حاجة بنا إلى أن نؤكد على أهمية النشر الإلكتروني علميا وتعليميا وإعلاميا. وقد تعددت أساليبه وطرقه ووسائله، وهناك العديد من الأدبيات التي تعالج جوانبه المختلفة سواء من حيث محتوى الوثيقة الإلكترونية أو معالجتها آليا أو نقلها عبر الوسائط المتعددة. سنركز في دراستنا الراهنة عن الجوانب اللغوية للنشر الإلكتروني من منظور اللغة العربية، وفي اعتقاد الكاتب أن هذه الجوانب تمثل محور عملية النشر الإلكتروني، وأن نجاحنا في توطين هذه التكنولوجيا المستحدثة في تربة وطننا العربي تتوقف بصورة أساسية على مدى نجاحنا في توفير الدعم اللغوي اللازم لمهام النشر الإلكتروني المختلفة، وهي المهام التي يجب النظر إليها من منظور معد الوثيقة الإلكترونية ومنظور مستخدمها معا. ولا شك أن تزايد أهمية النشر الإلكتروني عربيا يرتبط ارتباطا وثيقا بتزايد أهمية اللغة في عصر المعلومات والذي يمكن إرجاعه للعوامل الرئيسية التالية:
(أ) محورية الثقافة في منظومة المجتمع، ومحورية اللغة في منظومة الثقافة: لقد أصبحت الثقافة محور عملية التنمية في مجتمع المعلومات، في حين أكدت اللغة- بفضل المتغير المعلوماتي- كونها محور منظومة الثقافة بلا منازع.
(ب) الأبعاد اللغوية لظاهرة العولمة: سواء كانت العولمة وفاقا أم صراعا، فللغة- في كلتا الحالتين- شأن خطير. فإن كانت >وفاقا>، فاللغة ذات شأن جليل في حوار الثقافات؟ حيث من المتوقع أن يتخذ أنصار العولمة من علوم اللغة مرتكزا أساسيا لعولمة الثقافة. أما إذا كانت صراعا فاللغة بلا شك من أمضى أسلحة الصراع المعلوماتي، وتكفي هنا الإشارة إلى استغلال الولايات المتحدة لشيوع اللغة الإنجليزية من أجل ترسيخ هيمنتها إعلاميا ومعلوماتيا، وتكنولوجيا واقتصاديا بالتالي.
(ج) المدخل اللغوي للتكتل الإقليمي: صاحب انتشار ظاهرة العولمة تنامي نزعة التكتل الإقليمي، ولم يكن ذلك لمجرد المحافظة على الهوية والخصوصية الثقافية، بل تحركه دوافع اقتصادية وسياسية وأمنية في المقام الأول. و هذا الصدد تشهد أوربا حاليا- توجهين متناقضين. أحدهما يقوم على أساس التنوع اللغوي، والآخر يميل إلى الانغلاق في إطار التوحد اللغوي. فبينما تعتبر كتلة الوحدة الأوربية التنوع اللغوي لدولها (17 لغة) مصدرا لقوتها الاستراتيجية في مواجهة القطب الأمريكي المتشبث بأحاديته اللغوية، تسعى ألمانيا إلى إقامة حلف لغوي ألماني يجمع بينها وبين النمسا وسويسرا. ولمجموعة الدول الإسكندنافية مشاريع مشابهة للتكتل اللغوي.
(د) تواصل لغوي أوسع نطاقا وأكثر تنوعا: تغير جميع الدلائل إلى أن التواصل عن بعد، عبر الوسيط الإلكتروني، سيقلب مفهوم التواصل اللغوي الذي اعتدنا عليه رأسا على عقب، سواء من حيث طبيعة العلاقة بين المرسل والمستقبل، أو من حيث تنوع أشكال التواصل، واتساع نطاقه، وتعدد مطالب فاعليته. يتفق الجميع على أن التواصل الحالي عبر الإنترنت، والذي يسوده الطور الكتابي، هو مرحلة بدائية وانتقالية تمهد لتواصل أوسع نطاقا، تواصل مابعد الكتابة الذي يمتزج فيه المكتوب مع المسموع، با لإضافة إلى المرئي من الصور الثابتة والمتحركة، مكونا رسالة اتصالية كثيفة المعلومات. نحن- بلا شك- إزاء نقلة نوعية، أقل ما يقال عنها: إنها ثورة في أسلوب التواصل الذي اعتاده البشر منذ الأزل. وكما سيتواصل الإنسان مع أخيه الإنسان عبر الوسيط الإلكتروني، سيتحاور الإنسان مباشرة مع الآلة، وهو الحوار الذي يؤكد البعض أنه سيفوق- عما قريب- التواصل بين البشر. لن يقتصر الحوار البشري - الآلي على إنسان يسأل ، أو يسترجع المعلومات، وآلة تبحث عن المعلومات لتظهرها له على الشاشة؟ فهو حوار أعمق من ذلك بكثير، حوار تبدو فيه الآلة أقرب ما تكون إلى النديم البشري آلة تجادل وتناور وتغازل وتتجاوب مع أهواء متحدثها وتكتيكات حواره.
كدليل لتزايد أهمية اللغة في تبادل المعلومات نشير هنا إلى الإحصاءات التي توضح مدى تغير نسبة البيانات الرقمية إلى البيانات النصية أو اللغوية. بينما كانت البيانات الرقمية تمثل في عام 1980 القسط الأكبر من حجم البيانات المتبادلة 65 % في مقابل 35 % للبيانات اللغوية، انقلب الوضع عام 1990 لتصبح النصوص اللغوية هي السائدة (بنسبة تقرب من 65 %).
ثالثا- التحديات اللغوية للنشر الإلكتروني:
من حسن الطالع أن العالم العربي قد أدرك في وقت مبكر نسبيا أهمية معالجة اللغة العربية آليا كمقوم أساسي لتأهيل المجتمعات العربية لدخول عصر المعلومات، وقد كانت شركة صخر الكويتية رائدة بلا شك في هذا المجال الحيوي. إلا أن الأمر مازال يحتاج إلى بذل كثير من الجهد لتأمين وضع اللغة العربية في عالم النشر الإلكتروني، ويمثل ذلك تحديا لغويا وحاسوبيا كبيرا نظرا لعدة عوامل من أهمها:
(أ) تعدد الجوانب اللغوية والحاسوبية: يغطي النشر الإلكتروني جميع جوانب معالجة اللغة العربية آليا: حرفا وصرفا ونحوا ودلالة ومعجما، ويشمل كذلك اللغة المكتوبة واللغة المنظومة، وذلك نظرا لتزايد استخدام الصوت كعنصر إدخال وإخراج في عملية تبادل المعلومات.
(ب) التفاعلية: بحكم طبيعته، يتسم النشر الإلكتروني بخاصية التفاعل الدينامي مما يتطلب توافر شروط فنية معقدة ومتعددة سواء على مستوى العتاد (.hardware أو البرمجيات software أو شبكات نقل البيانات. (ج) تعدد الأنساق الرمزية: لا يقتصر النشر الإلكتروني على النصوص فقط، بل يشمل أيضا الرسومات والصور الثابتة والمتحركة- وهو ا لأمر الذي يتطلب سعة تخزين هائلة، علاوة على ضرورة تفهم العلاقة بين النصوص السردية والبيانات المرئية.
(د) التنقل عبر اللغات والثقافات: لا بد أن يحقق النشر الإلكتروني باللغة العربية عبر الإنترنت درجة عالية من الانتقال المرن ما بين اللغات المختلفة، خاصة اللغتين: الإنجليزية والفرنسية، وهو الأمر الذي يؤدي بدوره إلى إقحام جميع الأمور المتعلقة بالترجمة الآلية، وكذلك الدراسات اللغوية المقارنة والتقابلية.
(هـ ) اعتبارات التصميم: من أجل اجتذاب الزوار إلى المواقع العربية يجب أن يتسم النشر الإلكتروني العربي بجودة التصميم وسهولة الاستخدام، علاوة على تقديم وسائل عديدة لدعم الباحث أو الناشر لتمكينه من التعامل مع ظاهرة الإفراط المعلوماتي cover-information أو حمل المعلومات الزائد information overload كما يطلقون عليه أحيانا، يتطلب ذلك توافر ثلاثة عوامل أساسية في الوثيقة الإلكترونية العربية.
- قابلية القراءة أو المقروئية: وهو أمريتجاوز فصاحة اللفظ وبلاغة المعنى واستساغة المصطلح. إن هذه القابلية تتوقف في المقام الأول على معمار الوثيقة العام ومدى تماسكها اللغوي والمنطقي.
- قابلية البحث: بما يتجاوز أساليب البحث التقليدية باستخدام الكلمات المفتاحية keyword search أو البحث بمدخل الموضوع thematic search . إن الإبحار في الوثائق الإلكترونية يتطلب النفاذ العميق في مضمون نصوصها والذي يحتاج بدوره إلى أساليب برمجية متقدمة لفهرستها وتحليل مضمونها آليا.
- قابلية الاختزال: لا بد للنصوص الإلكترونية أن تكون قابلة للاختزال حتى يمكن استخلاص أفكارها المحورية وتسهيل عمليات أرشفتها ودمجها مع غيرها.
- قابلية الربط والتناص: لا بد أن تظل النصوص التي يتم بثها عبر الإنترنت حرة طليقة غير منغلقة على نفسها قادرة على أن تقيم روابط الصلة مع غيرها من الوثائق.
تتناول هذه الدراسة أنواع الدعم اللغوي لعمليات النشر الإلكتروني المختلفة، نتبعها باستعراض للمعالجات اللغوية الأساسية المطلوبة لتقديم هذا الدعم، وننهي الدراسة بقائمة مقترحة ببعض البحوث المطلوبة لغويا وحاسوبيا:
رابعا - ملخص عمليات النشر الإلكتروني:
ويمكن تقسيمها إلى أربع مراحل هي:
المرحلة الأولي: اقتناء المحتوى، وعلينا أن ندرك هنا أن معد الوثيقة الإلكترونية لا يشترط أن يكون هو صاحب محتواها، وفصل عملية اقتناء المحتوى عن عملية إعداد الوثيقة هو توجه ينمو بمعدل مطرد. علاوة على ذلك، يمثل شق المحتوى أهم مقومات صناعة النشر الإلكتروني التي تشمل بجانبه عمليات المعالجة الآلية للمحتوى وتوزيعه من خلال الإنترنت أو الوسائط الضوئية المتعددة.
المرحلة الثانية: مرحلة إعداد الوثيقة الإلكترونية، وتشمل عمليات إدخالها وتدقيقها هجائيا ونحويا، وإمهارها با لأكواد الخاصة لكشف تنظيمها الداخلي، وتزويدها بحلقات التشعب النصي Hybertext ، والتشعب الوسائطي Hybermedia ، بما في ذلك روابط تناص الوثيقة intertextuality مع النصوص خارجها.
المرحلة الثالثة: وقد أطلقنا عليها مرحلة ما بعد الاعداد. وتشمل العمليات التالية:
(أ) عمليات الفهرسة الآلية لاستخراج الكلمات المفتاحية التي تفصح عن مضمون الوثيقة.
(ب) عمليات الاستخلاص التي تنتقي من متن الوثيقة عددا محدودا من الجمل يعبر عن مضمونها الكلي.
(ج) عمليات ترشيح الوثيقة من المعلومات الخاطئة والرديئة والضارة سواء أخلاقيا أو ثقافيا.
(د) تأمين الوثيقة من أجل المحافظة على سريتها، وعدم تشويه مضمونها، وذلك باستخدام أساليب التعمية encryption ، وطرق تأمين البيانات الأخرى.
(هـ) إعادة الصياغة: وهي تعد من المهام الذكية للتعامل مع نص الوثيقة سواء من أجل ضبط مستوى الصعوبة تلبية لمطالب المستخدم/ أومن أجل إخضاع صياغتها لنمط قياسي معين لتنظيم الوثائق داخل المؤسسة.. يمكن دمج المرحلتين الثانية والثالثة تحت عنوان: معالجة المعلومات.
المرحلة الرابعة: وتشمل عمليات دعم المستخدم وتتلخص في العمليات الأساسية التالية:
(أ) قراءة النص أتوماتيكيا باستخدام آلية تحويل النص المكتوب لمقابلة المنطوق -TTS: Text-To Speech .
(ب) البحث في الوثيقة سواء من خلال البحث النصي textual search عن كلمة أو أكثر داخل النص أو البحث الموضوعي thematic search بدلالة مدخل موضوعي معين.
(ج) تحليل مضمون الوثيقة أتوماتيكيا وذلك من أجل استخلاص مفاهيمها الأساسية، والكشف عن بنيتها الداخلية.
(د) مقارنة المنصوص آليا لتحديد الفقرات المتطابقة أو المتشابهة.
تنتهي مراحل عمليات النشر الإلكترونية بطرح التوجه المستقبلي لتوليد المنصوص تلقائيا. سنستعرض فيما يلي الجوانب اللغوية لكل من مهام النشر الإلكتروني التي أوردناها أعلاه وذلك من منظور اللغة العربية.
خامسا- الأبعاد اللغوية للنشر الإلكتروني:
(أ) اقتناء المحتوى: بجانب النواحي الإدارية والقانونية، تشتمل عملية اقتناء المحتوى على عدة مهام تفصيلية ذات أبعاد لغوية متفاوتة، وهي:
- تحديد مصادر اقتناء المحتوى، ويتم ذلك من خلال قواعد بيانات بيبلوغرافية تتضمن بيانات إشارية عن الوثيقة (العنوان- الناشر- سنة النشر- الكلمات المفتاحية- حجم الوثيقة- ملخص الوثيقة). يحتاج عالمنا العربي إلى موقع عربي متخصص، أو عدة مواقع متخصصة، على الإنترنت يعمل كنقطة محورية ترتبط من خلال حلقات ربط ساخنة hotlinks بالمصادر المختلفة لإنتاج ونشر المحتوى العربي. - توفير أداة برمجية لغوية لتقييم أسلوب الكاتب ومستوى الصعوبة أوتوماتيكيا
- توفير مكانز رؤوس الموضوعات لتصنيف الوثائق العربية، وتوحيدها قياسيا، باستخدام ما يعرف باسم Controlled Vocabu1ary.
في كثير من الأحيان لا تلبي المكانز المترجمة عن الإنجليزية مطالب المستخدم العربي، خاصة فيما يخص الموضوعات ذات الصلة الوثيقة بالتراث والثقافة القومية.
(ب) إعداد الوثيقة: بجانب نظم تنسيق الكلمات وتحرير الوثائق الإلكترونية تلزم لعملية إعداد الوثيقة عدة أدوات برمجية ذات طابع لغوي نلخصها في التالي:
- نظم آلية للتدقيق الهجائي والنحوي، ويلزم التنويه هنا أن اللغة العربية تختلف عن اللغة الإنجليزية اختلافا جوهريا في هذا الصد. فبينما يعتبر التدقيق الهجائي للنص الإنجليزي كافيا في معظم الأحيان، فهو لا يكفي عادة لتدقيق النصوص العربية الذي يحتاج إلى تضافر أدوات الضبط الهجائي والنحوي حيث يمكن أن تكون الكلمات سليمة من الناحية الهجائية، وخاطئة نحويا (مثال: طوائف المسلمون) - أي من أكثر حالات الخطأ صعوبة في تدقيق الوثائق هو تصويب الأخطاء ذات الطابع الدلالي مثل نبغ الماء بدلا من نبع الماء، حيث يتطلب تصويبها قدرا من الذكاء اللغوي الذي يحتاج بدوره إلى دعم مكثف من المعجم، ومن الإحصاء اللغوي، علاوة على تطبيق القيود النحوية.
- وسيلة برمجته لإقامة حلقات التشعب النصي بصورة آلية. تحتاج هذه النظم إلى محلل صرفي ذكي للربط بين الكلمات المترابطة اشتقاقياً مثل: استعمر، يستعمر، استعمار، مستعمر، مستعمرات، استعماري، استعمارية ويحتاج أيضا إلى دعم معجمي للربط بين الكلمات ذات الصلة المعجمية، كالربط بين ملك السعودية وخادم الحرمين والعاهل السعودي. أو بين إسرائيل ودولة اليهود والكيان الصهيوني ودولة الصهاينة. تعد هذه الوسائل الصرفية المعجمية من الأمور الأساسية لتوسيع نطاق البحث بأقل جهد.
الأصعب هنا هو إقامة روابط التشعب النصي على أساس دلالي أو برجماتي، كأن تربط دلاليا بين التعلم واكتساب المعرفة وتلقي العلم ، أو تربط برجماتيا بين السادات وزيارة القدس واتفاقية كامب ديفيد. وكما هو واضح تحتاج هذه الأمور إلى وسائل لغوية ذكية ما زالت رهن البحث.
(ج) الفهرسة الآلية: كما أشرنا سابقا يقصد بالفهرسة الآلية حاليا تحديد الكلمات المفتاحية الدالة على مضمون النص. نظرا للزيادة الهائلة في معدل إنتاج الوثائق الإلكترونية، يتعذر الاعتماد على الوسائل اليدوية لفهرسة الوثائق، ولا بد من اللجوء إلى الوسائل الآلية. هناك عدة نظم تم تطويرها لفهرسة الوثائق العربية وذلك باستخدام أساليب ذات طابع إحصائي، ولم تستغل بعد الإمكانات الهائلة التي تتيحها معالجة اللغة العربية آليا، خاصة نظم الإعراب الآلي والتشكيل التلقائي.
يمكن أن تساهم الفهرسة الآلية بدور مهم كخطوة تمهيدية لنظم التشعب النصي الآلية، فبعد فهرسة الفقرات المختلفة، للنص واختزالها إلى عدد محدود من الكلمات المفتاحية، يمكن إقامة حلقات التشعب النصي بين هذه الكلمات المفتاحية.
(د) الاستخلاص الآلي: مع تفشي ظاهرة الإفراط المعلوماتي cover-information أو حمل المعلومات الزائد كما يطلقون عليه أحيانا، تزايد الطلب على النظم الآلية للاستخلاص والتلخيص. ما زالت نظم الاستخلاص الآلي للغة العربية في مرحلة بدايتها، وهي تتبنى نهجا إحصائيا لتحديد أهمية، أو ثقل الجمل داخل النص على أساس وجود الكلمات المفتاحية بها. ولا جدال أن نظم الاستخلاص والتلخيص الآلي لن تلبي التوقعات إلا بمساندة نظم الفهم الأوتوماتي وتحليل مضمون النصوص، وهى أمور ما زالت رهن البحث.
(هـ) عملية الترشيح المعلوماتي: حماية للمستخدم العربي وقيم مجتمعاتنا العربية، يلزم توفير وسائل عملية لترشيح المعلومات الواردة من الخاطئ والرديء والضار، وجميعها كما هو واضح تتطلب من أجل ترشيحها أن ننفذ إلى عمق النص، وهي أمور كما أشرنا سلفا ما زالت رهن البحث. وفي رأى الكاتب أن الممكن حاليا هو تقديم دعم لغوي بواسطة الكمبيوتر للقائمين بالقيام بهذه العملية يدويا. من أهم الوسائل الأوتوماتية المطلوبة هي الكشف عن موضوع النص theme prediction والتقاط الكلمات والمفاهيم غير المسموح بها وهي تحتاج إلى قواميس خاصة غير متوافرة حاليا.
(و) تأمين الوثيقة: هناك طرق آلية لتعمية الوثائق encryption ، وتعد تكنولوجيا التعمية من ضمن تلك الخاضعة لقيود التصدير من قبل الحكومة الأمريكية. وفى كثير من المواقف لا يحتاج الأمر إلى مثل هذه الأساليب التكنولوجية المعقدة، ويمكن تطبيق ما يعرف بالتكويد الصرفي morphological encoding كخطوة أساسية لتعمية النص بالأساليب الرياضية. وتجدر الإشارة هنا إلى المرجع الذي قام بإعداده الدكتور محمد مراياتي عن أساليب التعمية العربية.
(ز) إعادة الصياغة: تتطلب إعادة الصياغة القيام بمهمتين أساسيتين تتفاوت أبعادهما اللغوية من حيث الصعوبة اللغوية والحاسوبية، وهما:
- تحديد مستوى الصعوبة ومواقعها أتوماتيا
- توليد النص في صيغته الجديدة
يتطلب تحديد مستوى الصعوبة ومواضعها أوتوماتيا بحوثا مستفيضة في مجال الأسلوبية، ووضع معايير دقيقة لتحديد درجة الصعوبة معجميا ونحويا ومنطقيا. يتمثل الحد الأدنى لإعادة الصياغة في الإحلال الأوتوماتي للكلمات الصعبة أو الصيغ المسكوكة بمترادفات أسهل أو أكثر استساغة كأن تستبدل كلمة السفر بـ الكتاب واستبدال مصطلح أرض الكنانة بــ مصر. وأما المستوى الثاني لإعادة الصياغة فهو استبدال الصيغ النحوية الصعبة بأخرى أقل صعوبة، كأن يستبدل تركيب ما من أحد يدنو من الهدف بـ ليس هناك أحد يقترب من الهدف.
(ح) قراءة النصوص أتوماتيا: مرة أخرى، ونظرا لظاهرة الإفراط المعلوماتي، فإن قراءة هذا الكم الهائل يمثل عبئا ثقيلا على المستخدم، لهذا السبب فقد تم تطوير وسائل أتوماتية لقراءة النصوص آليا تقوم بتحويل النص المكتوب إلى مقابلة المنطوق.
تحتاج قراءة النصوص العربية آليا إلى ضرورة تشكيلها تلقائيا كخطوة لا غنى عنها من أجل تجهيزها لعملية التحويل الصوتي. قام الكاتب بتطوير نظام للتشكيل التلقائي، تم استخدامه بنجاح في تطوير آلة قراءة عربية.
ما زالت هذه النظم ذات أداء متواضع من حيث جودة الصوت المولد آليا، وتحتاج إلى تعزيزها بأنماط التنغيم للأساليب اللغوية المختلفة، وذلك حتى يصبح الصوت أكثر طبيعية، أسوة بما تم بالنسبة للغات أخرى كالإنجليزية مثلا.
(ط) البحث: يتم البحث داخل الوثائق إما باتباع أسلوب البحث النصي textual search ، بأن تبحث عن كلمة معينة أو عدة كلمات متلاصقة أو متباعدة. وقد تم تصميم آليات للبحث داخل النصوص العربية، استخدم فيها المعالج الصرفي الآلي، والذي يعد أحد المقومات الأساسية لنظم استرجاع المعلومات العربية. ولكن ما زال البحث في هذه النظم قاصرا على الكلمات دون المعاني، ولم تستغل بعد نظم البحث الذكية الإمكانات العديدة التي يتيحها الطابع الاشتقاقي للصرف العربي، وذلك من أجل تجميع المشتقات المرتبطة دلاليا (مثال: يركب، مركب، تراكيب، مركبات، تركيبات). إن آليات البحث العربية ارتكزت حتى الآن على معالج الصرف الآلي، وهذه الآليات باتت تنتظر النقلة النوعية القادمة لتطوير نظم ترتكز على نظام الإعراب الآلي والتشكيل التلقائي. إن هذا الثنائي الآلي قادر على فك اللبس الصرفي والتركيبي والدلالي بصورة تجعل آليات البحث أكثر دقة وذكاء. تجدر الإشارة هنا إلى أن تحليل مضمون النصوص أوتوماتيا، والذي سنتناوله فيما يلي، يعد مقوما أساسيا لتطوير نظم بحث وفهرسة واستخلاص وتلخيص أكثر ذكاء
(ك ) مقارنة النصوص آليا: يستلزم الانفجار المعلوماتي تجميع الوثائق في هيئة حزم مترابطة على أساس الموضوعات القريبة والمتشابهة. ترتكز عملية مقارنة النصوص وتجميعها آليا Clustering عملية معقدة، على مهمتين آليتين أساسيتين:
- تحديد موضوع الوثيقة
- تحليل مضمون النصوص
- فهرسة الوثائق آليا
تحتاج عملية مقارنة النصوص إلى حساب المسافة الدلالية والمنطقية الفاصلة بين وثيقة وأخرى وذلك إما على أساس الكلمات المفتاحية المستخرجة بنظم الفهرسة الآلية، أو بمقارنة مخططات المفاهيم المستخرجة من النظم الآلية لتحليل مضمون النصوص.
(ل) تحليل مضمون النصوص: كل ما قيل عن المعالجات اللغوية الآلية كنظم الصرف الآلي والإعراب الآلي والتشكيل التلقائي هي بمنزلة البنية التحتية لنظم الفهم الأتوماتي العميق لمضمون النصوص. يتم ذلك بتحويل سرد النصوص إلى شبكات دلالية semantic net ومخططات مفاهيم conceptual 3 graph ، باستخدام نظم برمجية للتحليل الدلالي. يتطلب ذلك بحوثا مضنية في التمثيل المنطقي للغة العربية، وكذلك إعادة بناء المعجم العربي في هيئة شبكة دلالية تكشف عن العلاقات بين الألفاظ ومعانيها بصورة سافرة يسهل على النظم الآلية النفاذ إليها.
وتحتاج نظم الفهم الأتوماتي كذلك إلى تطوير آلة استنتاج عربية Arabic Inference Machine: AIM لاستظهار المعاني غير الواردة في ظاهر النص، كأن يستنتج من جملة: سجل حسام الهدف الذهبي، أن حسام هذا لاعب كرة قدم، وأن المباراة كانت في وقتها الإضافي، وأن الفريقين قبل الهدف الذهبي كانا متعادلين، وأن المباراة قد انتهت بعد تسجيل الهدف مباشرة. وجميع هذه المعلومات المستنتجة كما هو واضح لم ترد في ظاهر الجملة القصيرة التي كانت مصدر توليد كل هذه الاستنتاجات.
(م) الدعم اللغوي لتسويق منتجات النشر الإلكتروني: يحتاج تسويق منتجات النشر الإلكتروني هو الآخر إلى دعم من البرمجيات اللغوية، فتسويق الكتاب الإلكتروني- على سبيل المثال- يحتاج إلى نظم قراءة خاصة تمكن القارئ المشتري من استعراض محتويات الكتاب والقيام بجولة سريعة داخل مضمونه وعبر المقالات والتحليلات التي كتبت عنه. يمكن أن يؤازر ذلك بناء شجرة الموضوعات التي يتعامل معها الكتاب، وكذلك قائمة بالوثائق الإلكترونية ذات الصلة ويحتاج ذلك إلى دعم من نظم الفهرسة الآلية. أما تسويق المجلة الإلكترونية فيحتاج إلى دعم القارئ ببيانات عن التوجهات العامة للموضوعات والقضايا الأساسية التي تتبناها المجلة وهو ما يحتاج إلى أدوات برمجية لاستنباط موضوع (أو موضوعات) المقالات المختلفة thematic prediction ، بالإضافة إلى نظم تلخيص آلية لاختزال مجموعة المقالات التي تتناول موضوعا معينا.
(ن) توليد النصوص آليا: يمثل توليد النصوص Text Generation أحد المجالات المتقدمة للغويات الحاسوبية، وتوليد النصوص آليا عملية معقدة تجمع بين البحث والتركيب النحوي والمنطقي، وصياغة التراكيب النحوية في صورة نهائية بعد تطبيق عمليات الضبط النحوي، والتقديم والتأخير والإضمار، والحذف، وماشابه. فإذا أردنا مثلا كتابة مقالة عن العلاج بالجينات مثلا، سيقوم طالب المقالة بتحديد نقاطها الأساسية outline . والتي على ضوئها يقوم نظام التأليف بالبحث عن النصوص التي تغطي هذه النقاط، ثم يقوم بتمثيل نتيجة البحث دلاليا وتحليل مضمونها واستخلاص المفاهيم الأساسية التي سيوردها في المقالة الجاري تأليفها أتوماتيا. يتم وضع هذه المفاهيم في شبكة دلالية تسمح بتحويلها إلى الصيغ المنطقية ومنها إلى تراكيب الجمل التي ستصاغ منها الجمل المكونة للمقال. يجب أن يتسم النص المولد آليا بدرجة جودة معقولة من وجهة نظر المعنى، ويجب أن يكون سهل الفهم، خاليا من اللبس، وأن يمثل ترجمة أمينة للمعلومات التي يتضمنها التمثيل الدلالي المشار إليه. هذا من حيث المعنى، أما من حيث الشكل فيجب أن يستخدم مولد النصوص أساليب نحوية متنوعة وحصيلة مفردات ثرية وأن يكون متسعا من حيث نمط أسلوبه ودرجة صعوبته. يتطلب ذلك اتخاذ نوعين من القرارات لضمان جودة النص المولد:
- قرار على مستوى المفاهيم: وذلك من أجل تحديد تسلسل إظهار المعلومات وماذا يجب أن تعبر عنه المعلومات بصورة سافرة وما يجب أن يترك لكي يفهم ضمنيا.
- قرار على المستوى اللغوي: وذلك من أجل تحديد كيفية تقسيم النص إلى جمل منفصلة، والكلمات التي سيتم استخدامها والأساليب النحوية التي سيتم إتباعها لكل من هذه الجمل.
- خلاصة: إن النشر الإلكتروني العربي في حاجة إلى الكثير من المعالجات اللغوية من أجل تطوير مجموعة من عناصر الوكالة الآلية (الروبوتات البرمجية intelligent agents) التي تسهل عمليات البحث والتدقيق والعرض وترشيح الوثائق وتأمينها، وتحليل مضمونها وإعادة صياغتها.
إن علينا أن ندرك بوضوح أن البرمجيات اللغوية لدعم النشر الإلكتروني مازالت في بدايتها، ولا بد من ضمان استمرارية البحوث والتطور من خلال التجاوب الدينامي مع مطالب الأسواق وحاجات مستخدميها، لذا يجب النظر إلى عملية الدعم هذا في إطار دورة كاملة مغلقة (شكل رقم 3) تتضمن عمليات اقتناء المعلومات ومعالجة المعلومات وخدمات المعلومات سواء تلك التي تقدم للباحث أو الناشر، يتم قفل هذه الدائرة المفتوحة من خلال حلقة التغذية المرتدة feedback loop التي تغذي مشاكل ومطالب جديدة لوحدة بحوث وتطوير اللغويات الحاسوبية التي تقدم باستحداث حلول ونظم جديدة لمواجهة هذه المشاكل وتلبية تلك المطالب.
سادسا- المعالجات اللغوية المطلوبة:
تحتاج المهام المذكورة أعلاه لدعم عمليات النشر الإلكتروني المختلفة إلى مجموعة من المعالجات اللغوية الأساسية، نذكر منها على سبيل المثال الحصر:
- المعالج الصرفي الآلي
- نظام الإعراب الآلي
- المشكل التلقائي
- معالج الدلالة العربية
سنتناول فيما يلي كلا من هذه المعالجات اللغوية باختصار:
(أ) المعالج الصرفي الآلي:. يقوم المعالج الصرفي الآلي بمهمتين آليتين أساسيتين: التحليل الصرفي للكلمات إلى عناصرها الأولية الاشتقاقية والتصريفية، والمهمة العكسية لتوليد الكلمات في صورتها النهائية من هذه العناصر الأولية
يقصد بمهمة التحليل الصرفي قيام النظام الآلي باستخلاص العناصر الأولية لبنية الكلمة وتحديد سماتها الصرفية والصرف- نحوية، وإليك مثا لا:
تحليل كلمة: وبإيصاله
السوابق: و حرف عطف، ب حرف جر
جذع الكلمة :stem إيصال
الرتبة النحوية: مصدر ثلاثي مطرد
جذر الكلمة :root وصل
الصيغة الصرفية: إفعال
الحا لة التصريفية: مفرد، مذكر، مجرور
العلامة الإعرابية: الكسرة الظاهرة
اللواحق: ضمير الملكية للمفرد الغائب (هـ)
أما عملية التوليد الصرفي، فنعطي لها مثالا هنا بوضع فعل أقام في صيغة المضارع المجزوم لجمع الإناث، من هذه الخصائص الصرفية يقوم شق التوليد الصرفي باستخراج الصيغة النهائية المطلوبة للفعل المذكور وهي يقمن.
من أهم تطبيقات المعالج الصرفي الآلي هو البحث داخل النصوص العربية، وهي عملية البحث التي تختلف اختلافا جذريا عن أسلوب البحث داخل النصوص الإنجليزية ولتوضيح الفرق نعطي المثال المبسط التالي: إذا ما أردنا البحث في نص إنجليزي عن كلمة computer مثلا ولزيادة فاعلية استرجاع النصوص الإنجليزية، يتم توسيع نطاق البحث حول كلمة computer بالكلمات التالية: Computers Computerized Computational Computerizationويلاحظ أن تجميع مثل هذه الكلمات لا يحتاج إلا لعمليات بسيطة لنزع اللواصق وذلك نظرا لاشتراكها جميعا في سلسلة الحروف الواردة في مقدمتها (مقطع icomput في المثال المذكور). لا يصلح هذا الأسلوب في جوهره لتوسيع نطاق البحث واسترجاع النصوص العربية، ويرجع ذلك إلى أن المفردات العربية ترد داخل النصوص تتصدرها ا لأدوات والحروف وتذيلها زوائد التصريف وا لإعراب والضمائر المتصلة، أي أن المفرد أو جذع الكلمة stem الواحد يمكن أن يرد داخل النصوص على هيئة ما يزيد على عدة آلاف من الكلمات النهائية، وهو الأمر الذي تتعذر معه عملية البحث على أساس مقارنة الكلمات المفتاحية بالكلمات النهائية، حيث لا تجدي مع تعددها الهائل العمليات المبسطة لنزع اللواصق، أو الفرز الأبجدي، لتوضيح المقصود هنا، دعنا نتصور على سبيل المثال أننا نريد أن نبحث عن لفظ أتى وكل ما يرتبط به من كلمات نهائية داخل النص القرآني، فسنجد القائمة التالية من الكلمات التي لا تشترك في بداياتها أو نهاياتها:
(وأوتوا - سنؤتيكم - نؤته- فآت - نؤتي- و المؤتون - يأتيانها - يؤت- تؤتوه - لتأتون - مأتيا - أوتي- ولتأت - لآتيناهم - وآتاني - وآتت - لتأتني). إن هذه الكلمات على اختلاف صورها النهائية تشترك في الجذر، وكثير منها يشترك في الصيغة الصرفية.
ومن هنا، تطرح الخاصية الصرفية نفسها كمدخل منطقي لعملية استرجاع النصوص العربية، وذلك باستخدام الجذور والصيغ الصرفية بدلا من الكلمات. لتحقيق ذلك يتم مسح النصوص العربية بعد تمثيلها صرفيا. عندما يراد استرجاع كلمة معينة يتم استخلاص جذرها وصيغتها الصرفية أولا، وذلك باستخدام المحلل الصرفي الآلي، ثم يتم البحث على أساس جذر الكلمة أو ساقها.
كانت هناك عدة محاولات لتطوير معالجات صرفية آلية للغة العربية- آخرها تلك التي قام بها مركز بحوث اللغويات الحاسوبية التابع لشركة زيروكس بالولايات المتحدة والذي يزعم أنه بصدد تطوير معالج صرفي متعدد اللغات، ولكن أنجح المعالجات الصرفية بلا شك هي المعالج الصرفي متعدد الأطوار الذي قامت بتطويره شركة صخر والذي يتعذر الخوض في تناول جوانبه الفنية لاعتبارات عديدة.
(ب) نظام الإعراب الآلي: تمثل معالجة النحو آليا - حاليا على الأقل - صلب اللغويات الحاسوبية، وتشهد ساحتها أقصى درجات الامتزاج بين اللغويات والحاسوبيات. وقد نشأت الحاجة إلى التحليل النحوي الآلي مع ظهور الترجمة الآلية، وفي البداية، ساد الاعتقاد بعدم الحاجة للتحليل النحوي، والاكتفاء بتمييز النمط التركيبي للجملة بمقارنته بأنماط جمل معيارية يتم تخزينها في قاموس خاص، بحيث تغطي الحالات التركيبية المختلفة التي يتعامل معها نظام الترجمة الآلية. كان لا بد لأسلوب الأنماط أن يفشل، حيث يتناقض في جوهره مع لا نهائية التركيبات اللغوية، وهو- بالقطع- لا يتناسب مع العربية نظرا لمرونتها النحوية، وما يتبعها من تعدد التنويعات النحوية بصورة يتعذر معها حصر أنماطها. كما هو الحال بالنسبة للمعالجات اللغوية الأخرى، للمعالج النحوي شقين رئيسيين: شق تحليلي، وشق توليدي، والتحليل بدوره ذو مستويين:
- مستوى التمييز النحوي الآلي: وتقتصر فيه مهمة النظام الآلي على الحكم على الصحة النحوية أو عدمها لجمل قائمة بالفعل.
- مستوى الإعراب الآلي الكامل: وفيه تمتد مهمة النظام الآلي لتشمل تحديد بنية الجملة من حيث هيكلية (سلمية) مكوناتها، والوظائف النحوية لمكوناتها (فاعل، مفعول مبتدأ، خبر، ظرف)، وكذا تحديد مواضع التقديم والتأخير والحذف، واستنباط ما حذف، والتعويض عن المفهوم سلفا، أو بقول آخر، رد البنية السطحية للجملة القائمة إلى بنيتها العميقة (الدفينة)، وذلك بافتراض ثنائية البنية في ظل المفهوم التحويلي الذي قامت عليه النظرية اللغوية التي أسسها نعوم تشومسكي رائد اللغويات الحديثة بلا منازع. إن على المحلل النحوي الآلي في وضعه المثالي توفير جميع المعطيات اللازمة للتحليل اللغوي الأعمق، ونقصد به عملية الفهم الأوتوماتي لمضمون الجمل والسياق. هذا عن الشق التحليلي، أما التوليد النحوي الآلي فهو العملية العكسية: تحويل البنية العميقة للجملة إلى صورتها السطحية، أي قيام المولد النحوي الآلي ببناء جمل جديدة بتغذيته بالعلاقات الدلالية (المفردات وعلاقات عناصر الإسناد ومكملاتها). ونوع الأسلوب النحوي المراد صياغة الجملة على هيئته.
تواجه معالجة النحو العربي آليا مشكلات عديدة، ومتداخلة، يمكن تلخيصها في قائمة التحديات التالية: - غياب صياغة رسمية للنحو العربي.
- إسقاط علامات التشكيل في معظم النصوص العربية.
- تعد حالات اللبس النحوي وتداخلها الشديد.
- المشاكل الناجمة عن المرونة النحوية للعربية.
- حدة ظاهرة الحذف النحوي.
- قصور المعجم العربي، نحويا ودلاليا.
- تعدد العلامات الإعرابية وحالات الجواز والتفضيل.
- عدم توفر الإحصاءات النحوية.
(ج) المشكل التلقائي: يمثل المشكل التلقائي معالجا أوليا preprocessor لا غنى عنه لمعالجة النصوص العربية آليا سواء لأغراض استرجاع المعلومات أو الترجمة الآلية أو تحليل مضمون النصوص آليا. فبالنسبة لاسترجاع المعلومات يتعذر البحث بصورة دقيقة داخل النصوص العربية دون تشكيلها تلقائيا. فإن أردنا - مثلا - أن نبحث عن كلمة دين مفرد أديان سترد لنا أيضا كلمة دين مفرد ديون، وإذا أردنا البحث عن كلمة رجل مفرد أرجل سترد لنا أيضا كلمة رجل مفرد رجال، ناهيك بوجود أكثر من تحليل صرفي تركيبي للكلمة كأن تفسر كلمة فكرة كمفرد أفكار أو كلمة كرة تسبقها لاصقة الفاء. هناك عدة محاولات لتشكيل النصوص العربية آليا تختلف من حيث مدى وجاهة أسسها اللغوية، فهناك نظم تشكيل تعتمد على العلاقات بين الكلمات المتجاورة وعلاقات الترابط بين الكلمات غير المتجاورة، وهناك نظم تعتمد بصورة أساسية على نظم الإعراب الآلي المكتملة، وقد أوردت إحدى المجلات المتخصصة في أمور المعلوماتية العربية تحليلا فيها للمشكل تلقائي قامت بتطويره شركة صخر.
(د) معالج الدلالة العربية: يحتاج تحليل مضمون النصوص العربية وفهمها آليا إلى معالج آلي للجوانب الدلالية (الخاصة بشق المعنى) يتجاوز شكليات الصرف ومبانى تراكيب النحو. إن المعالجة الدلالية الآلية تتطلب النفاذ إلى البنية المنطقية لجمل النص وفقراته، وكذلك استنتاج ما ينطوي عليه النص من معان ودلالات ليست واردة بصورة سافرة في ظاهر النص.
تحتاج معالجة الدلالة آليا إلى خلفية نظرية من المنطق والرياضيات وأساليب الذكاء الاصطناعي تختلف بصورة كبيرة عن الخلفية اللازمة للمعالجات اللغوية الأدنى. إن الوضع الحالي لمعالجة الدلالة آليا مازال رهن البحث، ويحتاج إلى كثير من البحوث النظرية وأساليب الذكاء الاصطناعي المتطورة لمحاصرة زخم المشاكل التي تنطوي عليها هذه المعالجة. أما بالنسبة للغة العربية فهناك قصور كبير في الدراسات الدلالية على مستوى اللغة العربية بما لا يوفر الحد الأدنى من الحصاد النظري الذي يمكن أن تؤسس عليه تصورات محددة عن معالجة الدلالة العربية آليا.
سابعا- البحوث اللغوية المطلوبة لدعم النشر الإلكتروني عربيا:
يقر الجميع بأننا نعيش أزمة لغوية طاحنة، تفشت حتى كادت تصبح عاهة ثقافية مستديمة. وعلى الرغم من وضوح أعراض أزمتنا اللغوية، وجسامة آثارها، وكثرة المؤتمرات والندوات واللجان والتوصيات التي عقدت بشأنها، تظل تلك الأزمة مستعصية على الحل. ويرجع ذلك إلى أسباب عديدة من أهمها في رأى الكاتب:
(1) عدم إلمام الكثيرين لدينا بالجوانب العديدة لإشكالية اللغة، حيث يقتصر تناولنا لهذه الإشكالية- في أغلب الأحوال- على الجوانب التعليمية والمصطلحية.
(2) قصور العتاد المعرفي لمعظم منظرينا اللغويين، بعد أن أصبحت مسألة اللغة ساحة ساخنة للتداخل الفلسفي والعلمي والتربوي والإعلامي، بل التكنولوجي أيضا.
يتطلب النشر الإلكتروني العربي بحوثا عديدة في مجال اللغة واللغويات الحاسوبية، نذكر منها على سبيل المثال لا الحصر:
- بحوث في مجال اللغويات النصية textual linguistics ، فقدت دأبت اللغويات التقليدية على اكتشاف ووصف الوحدات اللغوية الصغرى سواء على مستوى الصوتيات أو النحو أو الدلالة. لقد تركز البحث في مجال النحو على مستوى الجملة، يل ويزعم البعض أن البحوث النحوية على مستوى الجملة قد فشلت في تحديد العناصر التفصيلية داخل الجمل ذات المغزى بالنسبة للترابط النصي. وقد اتسمت معظم البحوث اللغوية التي تتعامل مع النصوص على مستوى فوق الجملة بالسطحية والوصفية وقد انشغلت أساسا بالأمور المتعلقة بتوصيف أشكال التنظيم المختلفة للنصوص دون الخوض في الأمور المتعلقة بالبنية العميقة لها. لقد اتسع نطاق علم النص science of text وتحليل الخطاب discourse analysis . والذي يشمل:
- علم اللغويات.
- علم العلامات (السيميولوجيا).
- علم المنطق الحديث.
- علم اجتماع المعرفة.
- علم نفس المعرفة.
- علم الذكاء الاصطناعي وهندسة المعرفة
ولا يتسع المجال هنا لتناول هذه الأمور تفصيلا، ونكتفي با لإشارة هنا أن البحوث العربية مازالت قاصرة للغاية في معظم هذه الفروع المعرفية
- تحليل إحصائي لظاهرة اللبس اللغوي في العربية وأثر غياب التشكيل عليها، على أن تشمل الأنواع المختلفة للبس اللغوي. (الصرفي والتركيبي والمعجمي والدلالي)
- مسح لنظم الترجمة الآلية المتاحة ومدى ملاءمتها للترجمة من وإلى العربية. على ألا تقتصر عملية المقارنة على نطاق محدود من الجمل القصيرة الأولية التي هي أبعد ما تكون عن واقع الاستخدام اللغوي الفعلي.
- مسح لأساليب التعمية. (المحافظة على سرية البيانات encryption) المتاحة من حيث مدى ملاءمتها للغة العربية.
- تصميم خوارزميات تحويل الكتابة العربية إلى الكتابة الصوتية حتى تمكن القارئ غير العربي من نطق الكلمات العربية.
- دراسة مشاكل الاختصارات في العربية، ودراسة أثر غياب التشكيل عليها، ووضع قواعد مقترحة لتقيسها، مع التركيز على نوعية الاختصارات المستخدمة في نظم المعلوماتية.
- دراسة إحصائية عن الاختلافات الفردية في الكتابة العربية بخط اليد. حيث من المتوقع أن يتنامى استخدام خط اليد لإدخال البيانات مباشرة إلى الكمبيوتر
- تحليل وتصنيف للعلاقات الدلالية التي تربط بين عناصر الكلمات المركبة في العربية (الصيغ المسكوكة idiOmatiC expressions)، وكيفية التفريق بينها وبين التعبيرات الاصطلاحية والسياقية contextual expressions ، وكذلك حصر وتبويب التعبيرات الاصطلاحية الحديثة في اللغة العربية، وتحديد القيود النحوية في استخدامها.
- تحديد المطالب النحوية للمعجم العربي، وتعريف المشاكل المتوقعة في إضافة التصنيفات النحوية الفرعية
إلى المعجم العربي.
- دراسة عن كيفية تفاعل الصرف والنحو ديناميا في المعالجات النحوية للغة العربية المشكولة وغير المشكولة، وكذلك دراسة عن كيفية تفاعل النحو والدلالة في المعالجات النحوية للغة العربية المشكولة وغير المشكولة.
- أثر علامات الترقيم المعالجة آليا للنحو العربي. ومن المعروف أن العربية تشكو من قصور شديد في قواعد الترقيم مما يجعل النصوص العربية في حاجة إلى وسيلة برمجية لترقيمها آليا.
- تحديد الحد الأدنى لعناصر التشكيل لفض اللبس على مستوى الجملة في العربية غير المشكولة بتطبيق أساليب البرمجة الدينامية.
- تحديد أنسب النظم المستخدمة في توصيف الأدوار الدلالية semantic roles ، والأطر الدلالية semantic frames اللازمة لتوصيف الأفعال العربية دلاليا، ويعد ذلك أحد المقومات الرئيسية لنظم الفهم الأتوماتي للنصوص وتحليل مضمونها آليا.
- إصدار إحصاءات مختلفة عن الاستخدامات المعجمية والصرفية والنحوية في اللغة العربية أسوة بما قامت به جامعة برون بالنسبة للغة الإنجليزية- الأمريكية. تعد هذه الإحصاءات أحد الأسس المهمة في تصميم نظم معالجة اللغة العربية آليا.
- دراسة إحصائية عن ظاهرتي الترادف والاشتراك اللفظي في اللغة العربية الكلاسيكية والحديثة، وهي الدراسة اللازمة لتوسيع نطاق البحث في نظم استرجاع المعلومات العربية.
تعقيب على بحث
:
النشر الالكتروني .. المنظور اللغوي
الباحثة : أ.د. نادية حجازي
مقدمة:
لفترة تجاوزت الخمسمائة عام كان القسم الأعظم من المعلومات والمعارف البشرية يخزن كوثائق ورقية، ولكن مع الثورة المعلوماتية وتزاوج الكمبيوتر مع الاتصالات دخلت عالمنا طرق جديدة لحفظ المعارف والمعلومات واسترجاعها. هذه الطرق يمكن أن تكون قرصاً مضغوطاً CD أو ملفات على شبكة الانترنت وربما غيرها. وعبر الطريق السريع للمعلومات، سيصبح بإمكان وثائق إلكترونية ثرية المحتوى فعل أشياء لا يمكن للورق فعلها، فسوف تتيح لها تكنولوجيا قواعد بيانات الطريق السريع للمعلومات السريع عالية الفاعلية أن تفهرس، ويتم استرجاعها باستخدام برامج خاصة تقوم بعملية الاسترجاع بناء على المحتوى أو من خلال الكلمات الدالة التي يقوم البرنامج باستخراجها.
حفظ هذه المعارف على هذه الوسائط الجديدة يستتبع وسائل جديدة لاسترجاعها وحفظها. ولما كان السواد الأعظم من المعارق المنشورة باللغة الانجليزية فقد تم إجراء بحوث كبيرة في مجال الفهرسة الآلية والفهم الآلي باللغة الإنجليزية، الأمر الذي يسهل النشر والاسترجاع من خلال شبكة الانترنت أو اللغة العربية. فلم تحظ بالحظ نفسه.
التعقيب:
تناول الكاتب موضوع غاية في الأهمية بالنسبة للغة العربية وهي المشاكل التي تواجه اللغة العربية في مجال النشر الالكتروني وحتى توجد اللغة العربية جنباً إلى جنب مع اللغات الأخرى وحتى لا يصاب تراثنا بالإهمال والنسيان مع الزمن نتيجة عدم وجودنا كلغة عربية بكثافة على شبكة الإنترنت.
تناول الكاتب نقاط مهمة في موضوع النشر الإلكتروني منها:
الهوة اللغوية التي يتسبب فيها عدم وجود الوسائل اللازمة للإبحار على الإنترنت من خلال نصوص مكتوبة باللغة العربية وما سيؤدي إليه ذلك من هوة لغوية Linguistic divide وعلى الرغم من وجود بعض البرامج الخاصة بالإبحار للغة العربية، فإن جودتها ليست بالدرجة المطلوبة والخصائص التي بها لا تمكنها من استرجاع المعلومات ومن استخراج الكلمات الدالة للوثائق، والتي لها أهمية كبرى بالنسبة لاسترجاع الوثائق كذلك استخدام Meta Tags والتي يمكنها وصف الوثيقة. وجدير بالذكر أن البحث في الوثائق المنشورة بلغة أخرى لن تظهر في نتائج البحث باللغة العربية إلا إذا ترجمت كلماتها الدالة إلى اللغة العربية وهذا لن يتوافر إلا من خلال أنظمة خاصة تقوم بهذه الترجمة. ولم يفت الكاتب أن يذكر أهمية النشر الإلكتروني في هذا العصر الذي يتحكم فيه الكمبيوتر ووسائل الاتصالات.
وذكر الكاتب التحديات اللغوية وما تتميز به اللغة العربية عن اللغات الأخرى، والصعوبات التي يواجهها العاملون في مجال اللغويات الحسابية.
الكاتب ذكر باستفاضة شرح العمليات اللازمة في النشر الالكتروني ليعطي القارئ فكرة متكاملة عن الإشكاليات كلها منها على سبيل المثال اقتناء الوثيقة وعملية ربطها مع غيرها ومهمة إعداد الوثيقة والفهرسة الآلية ومشكلاتها في اللغة العربية نظراً لصعوبة فصل الكلمات ومشتقاتها والاستخلاص الآلي أو التلخيص الذي يحتاج إلى برامج خاصة وعمليات الترشيح والتأمين وعمليات البحث في وسط لغة صرفية وضرورة وجود برامج تبنى على الذكاء الاصطناعي تساعد في عمليات البحث إلى جانب البرامج التي تحول الوثيقة المكتوبة إلى وثيقة منطوقة.
وتناول الكاتب أيضاً المعالجة الدلالية للغة وما بها من مشاكل.
ومن الواضح تركيز الكاتب على الوثائق الالكترونية ذات الطابع السردي narrative وهي الشائعة حالياً، إلا أن هذا الوضع سوف يتغير في المستقبل القريب، حيث من المتوقع امتزاج الوسائط المتعددة (الصوت والفيديو مع الأشكال) وخلافه، وهذا يؤكد أن النشر الالكتروني سيتجاوز كونه نسخة أخرى من الكتاب المطبوع إلى وثيقة تبادلية interactive بها تمازج بين التمازجية hyperidity وكذلك التشعب النصي الدينامي dynamic hypertexting وهذه الأمور تتطلب دعما لغويا خاصا من حيث توجه ذلك المطلوب للوثائق النصية إلى جانب الخواص الأخرى ونذكر منها على سبيل المثال لا الحصر:
- الاهتمام بالجوانب التبادلية للتعامل مع اللغة وهذا يتطلب التوليد اللغوي (لغة الحوار).
- دراسة العلاقة بين الصورة والأشكال والنصوص الحاملة لها.
- التعامل الذكي مع شظايا النصوص التي يتم جمعها من مصادر مختلفة عبر الشبكة بطريقة ذكية. بذل الكاتب جهداً كبيراً في تغطية جوانب الدعم اللغوي لأنشطة النشر الإلكتروني المختلفة، ولكن من المفضل تجميع أنواع الدعم تحت عناوين رئيسية تنسق التصنيفات الرئيسية ونقصد بذلك:
- أدوات الابحار اللازمة للمستخدم navigational tools.
- نظم التأليف authoring systems اللازمة لاعداد الوثيقة.
- نظم دعم النشر.
- نظم دعم التسويق للنشر الإلكتروني.
ومن جانب آخر، فإن الاقتراحات التي وردت بالدراسة عديدة ومتنوعة ولا تخلو بعضها من طموح زائد. وهو أمر يتطلب وضع أولويات لها ودراسة التداخل فيما بينها وكذلك اقتراح بدائل استراتيجية لتطور هذه الأدوات الحيوية.
ولكن لابد من أن نقر أن الدراسة وافية، وقد لفتت الأنظار إلى حجم الجهد المطلوب لكي تلحق صناعة النشر الإلكتروني بالركب العالمي وتقاعسنا في ذلك نكبة بكل المعايير.