السلام عليكم
المشروع عبارة عن برنامج زاحف لتحميل صفحات ويب (crawler) لغرض صنع مكنز أو ذخيرة نصوص (corpus) عربية، يستفاد منها لاحقا في مجال معالجة اللغات الطبيعية (NLP).
الواجهة الرئيسية للبرنامج:
خصائص البرنامج الرئيسية هي:
البرنامج كان هدفه في الأساس صنع مكنز للغة العربية وذلك لندرتها وغلاء المتوفر منها، لكن تم فيما بعد دعم إضافة لغات أخرى كالإنجليزية والفرنسية.
البرنامج مكتبوب باللغة C++ والمكتبة Qt ويعتمد عليها في علميات التحميل واستخلاص النصوص وعرض المقالات من المواقع وجميع الوظائف الأخرى، البرنامج متعدد المنصات وتمت كتابته في لينوكس أساسا مع بعض الضبط بالنسبة للأنظمة الأخرى، المذكرة تحتوي على تفاصيل أكثر عن البرنامج من حيث التصميم وطريقة العمل.
لتحميل المذكرة (بالفرنسية) Stories Crawler thesis
لتحميل البرنامج هنا
المشروع عبارة عن برنامج زاحف لتحميل صفحات ويب (crawler) لغرض صنع مكنز أو ذخيرة نصوص (corpus) عربية، يستفاد منها لاحقا في مجال معالجة اللغات الطبيعية (NLP).
الواجهة الرئيسية للبرنامج:
خصائص البرنامج الرئيسية هي:
- الحجم الكبير للنصوص التي يمكن إدارتها
- مكتوب بالسي++ لسرعة الأداء
- توفر تخصيصات عديدة لوظائف البرنامج
- إستعراض النصوص من النت مباشرة أو من النسخة المحملة
- أدوات للبحث والفلترة وإستخلاص المعلومات حول corpus
- مفتوح المصدر تحت رخصة GNU GPL
البرنامج كان هدفه في الأساس صنع مكنز للغة العربية وذلك لندرتها وغلاء المتوفر منها، لكن تم فيما بعد دعم إضافة لغات أخرى كالإنجليزية والفرنسية.
البرنامج مكتبوب باللغة C++ والمكتبة Qt ويعتمد عليها في علميات التحميل واستخلاص النصوص وعرض المقالات من المواقع وجميع الوظائف الأخرى، البرنامج متعدد المنصات وتمت كتابته في لينوكس أساسا مع بعض الضبط بالنسبة للأنظمة الأخرى، المذكرة تحتوي على تفاصيل أكثر عن البرنامج من حيث التصميم وطريقة العمل.
لتحميل المذكرة (بالفرنسية) Stories Crawler thesis
لتحميل البرنامج هنا
تعليق