إعـــــــلان

تقليص
لا يوجد إعلان حتى الآن.

برنامج Stories Crawler

تقليص
X
 
  • تصفية - فلترة
  • الوقت
  • عرض
إلغاء تحديد الكل
مشاركات جديدة

  • [برنامج] برنامج Stories Crawler

    السلام عليكم


    المشروع عبارة عن برنامج زاحف لتحميل صفحات ويب (crawler) لغرض صنع مكنز أو ذخيرة نصوص (corpus) عربية، يستفاد منها لاحقا في مجال معالجة اللغات الطبيعية (NLP).


    الواجهة الرئيسية للبرنامج:

    خصائص البرنامج الرئيسية هي:
    • الحجم الكبير للنصوص التي يمكن إدارتها
    • مكتوب بالسي++ لسرعة الأداء
    • توفر تخصيصات عديدة لوظائف البرنامج
    • إستعراض النصوص من النت مباشرة أو من النسخة المحملة
    • أدوات للبحث والفلترة وإستخلاص المعلومات حول corpus
    • مفتوح المصدر تحت رخصة GNU GPL



    البرنامج كان هدفه في الأساس صنع مكنز للغة العربية وذلك لندرتها وغلاء المتوفر منها، لكن تم فيما بعد دعم إضافة لغات أخرى كالإنجليزية والفرنسية.

    البرنامج مكتبوب باللغة C++ والمكتبة Qt ويعتمد عليها في علميات التحميل واستخلاص النصوص وعرض المقالات من المواقع وجميع الوظائف الأخرى، البرنامج متعدد المنصات وتمت كتابته في لينوكس أساسا مع بعض الضبط بالنسبة للأنظمة الأخرى، المذكرة تحتوي على تفاصيل أكثر عن البرنامج من حيث التصميم وطريقة العمل.




    لتحميل المذكرة (بالفرنسية) Stories Crawler thesis
    لتحميل البرنامج هنا

  • #2
    يعتمد rss وينظمها ....رائع
    •°o.O islamux O.o°•
    أنا إن عشت لنفسي عشت حقيرًهزيلا :::ومهما تعلمت لا أزال جهولا
    "يَوْمَ تَجِدُ كُلُّ نَفْسٍ مَا عَمِلَتْ مِنْ خَيْرٍ مُحْضَرا..الايه(آل عمران:30)

    *****
    إذَا لَمْ تَسْتَطِعْ شيئًا فدَعْهُ = وجاوِزْهُ إلى مَا تَستَطِيعُ
    تلميح اليوم

    FreeBSD في كبسولة !
    لا يطلب العلم مستحي ولا مستكبر
    اللهم اجعل عملنا خالصا لوجهك الكريم.
    فان تجد عيبا فسدَ الخللا ****** جلَ من لا عيب فيه وعلا
    كل مشاركاتي في المجتمع وقف لله تعالى
    Tweeter

    تعليق


    • #3
      لم افهم ما يقوم به هذا البرنامج
      هل هو قارئ rss ؟

      تعليق


      • #4
        المشاركة الأصلية بواسطة فتحي القدسي مشاهدة المشاركة
        يعتمد rss وينظمها ....رائع
        ليس rss فقط بل html أساسا
        شكرا فتحي

        المشاركة الأصلية بواسطة boussouira مشاهدة المشاركة
        لم افهم ما يقوم به هذا البرنامج
        هل هو قارئ rss ؟
        عمل البرنامج مذكور في المقدمة هو يشبه قارئ rss في الواجهة فقط
        للتفاصيل حمل المذكرة (إذا كنت تجيد الفرنسية؟ : )

        تعليق


        • #5
          اه نسيت أن أحميلها

          تعليق


          • #6
            اهنيك عزيزي أمين على هذا العمل الجميل ... كنت ولازلت افكر في شئ كهذا لأغراض علمية تخص ابحاث السوق وخلافه وكنت احتاج إلى أداة تجلب لي بعض المقالات التي احدد كتابها وبعض الاعلانات وغيره .. ويظهر لي ان هذا البرنامج الجميل يفعل ذلك

            قمت بتركيب البرنامج وعمل كمبايلر له .. لكن للاسف لم افلح في تشغيله .. هل تتكرم وتشرح قليلاً طريقة تشغيله .. ومن ثم كيف أضيف إليه بعض المواقع الأخرى ؟

            وجزاك الله خيراً

            تعليق


            • #7
              بالمناسبة اخي أمين بعد عمل الكمبايلر وتشغيل البرنامج لم يظهر لي قائمة المواقع التي على اليسار لم يظهر اي شئ منها كما في الصورة التي وضعتها ... فهل هذا طبيعي ام ترجع أن هناك خطأ ما ؟

              تعليق


              • #8
                مرحبا أخي طارق

                يجب أن يكون الملفان seeds.xml و style.css في نفس مجلد البرنامج، ثم فقط شغله من الطرفية (لترى output msgs)

                إضافة مواقع أخرى يتطلب إدخال معلومات مكان النص (المحتوي النصي للمقالة مثلا) إعتمادا على وسوم html أو js
                لكن موقع رويترز يقدم عدادا هائلا من النصوص للعمل عليها (أستاذي المؤطر عمل عليها وقدمت نتائج رائعة)

                تعليق


                • #9
                  السلام عليكم

                  أخي أمين عذرا على ازعاجك

                  شغلت البرنامج من الطرفية وكانت هذه احدى النتائج

                  "/home/tariq/seeds.xml" "No such file or directory"
                  "/home/tariq/data.xml" "No such file or directory"
                  لا ادري هل تظن ان البرنامج من المفترض أن يبحث عن ملف seeds.xml في مجلد الـhome
                  ايضا ملف data.xml غير موجود في مجلد البرنامح الذي انزلته من الموقع

                  ساعيد عملية الكمبايلر من جديد ربما هناك شئ غير صحيح بها واجرب بإذن الله مرة أخرى

                  تعليق


                  • #10
                    ضع ملف seeds.xml (و style.css) في المجلد المطلوب (tariq) ثم أعد تشغيله من الطرفية، الملف data.xml سينتج بعد التحميل لذا فلا مشكل من ناحيته

                    بالتوفيق

                    تعليق


                    • #11
                      جزاك الله كل خير اخي أمين

                      اتعبتك معي

                      تعليق

                      يعمل...
                      X