انا اعلم انه يوجد الرابط التالي يشرح tesseract
http://www.linuxac.org/forum/showthread.php?36100
انا اردت ان استعمل طريقتي بعد عمل و تنصيب التالي:
اولا صَوِّر وثيقتك المطبوعة على الماسحة (اي scanner) . انا طبعا استعمل البرنامج xsane.
احفظ صورة الوثيقة بالامتداد tif . اجعل الالوان في الصورة ابيض و اسود فقط لا غير . تغيير الالوان عبر xsane يكون بوضع حالة الالوان على Lineart
و في GIMP : بعد فتح الصورة نذهب الى القائمة image ثم الى Mode ثم الى indexed و نختار من مربع الحوار use black and white 1-bit palette
ثم الزر convert اي استعمل في الصورة اللونيْن ابيض و اسود فقط. ثم احفظ الصورة بالامتداد tif.
اذا كانت الصورة فقط مثلا اصلا بغير الامتداد tif -مثلا jpeg- و ماعندك GIMP الامر convert كافي لانك نزلت الحزمة ImageMagick:
اولا يجب تحويل الjpeg الى bmp لأن الjpeg لا تقبل التحويل الى ملف tif احادي اللون مباشرة اي هنا الاختيار monochrome
نعمل التالي:
ثم:
لا تُسَمِّ الملف بالامتداد tiff - اقصد حرفين فاء f . البرنامج tesseract يتعرَّف على الامتداد بحرف فاء واحدة فقط.
ثم كي نحول النص الانجليزي في الصورة الى نص بحروف يمكننا تحريرها في ملف txt او doc نعمل:
وفي نفس مكان تنفيذ الامر ,سترى الناتج في الملف text_result.txt
ملاحظات مهمة :
في دبيان lenny شغل الامر tesseract مرة واحدة فقط بعد التثبيت ثم انسَ الامر. هناك مشكلة ملف يجب انتاجه لانه غير موجود.
بالنسبة لماذا استخراج النص من الصورة لا يظهر جيدا او قد لا يظهر ابداً, ذلك لسببين:
١- عند تصويرك الوثيقة على الماسحة , يجب ان تضع الورقة على زاوية قائمة. افضل شيء على جانب \ على حافة الماسحة.
٢- يجب ان تكون الورقة واضحة جيدا. مثلا, قد يقرا ال a و يؤوِّلها ك صفر 0 بسب عدم الوضوح.
السبب في تحويل الوان الصورة الى الوان احادية هو مقارنة النقاط المكوِّنة لخط رسم الحرف بما هو عند البرنامج.
http://www.linuxac.org/forum/showthread.php?36100
انا اردت ان استعمل طريقتي بعد عمل و تنصيب التالي:
كود:
apt-get install tesseract-ocr tesseract-ocr-eng imagemagick
اولا صَوِّر وثيقتك المطبوعة على الماسحة (اي scanner) . انا طبعا استعمل البرنامج xsane.
احفظ صورة الوثيقة بالامتداد tif . اجعل الالوان في الصورة ابيض و اسود فقط لا غير . تغيير الالوان عبر xsane يكون بوضع حالة الالوان على Lineart
و في GIMP : بعد فتح الصورة نذهب الى القائمة image ثم الى Mode ثم الى indexed و نختار من مربع الحوار use black and white 1-bit palette
ثم الزر convert اي استعمل في الصورة اللونيْن ابيض و اسود فقط. ثم احفظ الصورة بالامتداد tif.
اذا كانت الصورة فقط مثلا اصلا بغير الامتداد tif -مثلا jpeg- و ماعندك GIMP الامر convert كافي لانك نزلت الحزمة ImageMagick:
اولا يجب تحويل الjpeg الى bmp لأن الjpeg لا تقبل التحويل الى ملف tif احادي اللون مباشرة اي هنا الاختيار monochrome
نعمل التالي:
كود:
convert picture.jpeg picture.bmp
ثم:
كود:
convert -monochrome picture.bmp new_picture.tif
لا تُسَمِّ الملف بالامتداد tiff - اقصد حرفين فاء f . البرنامج tesseract يتعرَّف على الامتداد بحرف فاء واحدة فقط.
ثم كي نحول النص الانجليزي في الصورة الى نص بحروف يمكننا تحريرها في ملف txt او doc نعمل:
كود:
tesseract new_picture.tif text_result
وفي نفس مكان تنفيذ الامر ,سترى الناتج في الملف text_result.txt
ملاحظات مهمة :
في دبيان lenny شغل الامر tesseract مرة واحدة فقط بعد التثبيت ثم انسَ الامر. هناك مشكلة ملف يجب انتاجه لانه غير موجود.
بالنسبة لماذا استخراج النص من الصورة لا يظهر جيدا او قد لا يظهر ابداً, ذلك لسببين:
١- عند تصويرك الوثيقة على الماسحة , يجب ان تضع الورقة على زاوية قائمة. افضل شيء على جانب \ على حافة الماسحة.
٢- يجب ان تكون الورقة واضحة جيدا. مثلا, قد يقرا ال a و يؤوِّلها ك صفر 0 بسب عدم الوضوح.
السبب في تحويل الوان الصورة الى الوان احادية هو مقارنة النقاط المكوِّنة لخط رسم الحرف بما هو عند البرنامج.