وب نامرئی و وب فارسی

نقایص و مشکلات خط فارسی که اجمالاً ذکر شد، بازیابی اطلاعات توسط موتورهای جستجو را که در حال حاضر تنها موتور جستجوی Google امکان جستجو به زبان فارسی را دارد و سایر موتورهای کاوش مانند Parseek هم موتور کاوش Google را برای جستجوی اطلاعات فارسی به کار می برند، دشوار می کند.

وب نامرئی و وب فارسی

افزایش کاربران فارسی زبان اینترنت از یک سو و گسترش روز افزون صفحات اینترنتی به زبان فارسی از سوی دیگر ضرورت بررسی وب نامرئی به زبان فارسی با توجه به محدودیت ها و قابلیت های خط فارسی را بیان می کند. در این مقاله ابتدا وب نامرئی و جنبه های مختلف آن معرفی می گردد و سپس زبان و خط فارسی و تأثیر آن در ناپیدائی صفحات وب مورد تحلیل و بررسی قرار می گیرد.
● مقدمه
صرفه جویی در زمان، عدم محدودیت مکانی، عدم محدودیت زمانی در کاربری، سهولت دسترسی و روزآمدی از جمله دلایلی است که شبکه جهان گستر وب را به فراگیرترین محمل اطلاعاتی مبدل کرده است. و در این حین موتورهای کاوش عمده ترین و مرسوم ترین ابزار برای بازیابی اطلاعات هستند. جامعیت موتورهای کاوش اعتماد و اطمینان کاربران را به این ابزار افزایش داده و در بسیاری موارد آنها را از جستجوی بیشتر منابع اطلاعاتی باز می دارد حال آنکه، وجود پدیده ای به عنوان «وب نامرئی» گویای این مهم است که حجم وسیعی از اطلاعات موجود در وب با جستجو از طریق موتورهای کاوش قابل بازیابی نیست و آگاهی کاربران از این امر ضروری به نظر می رسد.
با افزایش پدیده وبلاگ نویسی و اپیدمی شدن آن در ایران و افزایش نشریات الکترونیکی فارسی، حجم صفحات وب فارسی وسعت یافت. وسعت حجم وب فارسی و دسترسی به منابع ارزشمند ادبیات فارسی، عرق زبانی و ملی و نیز عدم تسلط به زبان انگلیسی که زبان عمومی وب است ضرورت بازیابی اطلاعات از وب فارسی را تبیین می کند تفاوت های اساسی زبان انگلیسی و فارسی، حاکی از وجود تفاوت هایی در قسمت هایی از وب نامرئی این دو زبان است که در مقاله به بررسی این تفاوت ها و میزان وب نامرئی در وب فارسی و مشکلات مختص این زبان می پردازیم.
● اجزای تشکیل دهندۀ موتور های کاوش و نحوۀ عملکرد آنها
ساختار اصلی موتور کاوش معمولاً از سه بخش اصلی تشکیل شده است، این بخش ها عبارتند از :
۱) نرم افزار خزنده یا روبات جستجوگر[۲]
این قسمت ازموتورجستجو در واقع نرم افزاری است که با دنبال کردن پیوندهای موجود در صفحات وب، صفحات جدید را شناسایی می کند واین فرایند، پیوسته تکرارمی شود.انتخاب نام«خزنده» برای این نوع ازنرم افزارها به دلیل نوع کاری است که انجام می دهند.عملکرد آنها در یافتن صفحات وب مثل خزیدن در فضای وب است. هر موتور جستجو، نرم افزارخزندۀ مخصوص به خود را دارد وتوانایی بازیابی اطلاعات در هر موتور، کاملاً وابسته به قدرت «خزندۀ» آن است. منظور از قدرت خزنده، سرعت عمل ودامنۀ فعالیت آن در دنبال کردن پیوندهای موجود می باشد. گستردگی وعمق دسترسی اطلاعات در هر موتور جستجو بیش از هر چیز به ویژگی های خزندۀ آن بستگی دارد و نمایۀ موتور جستجو، حاصل کار خزنده است. البته علاوه بر خزنده ها در هر موتور جستجو، بخشی برای معرفی سایت های جدید نیز وجود دارد که کاربران می توانند با ارسال نشانی سایت[۳] مورد نظر خود، آن را به موتور جستجو تحویل دهند. (منصوریان، ۱۳۸۲، ۲۸)
۲) نمایه[۴]
یک پایگاه اطلاعاتی است که اطلاعات نمایه‌سازی‌شده و‌ مرتبط با صفحات یا سایت‌های وب درآنجا نگهداری می‌شود و قابل بازیابی است. ساختار نمایه، ‌اندازه و حجم آن در موتورهای جستجو متفاوت است؛ به همین دلیل جستجو با کلیدواژه‌های یکسان در موتورهای گوناگون، نتایج نسبتاً متفاوتی را در پی خواهد داشت‌. (خسروی،۱۳۸۳، ۵۲)
۳) نرم افزار جستو در نمایه[۵]
سومین جزء یک موتور جستجو، نرم افزار بازیابی است که به جستجو و بازیابی اطلاعات موجود درفایل نمایه براساس کلید واژه های دریافتی ازطرف کاربران می پردازد. و نتایج بازیابی را نمایش می دهد .به بیان دیگر، هنگامی که کاربران کلید واژه های مورد نظر خود را
دربخش جستجوی موتور کاوش وارد می کنند، آنچه اتفاق می افتد جستجوی نمایۀ موتور بر اساس کلید واژه های مذکور است نه جستجوی فضای اینترنت. آنچه که کاربران مشاهده می کنند بیرونی ترین لایۀ موتورهای جستجو است. وقتی آنها به کمک کلید واژه های انتخابی خود به جستجو در اینترنت می پردازند، در واقع آنچه را جستجومی کنند پایگاه اطلاعاتی (نمایۀ) موتورجستجواست که پیوند آنها را با سایر سایت های اینترنتی -سایتها و صفحات وب که قبلاً توسط خزنده شناسایی شده اند- برقرار می کنند. (منصوریان،۱۳۸۲، ۲۹)
از انواع موتورهای کاوش می توان موارد زیر را ذکر کرد: Google, WiseNut, MSN, AlltheWeb, AltaVista, Teoma . (بازاک، ۱۳۸۳).
● تعریف وب نامرئی
به رغم آنکه تا کنون مقالات متعددی به زبان انگلیسی درباره وب نامرئی منتشر شده اما به روشنی معلوم نیست که چه کسی برای اولین بار این واژه را ابداع کرده است. مرور نوشتارها نشان می دهد که به احتمال زیاد واژه وب نامرئی برای نخستین بار در سال ۱۹۹۴ توسط محققی به نام دکتر ژیل السورث[۶] ابداع شده است (نقل در منصوریان، ۱۳۸۲). البته معدودی از منابع موجود در این زمینه نیز شخص دیگری به نام ماتیوکل[۷] را به عنوان اولین مبدع این اصطلاح معرفی می کنند (نقل در منصوریان، ۱۳۸۲). با این حال نام کریس شرمن و گری پرایس به عنوان دو نفر از صاحب نظران اصلی در این موضوع بیشتر از دیگران به چشم می خورد و تعریفی که آنان در سال ۲۰۰۱ از وب نامرئی ارائه کرده اند در اغلب منابع ذکر شده است. به نقل از شرمن و پرایس (نقل در منصوریان، ۱۳۸۲) وب نامرئی را می توان به طور خلاصه چنین تعریف نمود:
وب نامرئی بخشی از شبکه جهان گستر وب است که عمدتآ شامل منابع اطلاعاتی غیرمتنی و پویاست که به هر دلیل به طور موقت یا دائم خارج از حوزه جستجو و بازیابی موتورهای کاوش قرار دارند و بازیابی اطلاعات موجود در آن از طریق استفاده مستقیم از این موتورها میسر نمی باشد. امکان بازیابی منابع پنهان در وب نامرئی یا برای موتورهای کاوش از نظر فنی میسر نیست و یا محدودیت های مالی مانع از نمایه سازی این منابع شده است. (نقل در منصوریان، ۱۳۸۲).
[...انتخاب] این واژه به این معنا نیست که اطلاعات موجود در این بخش از وب غیر قابل رویت هستند. [بلکه] انتخاب این واژه ناشی از این واقعیت است که به دلیل محبوبیت و عمومیت استفاده از موتورهای کاوش این ابزار بازیابی اطلاعات در وب بیشترین استفاده را برای کاربران داشته و کم و بیش این تصور عمومی وجود دارد که موتورهای کاوش به تمام بخشهای شبکه وب دسترسی دارند... (منصوریان، ۱۳۸۲).
اینترنت پنهان آن بخش از فضای اینترنت است که به هر دلیل، خارج از حوزۀ جستجوی موتورهای کاوش قرار دارند و بازیابی اطلاعات موجود در آن از طریق استفاده مستقیم از این موتورها میسر نیست (نقل در منصوریان، ۱۳۸۲، ۲۷ ). افزودن قید «به هر دلیل» در این تعریف حاکی از آن است که ایجاد اینترنت پنهان ناشی از وجود فقط یک عامل نیست و به عوامل متعددی مربوط می شود. (منصوریان، ۱۳۸۲، ۲۷ ).
● وب مرئی یا وب سطحی[۸]
زمانی که سخن از قسمت های نامرئی وب به میان می آیید، احتمالاً به همان اندازه باید به بخش های مرئی رجوع شود. وب مرئی، وب آشکاراً قابل نمایه یا وب سطحی است، در واقع آن وب سایت هایی است که توسط موتورهای کاوش برداشته و نمایه سازی شده اند. (نقل در منصوریان،۲۰۰۴، ۲۲۶). بنابر این، هنگامی که افراد یک بررسی جستجوی وب مبتنی بر وب در موتورهای کاوش را هدایت می کنند در حقیقت عمل، آنها مطالعه شان را بر وب نامرئی محدود می کنند و اساساً، بخش نامرئی وب را در نظر نمی گیرند. (منصوریان، ۲۰۰۴، ۲۲۶)
▪ بخش های تشکیل دهنده وب نامرئی
بر اساس تعریف شرمن و پرایس می توان طیفی از ناپیدایی اطلاعات در شبکه وب تصور نمود که بسته به میزان ناپیدایی اطلاعات در بخشهای مختلف وب از وب نسبتآ نامرئی تا وب حقیقتآ نامرئی قابل ترسیم است. آنها بخشهای مختلف وب نامرئی رابه شرح ذیل تقسیم بندی می کنند (نقل در منصوریان، ۱۳۸۲) :
۱) وب مات[۹]
این بخش از وب نامرئی دچار نوعی ناپیدایی موقتی است و امکان پیوستن آن به بخش آشکار یا مرئی وب محتمل تر از بخشهای دیگر است. […] عوامل ایجاد کننده وب مات عبارتند از:
ـ عمق نمایه سازی[۱۰]
توان مالی و فناوری فعلی موتورهای جستجو هنوز به مراتب محدودتر از آن است که بتوانند به نمایه سازی تمام صفحات و لایه های موجود در وب سایت ها بپردازند، چرا که این کار فرایندی پر خرج بوده و مستلزم فراهم آوری امکانات سخت افزاری قابل توجهی است.
ـ تناوب روزآمد سازی نمایه موتورهای جستجو[۱۱]
نرم افزارهای خزنده[۱۲] با دنبال کردن پیوندهای موجود در صفحات وب مسئولیت شناسایی صفحات جدید و افزودن آنها به نمایه موتورهای جستجو را بر عهده دارند. قدرت و سرعت این نرم افزارها محدودتر از آن است که بتوانند تمام محیط وب را پوشش دهند و تناوب روزآمد سازی آنها به مراتب کندتر از سرعت افزودن اطلاعات جدید به محیط وب است.
[...] همواره فاصله زمانی قابل توجهی از چند روز تا چند هفته بین اطلاعات واقعی موجود در وب و آنچه که موتورهای کاوش، جستجو می کند وجود خواهد داشت.
ـ وب مرده[۱۳] یا نشانی های قطع شده[۱۴]
هر روز یا به بیان دقیقتر هر لحظه صفحات و منابع مختلفی به مجموع منابع شبکه وب افزوده می شود و منابع دیگری از آن حذف می گردد. [...] از سویی دیگر، صفحاتی در وب وجود دارند که هیچ پیوندی با منابع دیگر بر قرار نکرده اند و به همین دلیل خزنده های موتوزهای جستجو قادر به یافتن آنها نیستند.
ـ حداکثر صفحات قابل مرور در نتایج بازیابی[۱۵]
معمولآ جستجوهای انجام شده در موتورهای کاوش با نتایج بازیابی فراوان همراه می باشد بویژه وقتی که کلیدواژه های مورد استفاده تخصصی نبوده و جنبه عمومی داشته باشند. موتورهای جستجو، اطلاعات بازیابی شده را در صفحات متعدد نمایش می دهند و هر صفحه بین ۱۰، ۲۰ یا ۳۰ مورد را در بر می گیرد. اکثر کاربران معمولآ صفحات اول یا دوم نتایج بازیابی موتورهای جستجو را مرور کرده و به ندرت به صفحات بعدی مراجعه می کنند. حتی در بهترین شرایط بخشی از اطلاعات بازیابی شده که ممکن است مرتبط با نیاز کاربر نیز باشد در لایه های زیرین صفحات بازیابی شده توسط موتورهای جستجو مدفون می ماند و به این ترتیب جزء وب مات محسوب می شود.
۲) وب عمیق[۱۶]
اهمیت وب عمیق عمدتاً از آنجا ناشی می شود که از نظر حجم اطلاعات مخفی در آن، این بخش از قلمرو وب نامرئی بزرگترین قسمت آن را به خود اختصاص می دهد به طوری که حجم اطلاعات موجود در آن چندین برابر وب آشکار یا وب سطحی تخمین زده می شود. فهرست پیوسته عمومی[۱۷] بسیاری از کتابخانه های دنیا که از طریق شبکه وب دسترس پذیر هستند و همچنین بسیاری پایگاههای دیگر از جمله وب عمیق هستند. بعضی از این پایگاهها و فهرست های پیوسته، خدمات خود را رایگان عرضه نموده و برخی دیگر در ازاء ارائه خدمات، هزینه اشتراک دریافت می کنند. بدون در نظر گرفتن رایگان بودن یا نبودن خدمات این پایگاهها، همه آنها در یک موضوع مشترک هستند و آن خارج بودن مندرجات آنها از حوزه جستجوی موتورهای کاوش است.
از جمله دیگرموارد وب عمیق، صفحات وبی است که تنها در پاسخ یک پرسش[۱۸] از نظام بازیابی اطلاعات تولید می شود. (منصوریان، ۱۳۸۲)
۳) وب ملکی[۱۹]
بعضی از منابع اطلاعاتی مثل انواع نشریه های الکترونیکی و پایگاههای اطلاعاتی مبتنی بر وب[۲۰] که دسترسی به آنها مستلزم پرداخت حق اشتراک اشت و جزء محصولات شرکت های مختلف می باشد را وب ملکی می نامند. از نظر فنی معمولاً بین منابع وب ملکی و وب عمیق مشابهت وجود دارد اما از آنجا که در این بخش از وب نامرئی منافع مالی تولیدکنندگان اطلاعات منجر به خارج نمودن این منابع از حوزه دسترسی موتورهای جستجو شده این گروه در دسته ای جداگانه طبقه بندی می شوند.
۴) وب خصوصی[۲۱]
این بخش از وب نامرئی تفاوت اساسی بابخشهای دیگر آن دارد، […] این تفاوت اساسی از آنجا ناشی می شود که مخفی بودن اطلاعات در این بخش کاملاً تعمدی می باشد و اطلاعات مذکور جزء دارایی های شخصی و خصوصی افراد یا سازمانها محسوب می شوند.
به کار بردن سه روش ذیل سبب به وجود آمدن وب خصوصی می شود:
ـ استفاده از اسم کاربر و گذر واژه[۲۲] : معمولترین روش برای جدا کردن این نوع منابع از محیط عمومی وب محسوب می شود.
ـ استفاده از فایل Robots.txt : وجود این فایل، خزنده های موتورهای جستجو را از نمایه سازی وب سایت مذکور باز می دارد.
ـ استفاده از کد noindex : افزودن کد noindex به مجموع کدهای یک صفحه وب، پیامی برای خزنده موتور جستجو به شمار می رود که آن را از نمایه سازی صفحه مذکور منع می کند [...]. (منصوریان، ۱۳۸۲، ۳۵ )
۵) وب واقعاً نامرئی[۲۳]
بخش های دیگری نیز در قلمرو تاریک وب وجود دارد که در اثر مسائل فنی[۲۴] از دسترس کاربران دور مانده است و چه بسا در آینده با پیشرفت ابزارهای کاوش به محیط وب مرئی منتقل شوند. موتورهای جستجو اغلب قادر به یافتن اطلاعات متنی « اچ تی ام ال»[۲۵] هستند و توانایی بازیابی فایلهایی از انواع دیگر نظیر pdf, ppp, swf را یا ندارند یا به دلیل کمبود منابع مالی و فنی از جستجوی فایلهای غیر متنی صرف نظر کرده اند. مثلاً در حال حاضر موتور جستجوی معروف گوگل[۲۶] قادر به بازیابی فایلهایی با پسوند pdf, ptt می باشد، اما این امکان در بسیاری دیگر از موتورهای جستجو هنوز وجود ندارد و چند سال گذشته نیز گوگل به این امکان مجهز نبود. (منصوریان، ۱۳۸۲، ۳۶)
● زبان و خط فارسی
تمایزات اساسی زبان و خط فارسی با زبان و خط انگلیسی که زبان غالب وب است، سبب شده است که جستجو به زبان فارسی در وب نامرئی مطرح شود.
زبان و خط فارسی مشکلات خاصی را دارا می­باشد و نظام نوشتاری فارسی برای ثبت دقیق گفتار، نارسائی دارد و قواعد نگارش آن مدون نیست، از این رو فاصله میان گفتار و نوشتار در فارسی قابل توجه است. بیش‌ترین مشکلات نیز به جهت نبود یک رسم الخط واحد که عموم اساتید و اهل فن روی آن اجماع کرده باشند به وجود آمده است. به طوری که در حال حاضر جدای از چندین شیوه‌نامه رسمی همچون" شیوه‌نامه سمت، نشر دانشگاهی، فرهنگستان، آموزش و پرورش" به تعداد افراد جامعه، رسم الخط و شیوه نگارش زبان وجود دارد، هر ناشری برای خود به قاعده‌ای دلخواه عمل می‌کندکه این تعددها موجب پریشانی و پراکندگی شده و با یکدیگر تفاوت‌هایی دارند. همچنین می‌توان به عاریتی بودن خط فارسی و چاره ‌اندیشی برای حرکات و عدم تطابق واج‌ها با حروف اشاره کرد. متصل و منفصل‌نویسی نیز یکی دیگر از حوزه‌های مورد اختلاف است از دیگر مشکلات: گوناگونی معادل‌های علمی، انواع مختلف ضبط اسامی خارجی، سرهم‌نویسی، جدانویسی، بی‌فاصله‌نویسی، انواع جمع‌ها، صورت‌های مختلف نوشتاری، آوانویسی اسامی عناصر و ترکیبات شیمیایی، سرواژه‌ها و کوته‌‌نوشت‌ها می­باشد. (راثی ساربانقلی، ۱۳۸۴).
نبود استاندارد ثابت رسم الخط فارسی موجب این شده است که به تعداد صفحات وب فارسی سبک و سیاق نگارش به کار رفته باشد لکن می‌توان چنین ارزیابی نمود که اکثر وب‌های فارسی در برخی خصوصیات مشترک می‌باشند از جمله این که نگارش برخی از آن‌ها زبان غیر رسمی و محاوره‌ای می‌باشد و به خصوص در متون علمی اغلب واژه‌های بیگانه به دفعات استفاده می‌شود. رسم­الخط مورد استفاده نیز متفاوت و سلیقه‌ای است و برخی از آن‌ها غلط‌های تایپی و نگارشی فراوانی دارند و این خصوصیات، اغلب به جهت محدودیت‌های محیط الکترونیکی و عدم تطابق رسم الخط فارسی با آن می‌باشد که نمایه‌سازی و سپس جستجو به این زبان را با دشواری‌هایی رو به رو می‌سازد. (راثی ساربانقلی، ۱۳۸۴).
● مشکلات خط فارسی
نقص‌هایی اساسی که برای زبان فارسی شمرده‌اند به شرح زیراست (راثی ساربانقلی، ۱۳۸۴):
▪ عدم اعراب گذاری: به عنوان مثال کلمات (مَلَک، مِلک، مَلِک، مُلک) همه به یک شکل نوشته می شوند.
▪ وجود چند علامت برای یک حرف: مانند (ز، ذ، ظ، ض)
▪ استفاده از یک علامت برای چند حرف: مانند "و" که پنج مورد نوشتن دارد یکی برای بیان ضمه در کلمات "خوش" و "تو". دیگر بیان مصوت ممدود یا "واو ماقبل مضموم" مانند "شور" و "او". سوم بیان حرف صامت "واو" در کلماتی چون "آواز" و "والی" و "عفو" . چهارم بیان حرف مصوت مرکبی که در کلمات "نو" و "جوشن" و مانند آن‌هاست. پنجم حرفی که در زبان کنونی خوانده نمی‌شود مانند "واو معدوله" در کلمات "خواهر" و "خواستن" و "واو" در کلمه "عمرو"[۲۷]
▪ حرفهایی که در نوشتار حذف می شوند: مانند "الف" در کلمات "اسمعیل" و "الله"
▪ نقطه گذاری: نقطه‌هایی متعدد در بالا و پائین حرف که هم سبب دشواری و هم موجب اشتباه در خواندن می‌شود. اهمیت بیش از حد نقطه درخط فارسی هنگام تشخیص نوری کاراکترها تولید اشکال اساسی می‌کند. به عنوان مثال کلمات زیر را در نظر بگیرید که با یک یا چند نقطه عوض می‌شوند (بُر، بَر، پُر، پَر، تَر، پُز، پَز، بُز، تِز). - از راست به چپ نوشته شدن: برای این مورد دلایل مختلفی ذکر شده است از جمله عدم هماهنگی و ایجاد مشکل در نوشتن متون ریاضی و شیمی و نت‌های موسیقی و دستورات شطرنج و این‌ که خط تصویری یعنی علائم گرافیکی که در کل جهان استفاده می‌شود مانند علائم راهنمائی و رانندگی تماماً از چپ خوانده می‌شوند.
▪ پیوسته نویسی و جدا نویسی: مانند تنوع استفاده از ‹می› چسبان و غیر چسبان و یا تنوع نحوه به کار بردن «علامت‌های جمع ‹ها، ان، جات› ، هم، هیچ، که، (ضمایر شخصی متصل مان، تان، شان)، شناسی، را، چه، چون، تر، ترین، بی (پیشوند نفی)، به، ای (نشانه ندا)، آن و این» در کلمات به صورت پیوسته و یا جدا گانه: (آنچه ، آن چه)؛ (همچنانکه، همچنان‌که) ؛ (جنابعالی، جناب‌عالی)؛ (هیچکس، هیچ‌کس)‏‎؛ (میتواند، می‌تواند)؛ (آن ها، آنها) در این مورد کلماتی که پیشوند و یا پسوند دارند نیز در شکل‌های مختلف نوشته می‌شوند. برخی از کلمات در دو شکل متصل‌نویسی و منفصل‌نویسی به دو شکل مختلف ظاهر می‌شوند، مانند «علاقمند و علاقه‌مند؛ اندیشمند و اندیشه‌مند». مصدرها و فعل‌های مرکب و اسم‌های مشتق از آنها نیز به دو صورت متصل و منفصل نوشته می‌شوند مانند «نگه‌داشتن و نگهداشتن». در جستجوی مطالب از اینترنت این مورد تولید اشکال می‌کند چنانکه جستجوی «هیچ‌کس» نتایج متفاوتی را با جستجوی «هیچکس» می‌آورد و یا جستجوی «کتاب‌شناسی» و «کتابشناسی» در موتور جستجوی گوگل نتایج متفاوتی را ارائه می‌کند. این گونه کلمات با این که در خواندن متن اشکال کمی به وجود می‌آورند و هر آشنای به زبان فارسی به راحتی می‌تواند آن را بخواند اما در فن‌آوری امروزه و تجزیه و تحلیل کلمات به کمک رایانه اشکال اساسی تولید می‌کند و شاید اگر قاعده‌ای جامع و مانع برای آن وضع گردد، بتوان گفت بزرگ‌ترین مشکل خط فارسی حل شده است. منظور این که، برای مثال خواندن سه کلمه «بی‌حوصلگی، بیحوصلگی، بی‌حوصله‌گی» مشکلی ایجاد نمی‌کند. اما در محیط الکترونیکی و شبکه اینترنت برای بازیابی این کلمه بایستی برای تمام اشکال این کلمه، جستجو را انجام دهیم، البته اگر آگاهی از تمام اشکال نوشتاری آن داشته باشیم.
▪ نوشته شدن حروف به اشکال متعدد: مثلاً نوشتن ک و گ (کـ گـ ک گ) در اشکال مختلف نیز باعث سردرگمی و عدم جستجوی صحیح می‌شود.
▪ بوجود آمدن معنای متفاوت با اضافه کردن یک فاصله: مثل مادر ، ما در
▪ تعداد سطرها در هر صفحه: سه کرسی مختلف برای حرف‌های مختلف الفبا باعث می شود که در مقایسه با اکثر زبان‌ها تعداد سطرهای هر صفحه به مراتب بیش‌تر گردد چون برخی حروف روی خط کرسی قرار می‌گیرند و برخی پائین خط کرسی و برخی بالای خط کرسی مثل (ا ب م )
▪ پیوسته نویسی حروف: از آنجائیکه حروف در نوشتن غالباً به صورت چسبیده و پیوسته نوشته می‌شوند و این امر تشخیص حرف به حرف نوشته به وسیله رایانه را، دچار مشکل می‌کند.
▪ عدد صفر در فارسی: در او. سی. آر. فارسی هم چنین اعداد نیز مشکل ساز هستند چنانچه صفر در فارسی یک نقطه کوچک است که می‌تواند رایانه را به اشتباه بیاندازد و نیز اعداد ۱ و ۲ و ۳ بسیار شبیه هم هستند و تفاوت‌شان در یک دندانه کوچک است.
▪ تنوع در رسم الخط: مانند ( اتاق و اطاق) و یا (امپراتور و امپراطور). و کلماتی که فقط یک شکل آنها صحیح می‌باشد ولی شکل ناصحیح آن نیز زیاد استفاده می‌شود مانند «ذغال و زغال؛ خوشنود و خشنود». البته این جدای از تنوع در مفهوم کلمات است که در دیگر زبان‌ها نیز وجود دارد، یعنی برای بعضی از مفاهیم ممکن است کلمات متنوعی استفاده بشود. مانند کامپیوتر و رایانه.
▪ شکل های مختلف ضبط نام های بیگانه: واژه‌های بیگانه اغلب برای پر کردن خلاء واژه‌های علمی و یا ارتباطی سودمند هستند، اما وجود آن‌ها مسائلی از قبیل چگونگی ضبط آن‌ها در زبان قرض‌گیرنده را به‌ وجود می‌آورد. برای ضبط واژه‌های قرضی به سبب اختلاف فاحش نشانه‌های الفبای فارسی با نشانه‌های الفبای خارجی مشکلات جدی وجود دارد. از جمله این که الفبای فارسی آوانگار نیست و به همین جهت در ضبط دقیق تلفظ واژه‌های زبان فارسی نیز ناتوان است و این ناتوانی در ضبط واژه‌های بیگانه به مراتب بیش‌تر است و این که در مورد برگردان اسامی خارجی به خط فارسی قاعده خاصی وجود ندارد و هر کس بنا بر سلیقه و ذوق خود این کار را انجام می‌دهد که در نتیجه یک کلمه واحد به صورت‌های مختلف نوشته می‌شود. برای مثال (کلسیم، کلسیوم، کالسیوم) و یا اسم Franklin به صورت (فرانکلین، فرانکلن، فرنکلین، فرنکلن) ضبط شده است. خانم صدیق بهزادی این مشکلات را به سه دسته تقسیم کرده است: ” ۱- نام‌هایی که در برگردان آن‌ها هم‌خوان‌ها ایجاد مشکل می‌کنند. ۲ – نام‌هایی که در برگردان آن‌ها واکه‌های ساده مشکلاتی را به‌ وجود می‌آورند . ۳ – و سوم نام‌هایی که در برگردان آن‌ها مشکل اصلی مربوط به واژه‌های مرکب است. (نقل در راثی ساربانقلی، ۱۳۸۴)
▪ انواع مختلف جمع بستن: به عنوان مثال جمع بستن یک واژه با علایم جمع فارسی وعلایم جمع عربی و نیز جمع بستن بی قاعده (جمع مکسر)، استفاده ازجمع جمع، مانند (معلم، معلمین، معلمان، معلم‌ها).
▪ تنوین های زبان عربی: از جمله دشواری‌های رعایت اصل هم‌خوانی نوشتاری و گفتاری هستند.
▪ وجود دندانه های متعدد: به خصوص در او.سی.آر. فارسی ایجاد اشکال می‌کند مانند کلمات: نشستن و استشهاد.
● ابزارهای کاوش با واسط فارسی
برخی از ابزارهای کاوش با امکانات جستجوی فارسی عبارتند از: ایران کلیکIranclick، Open Directory، ایران‌هوIranhoo ، ایران‌مهرIranMehre ، پارسیک Parseek ، گوگل Google. تنها موتور کاوش Google دارای برنامه روبات می باشد و قادر است صفحات فارسی را در قالب یونی کد[۲۸] شناسایی و در پایگاه خود نمایه کند. Parseek نیز از آنجایی که از پایگاهGoogle استفاده می کند، یک موتور کاوش وابسته به پایگاه دیگر ابزارهای کاوش به حساب می آید.۴ ابزارکاوش دیگرراهنمای موضوعی به شمارمی آیند و انسان فرایند شناسایی،بررسی و نمایه سازی سایتها یا صفحات وب رابرعهده دارد. (کوشا، ۱۳۸۲)
اضافه کردن یک واسط هوشمند به موتورهای کاوش یا خزنده ها، کیفیت نتایج کاوش در وب های فارسی زبان را ارتقاء می دهد. این واسط در واقع نقش یک پردازشگر پرس وجو[۲۹] را ایفاء می کند. (صدیقی؛ زمانی فر، ۱۳۸۵)
● نتیجه گیری
نقایص و مشکلات خط فارسی که اجمالاً ذکر شد، بازیابی اطلاعات توسط موتورهای جستجو را که در حال حاضر تنها موتور جستجوی Google امکان جستجو به زبان فارسی را دارد و سایر موتورهای کاوش مانند Parseek هم موتور کاوش Google را برای جستجوی اطلاعات فارسی به کار می برند، دشوار می کند و همین نقایص، باعث عدم دسترسی کاربران به همۀ صفحات وب موجود به زبان فارسی می شود که این همان وب نامرئی است (صفحاتی در وب وجود دارد اما با موتور کاوش نمی توان آن را بازیابی کرد).
طبق مطالعات انجام شده در این زمینه، به نظر می رسد که حجم وب نامرئی در زبان فارسی نسبت به حجم کل وب فارسی بیشتر از حجم کل وب نامرئی نسبت به حجم کل وب است. چرا که از میان صفحات وب فارسی، صفحات وب بسیاری وجود دارد که به دلایلی که قبلاً اشاره شد از جمله عدم وجود رسم الخط ثابت و نیز عدم رعایت آن توسط تولیدکننگان صفحات وب از دید کاربران پنهان می ماند.
در این راستا آگاهی از وجود وب نامرئی توسط کتابداران، اولین و مهمترین گام است.
● پیشنهادات
۱) ایجاد یک رسم الخط ثابت برای خط فارسی و نظارت سازمانهای مربوطه همچون مرکز اسناد و کتابخانۀ ملی و یا فرهنگستان زبان و ادب فارسی، بر رعایت آن توسط ناشران و مؤلفان.
۲) اعمال یک واسط هوشمند فارسی بر روی موتورهای کاوش.

  
نویسنده : ali gooliof ; ساعت ۱:۱٢ ‎ق.ظ روز ۱۳۸٧/٢/۱۱
تگ ها :