-= Adonis System =-

رایانه وIT ، هک و کرک، تصاویر جالب، دانلود، نرم‌افزار، تلفن همراه و...

-= Adonis System =-

رایانه وIT ، هک و کرک، تصاویر جالب، دانلود، نرم‌افزار، تلفن همراه و...

کمک به دسترسی بهتر به منابع فارسی و توسعه محتوای فارسی در وب

کمک...

خلاصه ماجرا:
محتوای فارسی که در وب قرار گرفته است با کدپیج متفاوتی از حروف "ی" و ک" منتشر شده است. عده‌ای با حروف "ک" و "ی" و عده‌ای هم با حروف "ک" و "ی" (کاف همزه دار و ی نقطه‌دار) مطالب خود را نوشته‌اند.
این روش باعث شده است در هنگام جستجوی محتوای فارسی در بسیاری از مواقع نتایج مطلوب به دست نیاید.
راه حل آن مشکل ارسال نامه و فهماندن موتورهای جستجوگر به این موضوع است که در هنگام جستجو فرقی بین حرف "ک" و "ک" و "ی" و "ی" نگذارد. کما این که در حروف لاتین نیز چنین مسأله‌ای وجود داشته و رفع گردیده است.
این مطالب به صورت مفصل به موضوع پرداخته و سعی دارد جهت انعکاس نظر فارسی‌نویس به موتورهای جستجوگر به خصوص گوگل راه حلی پیدا کند.

 
فارسی زبانانی که اینترنت را با ویندوز 98 آغاز کردند، هنگامی که ویندوز 2000 و پس از آن ویندوز xp به بازار آمد متوجه اختلافاتی در نحوه نوشتن حروف فارسی و همین‌طور شکل چند حرف شدند.

پیش از بیان اختلاف چند نکته را در این زمینه یادآوری می‌کنم:
1- پایه فارسی‌سازی ویندوز 98 ویندوزهای عربی بود. به همین دلیل حروف فارسی به کار برده شده در ویندوزهای فارسی 98 همان حروف عربی به علاوه حروف گ‌چ‌پ‌ژ بود. به اضافه این که layout کیبورد عربی نیز به فارسی تغییر کرده بود.
2- فارسی‌نویسی ویندوز 2000 به بعد بر مبنای فارسی‌سازی قرار گرفت که مایکروسافت به صورت پیشفرض در ویندوز قرار داده بود. مایکروسافت برای فارسی نویس علاوه بر حروف عربی، علاوه بر حروف گ‌چ‌پ‌ژ حروف دیگری نظیر " ک" و "ی" برای استاندارد فارسی خود اضافه کرد. تفاوت این دو حروف آخر در شکل ظاهری آنها بود. در عربی "ک" و "ی" و در فارسی " ک" و "ی".
3- همچنین تفاوت‌هایی هم در layout فارسی‌سازهای ویندوز 2000 و xp وجود دارد. نظیر تایپ حرف “” به برای "پ" و shift-c برای "ژ". در حالی که صحیح آن برای حرف "پ" کلید “~” و برای حرف "ژ" کلید “” است. هنگام تایپ کلید D در صفحه کلید حرف "ی" تایپ می‌شد، ولی با وجود آن با زدن کلید ترکیبی Shif-x حرف "ی" نیز تایپ می‌شد. محل قرار گیری حرف نیم فاصله به shift-2 تغییر کرده بود. (نیم فاصله همان کاراکتری است که باید بین "می" و "شود" قرار بگیرد تا بدون آن که فاصله‌ای بین این دو کلمه نباشد در عین حال به همدیگر هم نچسبد.
کلمه همراه با فاصله: "می شود"
بدون فاصله: "میشود"
با نیم‌فاصله: "می‌شود"
در حالی که در حالت استاندارد قدیمی فارسی shift-space کار نیم‌فاصله را انجام می‌داد.
برای حروف "،" "؛" و «»، فتحه، کسره، ضمه، تنوین‌ها و خط کشیده "ـ" هم همین تفاوت به وجود آمد.

مشکلاتی که این تفاوت ایجاد می‌کرد:
1- املای متفاوت حروف.
در واقع هر مطلبی که با ویندوز 98 تایپ می‌شد با املای حرف "ک" و "ی" نوشته می‌شد (کاف همزه دار و ی نقطه‌دار) و در ویندوز 2000 و xp با "ک" و"ی". در این حالت مطلبی که در ویندوز xp تایپ شود اگر در ویندوز 98 مشاهده شود، یا این که آن مطلب در وب قرار گیرد، حرف "ک" دیده نمی‌شود و به جای آن علامه ؟ نمایش داده می‌شود و حرف "ی" هم به صورت حرف جداگانه نمایش داده می‌شود. مثلا: "وی‌ندوز"
همچنین بسیاری از فونت‌های استاندارد فارسی که در نشر فارسی نظیر روزنامه‌ها و کتاب‌ها به کار می‌رود این حروف جدید را پشتیبانی نمی‌کنند و یا با حروف بزرگ نشان می‌دهند.
2- به دلیل این که اکثر روزنامه‌های فارسی زبان که بر روی اینترنت منتشر می‌شود با سیستم استاندارد قدیمی فارسی مطالب خود را نوشته و منتشر می‌کنند به همین دلیل مطالب منتشر شده آنها در سایت‌های اینترنتی هم به همین صورت قرار می‌گیرد. همچنین اکثر خبرگزاری‌های فارسی زبان جهت رفع مشکلات layout صفحه‌کلید فارسی (نظیر محل قرارگیری صحیح حروف پ، ژ و نیم‌فاصله، کاما، گیومه و... layout قدیمی را جایگزین layout جدید کرده و مطالب منتشر شده آنها با همان استاندارد قدیمی فارسی است.
این کار باعث شده است حجم عظیمی از محتوای فارسی با سیستم قدیمی بر روی وب قرار گرفته و در حال قرار گرفتن است.
درحالی که اکثر وبلاگنویسان و یا کاربران عادی اینترنت از سیستم جدید فارسی در ویندوز xp استفاده می‌کنند.
مشکلی که در این حالت با آن مواجه می‌شویم جستجوی محتوای فارسی است.

تفاوت در جستجوی مطالب فارسی
تصور کنید یک مطلب با سیستم قدیمی فونت فارسی نوشته شده و در اینترنت قرار گیرد و شما با سیستم جدید در آن بخواهید چیزی را جستجو کنید.
تفاوت در جستجو هنگامی به وجود می‌آید که به عنوان مثال در سایت مورد جستجو حروف کاف و ی عربی نوشته شده باشد (ک ی) و شما با ویندوز xp خود با حروف "ک" و "ی" جستجو کنید.
در این حالت نتایج جستجو به هیچ وجه مطابق میل شما نخواهد بود. در واقع جستجوگرهای اینترنتی بین این دو حروف تفاوت قائل می‌شوند.
به همین دلیل جستجو با حروف مختلف نتایج کاملا متفاوتی را در بر دارد.
مثال‌هایی در این زمینه:
جستجو عبارت "کلمه فارسی" با حروف "ک" و "ی"
نتیجه جستجو 33600 یافته

جستجوی عبارت "کلمه فارسی" با حروف "ک" و "ی"
نتیجه جستجو 339 یافته

در واقع کسانی که از ویندوز xp استفاده می‌کنند در صورتی که دنبال عبارت "کلمه فارسی" باشند از پیدا کردن 33600 یافته محروم خواهند شد.
و تصور کنید این جستجو شامل عبارت بیشتر یا جمله‌ای باشد و مطمئناً در بسیاری از موارد کاربر جستجوگر را نتایجی غیر مطلوب وی خواهد رساند.
به دلیل آن که اکثر مطالب مستند، رسانه‌ای و مقالات و پژوهش‌ها توسط رسانه‌ها و سایت‌هایی گردآوری شده است که با استفاده از سیستم‌های استاندارد قدیمی فارسی گردآوری شده و در وب منتشر شده‌اند یک محقق به جای آن به به این مطالب در جستجو دسترسی پیدا کند جستجویش به وبلاگهایی منتهی می‌شود که در بسیاری از موارد ممکن است مطالب مفید برای آن پژوهشگر را در بر نداشته باشد. چرا که اکثر وبلاگنویسان با استفاده از سیستم جدید فارسی می‌نویسند.
تاییدی بر این حرف مثال زیر است:
جستجوی عبارت "وبلاگ فارسی" با حرف "ی" (عربی)
نتیجه 65700 یافته

جستجوی عبارت "وبلاگ فارسی" با حرف "ی" (ی بدون نقطه)
نتیجه جستجو 276000 یافته

نگاهی به نتیجه جستجو نشان می‌دهد که عبارت "وبلاگ فارسی" که معمولا توسط وبلاگ‌نویسان در وبلاگشان به کار می‌رود اگر با حروف "ی" (بدون نقطه) جستجو شود اختلافی دویست و هفتاد هزارتایی دارد.

راه حل مشکل:
باید توجه داشت این مشکل اختلاف کاراکترها فقط در بین فارسی و عربی وجود ندارد. بلکه زبان‌های اروپایی هرکدام دارای کاراکترهای متفاوت هستند و در ضمن در انگلیسی حروف بزرگ و کوچک با هم تفاوت ماهیتی در کاراکتر دارند.
اما موتورهای جستجوگر و مهم‌تر از همه آنها گوگل (که در بین فارسی‌نویسان جزء محبوب‌ترین است) این نکات را در نظر داشته و مشکل پیش رو در این زمینه را حل کرده است. گوگل بین حروف بزرگ و کوچک تفاوتی قائل نیست. و همین طور بین حروفی نظیر ö و é و à با o و e و a که در دیگر زبان‌های اروپایی استفاده می‌شود تفاوتی قائل نیست. در واقع اگر شما دنبال عبارت "googlé" در سایت گوگل بگردید علاوه برای پیدا کردن سایت‌هایی که عبارت googlé در آنها وجود دارد عبارت google را هم جستجو می‌کند. (می‌توانید امتحان کنید.)

پس در این زمینه بهترین راه‌حل برای گذر از چنین مشکلی پیشنهاد می‌شود موتورهای جستجوگر نظیر گوگل این موارد را در هنگام جستجوی فارسی در نظر بگیرد و هنگام جستجو تفاوتی بین حروف "ک" و "ک" و یا "ی" و "ی" قائل نشوند.

برای انتقال این بحث به سایت‌هایی نظیر گوگل چه پیشنهادی می‌کنید؟
لطفا نظرات خودتان را راجع به این مطلب بنویسید و در صورتی که پیشنهادی در زمینه دارید مشتاق خواندن آنها هستم.

نظرات 1 + ارسال نظر
باتمان قلیچ شنبه 2 شهریور 1387 ساعت 02:56 ب.ظ http://www.batmanghelich.blogfa.com

قکر می کنم شما هم نسبت به محتوای فارسی دغدغه دارید اگر لطف کنید در تکمیل و گسترش ایده زیر کمک کنید کمک بزرگی به همه فارسی زبان ها کرده اید:

راه فوق العاده ساده، ارزان، موثر و سریع برای تولید محتوای فارسی در اینترنت، انتشار صدها کتاب و مقاله ای است که توسط سازمان های دولتی طی سالیان گذشته منتشر شده اند. اگر فقط آرشیو نشریات و کتابهایی که دانشگاه و سایر سازمان های دولتی قصد چاپ شان را ندارند روی شبکه قرار بگیرد حجم محتوای ارزشمند فارسی چند برابر خواهد شد.
انتشار مقالات پذیرفته شده در سمینارها، همایش‌ها و جشنواره‌های برگزار شده توسط سازمانهای دولتی، همین طور مقالات منتشر شده در نشریات علمی دانشگاه‌ها و موسسات تحقیقاتی دولتی و نیز انتشار اینترنتی کتاب‌هایی که به هر دلیل چاپ کاغذی آنها به صرفه نیست تاثیر فوق العاده ای بر روی حجم و کیفیت محتوای فارسی اینترنت خواهد گذاشت.

برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد