شنبه، 27 مهر 1398 15:23:49
آخرین اخبار
رئیس کتابخانۀ مرکزی و مرکز اسناد دانشگاه علامه‌طباطبائی:

نمایه‌سازی از واژه‌ها استخراج می‌شود/ وب، بزرگترین محیط ذخیره و بازیابی داده‌ها در دنیاست

در دورهمی علمی کتابداران در کتابخانۀ آیت العظمی بروجردی قم اولین جلسه نشستی با عنوان سواد اطلاعاتی و مهارت های پژوهشی (پژوهش در محیط وب: موتورهای کاوش) برگزار شد.

 به گزارش عطنا، در این نشست سیدمهدى طاهرى، رئیس کتابخانه مرکزی و مرکز اسناد دانشگاه علامه طباطبائی گفت: وب به عنوان بزرگترین محیط ذخیره و بازیابی داده ها در دنیاست و به دلیل گستردگی و اهمیت آن تمام مباحثی که در حوزه مدیریت اطلاعات و دانش مطرح می شود یک بُعد وبی هم پیدا می کند. محیط وب خیلی گسترده است و در آن از  فناوری‌های مختلفی استفاده می شود.

وی افزود: فناوری‌های وبی، فناوری هایی هست که موجودیت های محیط وب از این فناوری ها استفاده می کنند و این فناوری ها حتی در خارج از وب نیز استفاده می شوند. همانطور که گفتیم هر مبحثی در حوزه مدیریت اطلاعات و دانش در وب هم مطرح می شود و یکی از اینها نمایه سازی است. Webindexing مترادف با search engine indexing است.

او گفت: موتورهای کاوش به عنوان بهترین ابزارهای کاوش هستند و ۹۰درصد از زمان کاوش کاربرها در وب از طریق موتورهای کاوش صورت می گیرد. علاوه بر موتورهای کاوش پورتال ها، دیتا بیس ها، bibliographic networks،  information gateways و مانند آنها را داریم اما به خاطر قابلیت های زیاد و کاربرپسند بودن موتورهای کاوش، مورد استقبال زیادی قرار گرفتند.

طاهری ادامه داد:  GWTفناوری خاص گوگل است ولی گوگل در صفحه اول یک اینترفیس ساده دارد و یکی از دلایل استقبال کاربران ساده بودن آن است.

طاهری درباره نمایه سازی وب گفت: نمایه سازی وب شیوه خاص و منحصر به فردی ندارد. همه روش هایی که در نمایه سازی به کار می رود مانند نمایه سازی استخراجی خودکار، نمایه سازی تخصیصی خودکار همه اینها در وب استفاه می شود.

وی افزود: موتورهای کاوش سه بخش اصلی دارند. اولین بخش دیتابیس است، جایی که دیتاها در آن ذخیره می شوند. مورتوهای کاوش اول دیتا را ایندکس می کنند و  توجه داشته باشید که  ۲۰درصد داده های وب، ایندکس می شوند و باقی وب عمیق است.

او ادامه داد: جزو دوم ربات های موتور کاوش است که به آن نرم افزار خزنده نمایه ساز می گویند. جزو سوم پردازشگر درخواست است. کار آن این است که درخواست‌ها را از کاربر دریافت می کند و از دیتا بیس پاسخ می آورد و در این کار از نمایه مقلوب استفاده می کند و این بخش کوچکی از ساختار موتورهای کاوش است.

وی افزود: نمایه سازی از واژه ها استخراج می شود. نمایه سازی عبارت هم داریم که کمی پیچیده تر است.

طاهری گفت: رویکردی که موتورهای کاوش دارند این است که source صفحات را ایندکس می کنند. این صفحه برای موتور کاوش مهم است. دو محیط داریم یکی داینامیک و دیگری استاتیک محیط‌های داینامیک آنهایی هستند که پشتشان دیتابیس است و صفحه از قبل وجود نداشته و  در برابر درخواست کاربر generate می شود و یک صفحه ای برای نمایش ایجاد می کند. استاتیک صفحاتی هستند که از قبل وجود دارند مانند صفحات خانگی سایت‌ها.

رئیس کتابخانه مرکزی و مرکز اسناد دانشگاه علامه طباطبائی ادامه داد: نرم افزار موتور کاوش از طریق یو آر آی (URI) صفحه را پیدا می کند. برای آنکه بتواند این کار را بکنند یکسری feed (غذا، خوراک) در اختیارش می گذارند، یکسری صفحات لینک هست که این ها را fetch می کنند و در آن صفحه هایپر لینک ها را دوباره fetch می کند. صفحاتی که هیچ لینکی ندارند، ربات به آن نمی رسد. بنابراین ربات ها از طریق یو.آر.آی ها به صفحه می رسند.

وی ادامه داد: ربات های موتورهای کاوش محتوای برچسب ها را استخراج می کنند. نام تگ ایندکس می شود اما در جستجوها حذف می شود. رویکرد آنها حذف برچسب است و فقط مقدارها و ارزش ها را در جستجوها می آورند. محتواها را در ایندکس قرار می دهند و آدرس صفحه ای که محتوا در آن است در مقابلش قرار می گیرد، مثلا اگر لیزنا را جستجو کنید هر صفحه ای که لیزنا در آن  باشد برای شما بازیابی می کند.

طاهری گفت: در صفحه ای که نتایج بازیابی می شود بالای صفحه یک واژه all دارد که یعنی هم متن و هم تصویر و همه موارد مرتبط با درخواست را می آورد و شما می توانید جزئی تر کنید و فقط عکس یا ویدیو انتخاب کنید. در تعداد نتایج جستجو می زند about مطمئناً نتایج از آنچه آورده بیشتر است چرا که موتور کاوش سرورهای مختلفی در دنیا دارد و سرچ موتورهای کاوش مبتنی بر منطقه ای است که شما جست و جو می کنید و بر اساس ip شما پاسخ را برای شما می آورد. منطقه جغرافیایی را در نظر می گیرد و درخواست را به نزدیکترین سرورهای خود می فرستد و پاسخ را در زیر یک ثانیه می آورد.

او ادامه داد: یک عملگر داریم به نام cash وقتی کش را سرچ می کنید، نتیجه بازیابی شده آخرین صفحه ای است که ایندکس کرده است. یکسری از سایت ها هستند که دیگر وجود ندارد اما آخرین نسخه ای که در گوگل ایندکس شده باشد کش شده است و همواره موجود است.

طاهری در پایان صحبت های خود در مورد جستجوهای عبارتی گفت: برای جستجوی عبارتی در گوگل باید “” بگذارید تا عین عبارت را برای شما بیاورد. گوگل این قابلیت را دارد که  تا ۵۰ واژه پشت هم  را بازیابی کند. اطلاعات جایگاه واژه در صفحه (position information) مختصات واژه در صفحه را می دهد و وقتی عبارتی را جست و جو می کنید آن را هایلات می کند. یعنی علاوه بر استخراج هر واژه مختصات هر واژه را هم جستجو می کنند و برای همین می توانند عبارت را جستجو کنند. برای هر واژه ای یک برچسب word گذاشتند و خیلی از پردازش ها را می توانند از این طریق انجام دهند.

نظرات (0)

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *