دانلود مقاله جستجو در وب پنهان

مقاله جستجو در وب پنهان

مقاله جستجو در وب پنهان

دانلود مقاله جستجو در وب پنهان

مقاله جستجو در وب پنهان
دسته بندی پژوهش
فرمت فایل doc
حجم فایل 459 کیلو بایت
تعداد صفحات فایل 35

مقاله جستجو در وب پنهان

چکیده

با رشد روز افزون حجم اطلاعات وب در صفحات دینامیک و پایگاه های داده آنها، تلاش های زیادی در رسیدن به راه حلی برای تسهیل بازیابی این اطلاعات توسط کاربران، انجام گرفته است. این نوشتار سعی در معرفی این بخش از منابع وب، اهمیت آن و دسته بندی راه های جستجو در آن دارد.

کلمات کلیدی : وب پنهان، فرم های HTML، موتورهای جستجو، اندیس گذاری

مقدمه

دنیای وب منبع عظیمی از اطلاعات است که روز به ‌روز برحجم آن افزوده می‌شود. در حال حاضر با رشد روز افزون این پدیده، حجم گسترده اى از منابع اطلاعاتى حوزه هاى مختلف مثل کتب، مجلات، پایان نامه ها، طرحهاى پژوهشى و پایگاههاى اطلاعاتى در بسترهاى جدید و با قابلیتهاى متنوعى در مقایسه با منابع چاپى قابل دسترسى هستند. این در حالی است که تولد وب سایت های جدید و توسعه سیستم های دینامیک ارائه محتوا، به حجم و غنای این اطلاعات می افزاید. نرخ رشد اطلاعات تا به آنجا رسیده که امروزه مشکل «دسترسی به اطلاعات» جدی تر از «فقدان اطلاعات» است. امروزه چالش عمده اکثر کاربران، دستیابی به اطلاعات می باشد.

انواع اسناد وب

اسناد[1] وب، مجموعه ای از اطلاعات ذخیره شده در قالب فایل بر روی سرورهای متصل به اینترنت است که از طریق پروتکل HTTP در اختیار کلاینت های متقاضی قرار می گیرد. این اسناد بر اساس این که در چه سطحی از دسترسی برای موتورهای عمومی جستجوی وب قرار می گیرد، به دونوع «اسناد سطح وب» و «اسناد ناپیدای وب» تقسیم می شوند که در ادامه به معرفی آنها می پردازیم. 

اسناد سطح وب

اسناد سطح وب (وب سطحی[2]) به بخشی از اسناد وب اطلاق می شود که توسط موتورهای عادی جستجوی وب قابل اندیس گذاری هستند، از این رو به این بخش از وب «وب قابل اندیس گذاری[3]» یا به اختصار PIW گفته می شود. این اسناد که غالبا محتوای استاتیک (ذخیره شده و ثابت) دارند عموما دارای یک URL حقیقی بوده و از طریق دنبال کردن لینک های موجود در صفحات وب به این URLها قابل دسترسی هستند.


[1] documents [2] Surface Web [3] Publicly Indexable Web

- دشوار در کشف[1]: این دسته از صفحات پنهان دارای URL هستند اما از آنجا که لینکی در صفحات دیگر ندارند، بسادگی قابل دسترسی نمی باشند.

- فاقد هویت ساده[2]: این دسته از صفحات تنها بکمک یک URL نشان داده نمی شوند و اطلاعات بیشتری مورد نیاز است. این مسئله نه تنها برای موتورهای جستجو بلکه برای هر سیستم دیگری که برای شناسایی محتوی یک سند تنها از URL آن اقدام می کنند، نیز وجود دارد.

یک نمونه از این منابع صفحاتی هستند که تنها بعد از پر کردن و فرستادن فرم های HTML با متد HTTP POST قابل دسترسی اند. با متد POST برای منبع URL منحصر به فرد تولید نمی شود و منبع فقط می تواند در برابر تکمیل و فرستادن این فرم نمایش داده شود. لازم به ذکر است با وجود اینکه متد دیگر ارسال داده های فرم که URL منحصر به فرد تولید می کند یعنی HTTP GET، در مواردی مانند فرم های جستجوهای پیشرفته، طول داده هابی که برای شناسایی منبع باید رمزگشایی شود از طول یک URL قابل شناسایی تجاوز می کند و چاره ای جز استفاده از متد POST در آن ها نیست.


[1] Difficult in discovery

[2] Lack of simple identity

وب پنهان چیست؟

«وب پنهان[1]» به بخشی از صفحات دینامیک وب اطلاق می شود که با استفاده از اطلاعات بدست آمده از فرم های HTML مربوط به آن صفحه تولید می شوند. این اسناد حاوی منبع عظیمی از اطلاعات هستند که در پایگاه های داده قابل جستجوی وب سایت ها ذخیره شده اند. وب پنهان در واقع زیر مجموعه ای از وب ناپیدا (مذکور در قسمت قبل) است که دو خصوصیت «دشواری در کشف» و «فقدان هویت ساده» را دارد.

دشواری در کشف این بخش از وب به علت آن است که در حقیقت راه ورود به این صفحات دینامیک، لینک های ساده موجود در صفحات دیگر نیست بلکه از طریق تکمیل و ارسال فرم های HTML توسط کاربران قابل دسترسی اند. به همین خاطر موتورهای جستجوی معمولی که قادر به تکمیل فرم HTML و ارسال آن به سرور مربوطه نیستند نمی توانند به محتویات این صفحات دسترسی داشته باشند.

به لحاظ هویت سند، URLهای ساده را می توان به عنوان آدرس اسناد وب در نظر گرفت که حاوی آدرس سرور، شاخه ای روی آن سرور و نام سند مربوطه اند. صفحات دینامیک مورد بحث یک URL حقیقی نداشته و URL آنها پس از تکمیل فرم تولید می شود، به همین دلیل علاوه بر آدرس صفحه پاسخگو به درخواست فرم، حاوی اطلاعات ارسالی داخل فرم نیز هست که با URLهای ساده تفاوت دارد.


[1] Hidden Web

فهرست مطالب

1 مقدمه. 5

2 شرح.. 7

2.1 انواع اسناد وب... 7

2.1.1 اسناد سطح وب... 7

2.1.2 اسناد ناپیدای وب... 7

2.2  وب پنهان چیست؟. 11

2.3 واسط های وب پنهان. 11

2.4 اهمیت وب پنهان. 12

2.5 رهیافت های جستجوی وب پنهان. 13

2.5.1 ابزارهای سنتی جستجوی وب پنهان. 14

2.5.2 رهیافت های پیشرفته جستجوی وب پنهان. 16

2.6 دسته بندی خودکار وب پنهان. 16

2.6.1 تکنولوژی های کشف واسط های وب پنهان. 17

2.6.2 تکنولوژی های دسته بندی واسط های وب پنهان. 18

2.7 موتورهای جستجوی وب پنهان. 19

2.7.1 تکنولوژی های اندیس گذاری وب پنهان. 20

2.7.2 تکنولوژی های جستجوی بلادرنگ.... 26

3 بحث... 31

4 نتیجه گیری.. 31

5 خلاصه. 33

6 منابع. 35

دانلود مقاله جستجو در وب پنهان