تبليغات
تبلیغات در دانشجو کلوب محک :: موسسه خيريه حمايت از کودکان مبتلا به سرطان ::
جستجوگر انجمن.براي جستجوي مطالب دانشجو کلوپ مي توانيد استفاده کنيد 
برای بروز رسانی تاپیک کلیک کنید
 
امتیاز موضوع:
  • 1 رأی - میانگین امتیازات: 5
  • 1
  • 2
  • 3
  • 4
  • 5

«آناتومي يك موتور جستجو وب فوق متني در مقياس وسيع»

نویسنده پیام
  • ♔ αϻἰг κнаη ♔
    آفلاین
  • مدیرکل  سایت
    *******
  • ارسال‌ها: 16,105
  • تاریخ عضویت: تير ۱۳۹۰
  • اعتبار: 1090
  • تحصیلات:زیر دیپلم
  • علایق:مبارزه
  • محل سکونت:ایران زمین
  • سپاس ها 34951
    سپاس شده 49155 بار در 13535 ارسال
  • امتیاز کاربر: 551,587$
  • حالت من:حالت من
ارسال: #1
«آناتومي يك موتور جستجو وب فوق متني در مقياس وسيع»
«آناتومي يك موتور جستجو وب فوق متني در مقياس وسيع»
خلاصه:
در اين بخش، به گوگل خواهم پرداخت، يك نمونة اصلي از يك موتور جستجوي در مقياس وسيع كه استفاده وسيعي از ساختار اراده شده در فوق متني مي كند. گوگل براي جستجو و يافتن (Crawl) و شاخص بندي وب به طور مؤثر و توليد نتايج هرچه رضايت بخش تر نسبت به سيستم هاي موجود طراحي شده است. اين نمونه اصلي با پايگاه داده اي متشكل متن و فوق پيوند كامل 24 ميليون صفحه در http://google.standard.edi/ موجود مي باشد. مهندسي يك موتور جستجو يك وظيفة چالش آور است. موتورهاي جستجو دهها تا صدها ميليون صفحه وب متشكل از تعداد قابل ملاحظه اي موضوعهاي متفاوت را شاخص بندي مي كنند و پاسخ گوي دهها ميليون پرس و جو به صورت روزانه هستند. بر خلاف اهميت بالاي موتورهاي جستجوي برروي وب تحقيقات آكادميك بسيار اندكي برروي آنها صورت گرفته است (در كشور عزيز ما دقيقاً هيچ مطالعه و تحقيقي صورت نگرفته است). علاوه بر اين به دليل سرعت پيشرفت تكنولوژي وب، امروزه ساخت يك موتور جستجو مسبت به سه سال پيش بسيار متفاوت است. اين بخش به بررسي و توصيف عمقي اين موتور جستجوي وب در مقياس وسيع مي پردازد. جداي از مشكلات تغيير مقياس تكنيكهاي جستجوي قديمي داده با اين وسعت، چالشهاي تكنيكي جديدي در زمينه استفاده از اطلاعات اضافي ارائه شده در فوق متن براي توليد نتايج جستجوي بوجود آمده است. اين بخش به اين كه چگونه مي توان يك سيستم در مقياس وسيع عملي كه بتواند اطلاعات اضافي ارائه شده در فقو متن را استخراج كند را توليد كرد، پاسخ خواهد گفت. همچنين ما به اين مشكل كه چگونه مي توان با مجموعه هاي فوق متن كنترل نشده (هر كسي مي تواند هر چه خواست بنيسد) كنار آمد، نيز دقت خواهيم كرد.
1. معرفي
وب چالشهاي جديدي براي بازيابي اطلاعات ايجاد مي كند. حجم اطلاعات موجود برروي وب به سرعت در حال افزايش است و به همان نسبت تعداد كاربران جديد كه در جستجوي وب بي تجربه هستند افزايش مي يابد. مردمي كه احتمالاً وب را از طريق گراف پيوند آن مرور مي كنند، اغلب كار خود را با شاخصهاي ذخيره شده با كيفيت بالاي انساني مانند ياهو! يا موتورهاي جستجو شروع مي كنند. ليتهاس ذخيره و نگهداري شده توسط انساني موضوعهاي معروف را به طور موثري پوشش مي دهند اما شخصي بودن، گران و پرهزينه بودن براي ساخت و نگهداري، كندي در پيشرفت و ناتواني در پوشش موضوعهاي مبهم و پيچيده از عيبتهاي عمده آنها محسوب مي شود. موتورهاي جستجو بر پاية هم خواني كلمات كليدي معمولاً نتيج را با كيفيت بسيار پايين برمي گرداند. براي بهتر شدن شرايط، بعضي شركتهاي تبليغاتاي تلاش وسيعي براي بدست آوردن نظر مردم از طريق گمراه كردن موتورهاي جستجوي اتوماتيك مي كنند. اقايان سرگي برين و لاورنس پيج موتور جستجوي در مقياس وسيعي ساخته اند كه به تعداد زيادي از مشكلات سيستم هاي موجود پرداخته است. و آن استفاده وسيعي از اين ساختمام ارائه شده در فوق متن مي كند به منظور فراهم كردن نتايج جستجوي با كيفيت بالاتر، اسيم اين سيستم، گوگل، انتخاب شده است. زيرا گوگل تلفظ معمول googol يا 10100 است و بسيار مناسب هدف ما براي ساختن يك موتور جستجوي بسيار در مقياس وسيع است.
1.1 موتورهاي جستجوي وب – گسترش يافتن: 1994-2001
تكنولوژي موتورهاي جستجو بايد به ميزان زيادي تغيير پيدا مي كرد تا بتواند هماهنگي خود را با گسترش وب حفظ كند. در 1994، يكي از اولين موتورهاي جستجوي وب يعمي كرم وب گسترة جهاني (WWWW) شاخصي از000/110 صفحه وب و اسناد در دسترس وب داشت. از نوامبر 1998 موتورهاي جستجوي برتر ادعاي شاخص بندي از 2 ميليون (WebCrawler) تا 100 ميليون (از (Search Engine Watch صفحه وب و سند را داشتند. قابل پيش بيني است كه تا سال 2001 يك شاخص جامع از وب شامل بيش از دو ميليارد سند باشد. در همان زمان تعداد پرس و جوهايي كه موتورهاي جستجو اداره مي كنند به طور شگفت آوري افزايش مي يابد. در ماه مارس و آوريل 1994، كرم وب گستره جهاني (wwww) به طور روزانه حدوداً 1500 پرس و جو را دريافت مي كرد. در ماه نوامبر 1998، آلتاويستا (Altavista) اظهار داشت كه روزانه حدود 20 ميليون پرس و جو را اداره مي كند. با افزايش تعداد كاربران وب و سيستمهاي اتوماتيك كه از موتورهاي جستجو پرس و جو مي كنند به نظر مي رسد كه تا سال 2001 موتورهاي جستجو صدها ميليون پرس و جو را اداره خواهند كرد. هدف سيستم گوگل توجه به بسياري از مشكلات كيفيتي و مقياس پذيري است كه با عرضه تكنولوژي موتورهاي جستجوي اينترنتي به ميزان زيادي گسترش يافته اند.
1.2.1 گوگل: تغيير دادن وب
اين موتور جستجوايي كه در سطح وب امروز باشد چالشهاي بسياري را پديد مي آورد. تكنولوژي جستجو و يافتن سريع براي جمع آوري و به روز رساني سندهاي وب لازمي مي باشد. فضاي ذخيره سازي بهيد به طور كارآمدي براي ذخيره شاخصها و به طور اختياري خود سندها بكار گرفته شود. سيستم شاخص بندي بايد صدها گيگا بايت داده را به طور كارآمد پردازش كند. پرس و جحوها بايد به سرعت اداره شوند (با نرح صدها تا هزاران پرس و جو در ثانيه).
همان گونه كه وب گسترش مي يابد اين وظايف نيز به طور صعودي مشكل مي شوند. اگرچه عملكرد سخت افزار و هزينه ها به طور چشمگيري بهبود يافته اند و تا حدي از اين سختي را تعديل كرده اند. با اين وجود تعدادي استثناي قابل اشاره نيز مانند زمان استوانه يابي ديسك و قابليت ادامه كار در شرايط غيرمنتظره سيستم عامل وجود دارند. در طراحي گوگل هر دو مسئلهع گسترش وب و تغييرات تكنولوژيك در نظر گرفته شده اند. گ.گل براي تغيير مقياس دادن مجموعه داده ها به خوبي طراحي شده است و از فضاي ذخيره سازي به طور مؤثري استفاده مي كند. ساختمان داده هاي آن براي دسترسي سريع بهينه سازي شده اند (به بخش 4.2 نگاه كنيد). علاوه بر اين، هزينه شاخص بندي و ذخيره متن يا HTML نهايتاً بستگي نمسبي به ميزان در دسترسي آنها دارد و اين بر تغيير مقياس منتاسب براي سيستم هاي متمركز شده مانند گوگل تاثيرگذار است.
.3.1 اهداف طراحي
.1.3.1 كيفيت جستجوي بهينه شده
هدف اصلي در طراحي گوگل بهينه كردنم موتورهاي جستجوي وب است. در سال 1994، بعضي از مردم تصور مي كردند يك شاخص جستجوي كامل امكان يافتن هر چيزي را ميسر مي سازد. بر طبق مقالة بهترينهاي وب 1994 – پيمايشگرها و «بهترين سرويس پيمايشي بايد امكان يافتن تقريباً هر چيزي را به آساني فراهم كند (هنگامي كه تمام داده ها وارد شدند)». اگرچه وب 1999 كاملاً متفاوت است. هر كسي كه اخيراً از يك موتور جستجو استفاده كرده باشد به سادگي در مي يابد كه كامل بودن شاخص تنها عامل مؤثر بر كيفيت نتايج جستجو نمي باشد. «نتايج آشغال» اغلب تمام نتايج مورد علاقه كاربر را خراب مي كنند. در حقيقت در نوامبر 1999، تنها يكي از چهار مكوتور تجاري برتر نتايج را خودش مي يابد (در پاسخ در ده نتيجه برتر، صفحه جستجو شده خودش را برمي رگداند). يكي از دلايل اصلي اين مشكل اين است كه تعداد سندهاي موجود در شاخصها به دلايل روشني افزايش پيدا كرده اند اما توانايي كاربر بريا يافتن و نگاه كردن اسناد پيشرفت نكرده است. مردم هنوز خواستار نتيجه اول جستجو هستند. به همين دليل، همان طور كهئ اندازة مجموعه گسترش مي يابد، به ابزارهايي كه دقت بسيار بالايي دارند نياز بيشتري پيدا مي شود (تعداد اسناد مربوط و مناسب برگردانده شده، در بين ده نتيجه برتر مي آيد). در واقع، گوگل مي خواهد مفهوم «مناسب» فقط شامل بهترين اسناد باشد درحاليكه ممكن است، ده ها هزار سند تقيرباً وجود داشته باشد. خوش بيني هاي جديدي در زمينه بهبود عملكرد موتورهاي جستجو و ساير برنامه هاي اجرايي با استفاده بيشتر از اطلاعات فوق متني بوجود آمده است
[Kleinberg 98]. علي الخصوص، ساختمان پيوندها [Page 98] و نوشته پيوندها اطلاعات زيادي براي قضاوت مناسب و فيلترينگ كيفيت فراهم مي كند. گوگل از هر دوي ساختمان پيوند و متن انكر استفاده مي كند.
.2.3.1 تحقيقات موتور جستجوي آكادميك
جداي از گسترش بسيار زياد، وب به طور افزايشي در طول زمان حالت تجاري به خود گرفته است، در سال 1993، %5/1 از سرويس دهندگان وب بر دامنه .com قرار داشتند. اين مقدار در سال 1998 به %60 رسيد. در همان زمان، موتورهاي جستجو از حوزة آكادميك به تجاري كوچ كردند. تا امروز اغلب پيشرفتهاي موتورهاي جستجو در شركتهايي صورت مي گيرد كه حداقل ميزان انتشار جزئيات را دارند. اين باعث مي شود تكنولوژي موتور جستجو تا حد زيادي مثل جادوي سياه مخفي باقي بماند و گرايش تبليغاتي پيدا كند. با گكوگل، سعي شده است تا پيشرفت و فهم بيشتري در قلمرو آكادميك صورت گيرد.
يكي ديگر از اهداف طراحي ساخت سيستمهايي بود كه تعداد قابل قبولي از مردم مي توانند استفاده كنند. قابليت كاربري در طراحي بسيار مهم بوده است زيرا بنظر مي آيد كه اغلب تحقيقات جالب شامل تأثير استفاده گسترده از سيستمهاي مدرن وب در دسترس هستند مي باشد. براي مثال، هر روز دهها ميليون جستجو اجرا مي شوند. اگرچه، بدست آوردن اين داده ها مشكل است، بيشتر به اين دليل كه با توجه به جوانب اقتصادي اين داده ها ارزشمند هستند.
هدف نهايي طراحي گوگل ساخت يك معماري كه قابليت پشتيباني از فعاليتهاي تحقيق نوظهور برردي داده هاي در مقياس وسيع وب را داشته بوده است. براي پشتيباني از استانداردهاي تحقيقاتي نوول، گ.گل تمام اسناد فعلي را كه جستجو مي كند و مي يابد به صورن فشرده ذخيره مي كند. يكي از اهداف اصلي طراحي گوگل بوجود آوردن محيطي بود تا ساير محققات بتوانند به سرعت وارد شده، قسمت بزرگي از وب را پردازش كرئه و نتايج جالب توجهي را توليد كنند كه در غير اين صورت تولدي آنها غير ممكن باشد. در مدت زمان كوتاهي سيستم به جايي رسيد كه تعداد زيادي مقاله و تحقيق با استفاده از پايگاه داده گ.گل ايجاد شده بودند و بسياري ديگر، در دست اقدام هستند. هدف ديگر بوجود آوردن يك محيط لابراتوار مانند بود كه محققان و حتي دانشجويان بتوانند تجربيات جالب و پيشنهادات مفيدي برروي داده هاي وب در مقياس وسيع گوگل داشته باشند.
2. ويژگيهاي سيستم
موتور جستجوي گوگل دو ويژگي مهم دارد كه به توليد نتايج با وضوح و دقت بالا كمك مي كند. اول، گوگل از ساختار پيوند وب براي محاسبه رتبه بندي كيفيت براي هر صفحه وب استفاده مي كند. اين رتبه بندي، رتبه صفحه ناميده مي شود. دوم، گوگل از پيوند براي بهبود نتايج جستجو بهره مي گيرد.
1.2- رتبه صفحه: نظم بخشيدن به وب
گراف فراخواني (پيوند) وب يك منبع بسيار مهم است كه توسط موتورهاي جستجوي وب كنوني بي استفاده مانده است. گوگل نقشه هايي شامل بيش از يك ميليارد از اين فقو پيوندها كه نمونه اي چشمگير از كل هسته را بوجود آورده است. اين نقشه ها اجازه محاسبه سريع «رتبه صفحه» يك صفحه وب را مي دهند، يك معيار عيني كه اهميت اشاره به آن برابر با تصوير ذهني مردم از اهميت است. بخاطر اين تطابق، رتبه يك صفحه راه عالي براي اولويت دادن به نتايج جستجوهاي كلمه كليدي در وب. براي اغلب موضوعهاي معروف يك نوشته ساده متناظر با جستجحو است به اين معني كه محدود به تيترهاي صفحات باشد يعني زماني كه نتايج جتوسط رتبه بندي صفحه اولويت بندي مي شوند به طور قابل تحسيني اجرا مي شوند. براي جستجوهاي كاملاً متني نيز در سيستم اصلي گوگل رتبه بندي صفحه كمك قابل ملاحظه اي مي كند.
1.2.2. توصيف محاسبه رتبه صفحه
منابع نوشته آكادميك در وب عمدتاً از طريق شمارش نوشته ها يا پيوندهاي بازگشتي به يك صفحه خاص به كار گرفته شده اند. اين كار تقريبي از اهميت يا كيفيت صفحه به دست مي دهد. رتبه بندي صفحه اين مفهوم را از طريق نرمال سازي بوسيله تعداد پيوندها در يك صفحه و نه شمارش پيوندها به طور مساوي در تمام صفحات، گسترش مي دهد، رتبه بندي صفحه به صورت زير تعريف مي شود:
در نظر بگيريد كه صفحات TN…T1 به صفحه a اشاره مي كند (يعني منبع هستند). پارامتر d يك گامل محدود ساز است كه مي تواند بين 0 تا 1 تنظيم شود و اغلب d با مقدار 0.85 تنظيم مي شود. توضيحات بيشتر در مورد d در بخش بعيد اارئه مي شود. بنابراين C(A) به عنوان تعداد صفحاتي كه از صفحه A خارج مي شوند، تعريف مي شود. رتبه صفحه A به صورت زير داده مي شود.
RR (A)=)1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))
توجه كنيد كه رتبه هاي صفحه يك توضيح احتمالي برروي صفحات مي دهد، بنابراين مجموع رتبه هاي تمام صفحات وب يك (1) خواهد بود.
رتبه صفحه يا PR(a) مي تواند بوسيلة يك الگوريتم تكرار ساده محاسبه شود و با بردار خاص اصلي از ماتريس پيوند نرمال شده از وب تطابق داده شود. بنابراين، رتبه بندي صفحه 26 ميليون صفحه وب مي تواند در كمتر از چند ساعت برروي يك ايستگاه كاري متوسط محاسبه شود. بسياري جزئيات ديگري هستند كه از محدوده اين مقاله خارج است.
2.1.2. توجيه شهودي
رتبه صفحه مي تواند به عنوان يك مدل از رفتار عملكرد كاربر فرض شود. فرض مي كنيم كه يه «مرورگر تصادفي» وجود دارد چكه يك صفحه به طور تصادفي به او داده مي شود و او برروي پيوندها كليك مي كند و هيچگاه دكمه (BACK) را نمي زند اما سرانجام خسته مي شود و از يك صفحه تصادفي ديگر كار خود را ادامه مي دهد. احتمال اينكه اين مرورگر تصادفي يك صفحه را ملاقات كند رتبه آن صفحه مي باشد و d يعني عامل محدودساز احتمال اين است كه آن «مرورگر تصادفي» از هر نسخهع خسته شود و تقاضاي يك صفحه تصادفي ديگر بكند. تفاوت مهم اين است كه عامل محدودساز d را تنها يك صفحه، يا گروهي از صفحات اضافه كنيم. اين كار امكان شخصي سازي را ايجاد مي كند و تقريباً گمراه كردن عمدي سيستم به منظور بدست آوردن يك رتبه بالاتر را غيرممكن مي سازد. گوگل انشعابات متعدد ديگري براي رتبه بندي صفحه دارد كه از محدوده اين نوشته خارج است.
توجيه شهودي ديگر اين است كه يك صفحه مي توان يك رتبه صفحه بالا داشته باشد اگر صفحات زيادي به آن اشاره كنند يا صفحاتي وجود دارند كه به آن اشاره مي كنند و خود رتبه صفحه بالايي دارند. به ضوح، صفحاتي كه به خوبي از جاهاي محتلفي از وب تكرار مي شوند ارزش نگاه كردن دارند. همچنين، صفحاتي كه ممكن است يك احضار از طرف جايي مانند صفحه خانگي ياهو! داشته باشند عموماً ارزش نگاه كردن دارند. اگر يك صفحه كيفيت بالايي نداشته باشد يا يك پيوند شكسته شده باشد به احتمال زياد صفحه خانگي ياهو! به آن پيوند نمي شود. ضمناً رتبه بندي صفحه هر دوي اين حالات و حالات ديگر را با وزن دهي تبليغي به طور بازگشتي از طريق ساختار پيوند وب انجام مي دهد.
.2.2 متن انكر (Anchor)
در موتور جستجوي گوگل با نوشتة پوندها به شيوه هاي خاصي برخورد مي شود. اغلب موتورهاي جستجو نوشته يك پويند را به صفحه اي كه پيوند در آن است مربوط مي سازند. گ.گل علاوه بر اين نوشته پيوند را به صفحه اي كه به آن اشاره مي كند نميز مربوط مي سازد. اين كار منافع زيادي دارد. اول، انكرها اغلب توصيف دقيق تري از صفحات وب نسبت به خود صفحات ارائه مي دهند. دوم، انكرها ممكن است براي سندهايي كه نمي توانند توسط موتورهاي جستجوي بر پايه متن شاخص بندي شوند وجود داشته باشندذ. مانند عكسها، برنامه ها، و پايگاه ها داده. اين كار در حقيقت امكان بازگرداندن صفحاتي را كه عمل جستجو و دانلود (Crawl) برروي آنها صورت نگرفته است را مي دهد. توجه كنيد كه صفحاتي كه عمل جستجو و دانلود برروي آنها صورت نگرفته است مي توانند ايجاد مشكل كنند از آنجا كه آنها هيچ گاه براي صحت و اعتبار منطقي قبل از برگردانده شدن به كاربر چك نمي شود. در اين حالت موتور جستجو حتي مي تواند صفحه اي را كه اصلاً وجود ندارد اما فوق پيوندها به آن اشاره مي كنند بازگرداند. اگرچه امكان دسته بندي نتايج وجوود دارد درنتيجه اين مشكل خاص به ندرت اتفاق مي افند.
ايده متن انكر تبليغاتي به صفحه اي كه به آن باز مي گرئئ توسط كرم وب گسترده جهاني (WWWW) تحقق پيدا كرد. زيرا اين متن به جستجوي اطلاعات غيرمتني و گسترش دامنه جستجو با سندهاي دانلودي كمتر كمك مي كند. گوگل به اين دليل از انكر تبليغاتي استفاده مي كند كه متن انكر مي تواند در فراهم كردن كيفيت بهتر نتايج كمك كند. استفاده مفيد از متن انكه به دليل حجم بالاي كه بايد پردازش شود از نظر تكنيكي مشكل است. در مجموعه جستوجو و يافته شده حال حاضر گوگل كه شامل 240 ميليون صفحه است بيش از دو و نيم ميليارد انكر شاخص بندي شده وجود دارد.
.3.2 ويژگيهاي ديگر
جدار از رتبه صفحه (PageRank) و استفاده از متن انكر، گكوگل ويژگيهاي متعدد ديگري دارد. اول، اطلاعات مكاني تمام بهترينها (Hits) را دارد و بنابراين استفاده وسيعي از اطلاعات مجاورتي در جستجو مي كند. دوم، گوگل جزئيات بعضي بخشهاي ديداري مانند اندازه فونتهاي كلمات را نگهداري مي كند. به كلماتي كه بزرگتر نوشته شده اند يا پررنگتر هستند وزن بالاتري داده مي شود. سوم، HTML كل و خام هر ضفحه در انباره موجود مي باشد.
3. كارهاي مربوطه
تحقيقات جستجو برروي وب تاريخچه كوتاه و موجزي دارد. كرم وب جهاني (wwww) يكي از اولين موتورهاي جستجو وب بوده است. اين حركت متعاقباً توسط موتورهاي جستجوي آكادميك متعددي دنبال شد كه بسياري از آنها هم اكنون تبديل به شركتهاي تجاري شده اند. در مقايسه با گسترش وب و اهميت موتورهاي جستجو سمدهاي اندكي در مورد موتورهاي جستجو اخير وجود دارد. به عقيده مايكل ماولدين (سرمحقق شركت Lycos)، سرويسهاي مختلف (شامل Lycos) يه سختي از جزئيات پايگاه داده هايشان محافظ مي كنند. اگرچه كار قابل توجهي برروي ويژگيهاي خاصي از موتورهاي جستجو صورت گرفته است. به خصوص كار و تحقيقي كه بيشتر نمودار است و بارز است كاري است كه برروي عمليات بعد از پردازش براي بدست آوردن نتايج در موتورهاي جستجوي تجاري فعلي صورت گرفته است و در ايجاد موتورهاي جستجوي در مقياس كوچك «شخص شده» كاربرد دار. در نهايت تحقيقات زيايد چبرروي سيستمهاي بازيافت اطلاعات صورت گرفته است به خصوص بر مجموعه هايي كه نظارت درستي بر آنها اعمال مي شود.
.1.3 بازيافت اطلاعات
كار برروي سيستم هاي بازيافت اطلاعات به سالها قبل باز مي گردد و پيشرفت قابل توجهي كردهخ است. اگرچه، اغلب تحقيقات برروي سيستم هاي بازيافت بروي مجموعه هاي كوچك و همگن به خوبي كنترل شده صورت گرفته است مانند مجموعه هاي مقالات علمي يا داستانهاي اخباري برروي موضوع قابت و به همين صورت. آزمايش كارايي (benchmark) اوليه بازيافت اطلاعات، كنفرانس بازيافت متن، از يك مجموعه واقعاً كوچك و كاملاً كنترل شده براي سنجش مارائيهايش استفاده مي كرده است. مثيزان كارايي كوپوس بسيار بزرگ [TREC96} تنها 20 گيگابايت است كيسه با 147 گيگابايت جستجو و يافته شده از 240 ميليون صفحه وب گوگل بسيار محدود است. مواردي كه برروي TREC به خوبي كار مي كنند اغلب برروي وب نتايج مناسبي ايجاد نمي كنند. براي مثال بردار استاندارد مدلب فضا سعي در بازگرداندن مشابه ترين سندها به پرس و جو را دارد* با در نظر گرفتن اينكه هر دوي پرس و جو و سند بردارهايي تعريف شده بر اساس كاربرد كلمه هستند. اما اين استراتژي برروي اغلب سندها ببسيار كوتاه را بر مي گرداند كه در خقيقتا خودپرس و جو به اضافه چند كلمه محدذود هستند. في المثل ما شاهد بوديم كه يك موتور جستجوي مهم صفحه اي را شامل چند جملة «جورج بوش كندزد» و تصويري از پرس و جوي «جورج بوش» «جرج بوش» برگردانده است.بعضي ها استدلال مي كنند كه كاربران برروي وب بايد چيزي را كه مي خواهند دقيق تر مشخص كنند و در حقيقت كلمات بيشتري به پرس و جوهايي كه ايجاد مي كنند ، اضافه كنند. گوگلي به شدت به شدت با اين نظر مخالف است. اگر كاربري پرس و جويي ماندد «جورجو بوش» را صادر كند ، آنها بايد تا زماني كه حجم بالايي از طالاعات در دسترس با كيفيت بالا برروي اين موضوع وجود دارد ، نتايج معقولي برگردانند. با توجه به مثالهايي اينچنين، ما باور داريم كه استاندارد بازيافت اطلاعات براي تقابل بهتر با وب نياز به گسترش فراواني دارد.
.2.3.2.3 تفاوتهاي وب با مجموعه هاي كنترل شده
وب مجموعه اي از سندهاي كاملاً نامتجانس و كنترل نشده است. اسناد موجود برروي وب از نظر شكل داخلي و همچنين فرااطلاعات خارجي موجود تفاوتهاي فراواني دارند. براي مثال، استاندارد از نظر داخلي تفاوتهايي مانند زبان ايجاد (هر دو حالت انساني و برنامه نويسي)، اصطلاحات واژگان (آدرسهاي ايمكيل، پيوندها، كدهاي آدرس، شماره هاي تلفن، شماره هاي توليدات)، نوع يا فرمت (متن، Html، PDF، تصوير، صدا) دارند و حتي ممكن است توليدات ماشيني باشند (فايلهاي گزارشي يا خروجي يك پايگاه داده). از طرف ديگر، فرا اطلاعات خارجي به عنوان اطلاعات نتيجه گرفته شده از يك سند تعريف مي شوند، اما شامل اطلاعات دروني آن نيستند. مثالهاي فرا اطلاعات خارجي شامل مواتردي مانند اعتبار و شهرت منبع، تناوب به روز رساني، كيفيت، تعداد دفعات اجرا و منابع استناد است. نه تنها منابع ممكن فرا اطلاعات خارجي تنفاوت دارند بلكه مواردي كه شامل تفاوت مي شوند بسيار گوناگون هستند. براي مثال، اطلاعات استعمال يك صفحه خانگي مهم مانند صفحه خانگي ياهو را كه ميليونها بازديد را در حال حاضر دريافت مي كند با اطلاعات استعمال يك مقاله گمنام تاريخي كه ممكن است هر ده سال يكبار بازديد شود مقايسه كنيد. مسلماً اين دو مورد بايد به نوع متفاوتي در موتورهايد جستجو برخورد شوند.
تفاوت بزرگ ديگر بين وب و مجموعه هاي به خبي كنترل شده قديمي اين است كه به طور منطقي كنترلي بر اين كه مردن چه چيزي برروي وب قرار مي هند وجود ندارد. انعطاف پذيري توليد تمام متنهاي دلخواه را با نفوذ شديد موتورهاي جستجو تركيب كنيد تا قدرت هدايت ترافيك به مسيري خاص توسط شركتهايي كه براي سود بيشتر نتايج موتورهيا جستجو را دستكاري مي كنند، بدست آيد. كه تبديل به مشكل بزرگي شده است. اين مشكل در سيستمهاي بازيافت اطلاعات قديمي مورد توجه قرار نگرفته بود. همچنين جالب است اشاره شود كه حاصل كار فرا داده براي موتورهاي جستجو به طور عمده غير قابل استفاده و شكست خورده است. دليل اين امر سوء استفاده از هر نوع متن در صفحات وب است كه به طور غير مستقيم به كاربر ارائه شده باشد به منظور دستكاري در موتورهاي جستجو حتي شركتهاي متعددي وجود دارمد كه در زمينه دستكاري در موتورهاي جستجو براي سود بيشتر تخصص دارند.
4. آناتومي سيستم
در ابتدا يك مباحثه سطح بالا از معماري سيتم اارئه مي شود. سپس توصيفي عمقي از ساختمان داده هاتي مهم سيستم خواهيم داشت. در نهايت، بخشهاي كاربلردي مهم مانند: جستجو دانلود (Vrawling) ، شاخص بندي به طور عمقي توضيح داده مي شوند.
.1.4 نگاهي كلي به معماري گوگل
در اين بخش، يك نكاه اجمالي سطح بالا به عملكرد سيستم همان طور كه در شكل 1 نشان داده شده است خواهيم داشت. بخشهاي بعدي برنامه هاي كاربردي و ساختمان داده هيا اشاره نشده در اين بخش را توصيف مي كنند. اغلب تستهاي گوگل با C و C++ برنامه ريزي شده است به دليل بازدهي بهتر و امكان اجرا برروي هر دو سيستم لينوكس و سولاريس.
در گوگل، عمل Crawling (دانلود كردن صفحات وب) وب توسط برنامه هاي جستجو كننده و يابنده (Crawler) متعدد دستبندي شده صورت مي گيرد. يك سرويس دهنده URL (URL server) وجود دارد كه ليستهاي URL ها را جهت واكنشي به Crawler مي فرستد. صفحه هاي وب كه واكنشي شدند به سرويس دهنده انباره فرستاده مي شوند. سپس صفحه هاي وب توسط سرويس دهنده انباره فرشده مي شود و درون مخزن قرار مي گيرند. هر صفحه وب يك شماره شناسه مربوطه دارد كه docID ناميده يم شود و زماني به آن اختصاص داده مي شود كه URL جديد از يك صفحه وب تجزيه و استخراج مي شود. تابع شاخص بند و دسته بند اجرا مي شود. شاخص بند تعدادي تابع را اجرا مي كند، مخزن را مي خواند، اسناد را از حالت فشرده خارج، و تجزيه مي كند. هر سند به مجموعه اي از رويدارهاي كلمه تبديل مي شود كه هر كدام از آنها «بهترينها» نام دارد. بهترينها خود كلمه، مكان در سند، تقريبي از اندازه فونت و حالت بزرگ نويسي را ذخيره مي كند. شاخص بند تمام بهترينها را درون مجموعه اي از «مخزنه» توزيع مي كند و يك شاخص پيشرفته و مرتب شده را ايجاد مي كند. شاخص بند يك كار مهم ديگر را نيز انجام مي دهد، تمام پيوندهاي موجود در هر صفحه وب را تجزيه و استخراج مي كند و اطلاعات مهم مربوط به آنها را درون يك فايل انكر ذخيره مي سازد. اين فايل حاوي اطلاعات كاغي براي تشخيص مكاني كه هر پيوند به آن اشاره مي كند و يا از آن اشاره مي شود، و همچنين نوشته پويند مي باشد.
تجزيه گر URL فايل انرك را مي خواند و URL هاي مربوط را به URL هاي قطعي و كامل تبديل مي كند و در نهايت docID ها را مي سازد. نوشته انكر را درون شاخص پيشرو قرار مي دهد كه وابسته docID اي است كه انكر به ان اشاره مي كند. همجنين پايگاه داده اي از پيوندها كه در حقيقت جفتهايي از docID هستند را توليد مي كند. پايگاه داده پيوندها براي محاسبه رتبه صفحه تمام اسناد بكار مي رود.
دسته بندي مخازم را كه بر اساس docID مرتب شده اند مي گيرد (اين يك كثال ساده است، به بخش 5.4..2 مراجعه كنيد) و آنها را بر اساس كلمه (wordID) دوباره مرتب سازي مي كند و با اين كار شاخص معكوس را توليد مي كند. اين كار به صورت درجا صورت مي گيرد درنتيجه به فضاي موقت اندكي براي انجام اين عمليات نياز داريم. دسته بند همچنين يك ليست از شناسه هاي كلمه و آفستها ايجاد مي كند و از آنها براي توليد شاخص معكوس كمك مي گيرد. يك برنامه به نام «روبرداشت واژگان» اين ليست را با واژه نامه توليد شده توسط شاخص بند با هم مي گيرد تا يك واژه نامه جديد كه توسط جستجوگر مورد استفاده قرار مي گيرد را توليد كند. جستجوگر توسط يك سرويس دهنده وب اجرا مي شود و از واژه نامه توليد شده توسط روبرداشت واژگان و از شاخص معكوس و رتبه صفحه با هم براي پلسخگويي به پرس و جو ها استفاده مي كند.
.2.4 ساختمان داده هاي مهم
ساختمان داده هاي گوگل بهينه شده هستند بنابراين يك مجموعه سند بزرگ مي تواند با هزينه اي كم دنبال گشته و دانلود شود، شاخص بندي شود و در نهايت مورد جستجو قرار گيرد. اگرچه، cpu ها و ميزان سرعت ورودي و خروجي انبوه به طور چشمگيري در سالهاي اخير بهبود يافته اند، زمان استوانه جويي در ديسك هنوز به حدود MS10 زمان براي كامل شدن احتياج دارد. گويي به گونه ذي طراحي شده است كه تا جاي ممكن از استوانه جويي در ديسك اجتناب كند و اين كار تاثير قابل ملاحظه اي برروي طراحي ساختمانهاي داده داشته است.
.1.2.4. فايلهاي بزرگ
فايلهاي بزرگ (Big Files) فايلهاي مجازي هستند كه در طول سيستمهاي فايل چند گانه گسترش داده شده اند و قابل آدرس دهي به صورت 64 بيتي هستند. تخصيص حافظه بين سيستمهاي فايل چندگانه به صورت اتوماتيك اداره مي شود. بسته فايلهاي بزرگك همچنيني تخصيص و بازپس گيري حافظه از توصيفگر فايل را بر عهده دارد و اين كار از آنجا صورت مي گيرد كه سيتمهاي عامل نيازهاي سيستم گوگل را برطرف نمي كنند. فايلهاي بزرگ همچنين گزينه هاي مقدماتي فشرده سازي را پشتيباني مي كنند.
.2.2.4 مخزن
مخزن، HTML كامل هر صفحه وب را شامل مي شود. هر صفحه با استفاده از (RFC 1950) zlib فشرده مي شود . انتخاب تكنيك مورد استفاده گوگل در فشرده سازي توازني است بين سرعت و درجه فشرده سازي. گوگل سرعت zlib را به همراه بهبود چشمگير در فشرده سازي كه توسط bzip ارائه مي شود، انتخاب كرده است. درجه فشرده سازي bzip را به همراه بهبود چشمگير در فشرده سازي كه توسط bzip ارائه مي وشد، انتخاب كرده است. درجه فشرده سازي bzip به وطر تقريبي 4 به 1 مي باشد. كه در مقايسه با فشرده سازي 3 به 1 zlib برروي مخزن بهينه مي باشد. در مخزن سندها به صورت پي در پي ذخيره مي شوند و بر اساس docID، طول و URL عنوان بندي مي شوند (شكل 2). مخزن به هيچ نوع ساختملن دادة ديگري كه به منظور دستيابي به آن مورد استفاده قرار گيرد، نياز ندارد. اين حالت به سازگاري اين ساختمان داده كمك مي كند و گسترش آن را نيز ساده مي سازد. بنابراين گوگل مي تواند تمامي ساختمان داده هاي ديگر را تنها از مخزن و يك فايل كه شامل خطاهاي Crawler است بازسازي كند.
.3.2.4 شاخص سند
شاخص سند اطلاعات مربوط به هر سند را نگهداري مي كند. اين شاخص ISAM است كه گستردگي اصلاح شده دارد و بر اساس docID مرتب شده است. اطلاعات ذخيره شده در هر مدخل شامل وضعيت شند، يك اشاره گر به مخزن، يكگ جمع مقابله اي از سند و آمارهاي مختلف است. سند جستجو دانلود شده شامل يك اشلره گر به يك فايل گسترده متغير كه docinfo (اطلاعات سند) ناميده مي شود و خود URL آن سند و تيتر آن را در بر دارد مي باشد. در غير اين صورت آن اشاره گر به يك ليست URL كه تنها شامل URL مورد نظر مي باشد اشاره مي كند. اين نوع طراحي به جهت فراهم آوردن يك ساختمان داده فشرده معقول و همچنين ايجاد قابليت واكنشي يك ركورد در يك استوانه جويي ديسك براي هر جستجو اتخاذ شده است.
به علاوه فايلي وجود دارد كه براي تبديل URL ها به docID مورد استفاده قرار مي گيرد. و شامل ليستي از جمعهاي مقابله اي URL مي باشد به همراه docID هاي معادل آنها و بر اساس جمع مقابله اي مرتب شده است. به منظور يافتن docID يك URL خاص، جمع مقابله اي آن URL محاسبه مي شود و يك جستجوي دودويي برروي فايل جمعهاي مقابله اي صورت مي گيرد تا docID آن پيدا مي شود.
URLها ممكن است با انجام يك الگوريتم ادغام با فايل جچمع مقابله به صورت گروهي به docID ها تبديل شوند. اين تكنيكي است كه تجزيه گر URL براي تبديل URL ها به docID ها مورد استفاده قرار مي دهد. اين حالت به روزرساني گروهي بسيار مهم است زيرا در غير اين صورت بايد براي هر پيوند يك استوانه جويي انجام شود كه در اين صورت چمع آوري يك مجموعه داده 300 ميليوني برروي يك ديسك بيشتر از يك ماه طول خواهد كشيد.
4.2.4 واژه نامه
واژه نامه اشكال گوناگوني دارد. مهم ترين تغيير نسبت به سيستم هاي اوليه اين است كه با صرف هزينه اي معقول مي توان واژه نامه را در حافظه جا دادا. در شيوه اجرايي جاري مي توان واژه نامه را برروي حافظه اصلي 256 مگابايتي يك سيتم نگهداري كرد. .واژه نامه فعلي شامل 14 ميليون كلمه مي باشد (البته بعضي كلمات نادر به واژه نامه اضافه نشده اند). واژه نامه در دو بخش عملي مي شود – ليستي از كلمات (ظاهراً بهم پيوسته اند اما بوسيله كاراكترهاي null از هم جدا شده اند) و يك جدول هش از اشاره گرها، براي كارهاي مختلف، ليست كلمات اطلاعات كمكي ديگري نيز دارد كه توضيح آنها خارج از محدوده اين مقاله است.


.5.2.4 ليستهاي بهترينها
يك ليست بهترينها معادل ليستي است از رويدادهاي يك كلمة خاص در يك سند خاص به همراه اطلاعات موقعيت، فونت و بزرگ نويسي. اكثر فضاي اشغال شده توسط هر دوي شاخصهاي پيشرو و معكوس مربوط به ليستهاي بهترينها مي باشد. به همين دليل لازم است آنها را تا حد ممكن مؤثر و كار را ارائه كنيم. گوگل انتخابها و جانشينهاي متعددي براي كد كردن موقعيت، فونت و بزرگ نويسي در نظر گرفته است - - كد بندي ساده (اعداد سه تايي)، كدبندي فشرده (تخصيص بهينه شده بيتها به صورت دستي) و كدبندي هاف من. در نهايت گوگل از يك نوه كدبندي فشرده بهينه دستي استفاده مي كند به اين دليل كه به فضاي كمتري نسبت به كدبندي ساده و دساكاري بيتي بسيار كمتري نسبت به كدبندي هافمن احتياج دارد. جزئيات بهترينها در شكل 3 نشان داده شده است.
كدبندي فشرده گوگل از دو بايت براي هر يك از بهترينها استفاده مي كند. دو نوع بهترين وجود دارد: بهترينهاي شگفت و بهترينهاي آشكار. بهترينهاي شگفت شامل بهترينهايي است كه در يك URL، تيتر، نوشته انكر يا فوق تك ظاهر مي شوند. بهترينهاي آشكار شامل بقيه موارد مي شود. يك بهترين آشكار شامل يك بيت بزرگ نويسي، اندازه فونت و 12 بيت براي موقعيت كلمه در يك سند (تمام موقعيتهاي بالاي 4096 با 4096 نشان داده مي شوند) مي شود. اندازه فونت كه در مقايسه با بقيه سند مربوطه نشان داده مي شود با استفاده از 3 بيت صورت مي گيرد (تنها تا عدد 7 را مي توان براي اندازه فونت استافده كرد زيرا 111 نشانه نمايي است كهع وجود يك بهترين شگفت را نشان مي دهد). يك بهترين شگفت شامل بيت بزرگ نويسي، اندازه فونت تنظيم شده در عدد 7 كه نشان دهنده يك بهترين شگفت است، 4 بيت براي كدبندي نوع بهترين شگفت و 8 بيت براي موقعيت. براي بهترينهاي انكر، 8 بيت مخصوص موقعيت به 4 بيت براي موقعيت در انكر و 4 بيت براي يك هش از docID مه انكر در آن واقع شده است، تقسيم مي شود. اين كار قابليت جستجوي محدود برروي عبارات را تا زماني كه تعداد بسيار زيايد انكر براي يك كلمة خاص وجود نداشته باشد به ما مي دهد. گوگل همواره شيوه ذخيره سازي بهترينهاي انكر را به منظور دستيابي به وضح و دقت بيشتر در زمينه هاي موقعيت و هش docID به روز رساني مي كند. گوگل اندازه فونت را در مقايسه با بقيه سند مورد استفاده قرار مي دهد زيرا در هنگام جستجو كسي انتظار ندارد كه سندهاي همانند و يكسان به صورت متفاوت رتبه بندي شوند تنها به اين دليل كه اندازه فوت يكي از آنها بزرگتر است.
طول يك ليست بهترينها قبل از خود بهترينها ذخيره مي شود. براي صرفه جويي در فضا، طول ليست بهترينها را به 8 و 5 بيت محدود مي سازد (حقه هايي وجود دارد كه اجازه مي دهد 8 بيت از شناسه كلمه قرض گرفته شود). اگر طول ليست بيشتر از آن چيزي باشد كه بتواند در اين تعداد بيت جاي گيرد از يك كد فرار در آن بيتها استفاده ميشود و دو بايت بعدي شامل طول واقعي ليست خواهند بود.
.6.2.4 شاخصهاي پيشرو
شاخص پيشرو در واقع از قبل ساخته شده است. اين شاخص در تعدادي مخزن ذخيره شده است (گوگل از 64 مخزن استفاده مي كند). هر مخزن يك رنج از شناسه هيا كلمات را نگهداري مي كند اگر يك سند شامل كلماتي باشد كه در مخزن خاصي ريخته شده باشند، شناسه آن سند در آن مخزن ذخيره مي شود. اين طرح و شما به اندكي فضاي ذخيره سازي بيشتر احتياج دارد كه به دليل شناسه هاي سند تكراري رخ مي دهد. اما اين تفاوت براي تعداد معقولي از مخازن بسيار اندك است و باعث صرفه جويي در زمان قابل ملاحظه اي مي شود و از پيچيدگي كد بندي در فاز آخر شاخص بندي كه توسط برنامه مرتب ساز صورت مي گيرد مي كاهد. علاوه بر اين، به جاي ذخيره محض شناسه هاي كلنات شند، گوگل هر شناسه كه به عنوان يك تفاوت مناسب از كمترين شناسه كه در آن مخزن شناسه كلمه مورد نظر در آن قرار دارد، ذخيرهع مي كند. با اين روش، سيستم گوگل تنها از 24 بايت براي شناسه هاي كلمات در مخازن مرتب نشده استفاده مي كند و 8 بيت ديگر را براي ذخيره طول ليست بهترينها باقي مي گذارد.
.7.2.4 شاخص معكوس
شاخص معكوس همان مخازن شاخص پيشرو است، تفاوت آنها در اين است كه مخازن توسط ترتيب بند مرتب شده اند. براي هر شناسه كه معتبر، واژه نامه اشاره گري دارد كه به مخزني كه شناسه كلمه در آن قرار دارد اشاره مي كند. و درون مخزن به يك ليست سند كه متشكل شده اند از docID (شناسه سند) و ليست بهترينهاي معادل آن است، اشاره مي كند. اين ليست سند تمام موارد موجود بودن و در حقيقت رويدادهاي كلمه را در تمام سندها ارائه مي دهد.
مسئله مهم چگونگي قرارگيري و ظاهر شدن docID ها در ليست سند است. يك راه حل ساده ذخيره كردن سند به صورت مرتب شده بر اساس docID است. اين كار اجازه ادغام سريع ليستهاي مختلف سند را با هم براي پرس و جوهاي چند كلمه اي مي دهد. حالت ديگر ذخيره كردن ليست سندها به صورت مكرتب شده بر اساس رتبه اي از رويدادهاي هر سند است.
اين كار پرس و جوهاي تك كلمه اي را بي مايه و پيش پا افتاده مي كند و پاسخ گويي به پرس و جوهاي چند كلمه اي را تا حد كمال بالا مي برد. اگرچه ادغام كردن در اين حالت بسيار مشكل تر است. بنابراين، اين كار گسترش و پيشرفت مجموعه را بسيار مشكل مي سازد، زيرا هر تغيير در عمليات رتيه بندي احتياج به ساخت دوباره شاخص دارد. گوگل حد وسطي از اين دو حالت را انتخاب كرده است به اين صورت كه دو مجموعه از مخازن معكوس را نگهداري مي كند - - يك مجموعه براي ليستهاي بهترينها كه شامل تيتر يا بهترينهاي انكر است و مجموعه ديگر براي تمام ليستهاي بهترينها. به اين صورت، گوگل ابتدا اولين مجموعه مخازن را چك مي كند و اگر جفتها معادلهايي كافي در آن وجود نداشت آنگاه به سراغ مجموعة بزرگتر مي رود.
.3.4 جستجو و دانلود كردن وب
راه اندازي يك Crawler وب وظيفه اي چالش آور است. در اين زمينه مسائل قابليت اعتماد و اعتبار و عملكرد گول زنك سايتها و صفحات وب و حتي مهم تر از آن مسائل قانوين و اجتماعي مؤثر هستند عمل Crowling ظريف ترين كار سيستم است از آنجائيكه بايد صدها هزار سويس دهنده وب و سرويس دنده هاي نام مختلف تقابل داشته باشد كه تمام آنها خارج از كنترل سيستم هستند.
به منظور مقياس بندي صدها ميليون صفحه وب، گوگل سيستم Crawling سريع و توزيع شده اي دارد. يك سروي دهنده URL ليستي شمال URLها را در اختيار تعدادي از Crawler ها قرار مي دهد (گوگل معمولاً حدود 3 تا راه اندازي مي كند). هر دوي سرويس دهنده URL و Crawler توسط زبان Python عملي مي شوندو هر Crawler به تخمين حدود 300 ارتباط باز را يك جا نگهداري مي كند. بازيابي صفحات وب لازم است كه با سرعت بالايي صورت گيرد. در اوج سرعت، سيستم گوگل مي تواند بيش از 100 صفحه وب را در ثانيه با استفاده از چهار Craqler، جستجو و دانلود كند. اين حجم به طور تقريبي 600 كيلوبايت داده در ثانيه مي باشد. يكي از تأكيدهاي عملياتي مهم يافتن DNS است. هر Crawler حافظه نهان DNS خودش را نگهداري مي كند. بنابراين قبل از جستجو و دانلود هر سند احتياجي به يافتن DNS ندارد. هر كدام از صدها ارتباط يافته شده مي تواند در وضعيتهاي مختلف باشد. مانند DNS، ارتباط به ميزبان، فرستادن درخواست و دريافت پاسخ. اين عوامل Crawler را تبديل به يك جزء پيچيدهد از سيستم يم سازد. Cvrawler از IO ناهمگام براي كنترل رويدادها و از تعدادي صف براي جابجايي واكنشهاي صفحات در حالتي به حالت ديگر استفاده مي كند.
به نظر مي رسد راه اندازي يك Crawler كه به بيش از نيم ميليون سرويس دهنده متصل است و دهها ميليون مدخل گزارشي تو.ليد مي كند خود باعث توليد تعداد قابل ملاحظه اي نامه الكترونيكي و تماس تلفني مي شود. به خاطر خيل عظيم مردمي كه همه روزه بر خط مي شوند، هميشه آنهايي هستند كه نمي دانند Crawler چيست زيرا براي اولين بار است كه آن را مي بينند. تقرذيباً همه روزه نامه الكترونيكي دريافت مي كنيم كه شامل جملاتي مانند «بسيار عالي، شما صفحات زيادي از سايت مرا نگاه كرديد. به نظرتان چطور بود؟» مي باشد. همچنين مردمي هستند كه چيزي در مورد پروتكل ربات مانع نمي دانند و فكر مي كنند صفحه آنها بايد با جمله اي مانند، «اين صفحه كپي رايت شده است و نبايد شاخص بندي شود.» در مقابل شاخص بندي شدن محافظت شودو كه البته لازم به گفتن نيست كه درك آن براي Crawler مشكل است. همچنين به خاطر حجم بالاي اطلاعات درگير در اين كار حوادث غيرمنتظره اي رخ مي دهند. براي مثال، سيستم گوگل با يك بار تلاش مي كند تا يك بازي بر خط را جستجو دانلود كند. اين كار پيغامي آشغال زيادي را در حين بازي ايجاد كرد! به نظر مي رسد كه اين مشكل به سادگي حل شود. اما اين مشكل تا زماني كه دهها ميليون صفحه دانلود نشده بود خود را نشان نداد. بهع خاطر نوسانات و تغيريات وسيع در صفحات وب و سرويس دهنده ها، تست كردن يك Crawler بدون راه اندازي آن در قسمت بزرگي از اينترنت، به صورت مجازي غيرممكن مي باشد. همواره صدها مشكل پيچيده و گنگ وجود دارد كه ممكن است تنها برروي يك صفحه از تمام وب رخ دهند و موجب از كار افتادن Crawler يا بدتر از آن موجب وقوع رفتار و عكس العمل غيرمنتظره با غلط شوند. سيستمهايي كه به قسمتهيا بزرگي از اينترنت دسترسي دارند لازم است به گونه اي طراحي شوند كه قابليت ادامه كار در شرايط غيرمنتظره را داشته باشند و همچنين به خوبي تست شوند. تا زماني كه سيستمهاي پيچيدع بزرگ مانند Crawler پويشته مشكل ايجاد مي كنند، لازم است منابع قابل ملاحظه اي به بررسي نامه هاي الكترونيكي و حل اين گونه مشكلها اختصاص داده شود.
.4.4 شاخص بندي وب
تجزيه كردن - - تمام تجزيه گرهايي كه براي اجرا برروي تمام وب طراحي شده اند بايد يك آرايه عظيم از خطاهاي ممكن را اداره كنند. رنج اين خطاها ار خطاي تايپي در تكهاي HTML تا مجموعه كيلوبايتهاي صفر در وسط يك تك تا كاراكترهاي غير اسكي تا تگهاي HTML كه صدها بار تودرتو هستند و مجموعه عظيمي از خطاهاي ديگر كه ذهن هر كسي را به چالش مي كشد و همسان با آن خطاهاي نادر را كه در موارد خاص ايجاد مي شوند را شامل مي شود. براي بدست آوردن بيشترين سرعت گوگل از يك تحليل گر واژگاني كه با پشته خودش مجهز شده است استفاده مي كند. گسترش و پيشرفت اين تحليل گر كه با سرعتي محقول كار مي كند و قابليت ادامه كار در شرايط غير منتظره را دارد كار بسيار زيايد برده است.
شاخص زني سندها به مخازن – بعد از تجزيه هر سند، آن سند به صورت تعدادي مخزن كدبندي مي شود. هر كلمه به يك شناسه كلمه با استفاده از يك جدول هش درون حافظه يا – واژه نامه—تبديل مي شود. كلمات جديد اضافخ شده به جدول هش واژه نامه درون يك فايل گزارش داده مي شوند. هنگامي كه كلمات به شناسه تبديل شدند، رويدادهاي آنها در سند حاضر به صورت ليستهاي بهترينها ترجمه مي شود و درون مخازن تبديل پيشرو نوشته مي شوند. مشكل اصلي در موازي سازي فاز شاخص بندي اين است كه واژه بايد به صورت اشتراكي درآيد. به جاي اشتراكي كردن واژه نامه، گوگل به روشي دست يافته است كه در آن گزارش از تمام كلمات اضافي كه در واژه نامه پايه نيستند را به دست مي دهد كه در گوگل تعداد آنها در 14 ميليون ثابت شده است. به اين صورت چندين شاخص بند مي تواند به صورت موازي احرا شوند و در نهايت آن فايل گزارشي از كلمات اضافي مي توانند توسط آخرين بند پردازش شود.
* مرتب سازي – به منظور توليد شاخص معكوس، برنامه مرتب ساز هر كدام از مخازن پيشرو را مي گيرد و آن را بر اساس كلمه مرتب مي كند. تا يك مخزن معكوسي براي تيتر و بهترينهاي انكر و يك مخزن معكوسي براي متن بدست آيد. اين پردازه به صورت تنها يك مخزن در آن واحد صورت مي گيرد در نتيجه به فضاي موقتي ذخيرع سازي كمي احتياج دارد. همچنين گوگل فاز مرتب سازي را به صورت موازي در مي آورد تا از تمام ماشينهايي كه دارد تنها با راه اندازي چندين مرتب ساز كه مي توانند در آن واحد مخزنهاي متفاوتي را پردازش كنند استفاده كند. هنگامي كه مخازن در حافظه اصلي جا نمي گيرد، برنامه مرتب ساز آنها را هرچه بيشتر به سيدهايي كه حتماً در حافظهع جا بگيرد تقسيم مي كند كه اين سبدها بر پايه شناسه كلمه و docID (شناسه سند) هستند. سپس مرتب ساز هر كدام از اين سبدها را درون حافظه بارگذاري مي كند، آن را مرتب مي كند و محتوايش را درون مخزن معكوس خلاصه و مخزن معكوس كامل مي نويسد.
.5.4 جستجو كردن
هدف از جستجو فراهم آوردن نتايج جستجوي با كيفيت به طور مؤثر است. بسياري از موتورهاي جستجوي تجاير بزرگ در زمينه بازرهي و راندمان توسعه و پيشرفت زيادي داشته اند. بنابراين در حقيقت گوگل تمركز بيشتر برروي كيفيت جستجو بوده است. اگرچه طراحان گوگل باور دانرد كه راه حلهاي آنها مي تواتنند با اندكي تلاش بيشتر در مقياس تجاري قابل انطباق باشند. ارزيابي پروسه پرس و جوي گوگل در شكل 4 نشان داده شده است.

1. پرس و جو را تجزيه كن
2. كلمات را به شناسه هاي كلمه تبديل كن
3. از اول ليست سند در مخزن كوتاه جستجو را براي هر كلمه شر.ع كن.
4. عمل مرور را در طول ليستهاي سنمد تا زماني كه سندي پيدا شود كه با تمام شرايط جستوجو همانگ باشد ادامه بده
5. براي پرس و جو رتبه سند مورد نظر را محاسبه كن
6. اگر در مخزن گوناه هستيم و در انتهاي ليست سند هستيم ابتداي ليست سند را در مخزن كامل جستجو كن
7. اگر در انتهاي هر ليست سند نيستيم به مرحله 4 برو.
8. سندهايي را كه توسط سيستم رتبه بندي پيدا شده اند k تاي اولشان را برگردان
شكل 4 – ارزيابي سيستم پرس و جوي گوگل
براي قرار دادن يك محدوديت بر زمان پاسخگويي، هنگامي كه تعداد معيني (در حال حاضر 4000) از سندهاي هماهنگ يافت شدند، جستجوگر به صورت اتوماتيك به مرحله 8 شمل 4 مي رود. اين كار به اين معني است كه احتمالاً زير مجموعه اي از مناسب ترين و بهترين نتايج برگردانده مي شوند. گوگل در حال مطالعه راه حلهايي براي حل اين مشكل است. در گذشته گوگل نتايج را بر اساس رتبه صفحه مرتب مي كرد كه به نظر مي رسيد كه نتايج را بهبود مي دهد.
.1.5.4 سيستم رتبه بندي
گوگل نسبت به ساير موتورهاي جستجوي معمول اطالعات بيشتري در مورد سندهاي وب نگهداري مي كند. هر ليست از بهترينها شامل اطلاعات موقعيت، فونت و بزرگ نويسي مي شود. علاوه بر اين، گوگل بهترينها را بر اساس نوشته انكر و رتبه صفحه درجه بندي مي كند. تركيب تمام اين اطلاعات براي بدست آوردن رتبه مار سختي است.
سيستم رتبه بندي گوگل طوري طراحي شده است تا هيچ عامل خاصي تأثير فوق العاده نداشته باشد. اول، ساده ترين حالت را در نظر بگيريد – يك پرس و جوي يك كلمه اي، به منظور رتبه بندي ي

مطالب مشابه ...

«آناتومي يك موتور جستجو وب فوق متني در مقياس وسيع»

۸-۸-۱۳۹۰ ۰۸:۲۳ عصر
جستجو یافتن همه ارسال های کاربر اهدا امتیازاهدای امتیاز به کاربر پاسخ پاسخ با نقل قول
 سپاس شده توسط senior engineer ، rezvan
  • rezvan
    آفلاین
  • کاربرسایت
  • ارسال‌ها: 1
  • تاریخ عضویت: اسفند ۱۳۹۰
  • اعتبار: 0
  • تحصیلات:کارشناسی
  • علایق:
  • محل سکونت:
  • سپاس ها 1
    سپاس شده 0 بار در 0 ارسال
  • امتیاز کاربر: 0$
  • حالت من:حالت من
ارسال: #2
RE: «آناتومي يك موتور جستجو وب فوق متني در مقياس وسيع»
سلام
من فایل کامل این موضوع رو نیاز دارم.

۱۴-۱۲-۱۳۹۰ ۰۴:۳۸ عصر
جستجو یافتن همه ارسال های کاربر اهدا امتیازاهدای امتیاز به کاربر پاسخ پاسخ با نقل قول
  • ♔ αϻἰг κнаη ♔
    آفلاین
  • مدیرکل  سایت
    *******
  • ارسال‌ها: 16,105
  • تاریخ عضویت: تير ۱۳۹۰
  • اعتبار: 1090
  • تحصیلات:زیر دیپلم
  • علایق:مبارزه
  • محل سکونت:ایران زمین
  • سپاس ها 34951
    سپاس شده 49155 بار در 13535 ارسال
  • امتیاز کاربر: 551,587$
  • حالت من:حالت من
ارسال: #3
RE: «آناتومي يك موتور جستجو وب فوق متني در مقياس وسيع»
متاسفانه من خودمم بیشتر از این نتونستم برا پروژام پیدا کنم
«آناتومي يك موتور جستجو وب فوق متني در مقياس وسيع»

۱۴-۱۲-۱۳۹۰ ۰۴:۵۴ عصر
جستجو یافتن همه ارسال های کاربر اهدا امتیازاهدای امتیاز به کاربر پاسخ پاسخ با نقل قول

برای بروز رسانی تاپیک کلیک کنید


مطالب مشابه ...
موضوع: نویسنده پاسخ: بازدید: آخرین ارسال
  راهنمای جامع سئو، بهینه سازی و افزایش رتبه در موتورهای جستجو ♔ αϻἰг κнаη ♔ 0 124 ۲۳-۱۲-۱۳۹۰ ۱۰:۰۴ عصر
آخرین ارسال: ♔ αϻἰг κнаη ♔

پرش به انجمن:

کاربرانِ درحال بازدید از این موضوع: 1 مهمان