محرك بحث (ويب)

نظام برمجي مصمم للبحث عن المعلومات على شبكة الويب العالمية

محرك البحث (بالإنجليزية: web search engine)‏ أو الباحوث [1] هو برنامج حاسوبي مصمم للمساعدة في العثور على مستندات مخزنة على شبكات معلوماتيةالشبكة العنكبوتية العالمية (بالإنجليزية: World Wide Web)‏) أو على حاسوب شخصي، وتقدم نتائج البحث عادةً على شكل قائمة من النتائج يشار إليها عادةً بـ «صفحات نتائج محرك البحث»، (مختصر إنجليزي: SERPs)، قد تكون المعلومات المقدمة مزيجًا من صفحات ويب وصور وأي نوع آخر من الملفات، تنقب بعض المحركات عن البيانات المتوفرة في قواعد البيانات أو أدلة مواقع الويب، وعلى عكس أدلة المواقع التي يحافظ عليها من خلال محررين بشريين فقط، فإن محركات البحث تحافظ على المعلومات في الزمن الحقيقي من خلال تشغيل خوارزمية على زاحف الشبكة. بنيت محركات البحث الأولى اعتمادا على التقنيات المستعملة في إدارة المكتبات الكلاسيكية. حيث يتم بناء فهارس للمستندات تشكل قاعدة للبيانات تفيد في البحث عن أي معلومة.

محركات البحث الأكثر استخداما ونسبة السيطرة على محركات البحث في اوخر 2010

يسمح محرك البحث للمستخدم أن يطلب المحتوى الذي يقابل معايير محددة (والقاعدة فيها تلك التي تحتوي على كلمة أو عبارة ما) ويستدعي قائمةً بالمراجع توافق تلك المعايير. تستخدم محركات البحث مؤشرات/فهارس/مسارد منتظمة التحديث لتشتغل بسرعة وفعالية.

تعرض النتائج على شكل قائمة بعناوين المستندات التي توافق الطلب. يرفق بالعناوين في الغالب مختصر عن المستند المشار إليه أو مقتطف منه للدلالة على موافقته للبحث. وترتب عناصر قائمة البحث وفقًا لمعايير خاصة (قد تختلف من محرك لآخر)، من أهمها مدى موافقة كل عنصر للطلب.

عند الحديث عن محركات البحث فغالبا ما يقصد محركات البحث على شبكة الإنترنت ومحركات الوِيب بالخصوص. محركات البحث في الويب تبحث عن المعلومات على الشبكة العنكبوتية العالمية، ومنها ما يستعمل على نطاق ضيق يشمل البحث داخل الشبكات المحلية للمؤسسات أي إنترانت (بالإنجليزية: Intranet)‏. أما محركات البحث الشخصية فتبحث في الحواسيب الشخصية الفردية.

تنقب بعض محركات البحث أيضاً في البيانات المتاحة على المجموعات الإخبارية، وقواعد البيانات الضخمة، أو أدلة مواقع الوِب مثل دِموز دوت أورج.

تاريخ

عدل

إن محركات بحث الإنترنت بحد ذاتها سابقة لظهور الويب في كانون الأول من عام 1991، حيث يعود تاريخ البحث إلى عام 1982 باستخدام طريقة «هوإز»[2]، كما نفذت خدمة بحث معلومات نوبوت للمستخدمين متعددي الشبكات لأول مرة عام 1989.[3] وقد كان أول محرك بحث موثّق يقوم بالبحث في ملفات المحتويات المسماة ملفات بروتوكول نقل الملفات، هو محرك بحث أرشي، حيث قُدم لأول مرة في 10 أيلول من عام 1990.

السنة محرك البحث الحالة الحالية
الجدول الزمني (قائمة كاملة)
1993 W3Catalog غيرُ نشط
علي ويب غيرُ نشط
JumpStation غيرُ نشط
WWW Worm  [لغات أخرى] غيرُ نشط
1994 ويب كرولر نشط, Aggregator
جو.كوم غيرُ نشط, redirects to Disney
لايكوس نشط
Infoseek غيرُ نشط
1995 ألتافيستا غيرُ نشط, redirected to Yahoo!
Daum نشط
Magellan غيرُ نشط
Excite نشط
SAPO نشط
ياهو! نشط, Launched as a directory
1996 Dogpile نشط, Aggregator
إنكتومي  [لغات أخرى] غيرُ نشط, acquired by Yahoo!
HotBot نشط (lycos.com)
أسك دوت كوم نشط (rebranded ask.com)
1997 Northern Light  [لغات أخرى] غيرُ نشط
ياندكس نشط
1998 بحث جوجل نشط
Ixquick نشط also as Startpage
بينغ نشط as Bing
إمباس (محرك بحث) غيرُ نشط
(merged with NATE)
1999 AlltheWeb غيرُ نشط
(URL redirected to Yahoo!)
GenieKnows نشط, rebranded Yellowee.com
نافير نشط
تيوما غيرُ نشط, redirects to Ask.com
Vivisimo غيرُ نشط
2000 بايدو نشط
googl  [لغات أخرى] نشط
جيجا بلاست نشط
2003 Info.com نشط
Scroogle غيرُ نشط
2004 محرك بحث ياهو! نشط, Launched own web search
(see Yahoo! Directory, 1995)
A9.com غيرُ نشط
Sogou نشط
2005 إيه أو إل نشط
GoodSearch نشط
SearchMe غيرُ نشط
2006 سوسو (محرك بحث) نشط
Quaero غيرُ نشط
سي بي إس إنتراكتيف نشط
تشاتشا نشط
أسك دوت كوم نشط
بينغ نشط as Bing, Launched as
rebranded MSN Search
2007 wikiseek غيرُ نشط
Sproose غيرُ نشط
Wikia Search غيرُ نشط
Blackle.com نشط, Google Search
2008 Powerset غيرُ نشط
(redirects to Bing)
Picollator غيرُ نشط
Viewzi غيرُ نشط
Boogami غيرُ نشط
LeapFish غيرُ نشط
Forestle غيرُ نشط
(redirects to Ecosia)
دك دك غو نشط
2009 بينغ نشط, Launched as
rebranded Live Search
Yebol غيرُ نشط
Mugurdy غيرُ نشط
due to a lack of funding
Scout (Goby)  [لغات أخرى] نشط
NATE نشط
2010 Blekko غيرُ نشط, sold to IBM
كول غيرُ نشط
ياندكس نشط, Launched global
(English) search
Parsijoo نشط
2011 ياسي نشط, ند لند web search engine
2012 Volunia غيرُ نشط
2013 حلال غوغلين نشط, Islamic / Halal
filter Search
2013 Egerin نشط, Kurdish / Sorani Search engine
2015 Yooz نشط
Minimal Search نشط

وقد أنشأه طالب في جامعة ماكجيل في مونتريال عام 1990م، وكان يعرف باسم “أرشي” (بالإنجليزية: Archie)‏ – مشتق من كلمة “الأرشيف” مع إزالة حرف “ف”- ويحمل تلقائيا قائمة بكل الملفات المتوافرة على كل موقع إنترنت وكان البحث يتم من خلال هذه القائمة بأسماء الملفات.[4][5] وتطورت عملية البحث فظهر محرك باسم واندكس (بالإنجليزية: Wandex)‏، وهو فهرس جمعه متجول وِب وهو زاحف عنكبوتي (بالإنجليزية: web crawler)‏ طوره ماثيو جراي في معهد ماساشوستس للتكنولوجيا MIT في 1993. ويعد آليوب (بالإنجليزية: Aliweb)‏ محرك بحث آخر مبكر جدًا وقد ظهر في 1993 ويعمل حتى اليوم. وأول محرك بحث قائم على الزاحف العنكبوتي للنصوص الكاملة كان وبكراولر (بالإنجليزية: WebCrawler)‏، والذي خرج للوجود في 1994. وعلى عكس سابقيه، فقد ترك المستخدمين يبحثون عن أي كلمة على أي صفحة ويب، وهو ما صار القاعدة لكل محركات البحث الكبرى منذ ذلك الوقت. كان هو أيضا الأول في معرفة الجمهور به على نطاق واسع. في 1994 كذلك جاء لايكوس (بالإنجليزية: Lycos)‏ (الذي بدأ في جامعة كارنيغي ميلون (بالإنجليزية: Carnegie Mellon University)‏) وصار مشروعًا تجاريًا كبيرًا.

بعد ذلك بقليل، ظهر العديد من محركات البحث وتزاحمت على الشعبية. وكان من ضمنها إكسايت (بالإنجليزية: Excite)‏، إنفوسيك (بالإنجليزية: Infoseek)‏، وإنكتومي (بالإنجليزية: Inktomi)‏، ونورثرن لايت (بالإنجليزية: Northern Light)‏، وألتافيستا (بالإنجليزية: Alta Vista)‏. وفي بعض الحالات تنافست مع الأدلة ذات الشعبية مثل ياهو! (بالإنجليزية: !Yahoo)‏. فيما بعد، أدمجت الأدلة أو أضافت إليها تقنية محرك البحث من أجل أداء أكبر للوظائف.

عرفت محركات البحث أيضا بكونها بعض ألمع النجوم في نوبة الاستثمار في الإنترنت التي وقعت في أواخر التسعينات. دخلت عدة شركات السوق في مشهد كبير، مسجلة مكاسب قياسية خلال طرح أسهمها العام الافتتاحي. وقد سحب البعض محركاتهم البحثية العامة، وهم يسوقون نسخا للشركات فقط، مثل نورثرن لايت التي كانت من ال8 أو 9 محركات بحث المبكرة بعد أن جاء لايكوس (بالإنجليزية: Lycos)‏.

قبل مجيء الإنترنت، كانت هناك بواحيث لموافيق (بروتوكولات)أو استخدامات أخرى، مثل محرك بحث آركي لمواقع إف‌.تي.‌بي المجهولة (بالإنجليزية: anonymous FTP)‏ ومحرك بحث ڤيرونيكا لبروتوكول جوفر.

وستأتي بعض محركات البحث الأخرى منها إيه ناين.كوم a9.com (أمازون.كوم)، آسك چيڤيز/تيوما (بالإنجليزية: Ask Jeeves/Teoma)‏، جيجابلاست، سناپ (بالإنجليزية: Snap)‏، والهاللو (بالإنجليزية: Walhello)‏، كازاز (بالإنجليزية: Kazazz)‏، ووايسنَت (بالإنجليزية: WiseNut)‏. وبعض آخر آخر محركات البحث، والتي تبحث فقط أنواعا محددة من المحتوى هي پلازو Plazoo (لمردود الخلاصات RSS feeds)، وجوهوك GoHook (لملفات پي دي إف PDF بشكل رئيسي). ومن أشهر المحركات أيضا: Yooci و ThroughSearch

أشهر محركات البحث

عدل

كيف تعمل محركات البحث

عدل

تعمل محركات البحث عن طريق تخزين المعلومات عن عدد كبير من صفحات الوِب، والتي تستعيدها من الشبكة العالمية وورلد وايد وب نفسها. تستعاد هذه الصفحات بواسطة زاحف وِب (يعرف أحيانا أيضا بـ ’عنكبوت‘) – وهو مستعرض وِب آلي يتبع كل رابط يراه. بعد ذلك يجري تحليل كل صفحة لتحديد كيف ينبغي فهرستها (على سبيل المثال، تستخلص الكلمات من العناوين، رؤوس الموضوعات، أو حقول خاصة تعرف ب ميتا تاجز). تخزن البيانات عن صفحات الوِب في قاعدة بيانات فهرسية للاستخدام في عمليات البحث طلبا لللمعلومات لاحقا. بعض محركات البحث، مثل جوجل، تخزن كل أو بعض الصفحة المصدر (وتشير لها ب مخبوءة) وبالمثل معلومات عن صفحات الوِب، بينما بعضها تخزن كل كلمة من كل صفحة تجدها، مثل ألتاڤيستا. هذه الصفحة المخبوءة تمسك بنص البحث الفعلي بما أنه هو الذي تمت فهرسته فعليا، لذا فقد تكون مفيدة جدا عندما يكون محتوى الصفحة الحالية قد جرى تحديثه ولم تعد ألفاظ البحث فيه. ربما تعتبر هذه المشكلة شكلا خفيفا من تعفن الروابط، وتزيد معالجة جوجل لها من إمكانية الاستخدام بإرضاء توقعات المستخدم بأن ترد ألفاظ البحث في صفحات الوِب العائدة في الرد. وهو ما يرضي ’مبدأ مفاجأة أخف من مفاجأة‘ بما أن المستخدم يتوقع بشكل طبيعي ألفاظ البحث في النتيجة العائدة له. وهذه الصلة بالبحث تجعل هذه الصفحات المخبوءة مفيدة جدا، حتى أكثر من واقع أنها قد تحتوي على بيانات ربما لم تعد متاحة في موضع آخر.

عندما يتوجه مستخدم لمحرك البحث ويجري عملية بحث طلبا للمعلومات، كما هو سائد بإعطاء كلمات مفتاحية، يفتش المحرك في الفهرس ويقدم قائمة بصفحات الوِب الأفضل توافقا تبعا لمعاييره، في المعتاد مع ملخص قصير يحتوي على عنوان الوثيقة وأحيانا أجزاء من النص. معظم محركات البحث تدعم استخدام الاصطلاحات البولينية (نسبة للجبر البوليني وهو نوع من المتغيرات المنطقية): AND وOR وNOT لمزيد من تحديد طلب المعلومات. وهناك خدمة وظيفية متقدمة هي البحث بالتقارب، والتي تسمح لك بتحديد المسافة بين الكلمات المفتاحية، باستخدام ألفاظ مثل NEAR، NOT NEAR، FOLLOWED BY، NOT FOLLOWED BY، SENTENCE، FAR.

يعتمد مدى فائدة محرك بحث على مدى صلة النتائج التي يرد بها. فبينما قد تكون هناك ملايين صفحات الوِب التي تحتوي على كلمة أو عبارة محددة، قد تكون بعض أوثق صلة، أو أروج، أو معتمدة أكثر من غيرها. معظم محركات البحث توظف أساليب لوضع مراتب النتائج لتقدم أفضل النتائج أولا. الكيفية التي يقرر بها محرك بحث أي الصفحات هي الأفضل توافقا، وما النظام الذي يجب أن تظهر به النتائج، تختلف بشكل شاسع من محرك لآخر. الأساليب أيضا تتغير عبر الزمن بتغير استخدام إنترنت وتكنيكات جديدة تتطور.

معظم محركات البحث هي مضاربات تجارية يدعمها عائد إعلاني و، بالنتيجة، يوظف البعض الممارسة المثيرة للجدل بالسماح للمعلنين بدفع النقود ليرفعوا لهم قوائهم في مراتب نتائج البحث.

الأغلبية الكاسحة من محركات البحث تديرها شركات خاصة تستخدم خوارزميات ملكها وقواعد بيانات مغلقة، وأكثرها رواجا حاليا هي جوجل وباحث إمإسإن وياهو. توجد تقنية محركات بحث مفتوحة المصدر مثل إتشتيدِج، نتش، سيناز، إيجوثور وأوبنإفتيإس، ولكن ليس هناك خادم بحث وورلد وايد وِب مشاع يستخدم هذه التقنية.

جاء تطور محرك بحث الوِب من تطور محركات البحث على شبكات الأجهزة والشبكات الداخلية.

الحصة السوقية

عدل
محرك البحث الحصة السوقية في سبتمبر 2015
غوغل 69.24% 69.24
 
بينج 12.26% 12.26
 
ياهو! 9.19% 9.19
 
بايدو 6.48% 6.48
 
إيه أو إل 1.11% 1.11
 
أسك دوت كوم 0.24% 0.24
 
لايكوس 0.00%

شرق آسيا وروسيا

عدل

في بعض دول شرق آسيا وروسيا ليس محرك بحث جوجل هو الأشهر حيث ان حساباته ومعادلات المحرك للبحث (algorithm) يتم عمل تصفية إقليمية (regional filtering) لها وبالتالي تختفي معظم النواتج.[6] .[7]

محرك البحث الروسي ياندكس يمتلك 61.9 في المئة من حصة السوق.

محركات البحث على الشبكة الإنترنت

عدل

الموضوع الأصلي يمكننا القول بأن الشبكة ومواقعها لن تكون ذات فائدة كبيرة بالنسبة لنا لو لم تكن محركات البحث على إنترنت موجودة. في البدء كانت محركات البحث عبارة عن أدلاء تقوم بفهرسة مواقع الإنترنت الجديدة. وقد كان ذلك فعالا عندما كان حجم إنترنت يقدر بملايين الصفحات. ثم تطورت إنترنت، وانضم إليها الملايين من مؤسسات الأعمال، والمؤسسات الحكومية، وبلايين الصفحات من أدلة استخدام المنتجات، والمعلومات الخاصة بالمستثمرين، وغير ذلك من المعلومات التي تقوم بتسيير عجلة اقتصاد إنترنت. ومع هذا النمو أصبح من الضروري، بل ومن الحتمي إضافة محرك بحث فعال إلى كافة مواقع إنترنت، يقوم بفهرسة وتصنيف المعلومات الموجودة ضمن هذه المواقع كي تتمكن من خدمة زوارها بشكل فعال. واليوم، وبعد أن أصبحت محركات البحث جزءا أساسيا في حضارتنا الإنترنتية، فإن هناك العشرات من الشركات العاملة في مجال إنتاج برمجيات، وتقنيات، وأساليب بحث جديدة موجهة نحو إنترنت وإنترانت. وبسبب الدور المتزايد الذي تلعبه التجارة والأعمال الإلكترونية في اقتصاد اليوم، فإن الحافز المادي على الأقل موجود. ولكن رغم النجاح الذي تدّعي الشركات المنتجة لتقنيات البحث تحقيقه، فإن المستخدمين لا زالوا يشكون من افتقار محركات البحث إلى الدقة المطلوبة، وتلبية النتائج التي يتم تحصيلها لمتطلبات المستخدمين

مشاكل تقنيات البحث

عدل

إن مفتاح النجاح في الحصول على نتائج بحث جيدة، تكمن في نوعية الاستفسارات، أو الأسئلة، أو العبارات أو الكلمات المفتاحية التي نقوم بإدخالها في محركات البحث. لكن المشكلة الأساسية هنا تكمن في أن الغالبية العظمى من المستخدمين لا يقومون عادة بإدخال الاستفسارات أو الكلمات المفتاحية الصحيحة، والتي تؤدي إلى الحصول على النتائج المطلوبة، وسنستعرض فيما يلي المشاكل الشائعة في عالم البحث عن المعلومات، والطرق التي يحاول بها الباحثون معالجة هذه المشكلات.

عدم طرح الأسئلة الصحيحة

عدل

من الحقائق الغريبة التي يؤكدها خبراء المعلومات هي أن المستخدمين نادرا ما يقومون بطرح الأسئلة التي تعبر عما يريدونه فعلا. والسبب الرئيس في ذلك هو الافتقار إلى الفهم الصحيح للموضوع قيد البحث، وبالتالي عدم استخدام الكلمات المفتاحية الصحيحة، والتي تؤدي إلى تكوين استعلامات وأسئلة صحيحة. فالمشكلة الأساسية هنا إذا، هي مساعدة المستخدمين على طرح الأسئلة وتكوين الاستعلامات الصحيحة. ومن مظاهر هذه المشكلة أيضا هي صغر حجم الاستعلامات التي يكونها المستخدم عادة للاستفسار عن موضوع معين. فإذا كان مستخدم ما يريد معلومات عن «السفر» مثلا، فإنه يبدأ بإدخال كلمة عامة في محرك البحث، ومن ثم، واعتمادا على النتائج التي يحصل عليها، يقوم بتضييق نطاق بحثه إلى أن يصل إلى ما يريده. والسبب في أن العديد من مستخدمي إنترنت يستعملون هذا الأسلوب يكمن في أنهم لا يعرفون حقا الحجم المهول للمعلومات الموجودة في قواعد البيانات الخاصة بمحركات البحث، والتي تفوق عادة ما يمكن لأي إنسان التعامل معه.

فجوة المفردات

عدل

تتميز معظم اللغات الطبيعية بتنوع المفردات التي تتناول نفس المعنى، فمثلاً (السحاب، الغمام، المزن، العارض.. وغيرها) تدور حول نفس المعنى سحاب، وبينما يدرك الإنسان تطابق هذه المفردات في المعنى تعجز محركات البحث التقليدية عن استيعاب كل المرادفات الممكنة، فتفتقر نتائجها إلى كثير من الوثائق ذات العلاقة بموضوع البحث لكنها لم تستخدم نفس مفردات المستخدم، وتسمى هذه المشكلة فجوة المفردات.

الموازنة بين الكم والنوع

عدل

عند التعامل مع تقنيات البحث فلا بد من الموازنة بين الكم والنوع، أو ما يدعوه الخبراء بالدقة والقدرة على الاسترجاع. وهي علاقة عكسية تماما، فكلما تم تضييق نطاق البحث سعيا عن نتائج أكثر دقة، كلما قل مقدار البيانات الذي يمكن استرجاعه. ولذلك فإن هناك حاجة لوجود محركات بحث تقدم دقة عالية دون التضحية بمقدار النتائج «الدقيقة» التي نسترجعها.

غموض الكلمات

عدل

معظم الكلمات تحمل أكثر من معنى، ومعظم محركات البحث المستخدمة اليوم تقوم بمطابقة الكلمات وليس معانيها، ولذلك فإن نتائج عمليات البحث التي نحصل عليها، تحتوي غالبا على الكلمات المفتاحية الصحيحة، ولكنها ذات المعنى الخاطئ. فإذا جربت مثلا أن تبحث عن معنى كلمة «جافا» مثلا، وهي إحدى لغات البرمجة الشائعة الاستخدام، فإنك ستحصل الكثير من النتائج المتعلقة بالجفاف، أو باسم جزيرة إندونيسية تحمل الاسم نفسه، إضافة إلى معلومات عن لغة البرمجة لانه يبحث عن البنية الصرفية والشكليه للكلمة وليس معناها.

الأسماء وأنواعها

عدل

وماذا عن البحث في الأسماء، أي البحث عن معلومات عن الأشخاص والأماكن، وما إلى ذلك. خصوصا وأن الكتاب يغيرون عادة الطريقة التي يقومون بها بكتابة الأسماء. وإذا ما تحدثنا مثلا عن أسماء الشركات، فإنها تتغير باستمرار نتيجة عملية الاندماج والضم، مما يجعل عملية البحث صعبة. وقد يقول البعض أنه يمكن التغلب على هذه المشكلة نوعا ما باستخدام برمجيات الفهرسة، ولكن المشكلة هي أن المعلومات في عالمنا تتغير باستمرار مما يجعل الفهرسة اليدوية صعبة. وماذا عن الفهرسة الآلية؟ الإجابة هي أنه لا توجد بعد التقنية التي يمكنها القيام بذلك بدقة، بحيث يمكن التمييز مثلا بين مقال كامل عن شخص معين، ومقال آخر يذكر اسم الشخص بشكل عابر.

المعالجة الطبيعية للغة

عدل

يجمع العاملون في مجال محركات البحث بأن الحل لكافة هذه المشاكل يكمن في تصميم محركات البحث، وبرمجيات البحث عموما، بحيث تستفيد من برمجيات المعالجة الطبيعية للغة Natural Language Processingعموما، والمعالجة الطبيعية للمعنى Natural Meaning Processing، والاستفادة من قواعد اللغة. النقطة الأساسية هنا هي أن اللغة عموما مبنية على أساس قواعد ذات أساس شبيه بالمعادلات الرياضية، كما أن عبارات اللغة وكلماتها تكون مبنية حسب هيكلية معينة، فلكل جملة مبتدأ وخبر، أو فعل وفاعل ومفعول به، كما أن الكلمات تأتي عادة من جذور وأصول. وهذه الهيكلية المبنية ضمن اللغة تتناسب وطبيعة عمل برمجيات الحاسوب، والتي تحتاج إلى هيكلية معينة تنفذ على أساسها عملياتها. أما المعالجة الطبيعية للمعنى فهي أكثر صعوبة، فكلمة مثل «راحة» يمكن لها أن تعني عدة أشياء، كالارتياح بعد التعب، أو الراحة الأبدية والتي تعني الموت، أو راحة اليد. ولهذا فإن برمجيات البحث يجب أن تتمكن من فهم الكلمة ضمن سياق النص، ودور الكلمة في هذا السياق. ولكن حتى هذا الأسلوب لا يفلح دوما في فهم المعنى. جرب أن تقرأ ديوانا شعريا جيدا، وستجد أن هنالك الكثير من الكلمات الصعبة، والتي قد يحاول البعض فهمها من السياق، ولكننا عندما نعجز عن ذلك فإننا نتجه إلى القاموس. وهذا أسلوب يمكن لبرمجيات الحاسوب اتباعه، أي الاعتماد على قاموس أو فهرس بالكلمات والعبارات الشائعة الاستخدام، والبحث في السياق. وفيما يلي بعض مفاهيم البحث التي تعتمد على المعالجة الطبيعية للغة؛

دراسة الجُمل

عدل

تتميز الجُمل بأنها ذات هيكلية محددة وواضحة، مما يساعد في فهم المعنى بشكل سريع. ومن خلال تحديد نوع الجملة، يمكن لبرمجيات البحث أن تقوم بعملها بشكل أكثر دقة. ولعمل ذلك فإن هذه البرمجيات يجب أن تعتمد على كميات كبيرة من المصادر والمراجع اللغوية، كالمكانز، والتي تحتوي على عبارات وجمل ذات علاقات محددة مسبقا. وباستخدام هذه المكانز يمكن لبرمجيات البحث أن تفهم بشكل أفضل طبيعة العلاقة بين الكلمات المختلفة ومواقعها الصحيحة ضمن الجمل. ورغم الفائدة العظيمة للمكانز، فإن مدى فعاليتها يعتمد على تحديثها باستمرار، وإلا فإنها تفقد فاعليتها تدريجيا. وباستخدام المكانز، وتصريف الجمل وإعرابها يمكن الحصول على نظم بحث قوية يمكنها فهم عبارات البحث ومعاني الكلمات ضمن السياق بشكل أفضل.

إزالة الالتباس: اختيار المعنى الصحيح

عدل

أوضحنا في النقطة أعلاه كيف يمكن للمكانز ونظم تصريف وإعراب الجمل أن تسهم بشكل أفضل في فهم المعنى من خلال السياق. وهذه التقنية مفيدة إذا كنا نبحث ضمن نص معين، ولكنها ليست مفيدة عند إدخال الاستفسارات والاستعلامات ضمن محركات البحث، حيث تتكون هذه عادة من عدد محدود من الكلمات، وبالتالي فإن حجم النص غير كاف لتحليل معنى الكلمات. والحل لهذه المشكلة واضح إلى درجة الإحراج ويتمثل في سؤال المستخدم عن المعنى الذي يقصده؛ فعندما يُدخل المستخدم كلمة «راحة» مثلا ضمن مربع الاستعلام، فإن محرك البحث يسأله عن المعنى المقصود، أو المعنى المراد البحث عنه، قبل الشروع بعملية البحث. وتوجد اليوم العديد من محركات البحث التي تستخدم قواميس مضمنة تقوم بتقديم قوائم بالمعاني المختلفة التي تمثلها الكلمة الواحدة قبل الشروع في عملية البحث. ومن هذه المحركات هناك LexiGuide من شركة LexiQuest، وOingo، وSimplifind على موقع Simpli.com.

التصنيف التلقائي

عدل

هذا الأسلوب هو الأقدم، حيث يتم تصنيف الوثائق حسب تصنيفات وفروع معينة، ومن ثم البحث بشكل منفصل ضمن كل تصنيف عن المعلومات المطلوبة. فمثلا، عند البحث عن كلمة «نواة» فإن بحثك قد يقودك إلى تصنيف يتعلق بعلوم الزراعة، وأنواع الحبوب، وما إلى ذلك، ولكنه في الوقت نفسه قد يقودك إلى تصنيف يقع ضمن علوم الفيزياء النووية. والحل هنا يكمن في تصنيف الوثائق المتعلقة بأنوية الحبوب والمزروعات في قسم الزراعة مثلا، والوثائق المتعلقة بأنوية الذرات في قسم الفيزياء الذرية. ولكن ماذا لو كانت لدينا وثيقة تتعلق بتأثير التجارب النووية على أنوية الحبوب والمزروعات؟ هل يجب عندها وضع الوثيقة في القسمين، أم ما هو الحل؟ وهنا تنشأ لدينا مشكلة المعنى المزدوج. ومن هنا تأتي أهمية التصنيف التلقائي، حيث يتم استخدام علوم النحو من تصريف وإعراب، واستخدام المكانز والقواميس، بحيث يتمكن النظام من «فهم» المواضيع الرئيسة في وثيقة ما. ويتم ذلك باستخدام أساليب إحصائية تقوم بدراسة تكرار الكلمات ضمن وثيقة ما، ومن ثم تحديد السياق، والذي يساعد في عملية البحث. وكمثال على ذلك لنأخذ كلمة، أو اسم مثل «فهد» أو «ليث» وهي أسماء عربية دارجة. ولنفترض أننا كتبنا موضوعا في مجلتنا عن شخص اسمه «فهد»، ولنفترض أن محرك بحث أراد تصنيف مقالنا هذا. في هذه الحال، وإذا كان محرك البحث يستخدم أسلوب التصنيف التلقائي، فإنه سيقوم من خلال دراسة النص ونوعية الكلمات الموجودة فيه وعلاقاتها وتكرارها، بتحديد أن المقال ينتمي إلى تصنيف علوم الحاسوب والإنترنت وليس الحيوانات والوحوش البرية. وتتبع برمجيات التصنيف التلقائي قواعد معينة يحددها المبرمجون، أو يمكن للآلة نفسها أن تتعلم ذاتيا كيف تقوم بتصنيف الكلمات. أو يمكن استخدام الأسلوبين، بحيث يتم تصنيف الوثائق التي تتبع نمطا معينا بشكل تلقائي، في حين يتم تحويل تلك التي يستحيل تصنيفها إلى عامل بشري كي يقوم بذلك.

زيادة دقة الاستعلامات

عدل

من يستعمل محركات البحث باستمرار يعلم أنه من المحتوم الحصول على مئات الألوف من النتائج على الأقل عند البحث عن موضوع معين بشكل عام. أما عند تضييق نطاق البحث، فإننا نحصل على مقدار أقل من النتائج الأكثر دقة. ولزيادة دقة الاستعلامات، فإن بعض محركات البحث يقوم بتعديل الاستعلام، وذلك بتقديم معان مرادفة لكلمات البحث إلى المستخدم، لمساعدته على تحديد موضوع بحثه بدقة أكبر. ففي مثل هذه النظم، وإذا كان موضوع استعلامك هو «الرياضة» مثلا، فإن النظام يقدم لك عددا من البدائل التي تساعد في تحديد موضوع البحث مثل «التربية البدنية»، «اللياقة البدنية» أو «اللياقة» وغير ذلك من المرادفات التي تساعد على توجيه العملية بحيث يحصل المستخدم على أكبر كم من النتائج الدقيقة التي تعبّر عن موضوع البحث.

ربط المفاهيم

عدل

إذا جربت اليوم أن تبحث عن العبارة «اسطوانات الليزر» (وهي العبارة العامية والقديمة للأقراص المدمجة) فإنك لن تحصل على الكثير من النتائج المفيدة من محركات البحث، حيث أن عبارة «الأقراص المدمجة» هي الكلمة الشائعة والمستخدمة في الغالبية العظمى من المطبوعات. ولهذا فإن العديد من محركات البحث هذه الأيام تستخدم أسلوب الربط بين المفاهيم، بحيث أنك إذا قمت بكتابة العبارة «أقراص الليزر» فإنك ستحصل على معلومات عن «الأقراص المدمجة». ويعتمد هذا الأسلوب على تحديد العلاقة بين الكلمات والعبارات في قاعدة البيانات بشكل مسبق، كما أنه مفيد عند البحث في وثائق متعددة اللغات، فالبحث عن كلمة «أقراص الليزر» يمكن أن يعطي نتائج لوثائق باللغة الإنجليزية عن "Compact Disks" أو CDs وما إلى ذلك، وهذا أسلوب مفيد جدا في عالم إنترنتي لم تعد فيه اللغة الإنجليزية هي السائدة.

الصورة الحالية

عدل

انظر إلى أي موقع للتجارة الإلكترونية، وستجد أنه غير ذا فائدة تُذكر إذا لم يكن محرك البحث المستخدم به قادرا على نقلك إلى صفحة المنتج، أو المنتجات، التي تريدها خلال أسرع وقت ممكن. ولذلك نجد أن بوابات التجارة والأعمال الإلكترونية العالمية مثل Ebay وأمازون تعتبر برمجيات البحث أحد أهم موجوداتها وتسعى باستمرار إلى تحديثها. وقد قامت شركة Ebay قبل سنوات بشراء نظام بحث متقدم من شركة Fast Search & Transfer النرويجية، والتي كانت تنتج تقنية بحث جديدة تقوم بتقديم أحدث المعلومات للباحثين عن نتائج المزادات والأسعار المتداولة. كما أن أمازون ومواقع مثل Marthastewar.com تقوم بالتعامل مع شركة Google وAskJeeves بحيث يتم ربط المستخدمين بالبضائع التي يريدون شرائها من خلال كتابة سؤال اعتيادي ضمن مربع الاستعلام. وتقول الخبيرة مارثا فراي، وهي باحثة في شؤون التجارة الإلكترونية في مجموعة باتريشيا سيبولد، «يمكن القول بأن السبب الرئيس في فشل معظم مواقع التجارة الإلكترونية، يعود إلى اعتمادها لتقنيات بحث ضعيفة.» كما اكتشفت مؤسسة ميديا ميتريكس للأبحاث بأن 80% من مستخدمي إنترنت، يتوقفون عن استخدام موقع ما إذا لم تعمل وظيفة البحث المضمنة فيه بالشكل الصحيح. ومن هنا كان السباق بين عدد من الشركات لتطوير تقنيات بحث متقدمة، يمكن للبشر الاعتياديين التعامل معها، والحصول على النتائج التي يريدونها تماما. وسنستعرض فيما يلي عددا من الشركات العالمية التي ابتكرت تقنيات يمكن لها أن تغير وجه إنترنت إلى الأبد.

ايكساليد Exalead

عدل

ايكساليد (Exalead) محرك بحث فرنسي متخصص في التقنيات الحديثه للبحث : نوعية نتائج البحث، تصنيف النتائج، صور تمهيدية لكل صفحة.(Exalead)

بدأ محرك البحث هذا Google.com كمشروع لرسالة دكتوراة حول تقنيات الذكاء الاصطناعي والمعالجة الطبيعية للغة في جامعة ستانفورد في الولايات المتحدة، وتحول اليوم إلى بوابة إنترنت عالمية كبرى تخدم البحث بـ 66 لغة (منها العربية)، تقوم بمعالجة 120 مليون طلب بحث يوميا (حسب إحصائيات مؤسسة ميديا ميتركس للأبحاث)، كما أن الموقع أصبح مؤخرا ضمن أكبر 15 موقعا في الولايات المتحدة. ولا يتوقف الأمر هنا، حيث أن عوائده تصل إلى 50 مليون دولار سنويا، ويتوقع البعض أن يصل حجم هذه العوائد في المستقبل القريب إلى مليار دولار أمريكي حسب مجلة بيزنس ويك الأمريكية. والمستخدم لهذا الموقع يعرف تمام المعرفة مدى دقته في تقديم النتائج المطلوبة، ومن المرة الأولى، كما أنه لا يتطلب خبرة كبرى من المستخدم في صياغة الأسئلة والاستعلامات. ويعتمد هذا الموقع تقنيات إحصائية ورياضية متقدمة تقوم بدراسة الوثائق المفهرسة، وتكرار الكلمات ضمن كل وثيقة، وبالتالي الحكم على موضوعها وعلاقتها بعبارة البحث التي يقوم المستخدم باستعمالها. ومهما كانت الوصفة السحرية التي يستخدمها موقع غوغل فإنه يعتبر الأفضل بين كافة مواقع البحث المستخدمة اليوم.

آسك Ask

عدل

موقع Ask.com يستخدم اللغة الطبيعية في البحث ويعتمد قاعدة بيانات وتقنيات تمكّن المستخدم من توجيه سؤال البحث «باللغة الإنجليزية» بلغة سهلة (وعامية أيضاً) لتقوم قاعدة البيانات بالمطابقة بين الكلمات المفتاحية في السؤال، وبين ما هو موجود في قاعدة بياناتها. ورغم ذلك فإن محرك «آسك» يعتمد جزئيا على التدخل البشري لتصنيف المعلومات وفهرستها إذا لم تكن موجودة في قاعدة البيانات. فعند حصول حدث إخباري ما مثلا، فإن «آسك» لن يتمكن من التعامل مع أي سؤال يتعلق بهذا الحدث إلا إذا قام مدراء قواعد البيانات بتحديث النظام.

وقد قامت الشركة المسئولة عن الموقع بطرح نظام مستقل، يمكن للمؤسسات العاملة في مجالات التجارة والأعمال الإلكترونية تضمينه في مواقعها بحيث يمكن لعملائها توجيه أسئلة واستفسارات باللغة الطبيعية، والحصول على أجوبة لها دون أي تدخل بشري.

المستقبل

عدل

يوجد على إنترنت اليوم بلايين الصفحات، وحسب المصادر المتوفرة فإنه قد تم حتى اليوم فهرسة ما يزيد قليلا على البليون صفحة. وتتسابق الشركات التي تقوم بفهرسة هذه الصفحات في إتاحتها لمستخدمي إنترنت، والحفاظ على سرعة الاستجابة التي يحصل عليها المستخدم. وإضافة إلى السرعة فإن على قواعد البيانات هذه أن تثبت وجودها بتقديم أجوبة «طازجة»، ومتناسقة، وذات علاقة بما يبحث عنه المستخدم. كما أن عجلة الابتكار لا تتوقف في مجال البحث، فموقع www.hotlinks.com يتيح للمستخدمين إمكانية حفظ مفضلاتهم Favorites ضمن دليل على إنترنت، وذلك كي تكون هذه المفضلات متاحة للمستخدم أينما كان، ويمكن للمستخدمين أن يختاروا مشاركة مفضلاتهم مع مستخدمي إنترنت الآخرين، وتمكين زوار الموقع من البحث على إنترنت من خلال البحث في مفضلات الآخرين، وبالتالي الحصول على معلومات رأى مستخدمون آخرون أنها مفيدة لدرجة وضع المواقع التي تحتويها ضمن مفضلاتهم. كما أن هناك مواقع للبحث مثل www.expertcentral.com والتي تقدم للباحثين إجابات متخصصة. وإضافة إلى ذلك فهناك العديد من محركات البحث التي تعتمد تقنيات الشبكات العصبية Neural Networks، ومحركات البحث التي يمكن تثبيتها على أجهزة المستخدمين، وفهرسة محتويات أقراصهم الصلبة. ونظرا للأهمية المتواصلة لمحركات البحث، فإن التقنيات الجديدة ستواصل ظهورها، وستواصل التقنية تطورها لتقديم نتائج أفضل للمستخدمين. وبظهور هذه التقنيات فإن بعضها سيفشل وبعضها سينجح، وستصبح التقنيات الناجحة جزءا من محركات البحث المستخدمة اليوم.

تطبيقات مستقبلية

عدل

إذا لم تكن تريد إنفاق الملايين في ابتكار تقنيات للذكاء الاصطناعي والمعالجة الطبيعية للغة، فإن الحل الأسهل هو استخدام الميزات التي تقدمها لغة لغة الترميز القابلة للامتداد لجعل عملية البحث أكثر دقة. فهذه اللغة كما هو معروف تعتمد على توصيف الوثائق والبيانات عند نشرها على الشبكة. فالمادة المتعلقة بالأسعار مثلا يتم توصيفها بعلامات تدل على أنها تمثل السعر، والمادة التي تصف أبعاد بضاعة معينة يتم توصيفها بهذا الشكل. وباستخدام XML يمكن للروبوتات التي تقوم بفهرسة مواقع إنترنت أن تفهم المحتوى الموجود ضمن الصفحات. وبالتالي فعندما تبحث عن تذكرة سفر بسعر معين مثلا، فإن الروبوتات لا تقوم فقط بالعثور على التذكرة بأفضل الأسعار، ولكنها تعثر أيضا على أفضل سعر لغرفة فندق، أو سيارة مستأجرة. ومن التطبيقات الأخرى مثلا هي أنك إذا عرضت سيرتك الذاتية على الروبوت فإنه يقترح عليك أفضل وظيفة تناسب مؤهلاتك. أو إذا عرضت على الروبوت ملفك الصحي فإنه يقترح عليك الفيتامينات التي يجب عليك تناولها، أو النوادي الصحية التي يمكنك الانضمام إليها. وبالطبع فإننا لا نعتقد أن XML هي الحل السحري، ولكنها يمكن أن تؤدي إلى زيادة نجاعة عمليات البحث إذا ما اقترنت بالتقنيات الأخرى المذكورة في موضوعنا هذا.

انظر أيضا

عدل

مراجع

عدل
  1. ^ "باحوث". توثيق MDN للوب. مؤرشف من الأصل في 2019-03-27. اطلع عليه بتاريخ 2020-05-04.
  2. ^ "RFC 812 - NICNAME/WHOIS". ietf.org.
  3. ^ https://web.archive.org/web/20160304084329/http://ftp.sunet.se/pub/Internet-documents/matrix/services/KIS-id.txt. مؤرشف من الأصل في 4 مارس 2016. اطلع عليه بتاريخ أغسطس 2020. {{استشهاد ويب}}: تحقق من التاريخ في: |تاريخ الوصول= (مساعدة) والوسيط |title= غير موجود أو فارغ (مساعدة)
  4. ^ [ http://cairodar.youm7.com/160847/أول-محرك-بحث-تم-إطلاقه-قبل-جوجل-بثمانى] اليوم السابع، مقال أول محرك بحث. نسخة محفوظة 02 2يناير7 على موقع واي باك مشين.
  5. ^ Search Engine History.com نسخة محفوظة 30 ديسمبر 2017 على موقع واي باك مشين.
  6. ^ "статистика сайта "Сайты Рунета"". Liveinternet.ru. مؤرشف من الأصل في 2016-01-13. اطلع عليه بتاريخ 2012-05-23.
  7. ^ "2010 Form 10-K, Yandex". Google. مؤرشف من الأصل في 2017-03-24.

وصلات خارجية

عدل