التنقيب في المعطيات
تنقيب في معطيات
Data mining -
راكان رزوق
وظائف التنقيب في المعطيات
يمكن النظر إلى التنقيب في المعطيات (البيانات) data mining بوصفه نتيجة طبيعية لتطور تقانة المعلومات. فقد شهدت نظم إدارة قواعد المعطيات database تطوراً مستمراً منذ ستينيات القرن العشرين. وشمل هذا التطور الوظائف الأساسية التي صُممت هذه الأنظمة لتحقيقها، وهي الوظائف المتعلقة بتخزين المعطيات واسترجاعها، ومعالجة المناقَلات transactions. وبعد استخدام هذه الأنظمة لفترات طويلة ظهرت الحاجة إلى أدوات متقدمة لتحليل المعطيات التي تجمعت فيها. وبعد أن أصبح استخدام أنظمة إدارة قواعد المعطيات سلوكاً شائعاً لمعالجة الاستعلامات وإنجاز المعاملات كان لا بدّ في مرحلة تالية من تطوير الأدوات اللازمة لتحليل المعطيات.
اكتسبت نظم إدارة قواعد المعطيات العلائقية relation databaseقبولاً واسعاً منذ منتصف الثمانينيات، وازداد الاعتماد عليها في بناء الأنظمة المعلوماتية الضخمة، واستمرت نشاطات البحث والتطوير لإنشاء أنظمة قواعد معطيات جديدة وقوية.
ومعظهور أدوات إضافية في نظم إدارة قواعد المعطيات لتحليل البيانات؛ فإن هذه الأدوات - التي تُدعى أدوات المعالجة التحليلية الآنية Online Analytical Processing (OLAP) - بقيت قاصرة عن تحليل المعطيات تحليلاً معمقاً؛ وعاجزة في الوقت نفسه عن استخراج المعرفة المفيدة المخبأة ضمن نظم قواعد البيانات، ولذلك وُصفت قواعد المعطيات الموجودة لدى معظم المؤسسات بأنها غنية بالمعطيات، ولكنها فقيرة بالمعلومات.
ولتوضيح هذه الفكرة أكثر يكفي النظر إلى كميات المعطيات التي تتجمع في الأنظمة المعلوماتية العاملة لدى المؤسسات المألوفة -مثل المصارف- حتى يُتبيَّن أن هذه الأنظمة تجمعت فيها كميات من المعطيات تتجاوز قدرة الإنسان على التحليل والفهم من دون أدوات قوية، وأصبحت مستودعات المعطيات المرتبطة بهذه الأنظمة "مقابر للمعطيات" لا يزورها مستخدمو الأنظمة المعلوماتية إلا فيما ندر، وبقي اتخاذ القرار يعتمد إلى حد بعيد على خبرة متخذ القرار وحدسه، ولا يُبنى على معلومات يستقيها من المعطيات التي تجمعت خلال سنوات من استخدام الوسائل المعلوماتية. وقد اتسعت هذه الفجوة بين كمية المعطيات المتراكمة في المؤسسات والمعلومات المفيدة المطلوبة لاتخاذ القرار؛ مما استدعى البحث عن أدوات جديدة لتحليل المعطيات لاكتشاف أنماط المعلومات المهمّة المخبأة فيها؛ ومن ثَمّ تحويل "مقابر المعطيات" إلى معارف تعادل في قيمتها شذرات الذهب.
تعريف التنقيب في المعطيات
يشير مصطلح التنقيب في المعطيات إلى استخراج المعرفة المخبأة ضمن كميات كبيرة من المعطيات. إن هذا المصطلح غير دقيق، فلو أجريت مقارنة بعملية التنقيب عن معدن معين، الذهب مثلاً؛ فإن هذا المعدن يكون موجوداً أصلاً ضمن الرمال أو الصخور التي تجري معالجتها لعزل المعدن عن الرمل أو الصخر، في حين يهدف التنقيب في المعطيات إلى استخراج معلومات غير موجودة بوضوح ضمن كمية المعطيات الضخمة التي يجري البحث ضمنها، ومن ثَمّ فالعملية ليست عملية عزل بعض المكونات "المفيدة" عن غيرها من المكونات "غير المفيدة"، إنها عملية استخراج معارف جديدة اعتماداً على المعطيات. وقد يكون مصطلح اكتشاف المعرفة knowledge discovery هو المصطلح الأكثر تعبيراً، ومع ذلك فسوف يُستخدم مصطلح التنقيب في المعطيات؛ لأنه المصطلح الشائع. ويبين الشكل (1) الخطوات الأساسية في اكتشاف المعرفة، وهي سلسلة من الخطوات تشمل ما يلي:
1. تنظيف المعطيات data cleaning: إزالة الضجيج ومعالجة المعطيات غير المتناسقة.
2. تكامل المعطيات data integration: جمع المعطيات من مصادر متعددة.
3. اختيار المعطيات data selection: استرجاع المعطيات ذات الصلة بموضوع محدد.
4. تحويل المعطيات data transformation: تحويل المعطيات من صيغة إلى صيغة مناسبة لعملية التنقيب.
5. التنقيب في المعطيات data mining: تطبيق أساليب ذكية لاستخراج أنماط جديدة من المعطيات.
6. تقييم النماذج pattern evaluation: تصنيف النماذج المستخرجة وفق أهميتها.
7. عرض المعارف knowledge presentation: استخدام وسائل الإظهار وتمثيل المعارف لعرض النماذج المكتشفة على المستخدم النهائي.
![]() |
|
الشكل (1) الخطوات الأساسية في اكتشاف المعرفة.
|
يتبين من خلال هذا الشرح أن التنقيب في المعطيات هو خطوة واحدة من الخطوات السبع التي يتألف منها اكتشاف المعرفة؛ إلا أن النهج السائد يدمج المراحل السابقة كلها ضمن موضوع التنقيب في المعطيات، ويصف المراحل الأربع الأولى بأنها تحضير المعطيات. يتضمن أي نظام للتنقيب في المعطيات المكونات التالية:
1- مخازن المعطيات: وتشمل قواعد المعطيات، ومستودعات المعطيات، والشبكة العنكبوتية العالمية، وغيرها من مستودعات المعطيات مثل الجداول الإلكترونية والملفات.
2- مخدم مستودع المعطيات: وهو المسؤول عن إحضار المعطيات التي تتوافق وطلبات التنقيب التي يطلبها المستخدم.
3- قاعدة المعرفة knowledge base: وهي المعارف التي تقود عملية البحث عن النماذج المفيدة وتقييمها. ويمكن أن تشمل هذه المعارف هرمية المفاهيم التي تُستخدم لتنظيم الواصفات attributes أو قيم الواصفات ضمن مستويات مختلفة من التجريد.
4- محرك التنقيب في المعطيات: يتألف من مجموعة من المجتزآت (نسائق) modules التي تقدم وظائف مثل التصنيف، وتحليل الترابط، والتنبؤ، والعنقدة، وغيرها من الوظائف.
5- مجتزأ تقييم النماذج: يوظف هذا المكون مقاييس الأهمية، ويتخاطب مع مجتزآت التنقيب؛ ليركز البحث على النماذج المهمة. ويمكن أن يطبق مقاييس الأهمية؛ ليعزل النماذج المهمة.
6- واجهة الاستخدام: يوفر هذا المجتزأ مجموعة من الأدوات التي تمكن المستخدم من التفاعل مع النظام؛ ليعبر عن استفسارات التنقيب؛ وليوجه عملية البحث وفق النتائج المرحلية التي يعرضها النظام.
توظّف أنظمة التنقيب في المعطيات طيفاً واسعاً من التقانات والعلوم، مثل قواعد المعطيات، ومستودعات المعطيات، والإحصاء، والتعلم الآلي، والحوسبة عالية الأداء، والشبكات العصبونية، واسترجاع المعلومات، ومعالجة الصور والإشارة، وتحليل المعطيات المكانية والزمانية. ولذلك يُعَدّ التنقيب في المعطيات من أحدث مجالات البحث وأهمها؛ لما تكفله من تكامل بين اختصاصات بقيت منفصلة لزمن طويل، ويعد بتطبيقات مهمة في نظم المعلومات.
مصادر المعطيات
يمكن القول: إن التنقيب في المعطيات يمكن أن يشمل كل مستودعات المعطيات، ويمكن أن يشمل كذلك المعطيات العابرة أي المعطيات التي لا يحتفظ نظام المعلومات بنسخ عنها، مثل ملفات الفيديو أو البريد الإلكتروني. تشمل نظم قواعد المعطيات المتقدمة قواعد المعطيات العلائقية غرضية التوجه object oriented، وقواعد المعطيات ذات التطبيقات الخاصة مثل قواعد المعطياتالمكانيةspatial DB ، وقواعد معطيات السلاسل الزمنية time series DB، وقواعد المعطيات النصيةtext DB ، وقواعد المعطيات متعددة الوسائط multimedia DB. ولذلك يمكن أن تقع اختلافات في تقنيات التنقيب المستخدمة في كل نوع من أنواع مستودعات المعطيات.
- قواعد المعطيات
تُعدّ قواعد المعطيات العلائقية من أهم مصادر المعطيات التي تدخل في مراحل التنقيب. وعندما تُطبق تقنيات استخراج المعرفة من قواعد المعطيات العلائقية، يمكن أن يُذهب أبعد من ذلك من خلال البحث عن أنماط جديدة لا تُخزَّن صراحة في قاعدة المعطيات. فعلى سبيل المثال يمكن لأنظمة التنقيب في المعطيات تحليل بيانات الزبائن من أجل التنبؤ بمخاطر الائتمان الذي يُمنح للزبائن الجدد بناءً على دخلهم، وعمرهم، وتسهيلات الائتمان السابقة التي مُنحت لزبائن يشبهونهم. ويمكن لنظم التنقيب في المعطيات أيضاً الكشف عن الانحرافات، مثل المواد التي كانت مبيعاتها بعيدة جداً عن تلك المتوقعة مقارنة بمبيعات السنة السابقة. ويمكن أن يقود اكتشاف مثل هذه الانحرافات إلى مزيد من التحرّي لمعرفة السبب (على سبيل المثال: كان هناك تغيير في طريقة تعبئة هذه المواد وتغليفها، أو هل شهدت زيادة كبيرة في السعر؟).
- مستودعات المعطيات data warehouse
يجري تخزين المعطيات بطريقة تقدم منظوراً تاريخياً حول الأغراض التي تتضمنها، كما يجري عادةً تلخيص المعطيات المخزنة في مستودع المعطيات لتقليل حجمها. فيمكن مثلاً تخزين خلاصة مبيعات مادة معيّنة خلال فترة معيّنة ضمن منطقة جغرافية معيّنة، بدلاً من تخزين تفاصيل كل عمليات الشراء.
تجري نمذجة مستودع المعطيات كقاعدة معطيات متعددة الأبعاد multi dimensional database . حيث يتعلق كل بعد بواصفة أو مجموعة من الواصفات، وتخزن كل خلية نتيجة تطبيق أحد توابع التجميع على قيمة معيّنة. ويجري تخزين المعطيات في مكعب بيانات data cube متعدد الأبعاد، ويقدم مكعب المعطيات إمكان النظر إلى المعطيات من عدة وجهات نظر، ويسمح بإجراء الحسابات سلفاً، ومن ثمّ يُقلل زمن الوصول إلى المعطيات وتلخيصها.
تقدم مستودعات المعطيات -التي يجري تنظيمها كمكعبات معطيات متعددة الأبعاد-الأدوات اللازمة لتنفيذ عمليات التلخيص roll-up والتفصيل drill-down. فمثلاً يمكن عرض المبيعات خلال ربع عام (ثلاثة أشهر)، كما يمكن عرض المبيعات موزعة على كل شهر من الأشهر، وكذلك فإنه يمكن عرض المبيعات في كل دولة أو ضمن كل مدينة من مدن هذه الدولة.
ولتسهيل صنع القرار تُنظَّم المعطيات في مستودع المعطيات حول الموضوعات الرئيسية، مثل الزبائن، والبند، والمورِّد، والنشاط. ويكفل تخزين المعطيات توفير المعلومات من منظور تاريخي (مثلاً السنوات الخمس الماضية)، وعادة ما يجري تلخيصها. فعلى سبيل المثال: بدلاً من تخزين تفاصيل كل صفقة بيع يمكن الاكتفاء بتخزين خلاصة المعاملات التي تجري على كل نوع أو في منطقة معيّنة.
- قواعد المعطيات العملياتية operational database
تتكون قاعدة المعطيات العملياتية من ملفات يمثل كل سجل من سجلاتها عملية واحدة. تتميز كل عملية برقم مميز يمثل وثيقة تعريف (ID) Identity Document (الجدول 1)، وتشمل قائمة المواد التي تشملها العملية (أي المواد التي اشتُريت في متجر).
| الجدول (1) جزء من قاعدة المعطيات العملياتية تتضمن بعض عمليات المبيعات. | ||||||||
|
وقد تحوي قاعدة المعطيات العملياتية بيانات إضافية مرتبطة بعمليات البيع، مثل تاريخ العملية، وهوية الزبون، والكمية، ورقم مندوب المبيعات، والفرع الذي قام بالبيع، وغيرها.
ومن وجهة نظر قواعد المعطيات العلائقية يُدعى جدول المبيعات جدولاً متداخلاً؛ لأن الواصفة list_of_item_Ids (قائمة من أرقام المواد) تحوي مجموعة من القيم؛ ولأن معظم أنظمة قواعد المعطيات العلائقية لا تدعم البنى العلائقية المتداخلة، ويجري عادة تخزين قاعدة معطيات العمليات في ملف تسلسلي أو في علاقة نظامية.
ويمكن أن تُنفذ استعلامات من نمط: "أرني جميع المواد التي اشتراها السيد …خلال شهر كانون الثاني 2025"، أو "ما هو عدد عمليات الشراء التي شملت المادة (14)؟". قد تتطلب الإجابة عن هذه الاستفسارات تفحص قاعدة بيانات المعاملات بأكملها.
وعند المُضيّ أبعد من ذلك للإجابة عن الاستفسار التالي: "ما هي المواد التي تُباع معاً؟". إن هذا النوع من عمليات تحليل المعطيات سوف تمكن شركة التسويق من تجميع المواد في مجموعات تباع معاً لتحقيق أقصى قدر من المبيعات. فعلى سبيل المثال: إذا عُرف أن الطابعات تُشترى عادة مع أجهزة الحاسوب؛ فإنه يمكن أن يُقدَّم عرض لبيع نموذج من الطابعات بسعر مخفض للزبائن الذين يشترون أجهزة حواسيب من نوع محدد؛ على أمل زيادة المبيعات. ولا تستطيع الاستعلامات التقليدية أن تجيب عن مثل هذه الاستفسارات؛ غير أن أنظمة التنقيب في المعطيات يمكن أن تقدم مثل هذه الوظائف عن طريق تحديد مجموعات العناصر المتكررة.
- نظم المعلومات والتطبيقات المتقدمة
بعد استعمال أنظمة قواعد المعطيات العلائقية على نطاق واسع في تطبيقات الأعمال أصبحت تقانة قاعدة المعطيات تقدم أنواعاً مختلفة من المعطيات، وظهرت الحاجة لأدوات جديدة لمعالجة هذه الأنواع الجديدة منها.
وتشمل تطبيقات قواعد المعطيات الجديدة التعامل مع المعطيات المكانية (مثل الخرائط)، وبيانات التصميم الهندسي (مثل تصميم المباني، أو الدارات المتكاملة)، والنصوص المترابطة، ومعطيات الوسائط المتعددة (التي تشمل النصوص، والصور، والفيديو، والصوت)، والمعطيات المرتبطة بالزمن (مثل السجلات التاريخية أو معطيات البورصة)، وتدفقات المعطيات (مثل معطيات أنظمة المراقبة بالفيديو، ومعطيات الاستشعار)، والشبكة العنكبوتية العالمية.
وتتطلب هذه التطبيقات بنى متقدمة لتمثيل المعطيات وأدوات فعالة لمعالجتها. وقد طُوِّرت نظم قواعد المعطيات؛ لتشمل قواعد المعطيات العلائقية غرضية التوجه، وقواعد المعطيات الزمانية، والسلاسل الزمنية، ونظم قواعد المعطيات المكانية والزمانية، وكذلك نظم قواعد المعطيات النصية والمتعددة الوسائط، ونظم قواعد المعطيات التراثية، وإدارة التدفقات، ونظم المعلومات العالمي القائم على الوِب.
وفضلاً عن كون قواعد المعطيات هذه تقوم بتخزين كميات كبيرة من المعطيات المعقدة؛ فإنها توفر أيضاً بيئة خصبة لتطبيق طرائق جديدة في تحليل المعطيات جرى تطويرها؛ لتناسب هذه الأنواع الجديدة من المعطيات خاصّة.
- قواعد المعطيات الزمنية temporal databases
وتحوي قاعدة المعطيات الزمنية عادة معطيات مرتبطة بالزمن، ومن الأمثلة على هذا النوع من قواعد المعطيات قواعد معطيات السجلات الطبية للمرضى حيث يجري تخزين قياسات الضغط والحرارة والتحاليل الطبية وربطها بزمن قياسها. وإذا تكررت قيم الواصفة بتواتر معرّف سلفاً؛ فيمكن التحدّث عن سلاسل زمنية. فمثلاً سعر سهم شركة في البورصة يُسجل بدور منتظم (كل ساعة، أو يوم).
ويمكن توظيف تقانات التنقيب في المعطيات للبحث عن طريقة تحول غرض معيّن (مثلاً سعر صرف عملة معيّنة) واتجاه هذا التحول. ويمكن مثلاً دراسة توزع العمليات المصرفية التي يجريها زبائن مصرف معيّن لمعرفة الأيام التي ينبغي فيها استدعاء موظفين إضافيين أو فتح كوى إضافية، كما يمكن أن تُوضع من خلال دراسة تحول سعر سهم شركة معيّنة في البورصة استراتيجية للاستثمار (معرفة أفضل وقت لشراء أسهم شركة معيّنة). ويتطلب هذا النوع من التحليل التعامل مع الزمن على عدة مستويات من الدقة (ساعة، يوم، أسبوع،...إلخ)، ويتطلب في بعض الأحيان معرفة دور الظاهرة المدروسة (سنة مالية، سنة دراسية).
- قواعد المعطيات المكانية spatial databases
وتتضمن قاعدة المعطيات المكانية بيانات مرتبطة بمكان ما. ومن الأمثلة على هذا النوع من قواعد المعطيات قواعد المعطيات الجغرافية، وقواعد معطيات تصميم الداراتعالية very large Scale Integration (VLSI)التكامل، وقواعد معطيات التصميم بمعونة الحاسوب )CAD( Computer Aided Design ، وقواعد معطيات الصور الفضائية.
ويمكن تمثيل الأغراض ضمن هذا النوع من قواعد المعطيات صوراً (مثلاً صورة فضائية تمثل منطقة معيّنة) أو أشكالاً هندسية بسيطة (نقاط، قطع مستقيمة، مضلعات،...إلخ)، كما هي الحال في الخرائط الرقمية.
ولهذا النوع من قواعد المعطيات تطبيقات واسعة؛ ولا سيّما ما يتعلق بتنظيم البنى التحتية (شبكات الكهرباء والماء والهاتف والطرق والصرف الصحي) وأنظمة الملاحة وأنظمة التوزيع وغيرها.
ويمكن أن يسهم التنقيب في قواعد المعطيات المكانية باكتشاف أنماط من توزعات المساكن في منطقة معيّنة أو اكتشاف تحولات الغطاء النباتي في منطقة جبلية، أو البحث في أفضل مسار يمكن أن يسلكه طريق سريع حتى يكون أثره في البيئة أقل ما يمكن. وغالباً ما ترتبط المعطيات المكانية أيضاً بالزمن؛ وفي هذه الحالة تكون قاعدة المعطيات مكانية وزمنية في آن معاً.
- قواعد المعطيات النصية والمتعددة الوسائطtext and multimedia data bases
ويتضمن هذا النوع من قواعد المعطيات نصوصاً تصف أشياء معيّنة، فمثلاً يمكن إنشاء قاعدة معطيات يُخزن فيها التقارير الواردة عن الأعطال التي تصيب الآلات المركّبة في معمل معيّن. وتكون المعطيات النصية المخزنة في قواعد المعطيات النصية مهيكلة structured ضمن حقول، وتستعمل فيها مفردات محددة سلفاً، وفي بعض الحالات يُترك للمستخدم إدخال ما يرغب من نصوص.
ومن الأمثلة على تطبيقات قواعد المعطيات النصية الموسوعات العلمية والقانونية والطبية. وعندما تُخزَّن صور ومقاطع فيديو وأصوات وغيرها؛ فإن قاعدة المعطيات تصبح متعددة الوسائط. ومن الأمثلة على قواعد المعطيات متعددة الوسائط أنظمة البريد الصوتي، وأنظمة تخزين الأغاني ومقاطع الفيديو واسترجاعها.
- تدفقات المعطيات data flows
يستدعي العديد من التطبيقات تحليل معطيات تتدفق باستمرار، وتدعى تدفق المعطيات. وأهم سمات هذه المعطيات أن حجمها كبير (وربما لا نهائي)، وتتغير باستمرار، وتتدفق بترتيب محدد، ولا يمكن تخزينها بالكامل، وينبغي معالجتها بسرعة. ومن الأمثلة المعروفة على هذا النوع من المعطيات البيانات الواردة من أجهزة القياس، وسجل المكالمات الهاتفية، والرسائل الإلكترونية المتبادلة عبر شركات الاتصالات، وأجهزة مراقبة الأبنية والمنشآت، وأجهزة الرصد الجوي. ولأن هذه المعطيات يصعب تخزينها في مستودع معطيات؛ فإن تحليلها يمثل تحدياً كبيراً، وقد جرى تطوير العديد من النماذج لاكتشاف نماذج عامة للتغيرات الديناميكية في تدفق المعطيات.
فمثلاً إذا طُلب اكتشاف محاولات اختراق نظام حاسوبي معيّن (مثل نظام إدارة البريد الإلكتروني)؛ فيمكن أن يقارن معدل تدفق الطلبات بالمعدلات المألوفة التي جرى حسابها في وقت سابق.
- الشبكة العنكبوتية العالمية the World Wide Web
تتوزع المعطيات عبر العالم ضمن الشبكة العنكبوتية العالمية ضمن مزودي المعلومات (مثل Google و Yahoo و Amazom، وغيرها) في شبكة مترابطة يسهل الوصول إليها.
وعلى الرغم من أن صفحات الوِب قد تبدو جميلة ومفيدة للقارئ؛ فإنها قد تكون غير مهيكلة، ولا تتبع نسقاً محدداً. لذلك يصعب على أنظمة تحليل المعطيات التعامل مع محتوى صفحات الوِب قبل وضعها ضمن قوالب تحدد دلالة محتواها.
ويُلجأ إلى تقنيات البحث عن المعلومات والوِب الدلالي Semantic Webلتحليل محتوى صفحات الوِب واستخراج محددات تُستخدم لاحقاً في عمليات التنقيب.
وظائف التنقيب في المعطيات
يمكن أن يجري التنقيب في المعطيات في أنواع متعددة من قواعد المعطيات ومستودعات المعلومات. ويهدف التنقيب في المعطيات إلى اكتشاف النماذج المفيدة المخبأة ضمن هذه الكميات المتراكمة من المعطيات.
وتُصنف طرائق التنقيب في المعطيات ضمن فئتين أساسيتين، هما: التنقيب الوصفي، والتنقيب التنبئيّ.
· التنقيب الوصفي
يهدف التنقيب الوصفيdescriptive data mining في المعطيات إلى وصف مجموعة المعطيات بطريقة موجزة ودقيقة، كأن تُصنف مجموعة الزبائن ضمن فئات يهتم كل منها بنوع من المنتجات أو تقوم بتجميع الشركات ضمن مجموعات متعاونة.
ويستند التنقيب الوصفي إلى دراسة المعطيات التاريخية لإيجاد نموذج يعبر على نحو ما عن التسجيلات التي تتألف منها المجموعة كاملة.
ومن الأمثلة على التنقيب الوصفي دراسة سلوك زبائن أحد المتاجر لاستنتاج قواعد من نمط: "أكثر الزبائن شراءً يتسوقون يوم الجمعة مساءً" أو "فئة الشباب هي أكثر الفئات إقبالاً على شراء الأجهزة الإلكترونية الحديثة".
· التنقيب التنبئي
تقوم عمليات التنقيب التنبُّئيّ predictive data mining للمعطيات باستخراج نماذج، تستخدم لاحقاً بغرض توقع قيم الواصفات في المعطيات الجديدة، وهي تقوم على تطبيق عملية التنقيب في المعطيات على مجموعة كبيرة من المعطيات التاريخية، ثم تبني نموذجاً أو أكثر للمساعدة على توقع قيم لواصفة معيّنة في تسجيلة جديدة غير موجودة في المعطيات التي بُني نموذج عليها.
ومن الأمثلة على التنقيب التنبُّئيّ دراسة أسعار الأسهم في البورصة لتوقع سعر السهم لشركة معيّنة في اليوم التالي، ومراقبة عمليات الشراء ببطاقات الائتمان لاستنباط نموذج أو مجموعة نماذج تحدد احتمال كون إحدى هذه العمليات محاولةً للاحتيال.
اكتشاف علاقات الربط
تسعى تقنيات التنقيب المختلفة إلى إيجاد قواعد مفيدة ومهمة؛ لأن هذه القواعد سيجري تحليلها وفهمها من قبل أشخاص. فمثلاً ضمن قاعدة معطيات تصف سلوك الزبون ضمن متجر كبير؛ يمكن أن تكون القاعدة التالية: 90 بالمئة من الزبائن الذين يشترون حواسيب يشترون أيضاً طابعات.
وتُعدّ تقنيات التنقيب عن علاقات الربط من أهم التقنيات المتوفرة حالياً في مجال التنقيب في المعطيات، حيث تعتمد فكرة هذه القواعد على إيجاد علاقات الربط بين العناصر المختلفة ضمن قاعدة المعطيات التي تكون فيها مقاييس الدعم support والثقة confidence أكبر من القيم الدنيا المحددة سلفاً لقيمة الدعم الدنيا minimum support وقيمة الثقة الدنيا.
حيث يمكن كتابة القاعدة
إذا:
1. كان العنصران i1 و i2 موجودين سوية بنسبة لا تقل عن s% بالنسبة إلى كل السجلات. ويمثل كل سجل مجموعة جزئية بالنسبة إلى المجموعة الكلية العناصر.
2. كل السجلات التي تضم العنصر i1 ستضم أيضاً العنصر i2 بنسبة لا تقل عن c%.
واحتمال أن يضم السجل كلا العنصرين بمقياس الدعم (s)، واحتمال إن وُجِد عنصر ضمن السجل أن يجري إيجاد العناصر المتبقية بمقياس الثقة (c).
فمثلاً تهدف التطبيقات التقليدية لعمليات التنقيب عن علاقات الربط ضمن بيانات لمتجر بيع إلى إيجاد العناصر التي تُشترى معاً من قبل الزبائن. وتُعدّ كل سلة تسوق بحسب التعريف السابق مناقلةً أو سجلّاً ضمن بيانات المتجر، فعلاقة الربط
تحدد أن قيمة مقياس الدعم 20% من الزبائن يشترون الحواسيبوالطابعات معاً، ومقياس الثقة 90% من الزبائن الذين يشترون حواسيب يقومون أيضاً بشراء طابعات.
كما تستخدم نماذج الربط لاكتشاف اتجاهات العمل من خلال تحليل مناقلات الزبائن، ومن الممكن استخدامها استخداماً فعالاً في توقع زيارة الزبون لصفحات الوِب من أجل إضفاء الطابع الشخصي على صفحات الوِب، فعلى سبيل المثال وعلى فرض أنه بعد التنقيب في معطيات زيارات الزبائن لصفحات الوِب اكتشفت قاعدة ربط من نمط " A وB يقتضي C" معقيمة Confidence هي 80%، حيث إن A وB وC هي زيارات لصفحات الوِب، والقاعدة تعني أنه إذا زار المستخدم الصفحتين A وB؛ فهناك احتمال أن يزور الصفحة C في الجلسة نفسها، ومن الممكن ألّا يكون هناك وصلة مباشرة من A أو B إلى C، فإنه تُستخدم هذه المعلومة لإنشاء وصلة ديناميكية إلى الصفحة C مباشرة من الصفحة A أو B يستفيد منها المستخدم في الوصول المباشر. إن هذا النوع من المعلومات له قيمة في دعم مخدمات الوِب التي تقدم خدمات التجارة الإلكترونية لربط صفحات المنتجات ربطاً فعالاً؛ وذلك بالاعتماد على مناقلات الزبائن. تولد خوارزميات استخراج قواعد الربط من قاعدة المعطيات كل القواعد التي من المحتمل أن تكون مهمة، وهذه النقطة يمكن أن تكون نقطة قوة في نماذج الربط من حيث إنها تقوم بمعالجة قواعد المعطيات بدقة؛ ولكن يمكن كذلك أن تكون نقطة ضعف؛ لأن المستخدم يتشتت بسبب الحجم الكبير من المعلومات الجديدة.
تتعامل نماذج الربط مع المعطيات المسماة "Sparse Data" التي تتميز بأن عدداً صغيراً من الواصفات له قيمة غير صفرية أو ليست مجهولة null في أي سطر من سطور جدول قاعدة المعطيات؛ ومن الأمثلة على هذا النوع من المعطيات معطيات مناقلات الزبائن، حيث إنه من المحتمل وجود 1000 منتج في دليل الشركة وأن الحجم الوسطي لسلة التسوق (مجموعة العناصر التي يشتريها المستخدم في مناقلة عادية) يمكن أن يكون 20 منتجاً، إذاً ثمّة وسطياً 20 من 1000 واصفة ليست مجهولة null؛ أي إن كثافة الواصفات التي ليست مجهولة null هي 2%؛ وفي حال كون المعطيات ذات كثافة أعلى تحتاج عملية إيجاد قواعد الربط إلى حجم كبير من الفضاء المؤقت لبناء قواعد الربط.
إذاً تقوم نماذج الربط بإيجاد علاقة بين مجموعتين غير مترابطتين من العناصر (العلاقة التي تمثل اكتشاف الذهب في قاعدة المعطيات).
§ تسمى المجموعة الأولى والموجودة على الجهة اليسارية بـ Left-Hand Side ويرمز إليها بـLHS أو الشرط Antecedent.
§ تسمى المجموعة الثانية والموجودة على الجهة اليمنى بـ Right-Hand Side ويرمز إليها بـ RHS أو النتيجة Consequent.
§ وتسمى المجموعة LHS U RHS بمجموعة عناصر القاعدة itemset.
وفي نماذج الربط يجري حساب نوعين من الخواص المتعلقة بالقواعد (وحدات قياس)، وهي:
· مقياس الدعم Support: الذي يمثل النسبة المئوية للمناقلات التي تحوي جميع العناصر المتضمنة في القاعدة معاً، أي LHS U RHS، ويدل مقياس الدعم لقاعدة ربط ما على أهمية هذه القاعدة، فكلما كانت قيمة الدعم أعلى زادت أهمية القاعدة؛ وذلك لأنها تمثل الجزء الأكبر من المناقلات الكلية. فمن أجل قاعدة ما هي قياس لتكرار العناصر المتضمنة في هذه القاعدة مع بعضها؛ وباستخدام لغة الاحتمالات 
· مقياس الثقة Confidence: الذي يمثل احتمال حدوث RHS في حال حدوث LHS، ويحسب من العلاقة Support (LHS U RHS) / Support (LHS)، ويدل هذا المقياس على قوة التنبؤ Predictability power للقاعدة، فكلما كانت قيمته أعلى كانت نسبة نجاح التنبؤ أكبر. من أجل قاعدة ما تدل هذه الخاصية على الاحتمال الشرطي لكون A تعطي B؛ وباستخدام لغة الاحتمالات:

وتقوم خوارزميات قواعد الربط على توليد جميع القواعد الممكنة، ومن ثم اختيار القواعد المناسبة منها، وتجري هذه العملية على أساس عتبة معيّنة لوحدات القياس. ولكل قاعدة من قواعد الربط الناتجة والتي تشكل بمجموعها نتيجة خرج نظام إيجاد قواعد الربط التي لها الشكل التالي:

مثال: 
في عملية إيجاد قواعد الربط تكون قواعد الربط التي تتميز بقيمة دعم منخفضة غير مهمة، وتُهمل؛ لأنها تعتمد على عدد قليل من المناقلات، وكذلك فإن قواعد الربط التي تتميز بقيمة ثقة منخفضة غير مفيدة؛ لأن قوة التنبؤ فيها ضعيفة. ومع ملاحظة أنه في بعض الحالات قد يُطلب دراسة قواعد الربط التي لها قيمة دعم منخفضة؛ إذا كانت قيمة الثقة مرتفعة، وذلك قد يدل على حالة نادرة الحدوث؛ ولكنها مهمة (مثلاً في حالة دراسة السلوك الشرائي للزبائن فإن هذه القاعدة قد تدل على عمليات الشراء التي يقوم بها الأثرياء).
من أشهر الخوارزميات التي تقوم بإيجاد قواعد الربط خوارزمية المعرفة المسبَّقةApriori Algorithm و خوارزمية الاعتيان Sampling Algorithm وخوارزمية شجرة الأنماط المتكررة Frequent Pattern Tree Algorithm التي تستخدم خوارزمية تنامي الأنماط FP-growth والتجزئة الخوارزمية Partition Algorithm .
مراجع للاستزادة:- راكان رزوق، التنقيب في المعطيات، الأسس النظرية والتطبيقات، منشورات المركز العربي للتأليف والترجمة والنشر، 2015. - R. Deshpande, Data Mining Models Techniques and Applications, Educohack Press 2025. - I. H. Witten, Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann 2025.
|
- التصنيف : كهرباء وحاسوب - النوع : كهرباء وحاسوب - المجلد : المجلد العاشر، طبعة 2025، دمشق مشاركة :
