التحليل العميق

بحث متقدم

أ ب ت ث ج ح خ د ذ ر ز س ش ص ض ط ظ ع غ ف ق ك ل م ن هـ و ي

التحليل العميق

تحليل عميق

Deep Analysis -

التحليل العميق

راكان رزوق

البيانات الكبيرة big data

أنواع تحليل البيانات العميق

التعلّم العميق deep learning

يُعدّ تحليل البيانات data analysis من أهم الوظائف التي تُعنى الأنظمة المعلوماتية بتأديتها، وتزداد أهمية هذا العلم مع تطور الوسائل المعلوماتية المستخدمة في إنتاج البيانات وتحصيلها ونقلها وتخزينها. والهدف الأساسي من تحليل البيانات استخلاص معارف مفيدة من الكميات المتزايدة من البيانات الواردة إلى الأنظمة المعلوماتية والمُخزنة فيها.

وعلى الرغم من ظهور أدوات إضافية لتحليل البيانات في نظم إدارة قواعد البيانات، فإن هذه الأدوات -التي تُدعى أدوات المعالجة التحليلية الآنية Online Analytical Processing (OLAP) - بقيت قاصرة عن تحليل البيانات تحليلاً معمقاً؛ وعاجزة في الوقت نفسه عن استخراج المعرفة المفيدة المخبأة ضمن نظم قواعد البيانات. ولذلك وُصفت قواعد البيانات الموجودة لدى معظم المؤسسات بأنها غنية بالبيانات، ولكنها فقيرة إلى المعلومات.

ويهدف التحليل العميق deep analysis إلى سدّ هذا العجز. ولتوضيح هذه الفكرة أكثر يكفي النظر إلى كميات البيانات التي تتجمع في الأنظمة المعلوماتية العاملة لدى المؤسسات المألوفة، مثل المصارف، حتى يُتبين أنها تراكمت فيها كميات من البيانات تتجاوز قدرة الإنسان على التحليل والفهم من دون أدوات قوية. وغدت مستودعات البيانات المرتبطة بهذه الأنظمة «مقابر للبيانات» لا يزورها مستخدمو الأنظمة المعلوماتية إلا فيما ندر. وبقي اتخاذ القرار يعتمد إلى حد بعيد على خبرة متخذ القرار وحدسه، ولا يُبنى على معلومات يستقيها من البيانات التي تجمعت خلال سنوات من استخدام الوسائل المعلوماتية. وقد اتسعت هذه الفجوة بين كمية البيانات المتراكمة في المؤسسات والمعلومات المفيدة المطلوبة لاتخاذ القرار؛ مما استدعى البحث عن أدوات جديدة لتحليل البيانات، ومنها التحليل العميق، لاكتشاف أنماط المعلومات المهمة المخبأة فيها.

يشمل تحليل البيانات طيفاً واسعاً من العمليات مثل تجميع البيانات وتنظيمها وتهيئتها وتحويلها، ونمذجتها وتفسيرها. كما يتطلب تحليل البيانات معارف ومهارات في مجالات مختلفة مثل: الإحصاء والتعلّم الآلي والتنقيب في البيانات data mining والبرمجة، وغيرها.

لذلك ظهر ما يدعى علم البيانات data science وهو مجال متعدد التخصصات يستخدم الأساليب العلمية من عمليات وخوارزميات وأنظمة لاستخراج المعرفة من البيانات. يدمج علم البيانات بين علوم الإحصاء، وتحليل البيانات، والتعلم الآلي، والطرائق المرتبطة بها من أجل فهم الظواهر وتحليلها استناداً إلى البيانات.

ثمة علاقة وثيقة بين علم الإحصاء وعلم البيانات، إلا أن علم البيانات يتصدى لمعالجة مجموعات البيانات الضخمة بنوعيها الكمي والوصفي، ويركز على استخراج السمات الفريدة في هذه البيانات من أجل استخراج نماذج جديدة تفيد في عمليات الوصف والتنبؤ. ويتضمن علم البيانات الكبيرة.

البيانات الكبيرة big data

البيانات الكبيرة علمٌ يُعنى بدراسة طرائق معالجة مجموعات ضخمة من البيانات وتخزينها ونقلها. وهذه المجموعات كبيرة ومعقدة لدرجة لا يمكن التعامل معها وإدارتها باستخدام تقنيات معالجة البيانات التقليدية. تتميز البيانات الكبيرة تميزاً أساسياً بثلاث سمات أو محاور أساسية، تُعرف بمصطلح ثري في «Three Vs»، وهي:

- الحجم Volume.

- التنوع Variety.

- السرعة Velocity.

وقد أضيفت لاحقاً عدة حروف Vs، مثل القيمة Value، والوثوقية Veracity، وغيرها. وجرى تطوير الكثير من التقنيات والأدوات الخاصة بمعالجة البيانات الكبيرة وتخزينها، وأهمها: النموذج البرمجي map reduce، ونظام الملفات الموزع Hadoop Distributed File System (HDFS) الخاص بنظام تخزين المعطيات الكبيرة Hadoop، كذلك محركات مُعالجة البيانات الكبيرة Spark، Storm.

أنواع تحليل البيانات العميق

يجري عادةً التمييز بين نوعين من طرائق تحليل البيانات:

أ- التحليل الوصفي descriptive analysis: ويهدف إلى تلخيص البيانات أو تكثيفها من أجل استخلاص أنماط منها. من الأمثلة على التحليل الوصفي احتساب بعض القيم الإحصائية مثل المتوسط الحسابي وتشتت عينة من القيم الرقمية، أو تجميع الأشخاص في صفوف وفق سمات معينة (مثل العمر أو مستوى التعليم أو الدخل الشهري)، أو العرض البياني الذي يظهر تطور ظاهرة معينة (مثل ِدرجات الحرارة في منطقة ما من العالم).

ب- التحليل التنبئي predictive analytics: ويهدف إلى استخلاص نماذج من البيانات بحيث يُمكن استخدامها لتوقع قيم مستقبلية للبيانات. يستند التحليل التنبئي إلى إيجاد نموذج يساعد على توقع قيم جديدة بدقة معينة. من الأمثلة على التحليل التنبئي دراسة مدى التزام المقترضين تسديدَ الأقساط المترتبة عليهم، وبناء نموذج من خلال دراسة تاريخ المقترضين السابقين، بحيث يمكن لإدارة المصرف تقدير مدى التزام طالب القرض الجديد تسديدَ الأقساط.

وهذا التمييز ليس حصرياً؛ إذ يمكن لبعض الطرائق أن تخدم الهدفين معاً. ويستعمل التحليلان إمكان التعلم والتعليم في هذا المجال.

التعلّم العميق deep learning

التعلم العميق هو وظيفة من وظائف الذكاء الصنعي Artificial Intelligence (AI) تحاكي عمل الدماغ البشري في معالجة البيانات وبناء نماذج وأنماط للاستخدام في صنع القرار. وهو مجموعة فرعية من التعلم الآلي في الذكاء الصنعي؛ يقوم على استخدام شبكات عصبونية صنعية قادرة على التعلم غير الخاضع للرقابة من البيانات غير المنظمة أو غير المصنفة. يُعرف أيضاً باسم التعلم العصبوني العميق أو الشبكات العصبونية العميقة.

تطور التعلم العميق جنباً إلى جنب مع الزيادة الهائلة في حجوم البيانات بجميع أشكالها والتي ترد من مصادر كثيرة مثل وسائل التواصل الاجتماعي، ومحركات البحث على الشابكة (الإنترنت)، ومنصات التجارة الإلكترونية، وأنظمة الاتصالات وغيرها. هذه الكمية الهائلة من البيانات يمكن الوصول إليها بسهولة، ويمكن مشاركتها بوساطة التطبيقات المعلوماتية مثل الحوسبة السحابية cloud computing.

يمكن تحليل هذه البيانات وفهمها واستخراج معلومات مفيدة منها بالوسائل التقليدية، لكن الشركات تدرك الإمكانات المذهلة التي يمكن أن تنجم عن كشف هذه الثروة من المعلومات، وتسعى إلى توظيف أنظمة الذكاء الصنعي للحصول على الدعم الآلي.

يُعدُّ التعلم الآلي من أكثر تقنيات الذكاء الصنعي شيوعاً والمستخدمة في معالجة البيانات الضخمة، ويستند إلى خوارزميات ذاتية التكيف تزداد دقتها بتراكم الخبرة أو بزيادة البيانات المضافة حديثاً. على سبيل المثال:

إذا أرادت شركة مدفوعات رقمية اكتشاف حدوث احتيال في نظامها، فيمكنها استخدام أدوات التعلم الآلي لهذا الغرض. وستقوم الخوارزمية بمعالجة جميع العمليات المصرفية المسجلة في النظام المعلوماتي، والعثور على الأنماط في مجموعة البيانات والإشارة إلى أي شذوذ يكتشفه النمط.

يستخدم التعلم العميق مستوى هرمياً من الشبكات العصبونية لتنفيذ عملية التعلم الآلي. تُبنى الشبكات العصبونية الصنعية هذه بربط الخلايا العصبونية معاً بروابط موزونة. وفي حين تُبنى البرامج التقليدية لتحليل البيانات بطريقة خطية؛ فإن الوظيفة الهرمية لأنظمة التعلم العميق تمكن الآلات من معالجة البيانات باستخدام نهج غير خطي.

ومن النماذج الأساسية في بناء شبكات التعلم العميق:

1. الشبكات العصبونية ذات التغذية المباشرة إلى الأمام Feed Forward Neural Networks (FFNNs): وهي أقدم أنواع الشبكات العصبونية، إذ يعود تاريخها إلى أربعينيات القرن الماضي، وهي ببساطة شبكات عصبونية ليس فيها أي حلقات. تمر البيانات من الدخل إلى الخرج في مسار واحد من دون أي «ذاكرة حالة» لما حدث من قبل.

2. الشبكات العصبونية التلافيفية Convolutional Neural Networks (CNN): هي الشبكات المعروفة أيضاً باسم ConvNets، وهي شبكات تغذية عصبونية للأمام تستخدم التحويلات المكانية لتعلم الأنماط المحلية بكفاية، وخاصة في تحليل الصور. تُستخدم هذه الشبكات لتصنيف الصور واكتشاف الكائنات ومعرفة إجراءات الفيديو وأي بيانات تحتوي على بعض الثبات المكاني في هيكلها (على سبيل المثال: صوت الكلام).

3. الشبكات العصبونية المتكررة Recurrent Neural Networks (RNNs): وهي شبكات فيها حلقات ومن ثمّ «ذاكرة الحالة». ويمكن فتحها في الوقت المناسب لتصبح شبكات تغذية إلى الأمام حيث تجري مشاركة الأوزان. تُستخدم هذه الشبكات في تطبيقات نمذجة اللغة الطبيعية وتعرف الكلام وتوليده وما إلى ذلك.

مراجع للاستزادة:

- E. Jiang, R, Li, C. T. Crookes, D. Meng, W. Rosenberger, C. Deep Biometrics, Springer International Publishing 2020.

- J. D. Kelleher and B. Tierney, Data Science,The MIT Press Essential Knowledge series 2020.

- S. Kevin Zhou, H. Greenspan , & 1 more, Deep Learning for Medical Image Analysis, Academic Press 2017.

- MIT Deep Learning Basics: Introduction and Overview, https://medium.com/tensorflow/mit-deep-learning-basics-introduction-and-overview-with-tensorflow-355bcd26baf0.

- I. Goodfellow, Y. Bengio, A. Courville, Deep Learning, https://www.deeplearningbook.org/front_matter.pdf