التمثيل البياني الإحصائي
تمثيل بياني احصايي
Statistical graphs -
نضال شمعون
استخدامات التمثيل البياني الإحصائي في العلوم والهندسات
تُطلَق تسميةُ التمثيل البياني (الرسم البياني، البيان) الإحصائي statistical graph على تقنيات بيانيّة في مجال الإحصاء تهدف إلى إظهار معطيات كمّيّة quantitative data بشكل مرئيّ وإبصاريّ. وحيث إن نتائج علم الإحصاء وتحليل المعطيات غالباً ما تكون بشكل أرقام أو جداول رقميّة؛ لذا تسمح التقنيات البيانيّة لهذه النتائج أن تظهر بشكل صور. يعتمد تحليل المعطيات الاستكشافي (الاستقصائي) exploratory data analysis على مثل هذه التقنيّات؛ إذ إنها تزوّد بأفكار مبصِّرة عن مجموعة المعطيات يمكن أن تساعد على تطبيقات إحصائيّة عديدة، مثل اختبار الفرضيّات hypothesis testing، واختيار النموذج model selection، وإقرارصلاحية نموذج الانحدار (الانكفاء) regression model validation، واختيار المُقدِّر estimator selection، وتَعَرُّف العلاقة Relation identification، وتحديد أثر العامل factor effect determination، وكَشف القيم المنعزلة (المتطرفة) outlier detection.
يهدف التمثيل البياني الإحصائي إلى تحقيق عدّة أهداف، منها كشف محتوى مجموعة المعطيات، والتحقّق من فرضيّات ما في نماذج إحصائيّة، ونقل نتائج تحليل ما؛ بحيث يمكن القول: إنه من دون استخدام البيانيات الإحصائيّة تزداد فرصة فقد الإلهام والأفكار الخلاّقة عن البنية التحتيّة للمعطيات. يُعَدّ إظهار المعطيات فنّاً وعلماً على حدّ سواء، فقد يعدّه بعض الباحثين جزءاً من الإحصاء الوصفي descriptive statistics يقدِّم المعطيات بطريقة ملأى بالمعاني، في حين يعدّه بعضهم الآخر أداةً قائمةً بحدّ ذاتها لتطوير النظريّة.
يستدعي كل ظرفٍ أنواعاً مختلفة من البيانيات، وتُحدِّد طبيعة المعطيات: وصفيّة qualitative أم كمّيّة quantitative أم مزدوجة paired، نوعَ التمثيل البياني الملائم.
1. البيان (المبيان) القُضباني
البيان القُضباني bar graph بيان يستخدم قضبان شاقولية يوافق كل منها فئة معيّنة من مجموعة المعطيات، وتحدِّد ارتفاعات القضبان عدد المعطيات في الفئات الموافقة. يمكن عدّ البيان القُضباني تعميماً للـبيان الخطّي line graph حيث لا سماكة للخطوط المستقيمة؛ في حين يجري الحصول على مُضلَّع تكراري frequency polygon عند الوصل بين نقاط البيان الخطّي بخطوط مستقيمة. ويبيّن الجدول (1) مثالاً على مجموعة معطيات للراتب الابتدائي.
الجدول (1) مثال على مجموعة معطيات. | ||||||||||||||||||||||||
|
ويبيِّن الشكل (1) بيان الخطوط على اليمين والبيان القضباني على اليسار؛ وفي الوسط المضلّع التكراري، استناداً إلى معطيات الجدول (1). ويلاحظ من الشكل (1) سهولة تحديد الفئة المهيمنة من البيانَ القُضباني.
![]() |
الشكل (1) |
2. المخطط الدائري
يُستخدَم المخطط الدائري pie chart عندما لا تكون المعطيات من طبيعة رقميّة، فمثلاً يبيّن الشكل (2) مثالاً على مخطط دائري يدلّ على التكرارات النسبيّة لأنواع السرطانات المنتشرة. ومن المتّفق عليه أن البيان القضباني أسهل قراءة من المخطط الدائري.
![]() |
الشكل (2) مثال على مخطط دائري يدل على أنواع السرطانات المنتشرة. |
3. المُخطَّط الدَرَجي
يطلق اسم المخطّط الدَرَجي (الشريطي، التكراري) histogram على البيان القضباني الموافق للمعطيات المقسَّمة وفق مجالات الصفوف class intervals، وحيث المحور الشاقولي يدلّ على التكرار المطلق (أو النسبي) في الصفّ. فعندما يكون عدد المعطيات كبيراً يجري تقسيمها إلى زمر groups أو مجالات الصفوف class intervals، حيث يُحدِّد عدد المعطيات في كل مجال صفٍّ، وترسم البيانيات الموافقة. ينبغي اختيار عدد مجالات الصفوف كحلٍّ وسط بين عدم فقد معلومات جمّة عندما يكون العدد صغيراً؛ وبين ألا تكون قيمة التكرار في كل صف صغيرة عندما يكون عدد الصفوف كبيراً. تُختار عادة مجالات الصفوف بأطوال متساوية. فعلى سبيل المثال؛ من أجل المعطيات المبيّنة في الجدول (2) والمُعبِّرة عن أعمار حياة 200 مصباح كهربائي مُقدَّرة بالساعات؛ يجري الحصول على المُخطَّط الدَرَجي المبيّن في الشكل (3).
الجدول (2) معطيات أعمار الحياة بالساعات لمئتي مصباح كهربائي. | ||||||||||||||||||||||
|
![]() |
الشكل (3) المخطط الدَرَجي الموافق لمعطيات الجدول (2). |
4. مخطط السَّاق والورقة
مخطط السَّاق (الجذع) والورقة stem and leaf diagram مخطط تكراري تكون فيه نقاط المعطيات الواقعة ضمن كل مجالِ صفٍّ مُدرجةً بالترتيب. وتُتَصوَّرُ مجالات الصف مثل ساق نبتة، ونقاط المعطيات مثل أوراق النبتة. يقسم مخطط السَّاق والورقة أي قيمة من معطيات كمية إلى قسمَين: الجذع ويوافق غالباً قيمة الرتب العليا، والورقة التي توافق قيمة الرتب الدنيا؛ فتزوّد بذلك بطريقة متراصّة لإيراد جميع القيم. وكمثال يبيّن الجدول (3) مخطط السَّاق والورقة من أجل مجموعة المعطيات {62، 67، 77، 78، 78، 79، 80، 83}.
الجدول (3) مثال على مخطط السَّاق والورقة. | ||||||||
|
5. بيان المتسلسلات الزمنيّة
يُستخدَم بيان المتسلسلات الزمنية time series graph لإظهار معطيات مرتبة وفق تسلسلها الزمني، فإذا سجل عدد السكان في الولايات المتحدة خلال أعوام القرن العشرين؛ أمكن إظهار هذه المعطيات كبيان متسلسلات زمنية والمعطى بالشكل (4)، حيث يدل المحور الأفقي على الزمن مقيساً بالأعوام، ويمثل المحور الشاقولي عدد السكان. ويُلاحظ هنا أن مجموعة المعطيات الاثنانية لا تكون عشوائية.
![]() |
الشكل (4) مثال على بيان متسلسلات زمنيّة. |
استخدامات التمثيل البياني الإحصائي في العلوم والهندسات
ازداد استخدامُ التمثيل البياني الإحصائي في العلوم والهندسات كثيراً في القرن العشرين. فلدى تصفّح أي مجلة علميّة أو هندسية فإن النصَّ المكتوب يكون مُدرَجٌ ضمنه أشكال وبيانيات تشغل نسبة ملموسة (نحو الثلث عموماً) من حجم المقالة. من ناحية أخرى يقوم العلماء في مجالات عديدة بتجميع المعطيات الرقميّة، مثل مواضع الزلازل وشدّاتها في علم الجيولوجيا، أو أطوال منقار عصفور الدوري في علم الحيوان، أو قيم تركيز غاز ثنائي أكسيد الكربون في الغلاف الغازي في علوم البيئة، ولكن هذه المعطيات الرقمية كثيراً ما تُقدَّمُ بشكل بيانيات من أجل تفسير التغيّرات والنزعات في المعطيات. فمثلاً يبيّن الشكل (5) بيان قيم تركيز غاز ثنائي أكسيد الكربون في الجوّ فوق بركان ماونا لوا Mauna Loa في هاواي، وفيه يدل المحور الأفقي على عام القياس ويدل المحور الشاقولي على قيمة التركيز.
![]() |
الشكل (5) بيان قيم تراكيز CO2 في الجوّ فوق بركان ماونا لوا بدلالة للزمن. |
من الصعب حتى على الخبراء في علوم الجوّ إدراك ماهيّة جدولٍ يحتوي مثلاً على قيمٍ عديدةٍ لتراكيز ثنائي أكسيد الكربون carbon dioxide (CO2) معطاة بأجزاء بالمليون parts per million (ppm)؛ في حين يسمح البيان بالكشف عن نزعتَين اثنتَين: واحدة على المدى القريب، والأخرى على المدى البعيد.
من الأفضل أحياناً -عند إجراء قياسات عبر أدواتٍ ذات دقّة محدودة- وضع علامات تبين مقدار الارتياب في القياس. ويبيِّن الشكل (6) وجودَ نزعة تعبِّر عن اعتماد مقدار إصدار التربة للزئبق على زمن إجراء قياس الإصدار (في يومٍ واحِد)؛ إذ القيم المُعبَّر عنها بقضبان حمراء تتغيّر بشكل يتجاوز مقاديرَ الارتياب التي تدل عليها القطع المستقيمة السوداء اللون.
![]() |
الشكل (6) إصدارات الزئبق من التربة بدلالة ساعة الإصدار. |
يستخدم كل مجال في العلوم نوعاً من التمثيل البياني ملائماً لأغراضه، فعلى سبيل المثال يستخدم علماء الحياة Biologists شجرات السلالات (المخطّطات الغصنيّة) cladograms لتبيان كيفية ارتباط أنواع الكائنات بعضها ببعض، وطبيعة الميزات التي تتشارك فيها. أما علماءالجيولوجيا Geology؛ فيستخدمون الشبكات المجسمة (الحجمية) Stereonet التي تمثل ما في داخل نصف الكرة الأرضيّة من أجل تصوير اتجاهات الطبقات الصخرية. ثمة الكثير من المجالات العلمية التي يستخدم فيها بيانيات ثلاثية الأبعاد لتمثيل ثلاثة متحولات قد لا تمثل متحولات المكان الثلاثي.
والتمثيل البياني الإحصائي مهم جداً في مجالالفيزياء النظرية theoretical physics من أجل قبول نموذج ما أو رفضه. فمثلاً يبيّن الشكل (7) نتائجَ تجارب متنوعة في اختبار نموذج المادة الخفية (العاتمة) dark matter ذات الجسيمات الضخمة ضعيفة التآثر Weakly Interacting Massive Particles (WIMP)e ؛ إذ يقدم البيان من أجل أي قيمة لكتلة المادة الخفية (المحور الأفقي) حدوداً عليا بـمستوى ثقة confidence level قدره 90% لقيمة المقطع الفعال interaction cross section لتبعثر المادة العاتمة المرن عن النوكليون nucleon، وتوافِق الخطوط المتصلة والمتنوعة الألوان نتائج تجارب مختلفة، في حين تبيِّن المنطقتان الخضراء والصفراء تنبؤات نموذج معيّن (اسمه نموذج خلفية فقط background-only model) عند مستوى ثقة 1-σ و 2-σ على الترتيب؛ ممّا يسمح برفضه عند مستوى 1-σ اعتماداً على نتيجة تجربة الزِّنون الجوفي الكبيرة Large Underground Xenon (LUX) experiment المشتركة. أما المنطقتان الرماديتان الغامقة والفاتحة؛ فتوافقان كذلك مستوَيَي ثقة 1-σ و 2-σ من أجل نموذج فائق التناظر خاص يدعى باسم SUSY CMSSM.
![]() |
الشكل (7) المقطع الفعّال لتبعثر المادة الخفية مع النوكليون بدلالة كتلتها. |
الأدوات البرمجيّة الحديثة ذات الصلة
كان لتطوير برمجيّات خاصة إحصائية أثر كبير في ازدياد استخدام البيانيات الإحصائية، كما أن كثيراً من هذه البرمجيات سمح بإضافة أدوات تلميحية cue tools -مثل الأسهم- إذ بيّنت دراسات كثيرة أن إضافة مثل هذه التلميحات تساعد على توضيح النزعات والميول بسرعة في المعطيات. من أشهر هذه البرمجيات الراهنة هي بيئات أر R، وماتلاب Matlab، وأوريجين Origin، وساس SAS، وإكسل Excel وأكسس Access، وروت Root. وهذه بيئات متعدّدة الأغراض، وبيئة كوسموموك CosmoMC الملائمة لأغراض علم الكون، وسيغمابلُت SigmaPlot وغنوبلُت Gnuplot؛ وهما بيئتان سهلتا الاستعمال وشائعتان للأغراض العلمية، وبريزم Prism المألوف عند الصيادلة والعاملين في علم الحياة، وبيئة سي إس برو CSPro الخاصّة باستطلاعات الرأي والاستبيانات، وبيئة أيدل IDL والبديل منها جيدل GDL المحتوية على إمكانات البرمجة غرضيّة التوجّه object-oriented programming. وبعض هذه البرمجيّات مجّاني (مثل R, Root, CosmoMC)، لكنها قد تتطلّب نُظُمَ تشغيل معينة (إكسل وأكسس تعمل مع نظام التشغيل ويندوز Windows حصراً، وتحتاج بيئة جيدل GDL إلى نظام يونيكس Unix عادةً).
أخيراً تجدر الإشارة إلى أن كثيراً من هذه البيئات تمتلك قدرة اختزال معطيات متعددة الأبعاد؛ وذلك بإسقاطها على فضاءات جزئية ذات أبعاد أقل (عادة ثنائية أو ثلاثيّة البعد) يمكن إظهارها للرؤية على شاشة الحاسوب، وأهم الخوارزميات المُستخدَمة في مجال إيجاد الفضاء الجزئي الموافِق لأقل تشوه عند إسقاط المعطيات عليه هي خوارزمية تحليل المركّبة الرئيسة Principal Component Analysis (PCA).
مراجع للاستزادة: - C. Heumann, M. Schomaker, Introduction to Statistics and Data Analysis, Springer, 2022. - R. S. Kenett, S. Zacks, P. Gedeck, Modern Statistics: A Computer-Based Approach with Python, Birkhäuser, 2022. - M. Maathuis, M. Drton, S. Lauritzen, M. Wainwright, Handbook of Graphical Models, CRC Press, 2019. - A. McDonnell Sill, Statistics for Laboratory Scientists and Clinicians: A Practical Guide, Cambridge University Press, 2021. - K. Rajaram, Statistical Analysis: Graphs and Diagrams, Spectrum Books Pvt. Ltd, 2024.
|
- التصنيف : تقانات الفضاء والفلك - النوع : تقانات الفضاء والفلك - المجلد : المجلد العاشر، طبعة 2025، دمشق مشاركة :