Loading...

Saturday, March 3, 2007

Data Mining (DM) استخراج البيانات

اتجاه جديد في استرجاع المعلومات

د. اروى عيسى الياسري
دكتوراة معلومات ومكتبات
العراق _ بغداد
Arwa_alyasiri2005@yahoo.com

مع وجود كميات هائلة من البيانات المخزنة في قواعد البياناتdatabases ومستودعات البيانات الضخمة data warehouses ازدادت الحاجة الى تطوير ادوات تمتاز بالقوة لتحليل البيانات واستخراج المعلومات والمعارف منها ، ومن هنا ظهر ما يسمى باستخراج البيانات Data Mining كتقنية تهدف الى استنتاج المعرفة من كميات هائلة من البيانات. ومن هنا يمكن القول ان تقنية استخراج البيانات DM ما هي الا اتجاه جديد في استرجاع البيانات Information Retrieval (IR) وخاصة تلك المنشورة على شبكة الانترنيت .

لقد ظهرت العديد من التعريفات لهذا المفهوم نذكر منها " التنقيب في مجموعة ضخمة من مجلدات البيانات فضلا عن اكتشاف العلاقات بينها او الاجابة على الاسئلة المتخصصة التي تكون واسعة جدا عند استخدام ادوات الاستعلام التقليدية (6). او انها " عملية استكشاف وتحليل كميات كبيرة من البيانات باستخدام اساليب آليه او شبه اليه اعتمادا على اكتشاف نماذج وقواعد ذات مغزى (1).

يعد استخراج البيانات Data Mining مرحلة من مراحل اكتشاف المعرفة في قواعد البيانات Knowledge Discovery in Database (KDD) التي تشير الى استخراج المفاهيم الضمنية غير الاعتيادية والتي لم تكن معروفة سابقا ، وعملية اكتشاف المعرفة في قواعد البيانات Knowledge Discovery in Database (KDD) تتضمن عدد من المراحل تبدأ من جمع البيانات الخام الى مرحلة الحصول على المعرفة الجديدة ،(4) وفيما يأتي عرض لهذه المراحل :

- تنقية البيانات Data Cleaning : وهي مرحلة عزل البيانات التي تحتوي على تشويش او شوائب Noise من مجموعة البيانات .
- توحيد البياناتData Integration هذه المرحلة غالبا ما تكون مصادر معالجة البيانات متغيرة العناصر وربما تكون مجتمعة في مصدر شائع .
- اختيار البيانات Data Selection : في هذه المرحلة ، يتم تحديد واسترجاع البيانات الملائمة من مجموعة البيانات .
- نقل البيانات Data Transformation : وهي عملية نقل البيانات التي تم اختيارها الى شكل ملائم لاجراءات البحث والاسترجاع.
- استخراج البيانات Data Mining : في هذه المرحلة سيتم تطبيق اسلوب ذكي لاستخراج نماذج مفيدة قدر الامكان .
- تقييم النموذج Pattern Evaluation : بعد استخراج النماذج المهمة والتي تمثل المعرفة يتم تقييمها استنادا الى مقاييس محددة .
- تمثيل المعرفة Knowledge Representation : وهي المرحلة الاخيرة من مراحل اكتشاف المعرفة في قواعد البيانات وهي المرحلة التي يراها المستفيد ، هذه المرحلة الاساسية تستخدم الاسلوب المرئي لمساعدة المستفيد في فهم و وتفسير نتائج استخراج البيانات .

ويمكن ان تنجز مرحلتين في ان واحد وعلى سبيل المثال يمكن انجاز كل من مرحلة تنقية البيانات ومرحلة توحيد البيانات مع بعضها ويمكن ان تشترك مرحلة اختيار البيانات مع مرحلة نقل البيانات .

يتضمن استخراج البيانات DM عدد من الاساليب الرئيسية التي يمكن من خلال استخدامها الوصول الى الهدف من استخدام هذا الاتجاه وهي :

1- قاعدة الارتباط Association Rule :-
قواعد الارتباط Associations Rule هي احد الواجهات الواعدة من Data Mining كاداة من ادوات اكتشاف المعرفة KDD ولديها القدرة على تصفح كميات هائلة من البيانات ، وهي تسمح بالتقاط كل القوانين الممكنة التي تشرح بعض الصفات الموجودة اعتمادا على وجود الصفات الاخرى [2]. وبمعنى اخر هي قواعد ارتباطية معينة بين مجموعة من البيانات في قاعدة البيانات

وتتضمن ايجاد large Item set من خلال المعادلة التالية :





X --> Y تتضمن ايجاد درجة الوثوقية لهذا الارتباط


2- العنقدة clustering:-
وهي عملية تقسيم البيانات الى مجموعة من الاصناف اعتمادا على اشتراكها بالخواص المتشابهة وان العنقدة هي تقسيم غير موجه للبيانات .[3] وهي عكس التصنيف الذي سيرد لاحقا ، كما انها تساعد المستفيد على فهم التركيب الطبيعي للمجموعات من البيانات .

Unsupervised Classification = Clustering

هنا لا نعرف الاصناف و لاعددها.





شكل(1) يبين عملية العنقدة

3 - التصنيف Classification :
يستخدم التصنيف بشكل واسع في حل الكثير من المشكلات خاصة تلك التي تتعلق بالاعمال Business من خلال تحليل مجموعة من البيانات ووضعها على شكل اصناف او اقسام يمكن استخدامها فيما بعد لتصنيف البيانات المستقبلية ،(5) وهنا يكمن الفرق بين التصنيف والعنقدة . وهناك عدد من الطرق التي يمكن استخدامها في تصنيف البيانات باستخدام الخوارزميات مثل الخوارزميات الاحصائية Statistical Alg. وخوارزميات الشبكات العصبية Neural Network Alg. وخوارزميات الوراثة Genetic Alg. وطريقة الجار الاقرب Nearest neighbor method .

4- التحليل التسلسلي Sequential analysis
في هذه الطريقة يتم البحث لاكتشاف نماذج تحدث بالتسلسل اذ تكون المدخلات عبارة عن بيانات تشكل مجموعة متسلسلة وكل سلسلة من البيانات هي قائمة منظمة من العمليات او المصطلحات وعندما تكون العملية عبارة عن مجموعات من المصطلحات لابد ان يحسب معها الوقت المصاحب لكل عملية(5) . ولكن مشكلة هذا النموذج تكمن في ايجاد كل النماذج المتسلسلة مع اقل دعم يخصصه المستفيد عندما يكون الدعم لهذا النموذج هو نسبة تسلسل البيانات التي يتضمنها التموذج .

نماذج تطبيقية في استخدام استخراج البيانات (DM ) في علم المعلومات:

نظرا للمزايا التي يمتلكها هذا الاتجاه تم تنفيذ بعض من اساليبه على سبيل التجارب التطبيقية في موضوعات علم المعلومات ومنها تجربة بناء مكنز آلي باستخدام اسلوبي قاعدة الارتباط Association Rule والعنقدة clustering (7) إذ وبواسطة الاسلوب الاول تم تحليل مستخلصات بحوث علمية وتحديد مجموعة المصطلح الكبير large Item set وبواسطة الاسلوب الثاني تم تجميع المصطلحات في عناقيد ومنها تم الوصول الى المصطلحات العريضة والمصطلحات الضيقة والمصطلحات المترابطة وبالنتيجة تم الحصول على مكنز آلي باستخدام اساليب استخراج البيانات DM اما التجربة الثانية فكانت تدور حول استخدام اسلوب وخوارزميات التصنيف المستخدمة في استخراج البيانات DM لغرض ايجاد طريقة جديدة في التصنيف الالي لمصادر المعلومات في المكتبات (8) .في هذه التجربة تم تحليل مجموعة من البحوث في موضوع تكنولوجيا المعلومات وباستخدام خوارزمية Classification - rule learning تم الحصول على اصناف محددة سيتم اتباعها في المستقبل عندما تصل المكتبة مصادر معلومات في هذا الموضوع .

ولازال موضوع تطبيق استخراج البيانات DM في مجال علم المعلومات وتحديدا استرجاع المعلومات ارضا بكرا بحاجة الى المزيد من البحث واجراء التجارب لغرض الحصول على العديد من الموضوعات والافكار الجديدة التي من شأنها الارتقاء بمستوى خدمات المعلومات .

المصادر:

1- Adriaan و P. and D. Zanting. Data Mining. Addison-Wesley: Harlow, England, 1996.
2- Al-Hamami ,Alaa H., abass F Kader ,Hussein K.Al-khefaji,"Desgin and Implementation of Genenrate of large Dense, or sparce Database to test Association rules Miners" (selected reachers papers), Scientific journal of Fedration of Arab Scintific Research Council, 2002.
3- Botta, Marco "Clustering Techniques ",Dipartimento di Informatica Universitàdi Torino,www.di.unito.it/~botta/didattica /clustering.html,2003.
4- Fayyad, U., G. Piatetsky-Shapiro,P. Smyth, & R. Uthurusamy, Advance in Knowledge Discovery & Data Mining. Cambridge, MA (The AAAI Press/The MIT Press), 1996.
5- Joshi, Karuna Pande . Analysis of Data Mining Algorithms .
6- Michael, J., A. Berry and Gordan S. Linoff, Mastering Data Mining. John Wiley & Sons, Inc, 2000.

7- الياسري ، اروى عيسى ،هديل شوكت العبيدى . تجربة تصميم مكنز الي باستخدام اساليب استخراج البيانات " "Data Mining. _ بحث غير منشورالقي في مؤتمر بلدية دبي الدولي الثالث للتوثيق والارشفة الالكترونية ايلول 2005 .
8- الياسري ،اروى عيسى ،هديل شوكت العبيدي . التصنيف الالي لمصادر المكتبة باستخدام تقنيات التصنيف Classification Techniques في استخراج البيانات Data Mining . بحث غيرمنشور

3 comments:

  1. شكلرا جزيلا ... ^_^
    موضوع جميل

    ReplyDelete
  2. 4- التحليل التسلسلي Sequential analysis
    في هذه الطريقة يتم البحث لاكتشاف نماذج تحدث بالتسلسل اذ تكون المدخلات عبارة عن بيانات تشكل مجموعة متسلسلة وكل سلسلة من البيانات هي قائمة منظمة من العمليات او المصطلحات وعندما تكون العملية عبارة عن مجموعات من المصطلحات لابد ان يحسب معها الوقت المصاحب لكل عملية(5) . ولكن مشكلة هذا النموذج تكمن في ايجاد كل النماذج المتسلسلة مع اقل دعم يخصصه المستفيد عندما يكون الدعم لهذا النموذج هو نسبة تسلسل البيانات التي يتضمنها التموذج .

    ReplyDelete