เหมืองข้อมูล (Data Mining)

4 มกราคม 2023

เหมืองข้อมูล (Data Mining) เป็นหนึ่งในความรู้สมัยใหม่ที่ได้รับความนิยมอย่างมากในปัจจุบัน โดยได้ถูกประยุกต์ใช้ในแทบทุกองค์กร ไม่ว่าจะเป็นภาครัฐและเอกชนเพื่อใช้ในการตัดสินใจ การวางแผนกลยุทธ์ การปรับปรุงการให้บริการและการดำเนินงานต่าง ๆ ในองค์กร เหมืองข้อมูล เป็นการทำงานที่เน้นการค้นหาสารสนเทศหรือองค์ความรู้จากข้อมูลขนาดใหญ่ เพื่อนำสิ่งที่ได้มาใช้ให้เป็นประโยชน์ โดยเหมืองข้อมูลเป็นการผสมผสานศาสตร์ทางสถิติ ปัญญาประดิษฐ์ การรู้จำ และฐานข้อมูลเข้าด้วยกัน

สั่งซื้อหนังสือ

สัมภาษณ์นักเขียน

Data Mining คือ Data mining is a blend of statistics, artificial intelligence and database research.” นับตั้งแต่ปี ค.ศ. 1990 เหมืองข้อมูลได้กำเนิดขึ้นโดยแฝงอยู่ในงานด้านต่าง ๆ เช่น ด้านการศึกษา ด้านธุรกิจ ด้านการแพทย์ เป็นต้น เมื่อเริ่มต้น Daryl Pregibon (Pregibons, 1996)

เมื่อถอดความจะได้ว่า “เหมืองข้อมูลเป็นการผสมผสานงานวิจัยทางสถิติ ปัญญาประดิษฐ์ และฐานข้อมูลเข้าไว้ด้วยกัน” เหมืองข้อมูลจัดเป็นกระบวนการอัตโนมัติ เพื่อค้นพบข้อสนเทศหรือองค์ความรู้ รูปแบบ หรือแม้แต่ตัวแบบเพื่อการพยากรณ์จากฐานข้อมูลขนาดใหญ่ แต่การค้นหาสารสนเทศบางงานไม่จัดเป็นการทำเหมืองข้อมูล เช่น การหาข้อมูล บางชุดในฐานข้อมูล การค้นหาข้อความหรือความหมายคำทางเว็บไซต์ เป็นต้น รวมไปถึงงานด้ านการค้นคืนสารสนเทศ (Information Retrieval) ผ่านเครื่องจักรเพื่อการสืบค้น (Search Engine) ก็จัดเป็นงานที่ไม่ใช่เหมืองข้อมูล แต่เป็นกลไกการจัดเก็บเชิงโครงสร้างและการใช้อัลกอริทึม ที่มีประสิทธิภาพในการค้นคืนข้อมูล อย่างไรก็ตาม เทคนิคเหมืองข้อมูลถูกนำมาใช้เพื่อเพิ่มประสิทธิภาพของระบบการค้นคืนสารสนเทศ (Information Retrieval System)

หนังสือเล่มนี้เน้นการนำเสนอแนวคิดและขั้นตอนวิธีของเทคนิคเหมืองข้อมูลต่าง ๆ เช่น เทคนิคต้นไม้ตัดสินใจ โครงข่ายประสาทเทียม การจัดกลุ่มด้วยเคมีน การวิเคราะห์ความสัมพันธ์ เป็นต้น โดยผู้เขียนได้ยกตัวอย่างงานวิจัยที่เกี่ยวกับการประยุกต์ใช้เหมืองข้อมูลที่ผู้เขียน ผู้ร่วมวิจัย และนักศึกษาได้จัดทำร่วมกันเพื่อเป็นแนวทางการประยุกต์ใช้ให้กับผู้อ่าน นอกจากนี้ผู้เขียนได้ใช้โปรแกรมเหมืองข้อมูล เวกา (Weka) ที่พัฒนาโดย University of Waikato ประเทศนิวซีแลนด์ เพื่อนำเสนอผลลัพธ์การทำงานของแต่ละเทคนิคเหมืองข้อมูล โดยโปรแกรมเวกามีรูปแบบการใช้งานง่าย เหมาะกับการใช้งานเพื่อศึกษาเทคนิคเหมืองข้อมูล

1. แนะนำการทำเหมืองข้อมูล (Introduction to Data Mining)

ในชีวิตประจำวันของเราทุกคนจะต้องข้องเกี่ยวกับข้อมูลต่าง ๆ มากมายที่เราจำเป็นต้องจดจำและจดบันทึกลงบนกระดาษหรือบนอุปกรณ์ช่วยจำ ตั้งแต่อดีตจนถึงปัจจุบันมนุษยชาติ มีการบันทึกข้อมูลเรื่องราวต่าง ๆ อย่างต่อเนื่องเพื่อเก็บไว้เป็นข้อมูลทางสถิติหรือข้อมูลทางประวัติศาสตร์ เพื่อนำข้อมูลเหล่านี้มาใช้ให้เกิดประโยชน์ต่อการวางแผนการทำงาน การกำหนดทิศทางการดำเนินงาน หรือเพื่อสนับสนุนการตัดสินใจในเรื่องต่าง ๆ เช่น การทำนายผลประกอบการของบริษัท การวางแผนงานเชิงรุกของบริษัท เป็นต้น

ถ้าเราลองพิจารณาถึงข้อมูลส่วนบุคคลต่าง ๆ ที่เราต้องจัดเก็บตั้งแต่เกิด จะประกอบด้วยข้อมูลมากมาย เช่น วันเกิด น้ำหนักแรกเกิด ความสูง น้ำหนัก โรคภัย วุฒิการศึกษา ประวัติการทำงาน อายุ เงินเดือน วันแต่งงาน บันทึกค่าใช้จ่าย วันตาย เป็นต้น ข้อมูลเหล่านี้เป็นเพียงตัวอย่าง อันเล็กน้อยของข้อมูลที่มีการจดบันทึกและจัดเก็บจริงของคนคนเดียว แต่ถ้าลองคิดดู คนบนโลกใบนี้ ที่มีจำนวนกว่าหมื่นล้านคนจะมีปริมาณข้อมูลจำนวนมากมายมหาศาลเพียงใด และนอกเหนือ จากข้อมูลส่วนบุคคลแล้ว ยังมีข้อมูลแวดล้อมอื่น ๆ อีกมากมายที่อยู่รอบตัวเรา เช่น ราคาอาหาร ราคาน้ำมัน ราคาทอง ปริมาณน้ำฝนและอุณหภูมิจากสถานีวัด ภาพถ่ายจากดาวเทียม ข่าวสาร ในแต่ละวัน เป็นต้น

2. การเตรียมข้อมูล (Data Preprocessing)

ในแต่ละวันเราจะได้รับข้อมูลและสารสนเทศมากมาย โดยข้อมูลเหล่านี้อาจจะเป็นข้อมูลที่ผ่านมาและผ่านไปโดยที่เราไม่ได้สนใจ หรือบางทีอาจเป็นข้อมูลที่มีความสำคัญที่เราจะต้อง จดจำและรับทราบเอาไว้ หรือเป็นข้อมูลที่เราต้องเก็บมาวิเคราะห์ สังเคราะห์ เพื่อนำไปใช้ให้เกิดประโยชน์ต่อไป

ข้อมูล (Data) คือ ข้อเท็จจริงเกี่ยวกับเรื่องที่เราสนใจ ซึ่งอาจเป็นการจัดเก็บแบบ จดบันทึกรายวัน หรือเป็นการจัดเก็บอย่างมีระบบระเบียบในลักษณะของฐานข้อมูล ซึ่งในที่นี้ จะอธิบายข้อมูลในมุมมองของกลุ่มของค่าของข้อมูลที่อยู่รวมกัน ซึ่งจะเรียกว่า ลักษณะประจำ (Attributes) หรือตัวแปร (Variable)

โดยความหมาย ลักษณะประจำ (Attributes) คือ คุณสมบัติหรือลักษณะประจำของ ข้อมูลหรือวัตถุหรือสิ่งที่เราสนใจ เช่น ลักษณะประจำอายุ ลักษณะประจำเพศ ลักษณะประจำสีตา เป็นต้น ซึ่งจะมีลักษณะและค่าแตกต่างกันไป

3. เทคนิคการจำแนก (Classification)

เทคนิคการจำแนกเป็นเทคนิคหนึ่งในการทำเหมืองข้อมูลที่ใช้เพื่อทำนายคำตอบที่เป็น ค่าเชิงคุณภาพ (Qualitative Value) หรือค่าเต็มหน่วย (Discrete Value) หรือค่าแบบแค็ตตาล็อก (Catalogue Value) เช่น ใช่/ไม่ใช่ ซื้อ/ไม่ซื้อ คำตอบ ก/ข/ค/ง ระดับความพึงพอใจ ดีมาก/ดี/พอใช้ เป็นต้น โดยใช้หลักการการนำชุดข้อมูลที่มีอยู่มาพัฒนาโมเดลเพื่อการจำแนก และประยุกต์ ใช้หาคำตอบหรือทำนายคำตอบของข้อมูลชุดใหม่ (Unseen Objects) ที่เข้ามา

โดยเทคนิคนี้ได้รับความนิยมอย่างมาก และถูกนำมาประยุกต์ใช้เพื่อสนับสนุน การตัดสินใจทางธุรกิจและทางวิทยาศาสตร์ เพราะการพยากรณ์เพื่อจำแนกว่าข้อมูลใหม่ที่เข้ามาควรจะถูกจัดหรือจำแนกให้เป็นหมวดใดเป็นสิ่งที่นำมาใช้เพื่อการวางแผนและการตัดสินใจ ในการดำเนินกิจการต่าง ๆ ได้ ตัวอย่างของการประยุกต์ใช้การจำแนก ดังเช่น

การจำแนกลักษณะของเซลล์ว่าเป็นเซลล์ผิดปกติประเภท เนื้องอกหรือมะเร็ง
การตรวจสอบรายการธุรกรรมทางบัตรเครดิตว่าเป็น แบบปกติหรือปลอมแปลง
การจำแนกเพื่อระบุว่าโครงสร้างโปรตีนเป็นแบบใดใน 3 แบบนี้ alpha-helix beta-sheet
การจำแนกข่าวด้วยการพิจารณาเนื้อความภายในเพื่อจำแนกว่าควรจะเป็นข่าวประเภทใดในประเภทต่อไปนี้ ข่าวการเงิน (Finance) ข่าวกีฬา (Sports) ข่าวบันเทิง (Entertainment) หรือข่าวอาชญากรรม (Crime)

โดยการพัฒนาโมเดลเพื่อการจำแนก (Classification Model) หรือตัวจำแนก (Classifier) จะมีหลักในการพัฒนาและอัลกอริทึมที่เกี่ยวข้องหลายตัวที่นิยมใช้ในปัจจุบัน โดยในที่นี้จะกล่าวถึง ขั้นตอนวิธีการค้นหาเพื่อนบ้านใกล้ที่สุด k ตัว (K-nearest Neighbor Algorithm) วิธีต้นไม้ตัดสินใจ (Decision Tree) การสร้างกฎ (Rule-based Classifier) วิธีเบย์อย่างง่าย (Naïve Bayes Classifier) และโครงข่ายประสาทเทียม (Artificial Neural Network)

4. การวิเคราะห์การจัดกลุ่ม (Cluster Analysis)

การวิเคราะห์การจัดกลุ่ม (Cluster Analysis) เป็นอีกหนึ่งเทคนิคของเหมืองข้อมูล ที่ได้รับความนิยมใช้ในงานด้านต่าง ๆ อย่างแพร่หลาย เช่น การจัดกลุ่มลูกค้าของบริษัท การจัดกลุ่มเอกสาร การจัดกลุ่มผู้ป่วย เป็นต้น การจัดกลุ่มข้อมูลเป็นเทคนิคที่อยู่ในกลุ่มของการเรียนรู้แบบไม่มีผู้สอน (Unsupervised Learning) ที่เน้นการบรรยายลักษณะข้อมูลมากกว่าการทำนายหรือพยากรณ์ ที่จัดเป็นการเรียนรู้แบบมีผู้สอน (Supervised Learning) ส่วนใหญ่งานด้านนี้มีไว้เพื่อลดขนาดหรือมิติของข้อมูลให้เป็นกลุ่มหรือคลัสเตอร์ โดยมีจุดประสงค์เพื่อรวมกลุ่มของสิ่งที่มีความคล้ายกันให้อยู่กลุ่มเดียวกัน เพื่อจะได้ทำให้ง่ายต่อการดำเนินการทางการทำธุรกิจ หรือการวิเคราะห์ปัจจัยได้เจาะจงยิ่งขึ้น เช่น การสร้างโปรไฟล์การตลาดท่องเที่ยวด้วยการวิเคราะห์การจัดกลุ่ม การวิเคราะห์การจัดกลุ่มของลูกค้าที่มีลักษณะหรือพฤติกรรมการบริโภคที่คล้ายคลึงกัน การจัดกลุ่มเอกสาร ที่มีสาระหลักหรือสาระสำคัญที่คล้ายคลึงกัน เป็นต้น

5. การวิเคราะห์ความสัมพันธ์ (Association Analysis)

กฎความสัมพันธ์ (Association Rules)

การวิเคราะห์กฎความสัมพันธ์เป็นการศึกษาหาลักษณะบางอย่างที่ไปในทิศทางเดียวกันหรือมีความเกี่ยวข้องกัน (Affinity) โดยมีจุดเริ่มต้นจากการวิเคราะห์ข้อมูลการซื้อสินค้า หรือที่รู้จักกันดีในชื่อการวิเคราะห์ตะกร้าซื้อสินค้า (Market basket analysis) ซึ่งคือการวิเคราะห์รายการทั้งหมดที่ลูกค้าซื้อสินค้าต่อครั้ง

การวิเคราะห์กฎความสัมพันธ์เป็นการค้นหาความสัมพันธ์เชิงปริมาณระหว่างลักษณะประจำตั้งแต่ 2 ตัวเป็นต้นไป โดยลักษณะของกฎความสัมพันธ์ที่ได้จะมาในรูปของกฎดังนี้

“If antecedent, then consequent”

หรือใช้สัญลักษณ์

Antecedent –> Consequent

โดย antecedent หมายถึง สิ่งที่มาก่อน และ consequent หมายถึงผลที่จะเกิดตามมา โดยการที่จะได้กฎความสัมพันธ์จากชุดข้อมูล ซึ่งโดยมากจะเป็นข้อมูลรายการเปลี่ยนแปลง (Transaction Data) โดยใช้เครื่องวัดหรือเกณฑ์การวัดที่เรียกว่า ค่าสนับสนุน (Support) และค่าความเชื่อมั่น (Confidence)

6. การพยากรณ์ (Prediction)

การพยากรณ์ (Prediction) เป็นการนำข้อมูลมาทำนายคำตอบเช่นเดียวกับการจำแนกที่อธิบายไว้ในบทที่ 2 เพียงแต่ค่าของการพยากรณ์หรือการทำนายจะเป็นค่าแบบต่อเนื่อง (Continuous Value) ซึ่งแตกต่างจากเทคนิคการจำแนกที่คำตอบของการทำนายจะเป็นค่าเต็มหน่วย (Discrete Value) หรือที่เรียกว่า คลาส (Class) ที่เป็นการสื่อถึงค่าคำตอบแบบเต็มหน่วย ขั้นตอนการพัฒนาตัวพยากรณ์จะมีความคล้ายคลึงกับการพัฒนาตัวจำแนก โดยจะมีการแบ่งข้อมูล เป็นข้อมูลฝึกสอนและข้อมูลทดสอบเหมือนกัน แต่สิ่งที่แตกต่างกันคือการวัดประสิทธิภาพ ของการพยากรณ์หรือความแม่นยำในการพยากรณ์ (Predicted Accuracy) ซึ่งจะใช้เกณฑ์การวัดค่าความแม่นยำอีกลักษณะหนึ่งที่ไม่ใช่การวัดร้อยละการจำแนกที่ถูกต้องและเมทริกซ์สับสนเหมือนเทคนิคการจำแนก โดยเกณฑ์การวัดประสิทธิภาพที่นิยมใช้กัน เช่น รากของค่าคลาดเคลื่อนกําลังสองเฉลี่ย (Root Mean Squared Error: RMSE) ความคลาดเคลื่อนสัมบูรณ์เฉลี่ย (Mean Absolute Error: MAE) เป็นต้น