วิธีการประมวลผลเชิงวิเคราะห์เชิงปฏิบัติการ การประมวลผลเชิงวิเคราะห์ออนไลน์

โครงสร้างของฐานข้อมูลคลังสินค้ามักจะได้รับการออกแบบในลักษณะที่อำนวยความสะดวกในการวิเคราะห์ข้อมูลให้ได้มากที่สุด ควรจะสะดวกในการ "จัดวาง" ข้อมูลในทิศทางต่างๆ (เรียกว่ามิติข้อมูล) ตัวอย่างเช่น วันนี้ผู้ใช้ต้องการดูสรุปการจัดส่งชิ้นส่วนตามซัพพลายเออร์เพื่อเปรียบเทียบกิจกรรมของพวกเขา พรุ่งนี้ ผู้ใช้รายเดียวกันจะต้องมีรูปภาพการเปลี่ยนแปลงในปริมาณการจัดหาชิ้นส่วนต่อเดือน เพื่อติดตามการเปลี่ยนแปลงของการจัดหา โครงสร้างฐานข้อมูลควรสนับสนุนการวิเคราะห์ประเภทนี้โดยอนุญาตให้แยกข้อมูลที่สอดคล้องกับชุดของมิติที่กำหนด

พื้นฐานของการประมวลผลข้อมูลเชิงวิเคราะห์เชิงปฏิบัติการคือหลักการของการจัดระเบียบข้อมูลให้เป็นแบบจำลองไฮเปอร์คิวบิก คิวบ์ข้อมูลสามมิติที่ง่ายที่สุดสำหรับการจ่ายชิ้นส่วนสำหรับฐานข้อมูลการทดสอบที่กล่าวถึงก่อนหน้านี้จะแสดงในรูปที่ 1 3.11. แต่ละเซลล์สอดคล้องกับ "ข้อเท็จจริง" เช่น ปริมาณการส่งมอบชิ้นส่วน ด้านหนึ่งของลูกบาศก์ (มิติเดียว) คือเดือนที่มีการส่งมอบซึ่งสะท้อนจากลูกบาศก์ มิติที่สองประกอบด้วยประเภทของชิ้นส่วน และมิติที่สามสอดคล้องกับซัพพลายเออร์ แต่ละเซลล์ประกอบด้วยปริมาณการจัดส่งสำหรับชุดค่าผสมที่สอดคล้องกันในสามมิติทั้งหมด ควรสังเกตว่าเมื่อเติมคิวบ์จะมีการรวบรวมค่าการส่งมอบของแต่ละเดือนจากฐานข้อมูลทดสอบ


3.11. ตัวเลือกไฮเปอร์คิวบ์แบบง่ายสำหรับการวิเคราะห์การจ่ายชิ้นส่วน

ระบบคลาส OLAP มีวิธีการนำเสนอข้อมูลที่แตกต่างกัน

OLAP หลายมิติ (MOLAP) – ระบบเหล่านี้ใช้โครงสร้างข้อมูลหลายมิติตามอาร์เรย์ไดนามิกพร้อมวิธีการเข้าถึงที่สอดคล้องกัน MOLAP ใช้เทคโนโลยีที่ได้รับการจดสิทธิบัตรเพื่อจัดระเบียบ DBMS หลายมิติ ข้อดีของวิธีนี้คือความสะดวกในการคำนวณเซลล์ไฮเปอร์คิวบ์เพราะว่า เซลล์ที่สอดคล้องกันจะถูกสร้างขึ้นสำหรับการผสมผสานการวัดทั้งหมด (เช่น ในสเปรดชีต) ตัวแทนคลาสสิกของระบบดังกล่าว ได้แก่ Oracle Express และ SAS Institute MDDB



OLAP เชิงสัมพันธ์ (ROLAP)– รองรับโมเดลการวิเคราะห์หลายมิติผ่านฐานข้อมูลเชิงสัมพันธ์ ระบบระดับนี้ประกอบด้วย Meta Cube Informix, Microsoft OLAP Services, Hyperion Solutions, SAS Institute Relational OLAP

เดสก์ท็อป OLAP– เครื่องมือสำหรับสร้างแบบสอบถามและรายงานหลายมิติสำหรับระบบข้อมูลท้องถิ่น (สเปรดชีต ไฟล์ธรรมดา) ระบบต่อไปนี้สามารถแยกแยะได้: Business Objects, Cognos Power Play

อีเอฟ Codd กำหนดกฎสิบสองข้อที่ผลิตภัณฑ์ OLAP ต้องปฏิบัติตาม รวมถึงการแสดงแนวคิดหลายมิติของข้อมูล ความโปร่งใส ความพร้อมใช้งาน ประสิทธิภาพที่แข็งแกร่ง สถาปัตยกรรมไคลเอ็นต์-เซิร์ฟเวอร์ ความเท่าเทียมกันของมิติ การประมวลผลแบบไดนามิกของเมทริกซ์แบบกระจาย การสนับสนุนผู้ใช้หลายราย การสนับสนุนแบบไม่จำกัดสำหรับข้ามมิติ การดำเนินงาน การจัดการข้อมูลที่ใช้งานง่าย กลไกการสร้างรายงานที่ยืดหยุ่น มิติข้อมูลและระดับการรวมกลุ่มไม่จำกัดจำนวน



ระบบที่พบบ่อยที่สุดคือคลาส ROLAP ช่วยให้คุณสามารถจัดระเบียบโมเดลข้อมูลบนพื้นที่จัดเก็บข้อมูลที่สมบูรณ์เชิงสัมพันธ์ของโครงสร้างใดๆ หรือบนศูนย์ข้อมูลพิเศษ

ข้าว. 3.12. แผนภาพแบบดาวของตู้แสดงการวิเคราะห์สำหรับการจ่ายชิ้นส่วน

สำหรับคลังข้อมูลส่วนใหญ่ วิธีที่มีประสิทธิภาพที่สุดในการสร้างแบบจำลองลูกบาศก์ N มิติคือการใช้ดาว ในรูป รูปที่ 3.11 แสดงแบบจำลองไฮเปอร์คิวบ์สำหรับวิเคราะห์อุปทานของชิ้นส่วน โดยข้อมูลจะรวมเป็นสี่มิติ (ซัพพลายเออร์ ชิ้นส่วน เดือน ปี) สคีมาแบบดาวจะขึ้นอยู่กับตารางข้อเท็จจริง ตารางข้อเท็จจริงประกอบด้วยคอลัมน์ที่ระบุปริมาณที่ให้มา เช่นเดียวกับคอลัมน์ที่ระบุคีย์นอกสำหรับตารางมิติทั้งหมด มิติคิวบ์แต่ละมิติจะแสดงด้วยตารางค่า ซึ่งเป็นการอ้างอิงที่สัมพันธ์กับตารางข้อเท็จจริง เพื่อจัดระเบียบระดับของข้อมูลทั่วไป ข้อมูลเข้าหมวดหมู่จะถูกจัดอยู่เหนือหนังสืออ้างอิงการวัด (เช่น "ส่วนวัสดุ" "เมืองของซัพพลายเออร์")

สาเหตุที่ทำให้ไดอะแกรมในรูป 3.12 เรียกว่า “ดาว” ค่อนข้างชัดเจน ส่วนปลายของดาวฤกษ์เกิดจากตารางมิติ และการเชื่อมต่อกับตารางข้อเท็จจริงที่อยู่ตรงกลางทำให้เกิดรังสี ด้วยโครงสร้างฐานข้อมูลนี้ คิวรีการวิเคราะห์ธุรกิจส่วนใหญ่จะรวมตารางข้อเท็จจริงส่วนกลางกับตารางมิติตั้งแต่หนึ่งตารางขึ้นไป ตัวอย่างเช่น ข้อความค้นหาเพื่อขอปริมาณการจัดส่งชิ้นส่วนทั้งหมดในปี 2547 แบ่งตามเดือน โดยแยกตามซัพพลายเออร์ มีลักษณะดังนี้:

เลือก SUM(VALUE), SUPPLIER.SUPPLIER_NAME, FACT.MONTH_ID

จากข้อเท็จจริง ซัพพลายเออร์

โดยที่ FACT.YEAR_ID=2004

และ FACT.SUPPLIER_CODE=SUPPLIER.SUPPLIER_CODE

GROUP_BY SUPPLIER_CODE, MONTH_ID

ORDER_BY SUPPLIER_CODE, MONTH_ID.

ในรูป รูปที่ 3.13 แสดงส่วนของรายงานที่สร้างขึ้นอันเป็นผลมาจากคำขอที่ระบุ

เทคโนโลยีการวิเคราะห์กระบวนการทางธุรกิจ

ระบบ Business Intelligence (BI) รวมเครื่องมือและเทคโนโลยีต่างๆ สำหรับการวิเคราะห์และประมวลผลข้อมูลระดับองค์กร โดยใช้เครื่องมือเหล่านี้ ระบบ BI ถูกสร้างขึ้นโดยมีวัตถุประสงค์เพื่อปรับปรุงคุณภาพของข้อมูลสำหรับการตัดสินใจด้านการจัดการ

BI ประกอบด้วยผลิตภัณฑ์ซอฟต์แวร์ประเภทต่อไปนี้:

· ระบบประมวลผลการวิเคราะห์ออนไลน์ (OLAP)

· เครื่องมือการทำเหมืองข้อมูล (DM)

ผลิตภัณฑ์ซอฟต์แวร์ของแต่ละคลาสมีชุดฟังก์ชันหรือการทำงานเฉพาะโดยใช้เทคโนโลยีพิเศษ

OLAP (On-Line Analytical Processing) - การประมวลผลเชิงวิเคราะห์ออนไลน์ - ไม่ใช่ชื่อของผลิตภัณฑ์เฉพาะ แต่เป็นชื่อเทคโนโลยีทั้งหมด แนวคิด OLAP มีพื้นฐานอยู่บนการแสดงข้อมูลหลายมิติ

เกณฑ์ 12 ข้อของเทคโนโลยี OLAP ซึ่งต่อมาได้กลายเป็นเนื้อหาหลักของเทคโนโลยีใหม่และมีแนวโน้มมาก

ต่อมาได้รับการพัฒนาเป็นการทดสอบ FASMI ซึ่งกำหนดข้อกำหนดสำหรับผลิตภัณฑ์ OLAP:

· เร็ว (เร็ว) แอปพลิเคชัน OLAP ต้องให้เวลาในการเข้าถึงข้อมูลการวิเคราะห์น้อยที่สุด - โดยเฉลี่ยประมาณ 5 วินาที

· การวิเคราะห์ (การวิเคราะห์) แอปพลิเคชัน OLAP จะต้องทำให้ผู้ใช้สามารถดำเนินการวิเคราะห์เชิงตัวเลขและสถิติได้

· แบ่งปัน (การเข้าถึงที่ใช้ร่วมกัน) แอปพลิเคชัน OLAP ต้องอนุญาตให้ผู้ใช้จำนวนมากทำงานกับข้อมูลพร้อมกันได้

· หลายมิติ (หลายมิติ);

· ข้อมูล (ข้อมูล) แอปพลิเคชัน OLAP จะต้องทำให้ผู้ใช้สามารถรับข้อมูลที่ต้องการได้ ไม่ว่าจะเก็บข้อมูลอิเล็กทรอนิกส์ไว้ที่ใดก็ตาม

จาก FASMI สามารถให้คำจำกัดความต่อไปนี้ได้: แอปพลิเคชัน OLAP -นี่คือระบบสำหรับการเข้าถึงข้อมูลการวิเคราะห์หลายมิติโดยผู้ใช้หลายรายอย่างรวดเร็วพร้อมความสามารถในการวิเคราะห์เชิงตัวเลขและสถิติ

แนวคิดหลักของ OLAP คือการสร้างคิวบ์หลายมิติที่ผู้ใช้จะสามารถเข้าถึงได้ คิวบ์หลายมิติ (รูปที่ 5.3) ถูกสร้างขึ้นบนพื้นฐานของแหล่งข้อมูลและข้อมูลรวม ซึ่งสามารถจัดเก็บไว้ในฐานข้อมูลทั้งเชิงสัมพันธ์และหลายมิติ ดังนั้นในปัจจุบันจึงใช้วิธีการจัดเก็บข้อมูลสามวิธี: โมแลป (OLAP หลายมิติ) โรแลป (OLAP เชิงสัมพันธ์) และ ฮอลป (ไฮบริด OLAP)



ดังนั้นผลิตภัณฑ์ OLAP จึงแบ่งออกเป็นสามประเภทที่คล้ายกันตามวิธีการจัดเก็บข้อมูล:

1. ในกรณีของ MOLAP แหล่งข้อมูลและข้อมูลหลายมิติจะถูกจัดเก็บไว้ในฐานข้อมูลหลายมิติหรือในคิวบ์โลคัลหลายมิติ วิธีการจัดเก็บข้อมูลนี้ช่วยให้มั่นใจได้ถึงความเร็วสูงของการดำเนินการ OLAP แต่ฐานหลายมิติในกรณีนี้มักจะซ้ำซ้อน คิวบ์ที่สร้างขึ้นบนพื้นฐานของมันจะขึ้นอยู่กับจำนวนมิติอย่างมาก เมื่อจำนวนมิติเพิ่มขึ้น ปริมาตรของลูกบาศก์ก็จะเพิ่มขึ้นแบบทวีคูณ บางครั้งสิ่งนี้อาจนำไปสู่การระเบิดของข้อมูล

2. ในผลิตภัณฑ์ ROLAP ข้อมูลต้นฉบับจะถูกจัดเก็บไว้ในฐานข้อมูลเชิงสัมพันธ์หรือในตารางโลคัลแบบแฟลตบนไฟล์เซิร์ฟเวอร์ ข้อมูลรวมสามารถวางไว้ในตารางบริการในฐานข้อมูลเดียวกันได้ การแปลงข้อมูลจากฐานข้อมูลเชิงสัมพันธ์เป็นคิวบ์หลายมิติเกิดขึ้นตามคำขอของเครื่องมือ OLAP ในกรณีนี้ ความเร็วของการสร้างคิวบ์จะขึ้นอยู่กับประเภทของแหล่งข้อมูลอย่างมาก

3. ในกรณีของการใช้สถาปัตยกรรมไฮบริด ข้อมูลต้นฉบับจะยังคงอยู่ในฐานข้อมูลเชิงสัมพันธ์ และการรวมจะถูกวางไว้ในรูปแบบหลายมิติ คิวบ์ OLAP ถูกสร้างขึ้นตามคำขอของเครื่องมือ OLAP โดยอิงตามข้อมูลเชิงสัมพันธ์และหลายมิติ วิธีนี้จะช่วยหลีกเลี่ยงการเติบโตของข้อมูลอย่างรวดเร็ว ในกรณีนี้ คุณสามารถบรรลุเวลาดำเนินการที่เหมาะสมที่สุดสำหรับคำขอของลูกค้าได้

เมื่อใช้เทคโนโลยี OLAP ผู้ใช้สามารถดูข้อมูลได้อย่างยืดหยุ่น รับชิ้นส่วนข้อมูลต่างๆ ดำเนินการวิเคราะห์รายละเอียด การบิดงอ การกระจายจากต้นทางถึงปลายทาง การเปรียบเทียบเมื่อเวลาผ่านไป เช่น รวบรวมและเผยแพร่รายงานและเอกสารแบบไดนามิก

หลายปีที่ผ่านมา เทคโนโลยีสารสนเทศมุ่งเน้นไปที่การสร้างระบบเพื่อรองรับการประมวลผลธุรกรรมขององค์กร ระบบดังกล่าวจะต้องทนทานต่อความเสียหายทางสายตาและให้การตอบสนองที่รวดเร็ว โซลูชันที่มีประสิทธิภาพจัดทำโดย OLTP ซึ่งมุ่งเน้นไปที่สภาพแวดล้อมฐานข้อมูลเชิงสัมพันธ์แบบกระจาย

การพัฒนาล่าสุดในพื้นที่นี้คือการเพิ่มสถาปัตยกรรมไคลเอ็นต์-เซิร์ฟเวอร์ มีการเผยแพร่เครื่องมือมากมายสำหรับการพัฒนาแอปพลิเคชัน OLTP

การเข้าถึงข้อมูลมักจำเป็นสำหรับทั้งแอปพลิเคชัน OLTP และระบบข้อมูลสนับสนุนการตัดสินใจ ขออภัย การพยายามให้บริการคำขอทั้งสองประเภทอาจเป็นปัญหาได้ ดังนั้นบางบริษัทจึงเลือกเส้นทางในการแบ่งฐานข้อมูลออกเป็นประเภท OLTP และประเภท OLAP

OLAP (การประมวลผลการวิเคราะห์ออนไลน์ - การประมวลผลเชิงวิเคราะห์การดำเนินงาน)เป็นกระบวนการข้อมูลที่ให้ผู้ใช้สามารถสืบค้นระบบ ทำการวิเคราะห์ ฯลฯ ในโหมดการทำงาน (ออนไลน์) ผลลัพธ์จะถูกสร้างขึ้นภายในไม่กี่วินาที

ในทางกลับกัน ในระบบ OLTP ข้อมูลปริมาณมหาศาลจะถูกประมวลผลอย่างรวดเร็วเท่ากับที่ได้รับเป็นอินพุต

ระบบ OLAP สร้างขึ้นสำหรับผู้ใช้ปลายทาง ในขณะที่ระบบ OLTP สร้างขึ้นสำหรับผู้ใช้ IS มืออาชีพ OLAP รวมถึงกิจกรรมต่างๆ เช่น การสร้างแบบสอบถาม การสืบค้นรายงานเฉพาะกิจ การดำเนินการวิเคราะห์ทางสถิติ และการสร้างแอปพลิเคชันมัลติมีเดีย

การจัดหา OLAP จำเป็นต้องทำงานกับคลังข้อมูล (หรือคลังข้อมูลหลายมิติ) รวมถึงชุดเครื่องมือ ซึ่งโดยทั่วไปแล้วมีความสามารถหลายมิติ เครื่องมือเหล่านี้อาจเป็นเครื่องมือสืบค้น สเปรดชีต เครื่องมือขุดข้อมูล เครื่องมือสร้างภาพข้อมูล ฯลฯ

แนวคิด OLAP มีพื้นฐานอยู่บนหลักการของการแทนข้อมูลหลายมิติ E. Codd ตรวจสอบข้อบกพร่องของแบบจำลองเชิงสัมพันธ์ ประการแรกชี้ให้เห็นถึงการไม่สามารถรวม ดู และวิเคราะห์ข้อมูลจากมุมมองของหลายมิติ นั่นคือในวิธีที่เข้าใจได้มากที่สุดสำหรับนักวิเคราะห์องค์กร และระบุข้อกำหนดทั่วไป สำหรับระบบ OLAP ที่ขยายฟังก์ชันการทำงานของ DBMS เชิงสัมพันธ์ และรวมการวิเคราะห์หลายมิติเป็นหนึ่งในคุณลักษณะของมัน

ในสิ่งพิมพ์จำนวนมาก ตัวย่อ OLAP ไม่เพียงแต่หมายถึงมุมมองข้อมูลหลายมิติเท่านั้น แต่ยังรวมถึงการจัดเก็บข้อมูลในฐานข้อมูลหลายมิติด้วย โดยทั่วไปแล้ว สิ่งนี้ไม่เป็นความจริง เนื่องจาก Codd เองก็ตั้งข้อสังเกตว่าฐานข้อมูลเชิงสัมพันธ์เคยเป็น เป็น และจะเป็นเทคโนโลยีที่เหมาะสมที่สุดสำหรับการจัดเก็บข้อมูลองค์กร ความต้องการไม่ใช่เทคโนโลยีฐานข้อมูลใหม่ แต่ต้องการเครื่องมือวิเคราะห์ที่ช่วยเสริมการทำงานของ DBMS ที่มีอยู่ และมีความยืดหยุ่นเพียงพอที่จะรองรับและทำให้การขุดประเภทต่างๆ ที่มีอยู่ใน OLAP เป็นไปโดยอัตโนมัติ

จากข้อมูลของ Codd มุมมองแนวคิดหลายมิติคือมุมมองที่หลากหลายซึ่งประกอบด้วยมิติอิสระหลายมิติซึ่งสามารถวิเคราะห์ชุดข้อมูลเฉพาะได้ การวิเคราะห์พร้อมกันในหลายมิติถูกกำหนดให้เป็นการวิเคราะห์หลายตัวแปร แต่ละมิติประกอบด้วยพื้นที่ของการรวบรวมข้อมูล ซึ่งประกอบด้วยชุดของระดับภาพรวมที่ต่อเนื่องกัน โดยที่แต่ละระดับที่สูงกว่าจะสอดคล้องกับระดับที่สูงกว่าของการรวมข้อมูลสำหรับมิติที่เกี่ยวข้อง ดังนั้นมิติของนักแสดงสามารถกำหนดได้ตามทิศทางของการรวมซึ่งประกอบด้วยระดับของลักษณะทั่วไป "องค์กร - แผนก - แผนก - พนักงาน" มิติเวลายังสามารถรวมสองทิศทางของการรวม - "ปี - ไตรมาส - เดือน - วัน" และ "สัปดาห์ - วัน" เนื่องจากการนับเวลาตามเดือนและตามสัปดาห์เข้ากันไม่ได้ ในกรณีนี้สามารถเลือกระดับรายละเอียดข้อมูลที่ต้องการสำหรับแต่ละมิติได้โดยพลการ การดำเนินการของการสืบเชื้อสายนั้นสอดคล้องกับการเคลื่อนไหวจากขั้นสูงสุดของการรวมไปสู่ระดับต่ำสุด ในทางตรงกันข้าม การขึ้นสู่ระดับหมายถึงการเคลื่อนตัวจากระดับล่างไปสู่ระดับสูง

Codd กำหนดกฎ 12 ข้อที่ผลิตภัณฑ์ซอฟต์แวร์คลาส OLAP ต้องปฏิบัติตาม กฎเหล่านี้:

1. การแสดงแนวคิดข้อมูลหลายมิติ

2. ความโปร่งใส

3. ความพร้อมใช้งาน

4. ประสิทธิภาพที่มั่นคง

5. ไคลเอนต์ - สถาปัตยกรรมเซิร์ฟเวอร์

6. ความเท่าเทียมกันของการวัด

7. การประมวลผลแบบไดนามิกของเมทริกซ์แบบกระจาย

8. รองรับโหมดผู้ใช้หลายคน

9. รองรับการทำงานข้ามมิติได้อย่างไม่จำกัด

10. การจัดการข้อมูลที่ใช้งานง่าย

11. กลไกการสร้างรายงานที่ยืดหยุ่น

12. ไม่จำกัดจำนวนมิติและระดับการรวมกลุ่ม

ชุดของข้อกำหนดเหล่านี้ ซึ่งทำหน้าที่เป็นคำจำกัดความที่แท้จริงของ OLAP ควรได้รับการพิจารณาเป็นคำแนะนำ และผลิตภัณฑ์เฉพาะควรได้รับการประเมินตามระดับความใกล้เคียงกับการปฏิบัติตามข้อกำหนดทั้งหมดอย่างสมบูรณ์แบบในอุดมคติ

การทำเหมืองข้อมูล

Data mining (DMA) หรือ Data Mining เป็นคำที่ใช้อธิบายการค้นพบความรู้ในฐานข้อมูล การดึงความรู้ การทำเหมืองข้อมูล การทำเหมืองข้อมูล การประมวลผลตัวอย่างข้อมูล การล้างข้อมูล และการทำเหมืองข้อมูล นอกจากนี้ยังหมายถึงซอฟต์แวร์ที่มาพร้อมกันด้วย การกระทำทั้งหมดนี้จะดำเนินการโดยอัตโนมัติและอนุญาตให้แม้แต่ผู้ที่ไม่ใช่โปรแกรมเมอร์ก็สามารถได้รับผลลัพธ์ที่รวดเร็ว

คำขอนี้จัดทำโดยผู้ใช้ปลายทาง ซึ่งอาจเป็นภาษาธรรมชาติ คำขอถูกแปลงเป็นรูปแบบ SQL คำขอ SQL จะถูกส่งผ่านเครือข่ายไปยัง DBMS ซึ่งจัดการฐานข้อมูลหรือที่จัดเก็บข้อมูล DBMS ค้นหาคำตอบสำหรับคำขอและส่งกลับ ผู้ใช้สามารถออกแบบการนำเสนอหรือรายงานได้ตามความต้องการ

การตัดสินใจที่สำคัญหลายประการในเกือบทุกด้านของธุรกิจและขอบเขตทางสังคมนั้นขึ้นอยู่กับการวิเคราะห์ฐานข้อมูลขนาดใหญ่และซับซ้อน IBP มีประโยชน์มากในกรณีเหล่านี้

วิธีการทำเหมืองข้อมูลมีความเกี่ยวข้องอย่างใกล้ชิดกับเทคโนโลยี OLAP และเทคโนโลยีคลังข้อมูล ดังนั้นทางเลือกที่ดีที่สุดคือแนวทางบูรณาการในการดำเนินการ

เพื่อให้คลังข้อมูลที่มีอยู่อำนวยความสะดวกในการตัดสินใจของฝ่ายบริหาร จะต้องนำเสนอข้อมูลต่อนักวิเคราะห์ในรูปแบบที่ต้องการ กล่าวคือ นักวิเคราะห์จะต้องมีการพัฒนาเครื่องมือสำหรับการเข้าถึงและประมวลผลข้อมูลคลังสินค้า

บ่อยครั้งที่ข้อมูลและระบบการวิเคราะห์ที่สร้างขึ้นโดยคาดหวังให้ผู้มีอำนาจตัดสินใจนำไปใช้โดยตรง กลับกลายเป็นว่าใช้งานง่ายมาก แต่มีข้อจำกัดด้านฟังก์ชันอย่างรุนแรง ระบบคงที่ดังกล่าวเรียกว่าระบบสารสนเทศสำหรับผู้บริหาร ประกอบด้วยชุดคำถามที่กำหนดไว้ล่วงหน้า และแม้จะเพียงพอสำหรับการตรวจสอบทุกวัน แต่ก็ไม่สามารถตอบทุกคำถามเกี่ยวกับข้อมูลที่มีอยู่ซึ่งอาจเกิดขึ้นเมื่อทำการตัดสินใจได้ ตามกฎแล้ว ผลลัพธ์ของระบบดังกล่าวคือรายงานหลายหน้า หลังจากการศึกษาอย่างรอบคอบ ซึ่งนักวิเคราะห์มีคำถามชุดใหม่ อย่างไรก็ตาม แต่ละคำขอใหม่ที่ไม่ได้คาดการณ์ล่วงหน้าเมื่อออกแบบระบบดังกล่าว จะต้องอธิบายอย่างเป็นทางการก่อน เขียนโค้ดโดยโปรแกรมเมอร์ จากนั้นจึงดำเนินการเท่านั้น ระยะเวลารอในกรณีนี้อาจเป็นชั่วโมงและวัน ซึ่งไม่เป็นที่ยอมรับเสมอไป ดังนั้น ความเรียบง่ายภายนอกของระบบข้อมูลสนับสนุนการตัดสินใจเชิงสถิติ ซึ่งลูกค้าส่วนใหญ่ด้านข้อมูลและระบบการวิเคราะห์กำลังต่อสู้กันอย่างแข็งขัน ส่งผลให้สูญเสียความยืดหยุ่น

ในทางกลับกัน ระบบสนับสนุนการตัดสินใจแบบไดนามิกมุ่งเน้นไปที่การประมวลผลคำขอข้อมูลของนักวิเคราะห์ที่ไม่ได้รับการควบคุม (เฉพาะกิจ) งานของนักวิเคราะห์ที่มีระบบเหล่านี้ประกอบด้วยลำดับเชิงโต้ตอบของการสร้างแบบสอบถามและการศึกษาผลลัพธ์

แต่ระบบสนับสนุนการตัดสินใจแบบไดนามิกสามารถทำงานได้ไม่เพียงแต่ในด้านการประมวลผลการวิเคราะห์ออนไลน์ (OLAP) เท่านั้น การสนับสนุนการตัดสินใจด้านการจัดการตามข้อมูลที่สะสมสามารถทำได้ในสามด้านพื้นฐาน

1. ขอบเขตของข้อมูลโดยละเอียด นี่คือขอบเขตของระบบเรียกค้นข้อมูลส่วนใหญ่ ในกรณีส่วนใหญ่ DBMS เชิงสัมพันธ์สามารถรับมือกับงานที่เกิดขึ้นที่นี่ได้ดี มาตรฐานที่ยอมรับโดยทั่วไปสำหรับภาษาในการจัดการข้อมูลเชิงสัมพันธ์คือ SQL ระบบเรียกค้นข้อมูลที่จัดเตรียมอินเทอร์เฟซสำหรับผู้ใช้ปลายทางในงานค้นหาข้อมูลโดยละเอียดสามารถใช้เป็นส่วนเสริมได้ทั้งบนฐานข้อมูลส่วนบุคคลของระบบธุรกรรมและบนที่เก็บข้อมูลทั่วไป

2. ขอบเขตของตัวชี้วัดรวม การดูข้อมูลที่รวบรวมในคลังข้อมูลอย่างครอบคลุม ลักษณะทั่วไปและการรวมกลุ่ม และการวิเคราะห์หลายมิติเป็นงานของระบบ OLAP ที่นี่คุณสามารถมุ่งเน้นไปที่ DBMS หลายมิติพิเศษ หรือคงอยู่ภายในกรอบของเทคโนโลยีเชิงสัมพันธ์ได้ ในกรณีที่สอง ข้อมูลที่รวบรวมไว้ล่วงหน้าสามารถเก็บรวบรวมไว้ในฐานข้อมูลรูปดาว หรือสามารถดำเนินการรวบรวมข้อมูลในกระบวนการสแกนตารางโดยละเอียดของฐานข้อมูลเชิงสัมพันธ์ได้

3. ทรงกลมของลวดลาย การประมวลผลทางปัญญาดำเนินการโดยใช้วิธีการขุดข้อมูล วัตถุประสงค์หลักคือการค้นหารูปแบบการทำงานและตรรกะในข้อมูลที่สะสม สร้างแบบจำลองและกฎที่อธิบายความผิดปกติที่พบ และ/หรือทำนายการพัฒนาของกระบวนการบางอย่าง

โครงสร้างที่สมบูรณ์ของระบบข้อมูลและการวิเคราะห์ที่สร้างขึ้นบนพื้นฐานของคลังข้อมูลจะแสดงไว้ในรูปที่ 1 3.2. ในการใช้งานเฉพาะ ส่วนประกอบแต่ละส่วนของวงจรนี้มักจะหายไป

รูปที่.3.2.โครงสร้างระบบสารสนเทศและการวิเคราะห์องค์กร

3.4 วิธีการประมวลผลข้อมูลเชิงวิเคราะห์

เพื่อให้คลังข้อมูลที่มีอยู่อำนวยความสะดวกในการตัดสินใจของฝ่ายบริหาร จะต้องนำเสนอข้อมูลต่อนักวิเคราะห์ในรูปแบบที่ต้องการ กล่าวคือ นักวิเคราะห์จะต้องมีการพัฒนาเครื่องมือสำหรับการเข้าถึงและประมวลผลข้อมูลคลังสินค้า

บ่อยครั้งที่ข้อมูลและระบบการวิเคราะห์ที่สร้างขึ้นโดยคาดหวังว่าผู้มีอำนาจตัดสินใจจะใช้โดยตรงกลับกลายเป็นว่าใช้งานง่ายมาก แต่มีข้อจำกัดด้านฟังก์ชันอย่างรุนแรง ระบบคงที่ดังกล่าวเรียกว่า Executive Information Systems (IIS) หรือ Executive Information Systems (EIS) มีคำถามมากมายและแม้จะเพียงพอสำหรับการตรวจสอบทุกวัน แต่ก็ไม่สามารถตอบทุกคำถามที่อาจเกิดขึ้นเมื่อตัดสินใจได้ ตามกฎแล้ว ผลลัพธ์ของระบบดังกล่าวคือรายงานหลายหน้า หลังจากการศึกษาอย่างรอบคอบ ซึ่งนักวิเคราะห์มีคำถามชุดใหม่ อย่างไรก็ตาม แต่ละคำขอใหม่ที่ไม่ได้คาดการณ์ล่วงหน้าเมื่อออกแบบระบบดังกล่าว จะต้องได้รับการอธิบายอย่างเป็นทางการก่อน เขียนโค้ดโดยโปรแกรมเมอร์ จากนั้นจึงดำเนินการเท่านั้น ระยะเวลารอในกรณีนี้อาจเป็นชั่วโมงและวัน ซึ่งไม่เป็นที่ยอมรับเสมอไป

การประมวลผลเชิงวิเคราะห์ออนไลน์- หรือการประมวลผลเชิงวิเคราะห์ออนไลน์ OLAP เป็นองค์ประกอบสำคัญในการจัดระเบียบคลังข้อมูล แนวคิด OLAP ได้รับการอธิบายไว้ในปี 1993 โดย Edgar Codd และมีข้อกำหนดต่อไปนี้สำหรับการประยุกต์ใช้การวิเคราะห์หลายมิติ:

การแสดงแนวคิดข้อมูลหลายมิติ รวมถึงการสนับสนุนอย่างเต็มที่สำหรับลำดับชั้นและหลายลำดับชั้น (ข้อกำหนดหลักของ OLAP)

– ให้ผลการวิเคราะห์แก่ผู้ใช้ในเวลาที่ยอมรับได้ (โดยปกติจะไม่เกิน 5 วินาที) แม้จะเสียค่าใช้จ่ายในการวิเคราะห์ที่มีรายละเอียดน้อยกว่าก็ตาม

– ความสามารถในการดำเนินการวิเคราะห์เชิงตรรกะและสถิติเฉพาะสำหรับแอปพลิเคชันที่กำหนดและบันทึกในรูปแบบที่ผู้ใช้ปลายทางเข้าถึงได้

– การเข้าถึงข้อมูลโดยผู้ใช้หลายคนพร้อมการสนับสนุนกลไกการล็อคที่เหมาะสมและวิธีการเข้าถึงที่ได้รับอนุญาต

– ความสามารถในการเข้าถึงข้อมูลที่จำเป็น โดยไม่คำนึงถึงปริมาณและตำแหน่งการจัดเก็บ

ระบบ OLAP ประกอบด้วยส่วนประกอบมากมาย ที่ระดับสูงสุดของการนำเสนอ ระบบจะรวมแหล่งข้อมูล ฐานข้อมูลหลายมิติ (MDB) ซึ่งให้ความสามารถในการใช้กลไกการรายงานที่ใช้เทคโนโลยี OLAP เซิร์ฟเวอร์ OLAP และไคลเอนต์ ระบบนี้สร้างขึ้นบนหลักการไคลเอนต์-เซิร์ฟเวอร์ และให้การเข้าถึงเซิร์ฟเวอร์ MDB จากระยะไกลและแบบหลายผู้ใช้

มาดูส่วนประกอบของระบบ OLAP กัน

แหล่งที่มาแหล่งที่มาในระบบ OLAP คือเซิร์ฟเวอร์ที่ให้ข้อมูลสำหรับการวิเคราะห์ ขึ้นอยู่กับพื้นที่การใช้งานของผลิตภัณฑ์ OLAP แหล่งที่มาอาจเป็นคลังข้อมูล ฐานข้อมูลที่สืบทอดซึ่งมีข้อมูลทั่วไป ชุด

ตารางที่รวมข้อมูลทางการเงินหรือการรวมกันของข้อมูลข้างต้น

การจัดเก็บข้อมูล. ข้อมูลต้นทางจะถูกรวบรวมและจัดเก็บไว้ในคลังสินค้าที่ออกแบบตามหลักการคลังข้อมูล คลังข้อมูลเป็นฐานข้อมูลเชิงสัมพันธ์ (RDB) ตารางข้อมูลหลัก (ตารางข้อเท็จจริง) มีค่าตัวเลขของตัวบ่งชี้ที่รวบรวมข้อมูลทางสถิติ

ฐานข้อมูลหลายมิติคลังข้อมูลทำหน้าที่เป็นผู้ให้บริการข้อมูลแก่ฐานข้อมูลหลายมิติซึ่งเป็นชุดของออบเจ็กต์ คลาสหลักของวัตถุเหล่านี้คือมิติและการวัด มิติข้อมูลประกอบด้วยชุดของค่า (พารามิเตอร์) ที่ใช้จัดทำดัชนีข้อมูล เช่น เวลา ภูมิภาค ประเภทของสถาบัน ฯลฯ แต่ละมิติจะเต็มไปด้วยค่าจากตารางมิติที่สอดคล้องกันของคลังข้อมูล ชุดการวัดจะกำหนดพื้นที่ของกระบวนการที่กำลังศึกษา ตัวบ่งชี้อ้างถึงคิวบ์ข้อมูลหลายมิติ (ไฮเปอร์คิวบ์) ไฮเปอร์คิวบ์ประกอบด้วยข้อมูล รวมถึงผลรวมรวมสำหรับมิติที่รวมอยู่ในตัวบ่งชี้ ตัวชี้วัดประกอบด้วยเนื้อหาหลักของ MDB และกรอกตามตารางข้อเท็จจริง ในแต่ละแกนของไฮเปอร์คิวบ์ ข้อมูลสามารถจัดเป็นลำดับชั้นที่แสดงรายละเอียดในระดับต่างๆ ได้ วิธีนี้ช่วยให้คุณสร้างมิติแบบลำดับชั้น ซึ่งจะใช้ในการรวมหรือเจาะลึกการนำเสนอข้อมูลในระหว่างการวิเคราะห์ข้อมูลในภายหลัง ตัวอย่างทั่วไปของมิติแบบลำดับชั้นคือรายการออบเจ็กต์อาณาเขตที่จัดกลุ่มตามเขต ภูมิภาค และเขต

เซิร์ฟเวอร์ส่วนแอปพลิเคชันของระบบ OLAP คือเซิร์ฟเวอร์ OLAP ส่วนประกอบนี้ทำงานทั้งหมด (ขึ้นอยู่กับรุ่นของระบบ) และจัดเก็บข้อมูลทั้งหมดที่มีให้การเข้าถึงที่ใช้งานอยู่ สถาปัตยกรรมเซิร์ฟเวอร์อยู่ภายใต้แนวคิดต่างๆ โดยเฉพาะอย่างยิ่งลักษณะการทำงานหลักของผลิตภัณฑ์ OLAP คือการใช้ MDB หรือ RDB สำหรับการจัดเก็บข้อมูล

ใบสมัครลูกค้า.ข้อมูลที่มีโครงสร้างตามนั้นและจัดเก็บไว้ใน MDB พร้อมสำหรับการวิเคราะห์โดยใช้แอปพลิเคชันไคลเอนต์ ผู้ใช้ได้รับโอกาสในการเข้าถึงข้อมูลจากระยะไกล กำหนดคำสั่งที่ซับซ้อน สร้างรายงาน และรับชุดย่อยของข้อมูลได้ตามใจชอบ การได้รับรายงานจะขึ้นอยู่กับการเลือกค่าการวัดเฉพาะและสร้างส่วนของไฮเปอร์คิวบ์ ภาพตัดขวางถูกกำหนดโดยค่าการวัดที่เลือก ข้อมูลสำหรับการวัดอื่นๆ ได้รับการสรุป

โอลาปบนไคลเอนต์และบนเซิร์ฟเวอร์การวิเคราะห์ข้อมูลหลายมิติสามารถทำได้โดยใช้เครื่องมือต่างๆ ซึ่งสามารถแบ่งออกเป็นเครื่องมือ OLAP ของไคลเอนต์และเซิร์ฟเวอร์

เครื่องมือไคลเอ็นต์ OLAP (เช่น Pivot Tables ใน Excel 2000 จาก Microsoft หรือ ProClarity จาก Knosys) คือแอปพลิเคชันที่คำนวณข้อมูลรวมและแสดงข้อมูลเหล่านั้น ในเวลาเดียวกัน ข้อมูลรวมจะอยู่ในแคชภายในพื้นที่ที่อยู่ของเครื่องมือ OLAP ดังกล่าว

หากข้อมูลต้นฉบับมีอยู่ใน DBMS บนเดสก์ท็อป การคำนวณข้อมูลรวมจะดำเนินการโดยเครื่องมือ OLAP เอง หากแหล่งที่มาของข้อมูลเริ่มต้นคือเซิร์ฟเวอร์ DBMS เครื่องมือ OLAP ไคลเอนต์จำนวนมากจะส่งคำสั่ง SQL ไปยังเซิร์ฟเวอร์ และผลที่ได้รับก็คือข้อมูลรวมที่คำนวณบนเซิร์ฟเวอร์

โดยทั่วไปแล้ว ฟังก์ชัน OLAP จะถูกนำไปใช้ในเครื่องมือประมวลผลข้อมูลทางสถิติและในสเปรดชีตบางรายการ

เครื่องมือพัฒนาจำนวนมากมีไลบรารีของคลาสหรือส่วนประกอบที่ช่วยให้คุณสามารถสร้างแอปพลิเคชันที่ใช้ฟังก์ชัน OLAP แบบธรรมดาได้ (เช่น ส่วนประกอบ Decision Cube ใน Borland Delphi และ Borland C++ Builder) นอกจากนี้ บริษัทหลายแห่งยังมีตัวควบคุม ActiveX และไลบรารีอื่นๆ ที่ใช้ฟังก์ชันการทำงานที่คล้ายคลึงกัน

ตามกฎแล้วจะใช้เครื่องมือ OLAP ของไคลเอ็นต์โดยมีจำนวนมิติข้อมูลน้อย (โดยปกติจะไม่เกินหก) และค่าที่หลากหลายเล็กน้อยสำหรับพารามิเตอร์เหล่านี้ - เนื่องจากข้อมูลรวมที่ได้จะต้องพอดีกับพื้นที่ที่อยู่ของเครื่องมือดังกล่าว และจำนวนจะเพิ่มขึ้นแบบทวีคูณเมื่อจำนวนมิติเพิ่มขึ้น

เครื่องมือไคลเอ็นต์ OLAP จำนวนมากช่วยให้คุณสามารถบันทึกเนื้อหาของแคชด้วยข้อมูลรวมเป็นไฟล์เพื่อไม่ให้คำนวณใหม่ อย่างไรก็ตาม โอกาสนี้มักใช้เพื่อแยกข้อมูลรวมเพื่อวัตถุประสงค์ในการถ่ายโอนไปยังองค์กรอื่นหรือเพื่อการเผยแพร่

แนวคิดในการจัดเก็บข้อมูลแคชรวมในไฟล์ได้รับการพัฒนาเพิ่มเติมในเครื่องมือเซิร์ฟเวอร์ OLAP (เช่น Oracle Express Server หรือ Microsoft OLAP Services) ซึ่งบันทึกและเปลี่ยนแปลงข้อมูลรวมตลอดจนการรักษาที่เก็บข้อมูลที่มีอยู่ ดำเนินการโดยแอปพลิเคชันหรือกระบวนการแยกต่างหากที่เรียกว่าเซิร์ฟเวอร์ OLAP แอปพลิเคชันไคลเอนต์สามารถร้องขอพื้นที่เก็บข้อมูลหลายมิติดังกล่าวและรับข้อมูลบางอย่างเป็นการตอบกลับ แอปพลิเคชันไคลเอนต์บางตัวอาจสร้างร้านค้าดังกล่าวหรืออัปเดตตามแหล่งข้อมูลที่เปลี่ยนแปลง

ข้อดีของการใช้เครื่องมือเซิร์ฟเวอร์ OLAP เมื่อเปรียบเทียบกับเครื่องมือ OLAP ไคลเอนต์นั้นคล้ายคลึงกับข้อดีของการใช้เซิร์ฟเวอร์ DBMS เมื่อเปรียบเทียบกับเดสก์ท็อป: เมื่อใช้เครื่องมือเซิร์ฟเวอร์ การคำนวณและการจัดเก็บข้อมูลรวมจะเกิดขึ้นบนเซิร์ฟเวอร์ และแอปพลิเคชันไคลเอนต์จะได้รับเฉพาะ ผลลัพธ์ของการสืบค้น ซึ่งโดยทั่วไปจะช่วยลดการรับส่งข้อมูลเครือข่าย เวลาดำเนินการร้องขอ และข้อกำหนดด้านทรัพยากรที่ใช้โดยแอปพลิเคชันไคลเอนต์

3.5 ลักษณะทางเทคนิคของการจัดเก็บข้อมูลหลายมิติ

ความเป็นหลายมิติในแอปพลิเคชัน OLAP สามารถแบ่งออกเป็นสามระดับ:

1- การแสดงข้อมูลหลายมิติ– เครื่องมือสำหรับผู้ใช้ที่ให้การแสดงภาพหลายมิติและการจัดการข้อมูล เลเยอร์การแสดงหลายมิติจะสรุปจากโครงสร้างทางกายภาพของข้อมูลและถือว่าข้อมูลเป็นแบบหลายมิติ

    การประมวลผลหลายมิติ– วิธีการ (ภาษา) สำหรับการกำหนดแบบสอบถามหลายมิติ (SQL ภาษาเชิงสัมพันธ์แบบดั้งเดิมไม่เหมาะสมที่นี่) และตัวประมวลผลที่สามารถประมวลผลและดำเนินการแบบสอบถามดังกล่าว

    พื้นที่เก็บข้อมูลหลายมิติ– วิธีการจัดระเบียบข้อมูลทางกายภาพเพื่อให้มั่นใจถึงการดำเนินการค้นหาหลายมิติอย่างมีประสิทธิภาพ

สองระดับแรกจำเป็นในเครื่องมือ OLAP ทั้งหมด ระดับที่สาม แม้ว่าจะแพร่หลาย แต่ก็ไม่จำเป็น เนื่องจากข้อมูลสำหรับการเป็นตัวแทนหลายมิติสามารถดึงมาจากโครงสร้างเชิงสัมพันธ์ทั่วไปได้เช่นกัน ในกรณีนี้ ตัวประมวลผลเคียวรีหลายมิติจะแปลเคียวรีหลายมิติเป็นเคียวรี SQL ที่ดำเนินการโดย DBMS เชิงสัมพันธ์

ในคลังข้อมูลใดๆ ทั้งแบบธรรมดาและแบบหลายมิติ พร้อมด้วยข้อมูลโดยละเอียดที่ดึงมาจากระบบปฏิบัติการ ตัวบ่งชี้รวม (ตัวบ่งชี้ทั้งหมด) เช่น ผลรวมของยอดขายต่อเดือน ตามหมวดหมู่ผลิตภัณฑ์ ฯลฯ จะถูกจัดเก็บไว้ด้วย อย่างชัดเจนเพื่อจุดประสงค์เดียวในการเร่งการดำเนินการค้นหา ท้ายที่สุดแล้วตามกฎแล้วข้อมูลจำนวนมากสะสมอยู่ในคลังสินค้าและในทางกลับกันนักวิเคราะห์ในกรณีส่วนใหญ่ไม่สนใจในรายละเอียด แต่สนใจในตัวบ่งชี้ทั่วไป และหากต้องบวกยอดขายหลายล้านรายการในแต่ละครั้งเพื่อคำนวณยอดขายรวมสำหรับปี ความเร็วนี้ก็น่าจะยอมรับไม่ได้ ดังนั้นเมื่อโหลดข้อมูลลงในฐานข้อมูลหลายมิติ ตัวบ่งชี้ทั้งหมดหรือบางส่วนจะถูกคำนวณและจัดเก็บ

อย่างไรก็ตาม การใช้ข้อมูลที่รวบรวมไว้ก็มีข้อเสียอยู่ ข้อเสียเปรียบหลักคือการเพิ่มขึ้นของปริมาณข้อมูลที่เก็บไว้ (เมื่อเพิ่มมิติใหม่ ปริมาณข้อมูลที่ประกอบเป็นคิวบ์จะเพิ่มขึ้นแบบทวีคูณ) และเวลาที่ใช้ในการโหลด นอกจากนี้ปริมาณข้อมูลยังสามารถเพิ่มขึ้นได้หลายสิบหรือหลายร้อยเท่า ตัวอย่างเช่น ในการทดสอบมาตรฐานที่เผยแพร่ครั้งหนึ่ง การคำนวณรวมทั้งหมดสำหรับข้อมูลดิบ 10 MB ต้องใช้ 2.4 GB กล่าวคือ ข้อมูลเพิ่มขึ้น 240 เท่า!

ระดับการเพิ่มขึ้นของปริมาณข้อมูลเมื่อคำนวณผลรวมขึ้นอยู่กับจำนวนขนาดของคิวบ์และโครงสร้างของมิติเหล่านี้นั่นคืออัตราส่วนของจำนวน "ผู้ปกครอง" และ "ลูก" ในระดับการวัดที่แตกต่างกัน เพื่อแก้ปัญหาการจัดเก็บการรวมจะใช้โครงร่างที่ซับซ้อนซึ่งทำให้สามารถเพิ่มประสิทธิภาพการค้นหาได้อย่างมากเมื่อคำนวณการรวมที่เป็นไปได้ทั้งหมด

สามารถจัดเก็บได้ทั้งข้อมูลดิบและข้อมูลรวม

เชิงสัมพันธ์หรือในโครงสร้างหลายมิติ ในการนี้ปัจจุบันมีการใช้วิธีจัดเก็บข้อมูลหลายมิติสามวิธี:

โมแลป (OLAP หลายมิติ) – แหล่งข้อมูลและข้อมูลรวมจะถูกจัดเก็บไว้ในฐานข้อมูลหลายมิติ การจัดเก็บข้อมูลในโครงสร้างหลายมิติช่วยให้คุณสามารถจัดการข้อมูลเป็นอาร์เรย์หลายมิติได้เนื่องจากความเร็วในการคำนวณค่ารวมจะเท่ากันสำหรับมิติข้อมูลใด ๆ อย่างไรก็ตาม ในกรณีนี้ ฐานข้อมูลหลายมิติซ้ำซ้อน เนื่องจากข้อมูลหลายมิติประกอบด้วยข้อมูลเชิงสัมพันธ์ดั้งเดิมทั้งหมด

ระบบเหล่านี้มีการประมวลผล OLAP ครบวงจร นอกเหนือจากส่วนประกอบเซิร์ฟเวอร์แล้ว อินเทอร์เฟซไคลเอ็นต์แบบรวมของตนเอง หรือใช้โปรแกรมสเปรดชีตภายนอกเพื่อสื่อสารกับผู้ใช้

โรแลป (OLAP เชิงสัมพันธ์) - ข้อมูลต้นฉบับยังคงอยู่ในฐานข้อมูลเชิงสัมพันธ์เดียวกันกับที่ข้อมูลเดิมตั้งอยู่ ข้อมูลรวมจะถูกวางไว้ในตารางบริการที่สร้างขึ้นเป็นพิเศษเพื่อจัดเก็บไว้ในฐานข้อมูลเดียวกัน

ฮอลป (Hybrid OLAP) – ข้อมูลต้นฉบับยังคงอยู่ในฐานข้อมูลเชิงสัมพันธ์เดียวกันกับที่ข้อมูลเดิมตั้งอยู่ และข้อมูลรวมจะถูกจัดเก็บไว้ในฐานข้อมูลหลายมิติ

เครื่องมือ OLAP บางตัวสนับสนุนการจัดเก็บข้อมูลเฉพาะในโครงสร้างเชิงสัมพันธ์ บางส่วนเท่านั้นในโครงสร้างหลายมิติ อย่างไรก็ตาม เครื่องมือ OLAP เซิร์ฟเวอร์สมัยใหม่ส่วนใหญ่สนับสนุนวิธีการจัดเก็บข้อมูลทั้งสามวิธี การเลือกวิธีการจัดเก็บข้อมูลขึ้นอยู่กับปริมาณและโครงสร้างของข้อมูลต้นฉบับ ข้อกำหนดสำหรับความเร็วของการดำเนินการสืบค้น และความถี่ในการอัปเดตคิวบ์ OLAP

3.6 การทำเหมืองข้อมูล (ข้อมูลการทำเหมืองแร่)

คำว่า Data Mining หมายถึงกระบวนการค้นหาความสัมพันธ์ แนวโน้ม และความสัมพันธ์ผ่านอัลกอริธึมทางคณิตศาสตร์และสถิติต่างๆ เช่น การจัดกลุ่ม การวิเคราะห์การถดถอยและความสัมพันธ์ ฯลฯ สำหรับระบบสนับสนุนการตัดสินใจ ในกรณีนี้ ข้อมูลที่สะสมจะถูกสรุปโดยอัตโนมัติเป็นข้อมูลที่สามารถจัดประเภทเป็นความรู้ได้

เทคโนโลยีการทำเหมืองข้อมูลสมัยใหม่มีพื้นฐานมาจากแนวคิดของเทมเพลตที่สะท้อนถึงรูปแบบที่มีอยู่ในตัวอย่างย่อยของข้อมูลและประกอบขึ้นเป็นความรู้ที่ซ่อนอยู่

การค้นหารูปแบบดำเนินการโดยใช้วิธีการที่ไม่ใช้สมมติฐานเชิงนิรนัยเกี่ยวกับตัวอย่างย่อยเหล่านี้ คุณลักษณะที่สำคัญของ Data Mining คือลักษณะของรูปแบบที่ต้องการที่ไม่ได้มาตรฐานและไม่ชัดเจน กล่าวอีกนัยหนึ่ง เครื่องมือ Data Mining แตกต่างจากเครื่องมือประมวลผลข้อมูลทางสถิติและเครื่องมือ OLAP ตรงที่แทนที่จะตรวจสอบความสัมพันธ์ที่ผู้ใช้สันนิษฐานไว้ล่วงหน้า

ระหว่างข้อมูล พวกเขาสามารถค้นหาความสัมพันธ์ดังกล่าวได้อย่างอิสระตามข้อมูลที่มีอยู่ รวมถึงสร้างสมมติฐานเกี่ยวกับธรรมชาติของข้อมูลเหล่านั้น

โดยทั่วไป กระบวนการ Data Mining ประกอบด้วยสามขั้นตอน

    การระบุรูปแบบ (ค้นหาฟรี);

    การใช้รูปแบบที่ระบุเพื่อทำนายค่าที่ไม่รู้จัก (การสร้างแบบจำลองการทำนาย)

    การวิเคราะห์ข้อยกเว้น ออกแบบมาเพื่อระบุและตีความความผิดปกติในรูปแบบที่พบ

บางครั้งขั้นตอนกลางของการตรวจสอบความน่าเชื่อถือของรูปแบบที่พบระหว่างการค้นพบและการใช้งาน (ขั้นตอนการตรวจสอบ) จะถูกระบุอย่างชัดเจน

มีรูปแบบมาตรฐานห้าประเภทที่ระบุโดยวิธีการขุดข้อมูล:

1.สมาคมช่วยให้คุณสามารถระบุกลุ่มของวัตถุที่มีความเสถียรซึ่งมีการเชื่อมต่อโดยนัยได้ ความถี่ของการเกิดแต่ละรายการหรือกลุ่มของรายการ ซึ่งแสดงเป็นเปอร์เซ็นต์ เรียกว่าความชุก อัตราความชุกต่ำ (น้อยกว่าหนึ่งในพันของหนึ่งเปอร์เซ็นต์) บ่งชี้ว่าการเชื่อมโยงไม่มีนัยสำคัญ สมาคมเขียนไว้ในรูปแบบของกฎ: => บี, ที่ไหน เอ -บรรจุุภัณฑ์, ใน -ผลที่ตามมา เพื่อกำหนดความสำคัญของกฎการเชื่อมโยงผลลัพธ์แต่ละรายการ จำเป็นต้องคำนวณค่าที่เรียกว่าความเชื่อมั่น ถึง ใน(หรือความสัมพันธ์. ก และ ข)ความมั่นใจแสดงให้เห็นว่าบ่อยแค่ไหนเมื่อใด ปรากฏขึ้น ใน.ตัวอย่างเช่น ถ้า ง(เอ/บี)=20% หมายความว่าเมื่อซื้อสินค้า ในทุก ๆ ห้าจะมีการซื้อสินค้าด้วย ใน.

ตัวอย่างทั่วไปของการใช้การเชื่อมโยงคือการวิเคราะห์รูปแบบการซื้อ ตัวอย่างเช่น เมื่อศึกษาในซูเปอร์มาร์เก็ต คุณจะพบว่า 65% ของผู้ที่ซื้อมันฝรั่งทอดก็ซื้อ Coca-Cola ด้วย และหากมีส่วนลดสำหรับชุดดังกล่าว พวกเขาก็จะซื้อโค้กในกรณี 85% ผลลัพธ์ดังกล่าวมีคุณค่าในการพัฒนากลยุทธ์ทางการตลาด

2.ลำดับ - เป็นวิธีการระบุความสัมพันธ์ในช่วงเวลาหนึ่ง ในกรณีนี้ มีการกำหนดกฎที่อธิบายการเกิดขึ้นตามลำดับของเหตุการณ์บางกลุ่ม กฎดังกล่าวจำเป็นสำหรับการสร้างสถานการณ์ นอกจากนี้ ยังสามารถใช้เพื่อกำหนดชุดทั่วไปของยอดขายก่อนหน้าซึ่งอาจนำไปสู่การขายผลิตภัณฑ์หนึ่งๆ ในภายหลัง

3.การจำแนกประเภท - เครื่องมือลักษณะทั่วไป ช่วยให้เราสามารถย้ายจากการพิจารณาวัตถุแต่ละชิ้นไปสู่แนวคิดทั่วไปที่แสดงลักษณะคอลเลกชันของวัตถุบางอย่างและเพียงพอที่จะรับรู้วัตถุที่เป็นของคอลเลกชัน (คลาส) เหล่านี้ สาระสำคัญของกระบวนการสร้างแนวคิดคือการค้นหารูปแบบที่เป็นลักษณะเฉพาะของคลาส คุณสมบัติ (แอตทริบิวต์) ที่แตกต่างกันมากมายใช้เพื่ออธิบายวัตถุ ปัญหาของการสร้างแนวคิดตามคำอธิบายคุณลักษณะถูกกำหนดโดย M.M. บองอาร์ต. โซลูชันนี้ขึ้นอยู่กับการประยุกต์ใช้ขั้นตอนหลักสองขั้นตอน: การฝึกอบรมและการทดสอบ ในขั้นตอนการฝึก กฎการจำแนกประเภทจะถูกสร้างขึ้นตามการประมวลผลชุดการฝึกของออบเจ็กต์ ขั้นตอนการตรวจสอบ (การตรวจสอบ) ประกอบด้วยการใช้กฎการจำแนกประเภทที่เป็นผลลัพธ์เพื่อจดจำวัตถุจากตัวอย่าง (การตรวจสอบ) ใหม่ หากผลการทดสอบถือว่าน่าพอใจ กระบวนการเรียนรู้จะสิ้นสุดลง มิฉะนั้น กฎการจำแนกประเภทจะได้รับการปรับปรุงในกระบวนการฝึกอบรมใหม่

4.การจัดกลุ่ม – นี่คือการกระจายข้อมูล (บันทึก) จากฐานข้อมูลออกเป็นกลุ่ม (กลุ่ม) หรือส่วนที่มีคำจำกัดความพร้อมกันของกลุ่มเหล่านี้ การวิเคราะห์ที่นี่ไม่จำเป็นต้องมีการมอบหมายชั้นเรียนเบื้องต้นซึ่งต่างจากการจำแนกประเภท

5. การพยากรณ์อนุกรมเวลา เป็นเครื่องมือในการกำหนดแนวโน้มการเปลี่ยนแปลงคุณสมบัติของวัตถุที่พิจารณาในช่วงเวลาหนึ่ง การวิเคราะห์พฤติกรรมของอนุกรมเวลาช่วยให้เราสามารถทำนายค่าของคุณลักษณะที่กำลังศึกษาได้

เพื่อแก้ไขปัญหาดังกล่าว จึงมีการใช้วิธีการและอัลกอริธึมการทำเหมืองข้อมูลที่หลากหลาย เนื่องจากข้อเท็จจริงที่ว่า Data Mining ได้พัฒนาและพัฒนาที่จุดตัดของสาขาวิชาต่างๆ เช่น สถิติ ทฤษฎีสารสนเทศ การเรียนรู้ของเครื่อง และทฤษฎีฐานข้อมูล จึงค่อนข้างเป็นธรรมชาติที่อัลกอริธึมและวิธีการ Data Mining ส่วนใหญ่ได้รับการพัฒนาโดยใช้วิธีการต่างๆ จากสิ่งเหล่านี้ สาขาวิชา

จากวิธีการขุดข้อมูลที่หลากหลายที่มีอยู่ สามารถแยกแยะได้ดังต่อไปนี้:

    การวิเคราะห์การถดถอย ความแปรปรวน และสหสัมพันธ์(นำไปใช้ในแพ็คเกจทางสถิติที่ทันสมัยที่สุด โดยเฉพาะอย่างยิ่งในผลิตภัณฑ์ของ SAS Institute, StatSoft ฯลฯ );

    วิธีการวิเคราะห์ในสาขาวิชาเฉพาะ ตามแบบจำลองเชิงประจักษ์ (มักใช้ เช่น ในเครื่องมือวิเคราะห์ทางการเงินที่มีราคาไม่แพง)

    อัลกอริธึมโครงข่ายประสาทเทียม– วิธีการจำลองกระบวนการและปรากฏการณ์ที่ช่วยให้สามารถสร้างการพึ่งพาที่ซับซ้อนได้ วิธีการนี้ขึ้นอยู่กับการใช้แบบจำลองสมองทางชีววิทยาที่เรียบง่ายและประกอบด้วยข้อเท็จจริงที่ว่าพารามิเตอร์เริ่มต้นถือเป็นสัญญาณที่ถูกเปลี่ยนตามการเชื่อมต่อที่มีอยู่ระหว่าง "เซลล์ประสาท" และการตอบสนองของเครือข่ายทั้งหมดต่อ ข้อมูลเบื้องต้นถือเป็นการตอบสนองที่เป็นผลจากการวิเคราะห์ ในกรณีนี้ การเชื่อมต่อจะถูกสร้างขึ้นโดยใช้สิ่งที่เรียกว่าการฝึกอบรมเครือข่ายผ่านขนาดตัวอย่างขนาดใหญ่ที่มีทั้งข้อมูลเริ่มต้นและคำตอบที่ถูกต้อง โครงข่ายประสาทเทียมถูกนำมาใช้กันอย่างแพร่หลายในการแก้ปัญหาการจำแนกประเภท

    ตรรกะคลุมเครือใช้ในการประมวลผลข้อมูลที่มีค่าความจริงคลุมเครือซึ่งสามารถแสดงได้ด้วยตัวแปรทางภาษาที่หลากหลาย การแสดงความรู้แบบคลุมเครือถูกนำมาใช้กันอย่างแพร่หลายในการแก้ปัญหาการจำแนกและการพยากรณ์ เช่น ในระบบ XpertRule Miner (Attar Software Ltd., UK) รวมถึงใน AIS, NeuFuz ฯลฯ

    การอนุมานอุปนัยช่วยให้คุณได้รับข้อมูลทั่วไปของข้อเท็จจริงที่เก็บไว้ในฐานข้อมูล กระบวนการเรียนรู้แบบอุปนัยอาจเกี่ยวข้องกับผู้เชี่ยวชาญที่ให้สมมติฐาน วิธีนี้เรียกว่าการเรียนรู้แบบมีผู้สอน การค้นหากฎการวางนัยทั่วไปสามารถทำได้โดยไม่ต้องมีผู้สอนโดยการสร้างสมมติฐานโดยอัตโนมัติ ตามกฎแล้วเครื่องมือซอฟต์แวร์สมัยใหม่จะรวมทั้งสองวิธีและวิธีการทางสถิติเพื่อทดสอบสมมติฐาน ตัวอย่างของระบบที่ใช้โอกาสในการขายแบบอุปนัยคือ XpertRule Miner ซึ่งพัฒนาโดย Attar Software Ltd. (สหราชอาณาจักร);

    การใช้เหตุผลขึ้นอยู่กับ กรณีที่คล้ายกัน(“วิธีเพื่อนบ้านที่ใกล้ที่สุด”) (การให้เหตุผลตามกรณี - CBR) ขึ้นอยู่กับการค้นหาในฐานข้อมูลสำหรับสถานการณ์ที่มีคำอธิบายคล้ายคลึงกันในหลายวิธีกับสถานการณ์ที่กำหนด หลักการเปรียบเทียบช่วยให้เราสรุปได้ว่าผลลัพธ์ของสถานการณ์ที่คล้ายคลึงกันก็จะอยู่ใกล้กันเช่นกัน ข้อเสียของแนวทางนี้คือไม่ได้สร้างแบบจำลองหรือกฎเกณฑ์ใดๆ ที่สรุปประสบการณ์ก่อนหน้านี้ นอกจากนี้ ความน่าเชื่อถือของผลลัพธ์ที่อนุมานยังขึ้นอยู่กับความสมบูรณ์ของคำอธิบายของสถานการณ์ เช่นเดียวกับในกระบวนการอนุมานแบบอุปนัย ตัวอย่างของระบบที่ใช้ CBR ได้แก่: KATE Tools (Acknosoft, ฝรั่งเศส), Pattern Recognition Workbench (Unica, USA);

    ต้นไม้การตัดสินใจ– วิธีการจัดโครงสร้างปัญหาในรูปแบบของกราฟต้นไม้ ซึ่งจุดยอดสอดคล้องกับกฎการผลิตที่ช่วยให้คุณสามารถจำแนกข้อมูลหรือวิเคราะห์ผลที่ตามมาจากการตัดสินใจ วิธีการนี้จะช่วยให้เห็นภาพของระบบกฎการจำแนกประเภทได้หากมีไม่มากนัก ปัญหาง่ายๆ สามารถแก้ไขได้โดยใช้วิธีนี้เร็วกว่าการใช้โครงข่ายประสาทเทียมมาก สำหรับปัญหาที่ซับซ้อนและข้อมูลบางประเภท แผนผังการตัดสินใจอาจไม่เหมาะสม นอกจากนี้วิธีนี้ยังมีลักษณะปัญหาที่มีนัยสำคัญอีกด้วย ผลที่ตามมาประการหนึ่งของการจัดกลุ่มข้อมูลแบบลำดับชั้นคือการไม่มีตัวอย่างการฝึกอบรมจำนวนมากสำหรับกรณีพิเศษจำนวนมาก ดังนั้นการจำแนกประเภทจึงไม่ถือว่าเชื่อถือได้ วิธีแผนผังการตัดสินใจถูกนำมาใช้ในเครื่องมือซอฟต์แวร์จำนวนมาก ได้แก่: C5.0 (RuleQuest, ออสเตรเลีย), Clementine (Integral Solutions, UK), SIPINA (มหาวิทยาลัยลียง, ฝรั่งเศส), IDIS (Information Discovery, USA);

    การเขียนโปรแกรมเชิงวิวัฒนาการ– การค้นหาและการสร้างอัลกอริธึมที่แสดงการพึ่งพาซึ่งกันและกันของข้อมูล โดยยึดตามอัลกอริธึมที่ระบุเริ่มแรก ซึ่งได้รับการแก้ไขในระหว่างกระบวนการค้นหา บางครั้งการค้นหาการพึ่งพาซึ่งกันและกันจะดำเนินการในฟังก์ชันบางประเภท (เช่น พหุนาม)

อัลกอริธึมการค้นหาที่จำกัดการคำนวณการรวมกันของเหตุการณ์เชิงตรรกะอย่างง่ายในกลุ่มย่อยของข้อมูล

3.7 บูรณาการโอลาปและข้อมูลการทำเหมืองแร่

การประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) และการขุดข้อมูล (Data Mining) เป็นสององค์ประกอบของกระบวนการสนับสนุนการตัดสินใจ อย่างไรก็ตาม ในปัจจุบัน ระบบ OLAP ส่วนใหญ่มุ่งเน้นไปที่การให้การเข้าถึงข้อมูลหลายมิติเท่านั้น และเครื่องมือการขุดรูปแบบส่วนใหญ่จะจัดการกับเปอร์สเปคทีฟข้อมูลแบบมิติเดียว เพื่อเพิ่มประสิทธิภาพในการประมวลผลข้อมูลสำหรับระบบสนับสนุนการตัดสินใจ การวิเคราะห์ทั้งสองประเภทนี้จะต้องนำมารวมกัน

ในปัจจุบัน คำว่า "OLAP Data Mining" (การขุดหลายมิติ) กำลังเกิดขึ้นเพื่ออ้างถึงการรวมกันดังกล่าว

มีสามวิธีหลักในการสร้าง “OLAP Data Mining”:

    "ลูกบาศก์แล้วขุด" ควรจัดให้มีความสามารถในการดำเนินการวิเคราะห์อัจฉริยะเหนือผลลัพธ์การสืบค้นใดๆ สำหรับการนำเสนอแนวคิดแบบหลายมิติ ซึ่งก็คือ เหนือส่วนใดๆ ของการฉายภาพไฮเปอร์คิวบ์ของตัวบ่งชี้

    "การขุดแล้วลูกบาศก์" เช่นเดียวกับข้อมูลที่ดึงมาจากคลังสินค้า ผลลัพธ์การขุดจะต้องนำเสนอในรูปแบบไฮเปอร์คิวบ์สำหรับการวิเคราะห์หลายมิติในภายหลัง

    "ลูกบาศก์ขณะขุด" วิธีการบูรณาการที่ยืดหยุ่นนี้ช่วยให้คุณสามารถเปิดใช้งานกลไกการประมวลผลทางปัญญาประเภทเดียวกันโดยอัตโนมัติเหนือผลลัพธ์ของแต่ละขั้นตอนของการวิเคราะห์หลายมิติ (การเปลี่ยนแปลง) ระหว่างระดับของลักษณะทั่วไป การแยกส่วนใหม่ของไฮเปอร์คิวบ์ ฯลฯ )

    ชั้นประถมศึกษาปีที่ 11 [ข้อความ... พวกเขายังไง ส่วนหนึ่งทั้งหมด ระบบ ... รองศาสตราจารย์ ... เชบอคซารย์, 2552. ลำดับที่ 10. ป. 44 -49... . ผู้เขียน- คอมไพเลอร์: น... บันทึกย่อการบรรยาย, ...

  • คู่มือการศึกษาและระเบียบวิธี

    ... การบรรยาย- การตระเตรียม การบรรยายในวิชาคณิตศาสตร์ การเขียน บันทึกย่อการบรรยาย การบรรยาย- การใช้งาน ข้อมูลเทคโนโลยี ...

  • และ Kondaurova กับ Lebedev กิจกรรมการวิจัยของครูคณิตศาสตร์ในอนาคต งานสร้างสรรค์ในวิชาคณิตศาสตร์ระดับประถมศึกษา และวิธีการสอน

    คู่มือการศึกษาและระเบียบวิธี

    ... การบรรยาย- การตระเตรียม การบรรยายในวิชาคณิตศาสตร์ การเขียน บันทึกย่อการบรรยาย- การเตรียมเครื่องช่วยการมองเห็น เทคนิคการอ่าน การบรรยาย- การใช้งาน ข้อมูลเทคโนโลยี ...

  • M MEDIA MONITORING ความทันสมัยของอาชีวศึกษา มีนาคม - สิงหาคม 2554

    สรุป

    ... 11 .08.2011 "Dead Souls-2" ที่ RNIMU พวกเขา ... 3,11 -3,44 - ... สาธารณะ การบรรยายผู้นำ... เชบอคซารย์... และการเขียนลวก ๆ บันทึกย่อผู้ชม - ... ข้อมูลระบบและ เทคโนโลยี. ... ระบบการศึกษากล่าวว่า รองศาสตราจารย์ ... คอมไพเลอร์ ... ชิ้นส่วนเพิ่มขึ้นตามจริง เนื้อหา ...

OLAP (Online Analytical Processing) เป็นกระบวนการข้อมูลที่อนุญาตให้ผู้ใช้สามารถสืบค้นระบบ ทำการวิเคราะห์ ฯลฯ ในโหมดการทำงาน (ออนไลน์) ผลลัพธ์จะถูกสร้างขึ้นภายในไม่กี่วินาที

ระบบ OLAP สร้างขึ้นสำหรับผู้ใช้ปลายทาง ในขณะที่ระบบ OLTP สร้างขึ้นสำหรับผู้ใช้ IS มืออาชีพ OLAP รวมถึงกิจกรรมต่างๆ เช่น การสร้างแบบสอบถาม การสืบค้นรายงานเฉพาะกิจ การดำเนินการวิเคราะห์ทางสถิติ และการสร้างแอปพลิเคชันมัลติมีเดีย

การจัดหา OLAP จำเป็นต้องทำงานกับคลังข้อมูล (หรือคลังหลายมิติ) รวมถึงชุดเครื่องมือ ซึ่งโดยปกติจะมีความสามารถหลายมิติ เครื่องมือเหล่านี้อาจเป็นเครื่องมือสืบค้น สเปรดชีต เครื่องมือขุดข้อมูล เครื่องมือสร้างภาพข้อมูล ฯลฯ

แนวคิด OLAP มีพื้นฐานอยู่บนหลักการของการแทนข้อมูลหลายมิติ E. Codd ตรวจสอบข้อบกพร่องของแบบจำลองเชิงสัมพันธ์ ประการแรกชี้ให้เห็นถึงการไม่สามารถรวม ดู และวิเคราะห์ข้อมูลจากมุมมองของหลายมิติ นั่นคือในวิธีที่เข้าใจได้มากที่สุดสำหรับนักวิเคราะห์องค์กร และระบุข้อกำหนดทั่วไป สำหรับระบบ OLAP ที่ขยายฟังก์ชันการทำงานของ DBMS เชิงสัมพันธ์ และรวมการวิเคราะห์หลายมิติเป็นหนึ่งในคุณลักษณะของมัน

กฎ 12 ข้อที่ผลิตภัณฑ์ซอฟต์แวร์คลาส OLAP ต้องปฏิบัติตาม กฎเหล่านี้:

1. การแสดงแนวคิดข้อมูลหลายมิติ

2. ความโปร่งใส

3. ความพร้อมใช้งาน

4. ประสิทธิภาพที่มั่นคง

5. ไคลเอนต์ - สถาปัตยกรรมเซิร์ฟเวอร์

6. ความเท่าเทียมกันของการวัด

7. การประมวลผลแบบไดนามิกของเมทริกซ์แบบกระจาย

8. รองรับโหมดผู้ใช้หลายคน

9. รองรับการทำงานข้ามมิติได้อย่างไม่จำกัด

10. การจัดการข้อมูลที่ใช้งานง่าย

11. กลไกการสร้างรายงานที่ยืดหยุ่น

12. ไม่จำกัดจำนวนมิติและระดับการรวมกลุ่ม

ชุดของข้อกำหนดเหล่านี้ ซึ่งทำหน้าที่เป็นคำจำกัดความที่แท้จริงของ OLAP ควรได้รับการพิจารณาเป็นคำแนะนำ และผลิตภัณฑ์เฉพาะควรได้รับการประเมินตามระดับความใกล้เคียงกับการปฏิบัติตามข้อกำหนดทั้งหมดอย่างสมบูรณ์แบบในอุดมคติ


การทำเหมืองข้อมูลและการขุดความรู้ การจัดการและการวิเคราะห์ข้อมูลปริมาณมาก (Big data) ระบบธุรกิจอัจฉริยะ (BI)

การทำเหมืองข้อมูล (IDA) เป็นคำทั่วไปสำหรับการวิเคราะห์ข้อมูลโดยใช้วิธีทางคณิตศาสตร์และอัลกอริธึมที่ใช้งานอยู่ (วิธีการปรับให้เหมาะสม อัลกอริธึมทางพันธุกรรม การจดจำรูปแบบ วิธีทางสถิติ การทำเหมืองข้อมูล ฯลฯ) โดยใช้ผลลัพธ์ของการใช้วิธีการประยุกต์กับข้อมูลภาพ การนำเสนอ.



โดยทั่วไป กระบวนการ IAD ประกอบด้วยสามขั้นตอน:

1) การระบุรูปแบบ (ค้นหาฟรี)

2) การใช้รูปแบบที่ระบุเพื่อทำนายค่าที่ไม่รู้จัก (การพยากรณ์)

3) การวิเคราะห์ข้อยกเว้นเพื่อระบุและตีความความผิดปกติในรูปแบบที่พบ

บางครั้งมีขั้นตอนกลางในการตรวจสอบความน่าเชื่อถือของรูปแบบที่พบ (ขั้นตอนการตรวจสอบ) ระหว่างการค้นพบและการใช้งาน

วิธี IDA ทั้งหมดตามหลักการทำงานกับแหล่งข้อมูลแบ่งออกเป็นสองกลุ่ม:

เทคนิคการให้เหตุผลตามกรณีและปัญหา – ข้อมูลดิบสามารถจัดเก็บในรูปแบบละเอียดที่ชัดเจน และนำไปใช้โดยตรงสำหรับการทำนายและ/หรือการวิเคราะห์ข้อยกเว้น ข้อเสียของวิธีการกลุ่มนี้คือความยากในการใช้งานกับข้อมูลจำนวนมาก

วิธีการระบุและใช้รูปแบบที่เป็นทางการซึ่งจำเป็นต้องดึงข้อมูลจากข้อมูลปฐมภูมิและแปลงเป็นโครงสร้างที่เป็นทางการบางประเภท ซึ่งขึ้นอยู่กับวิธีการเฉพาะ

การทำเหมืองข้อมูล (DM) เป็นเทคโนโลยีสำหรับการค้นพบข้อมูล "ดิบ" ที่ก่อนหน้านี้ไม่รู้จัก ไม่สำคัญ มีประโยชน์ในทางปฏิบัติ และตีความได้ซึ่งจำเป็นสำหรับการตัดสินใจในด้านต่างๆ ของกิจกรรมของมนุษย์ อัลกอริธึมที่ใช้ในการขุดข้อมูลจำเป็นต้องมีการคำนวณจำนวนมาก ซึ่งก่อนหน้านี้เป็นปัจจัยจำกัดสำหรับการใช้งานจริงในวงกว้างของวิธีการเหล่านี้ แต่การเพิ่มประสิทธิภาพของโปรเซสเซอร์สมัยใหม่ได้ช่วยบรรเทาความรุนแรงของปัญหานี้

ตลาดระบบธุรกิจอัจฉริยะประกอบด้วย 5 ภาคส่วน:

1. ผลิตภัณฑ์โอแลป;

2. เครื่องมือขุดข้อมูล

3. เครื่องมือสำหรับสร้างคลังข้อมูลและตู้โชว์ข้อมูล

4. ระบบสารสนเทศและแอปพลิเคชันการจัดการ

5. เครื่องมือผู้ใช้ปลายทางสำหรับการสืบค้นและการรายงาน

ในปัจจุบัน ในบรรดาผู้นำของแพลตฟอร์ม BI ขององค์กร เราสามารถเน้นที่ MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute และอื่นๆ (ภาคผนวก B ให้การวิเคราะห์เปรียบเทียบฟังก์ชันการทำงานบางอย่างของระบบ BI)