ទិន្នន័យធំជាឧបករណ៍។ តើអ្វីទៅជាទិន្នន័យធំ៖ យើងបានប្រមូលនូវអ្វីដែលសំខាន់បំផុតទាំងអស់អំពីទិន្នន័យធំ។ បច្ចេកទេសវិភាគទិន្នន័យធំ

ជាធម្មតានៅពេលដែលពួកគេនិយាយអំពីដំណើរការវិភាគដ៏ធ្ងន់ធ្ងរ ជាពិសេសប្រសិនបើពួកគេប្រើពាក្យ Data Mining ពួកគេមានន័យថាមានទិន្នន័យយ៉ាងច្រើន។ ជាទូទៅ នេះមិនមែនជាករណីនោះទេ ព្រោះជាញឹកញាប់អ្នកត្រូវដំណើរការសំណុំទិន្នន័យតូចៗ ហើយការស្វែងរកគំរូនៅក្នុងពួកវាគឺមិនងាយស្រួលជាងកំណត់ត្រារាប់រយលាននោះទេ។ ទោះបីជាគ្មានការងឿងឆ្ងល់ថា តម្រូវការស្វែងរកលំនាំនៅក្នុងមូលដ្ឋានទិន្នន័យធំធ្វើឱ្យស្មុគស្មាញដល់កិច្ចការដែលមិនមែនជារឿងតូចតាចនៃការវិភាគរួចទៅហើយ។

ស្ថានភាពនេះមានលក្ខណៈធម្មតាជាពិសេសសម្រាប់អាជីវកម្មដែលទាក់ទងនឹងពាណិជ្ជកម្មលក់រាយ ទូរគមនាគមន៍ ធនាគារ និងអ៊ីនធឺណិត។ មូលដ្ឋានទិន្នន័យរបស់ពួកគេប្រមូលផ្តុំនូវព័ត៌មានជាច្រើនដែលទាក់ទងនឹងប្រតិបត្តិការ៖ មូលប្បទានប័ត្រ ការទូទាត់ ការហៅទូរសព្ទ កំណត់ហេតុជាដើម។

មិនមានវិធីសាស្រ្តជាសកលនៃការវិភាគ ឬក្បួនដោះស្រាយដែលសមរម្យសម្រាប់គ្រប់ករណី និងចំនួនព័ត៌មានណាមួយឡើយ។ វិធីសាស្រ្តវិភាគទិន្នន័យមានភាពខុសប្លែកគ្នាយ៉ាងខ្លាំងនៅក្នុងការអនុវត្ត គុណភាពនៃលទ្ធផល ភាពងាយស្រួលនៃការប្រើប្រាស់ និងតម្រូវការទិន្នន័យ។ ការបង្កើនប្រសិទ្ធភាពអាចត្រូវបានអនុវត្តនៅកម្រិតផ្សេងៗ៖ ឧបករណ៍ មូលដ្ឋានទិន្នន័យ វេទិកាវិភាគ ការរៀបចំទិន្នន័យដំបូង ក្បួនដោះស្រាយឯកទេស។ ការវិភាគទិន្នន័យទំហំធំ ទាមទារវិធីសាស្រ្តពិសេសមួយ ព្រោះ... វាពិបាកខាងបច្ចេកទេសក្នុងការដំណើរការពួកវាដោយប្រើតែ "brute force" ពោលគឺឧ។ ដោយប្រើឧបករណ៍ខ្លាំងជាង។

ជាការពិតណាស់ អ្នកអាចបង្កើនល្បឿននៃដំណើរការទិន្នន័យដោយប្រើផ្នែករឹងដែលមានអនុភាពជាងមុន ជាពិសេសចាប់តាំងពីម៉ាស៊ីនមេ និងស្ថានីយការងារទំនើបប្រើប្រាស់ប្រព័ន្ធដំណើរការពហុស្នូល RAM សំខាន់ៗ និងអារេឌីសដ៏មានឥទ្ធិពល។ ទោះយ៉ាងណាក៏ដោយ មានវិធីជាច្រើនទៀតដើម្បីដំណើរការទិន្នន័យដ៏ច្រើនដែលអនុញ្ញាតឱ្យមានលទ្ធភាពធ្វើមាត្រដ្ឋានបានកាន់តែច្រើន ហើយមិនត្រូវការការអាប់ដេតផ្នែករឹងគ្មានទីបញ្ចប់នោះទេ។

សមត្ថភាព DBMS

មូលដ្ឋានទិន្នន័យទំនើបរួមមានយន្តការផ្សេងៗ ការប្រើប្រាស់ដែលនឹងបង្កើនល្បឿនដំណើរការវិភាគយ៉ាងសំខាន់៖

ការគណនាទិន្នន័យបឋម។ ព័ត៌មានដែលត្រូវបានប្រើជាញឹកញាប់បំផុតសម្រាប់ការវិភាគអាចត្រូវបានគណនាជាមុន (ឧទាហរណ៍នៅពេលយប់) និងរក្សាទុកក្នុងទម្រង់ដែលបានរៀបចំសម្រាប់ដំណើរការនៅលើម៉ាស៊ីនមេមូលដ្ឋានទិន្នន័យក្នុងទម្រង់ជាគូបពហុវិមាត្រ ទិដ្ឋភាពជាក់ស្តែង និងតារាងពិសេស។
រក្សាទុកតារាងក្នុង RAM ។ ទិន្នន័យដែលប្រើកន្លែងទំនេរតិចតួច ប៉ុន្តែជាញឹកញាប់ត្រូវបានចូលប្រើក្នុងអំឡុងពេលដំណើរការវិភាគ ឧទាហរណ៍ ថតឯកសារ អាចត្រូវបានទុកក្នុងឃ្លាំងសម្ងាត់ RAM ដោយប្រើឧបករណ៍មូលដ្ឋានទិន្នន័យ។ វាកាត់បន្ថយការហៅទៅកាន់ប្រព័ន្ធរងនៃឌីសយឺតច្រើនដង។
ការបែងចែកតារាងទៅជាភាគថាស និងចន្លោះតារាង។ អ្នកអាចដាក់ទិន្នន័យ លិបិក្រម និងតារាងជំនួយនៅលើថាសដាច់ដោយឡែក។ វានឹងអនុញ្ញាតឱ្យ DBMS អាន និងសរសេរព័ត៌មានទៅថាសស្របគ្នា។ លើសពីនេះទៀតតារាងអាចត្រូវបានបែងចែកទៅជាភាគថាសដូច្នេះនៅពេលចូលប្រើទិន្នន័យមានចំនួនអប្បបរមានៃប្រតិបត្តិការថាស។ ឧទាហរណ៍ ប្រសិនបើយើងវិភាគទិន្នន័យជាញឹកញយសម្រាប់ខែចុងក្រោយ នោះយើងអាចប្រើតារាងមួយជាមួយទិន្នន័យប្រវត្តិសាស្រ្តបានដោយសមហេតុផល ប៉ុន្តែបំបែកវាទៅជាផ្នែកជាច្រើន ដូច្នេះនៅពេលចូលប្រើទិន្នន័យប្រចាំខែ ភាគតូចមួយត្រូវបានអាន ហើយមិនមានការចូលប្រើទេ។ ចំពោះទិន្នន័យប្រវត្តិសាស្ត្រទាំងអស់។

នេះគ្រាន់តែជាផ្នែកនៃសមត្ថភាពដែល DBMSs ទំនើបផ្តល់។ អ្នកអាចបង្កើនល្បឿននៃការទាញយកព័ត៌មានពីមូលដ្ឋានទិន្នន័យតាមវិធីជាច្រើនផ្សេងទៀត៖ ការធ្វើលិបិក្រមសមហេតុផល ការកសាងផែនការសំណួរ ដំណើរការស្របគ្នានៃសំណួរ SQL ដោយប្រើចង្កោម រៀបចំទិន្នន័យដែលបានវិភាគដោយប្រើនីតិវិធីដែលបានរក្សាទុក និងកេះនៅផ្នែកម្ខាងនៃម៉ាស៊ីនមេមូលដ្ឋានទិន្នន័យ។ល។ . លើសពីនេះទៅទៀត យន្តការទាំងនេះជាច្រើនអាចត្រូវបានប្រើដោយមិនត្រឹមតែ DBMSs "ធ្ងន់" ប៉ុណ្ណោះទេ ប៉ុន្តែក៏មានមូលដ្ឋានទិន្នន័យឥតគិតថ្លៃផងដែរ។

ការរួមបញ្ចូលគ្នានៃម៉ូដែល

លទ្ធភាពសម្រាប់ការបង្កើនល្បឿនមិនត្រូវបានកំណត់ចំពោះការបង្កើនប្រសិទ្ធភាពដំណើរការនៃមូលដ្ឋានទិន្នន័យទេ ច្រើនអាចត្រូវបានធ្វើដោយការរួមបញ្ចូលគ្នារវាងម៉ូដែលផ្សេងៗគ្នា។ វាត្រូវបានគេដឹងថាល្បឿនដំណើរការគឺទាក់ទងយ៉ាងសំខាន់ទៅនឹងភាពស្មុគស្មាញនៃឧបករណ៍គណិតវិទ្យាដែលបានប្រើ។ យន្តការនៃការវិភាគកាន់តែសាមញ្ញ ទិន្នន័យត្រូវបានវិភាគកាន់តែលឿន។

វាអាចធ្វើទៅបានដើម្បីបង្កើតសេណារីយ៉ូដំណើរការទិន្នន័យតាមរបៀបដែលទិន្នន័យត្រូវបាន "ដំណើរការ" តាមរយៈ Sieve នៃគំរូ។ គំនិតសាមញ្ញមួយត្រូវបានអនុវត្តនៅទីនេះ៖ កុំខ្ជះខ្ជាយពេលវេលាកែច្នៃអ្វីដែលអ្នកមិនចាំបាច់វិភាគ។

ក្បួនដោះស្រាយសាមញ្ញបំផុតត្រូវបានប្រើដំបូង។ ផ្នែកនៃទិន្នន័យដែលអាចត្រូវបានដំណើរការដោយប្រើក្បួនដោះស្រាយបែបនេះ ហើយដែលគ្មានន័យសម្រាប់ដំណើរការដោយប្រើវិធីសាស្ត្រស្មុគ្រស្មាញគឺត្រូវបានវិភាគ និងដកចេញពីដំណើរការបន្ថែមទៀត។ ទិន្នន័យដែលនៅសេសសល់ត្រូវបានផ្ទេរទៅដំណាក់កាលដំណើរការបន្ទាប់ ដែលប្រើក្បួនដោះស្រាយស្មុគស្មាញកាន់តែច្រើន ហើយបន្តបន្ទាប់ទៀត។ នៅថ្នាំងចុងក្រោយនៃស្គ្រីបដំណើរការ ក្បួនដោះស្រាយស្មុគស្មាញបំផុតត្រូវបានប្រើ ប៉ុន្តែបរិមាណនៃទិន្នន័យដែលបានវិភាគគឺតូចជាងគំរូដំបូងច្រើនដង។ ជាលទ្ធផល ពេលវេលាសរុបដែលត្រូវការដើម្បីដំណើរការទិន្នន័យទាំងអស់ត្រូវបានកាត់បន្ថយដោយលំដាប់នៃរ៉ិចទ័រ។

ចូរយើងផ្តល់ឧទាហរណ៍ជាក់ស្តែងនៃការប្រើប្រាស់វិធីសាស្រ្តនេះ។ នៅពេលដោះស្រាយបញ្ហានៃការព្យាករណ៍តម្រូវការ វាត្រូវបានណែនាំដំបូងឱ្យធ្វើការវិភាគ XYZ ដែលអនុញ្ញាតឱ្យអ្នកកំណត់ថាតើតម្រូវការសម្រាប់ទំនិញផ្សេងៗមានស្ថេរភាពកម្រិតណា។ ផលិតផលនៃក្រុម X ត្រូវបានលក់ជាប់លាប់ ដូច្នេះការអនុវត្តន៍ក្បួនដោះស្រាយការព្យាករណ៍ទៅពួកវាអនុញ្ញាតឱ្យយើងទទួលបាននូវការព្យាករណ៍គុណភាពខ្ពស់។ ផលិតផលនៃក្រុម Y ត្រូវបានលក់មិនសូវជាប់លាប់ ប្រហែលជាវាមានតម្លៃក្នុងការបង្កើតគំរូសម្រាប់ពួកគេមិនមែនសម្រាប់អត្ថបទនីមួយៗទេ ប៉ុន្តែសម្រាប់ក្រុម នេះអនុញ្ញាតឱ្យអ្នកធ្វើឱ្យស៊េរីពេលវេលារលូន និងធានាបាននូវប្រតិបត្តិការនៃក្បួនដោះស្រាយការព្យាករណ៍។ ផលិតផលរបស់ក្រុម Z ត្រូវបានលក់យ៉ាងច្របូកច្របល់ ដូច្នេះមិនចាំបាច់បង្កើតគំរូព្យាករណ៍សម្រាប់ពួកគេទាល់តែសោះ តម្រូវការសម្រាប់ពួកគេគួរតែត្រូវបានគណនាដោយផ្អែកលើរូបមន្តសាមញ្ញ ឧទាហរណ៍ ការលក់ប្រចាំខែជាមធ្យម។

យោងតាមស្ថិតិប្រហែល 70% នៃការចាត់ថ្នាក់មានផលិតផលពីក្រុម Z ។ ប្រហែល 25% ជាផលិតផលពីក្រុម Y ហើយប្រហែល 5% ប៉ុណ្ណោះជាផលិតផលពីក្រុម X ។ ដូច្នេះការសាងសង់និងការអនុវត្តគំរូស្មុគស្មាញគឺពាក់ព័ន្ធសម្រាប់ អតិបរមា 30% នៃផលិតផល។ ដូច្នេះការប្រើវិធីសាស្រ្តដែលបានពិពណ៌នាខាងលើនឹងកាត់បន្ថយពេលវេលាសម្រាប់ការវិភាគនិងការព្យាករណ៍ដោយ 5-10 ដង។

ដំណើរការប៉ារ៉ាឡែល

យុទ្ធសាស្ត្រដ៏មានប្រសិទ្ធភាពមួយទៀតសម្រាប់ដំណើរការទិន្នន័យក្នុងបរិមាណច្រើនគឺការបំបែកទិន្នន័យទៅជាផ្នែក និងបង្កើតគំរូសម្រាប់ផ្នែកនីមួយៗដាច់ដោយឡែកពីគ្នា បន្ទាប់មកបញ្ចូលគ្នានូវលទ្ធផល។ ភាគច្រើនជាញឹកញាប់ ក្នុងបរិមាណដ៏ធំនៃទិន្នន័យ សំណុំរងជាច្រើនដែលខុសគ្នាពីគ្នាទៅវិញទៅមកអាចត្រូវបានកំណត់អត្តសញ្ញាណ។ ជាឧទាហរណ៍ ទាំងនេះអាចជាក្រុមអតិថិជន ផលិតផលដែលមានឥរិយាបថស្រដៀងគ្នា និងដែលគួរបង្កើតគំរូមួយ។

ក្នុងករណីនេះ ជំនួសឱ្យការកសាងគំរូស្មុគស្មាញមួយសម្រាប់មនុស្សគ្រប់គ្នា អ្នកអាចបង្កើតគំរូសាមញ្ញជាច្រើនសម្រាប់ផ្នែកនីមួយៗ។ វិធីសាស្រ្តនេះអនុញ្ញាតឱ្យអ្នកបង្កើនល្បឿននៃការវិភាគ និងកាត់បន្ថយតម្រូវការអង្គចងចាំដោយដំណើរការទិន្នន័យក្នុងចំនួនតូចជាងក្នុងសំបុត្រតែមួយ។ លើសពីនេះទៀតក្នុងករណីនេះដំណើរការវិភាគអាចត្រូវបានប៉ារ៉ាឡែលដែលមានឥទ្ធិពលវិជ្ជមានទៅលើពេលវេលាដែលបានចំណាយផងដែរ។ លើសពីនេះទៀតអ្នកវិភាគផ្សេងៗគ្នាអាចបង្កើតគំរូសម្រាប់ផ្នែកនីមួយៗ។

បន្ថែមពីលើការបង្កើនល្បឿន វិធីសាស្រ្តនេះមានអត្ថប្រយោជន៍សំខាន់មួយទៀត - ម៉ូដែលសាមញ្ញមួយចំនួនដោយឡែកពីគ្នាគឺងាយស្រួលបង្កើត និងថែទាំជាងមួយធំ។ អ្នកអាចដំណើរការគំរូតាមដំណាក់កាល ដូច្នេះទទួលបានលទ្ធផលដំបូងក្នុងរយៈពេលដ៏ខ្លីបំផុត។

គំរូតំណាង

ប្រសិនបើទិន្នន័យមានបរិមាណច្រើន មិនមែនព័ត៌មានទាំងអស់អាចត្រូវបានប្រើដើម្បីបង្កើតគំរូនោះទេ ប៉ុន្តែមានសំណុំរងជាក់លាក់មួយ - គំរូតំណាង។ គំរូតំណាងដែលបានរៀបចំយ៉ាងត្រឹមត្រូវមានព័ត៌មានចាំបាច់សម្រាប់បង្កើតគំរូដែលមានគុណភាពខ្ពស់។

ដំណើរការវិភាគត្រូវបានបែងចែកជា 2 ផ្នែកគឺការបង្កើតគំរូ និងការអនុវត្តគំរូដែលបានបង្កើតទៅនឹងទិន្នន័យថ្មី។ ការកសាងគំរូស្មុគស្មាញគឺជាដំណើរការដែលពឹងផ្អែកលើធនធាន។ អាស្រ័យលើក្បួនដោះស្រាយដែលបានប្រើ ទិន្នន័យត្រូវបានទុកក្នុងឃ្លាំងសម្ងាត់ ស្កេនរាប់ពាន់ដង ប៉ារ៉ាម៉ែត្រជំនួយជាច្រើនត្រូវបានគណនា។ល។ ការអនុវត្តគំរូដែលបានបង្កើតរួចទៅហើយចំពោះទិន្នន័យថ្មីតម្រូវឱ្យមានធនធានតិចជាងដប់ទៅរាប់រយដង។ ជាញឹកញាប់វាកើតឡើងចំពោះការគណនាមុខងារសាមញ្ញមួយចំនួន។

ដូច្នេះ ប្រសិនបើគំរូត្រូវបានបង្កើតឡើងនៅលើសំណុំតូចៗ ហើយអនុវត្តជាបន្តបន្ទាប់ចំពោះសំណុំទិន្នន័យទាំងមូល នោះពេលវេលាដើម្បីទទួលបានលទ្ធផលនឹងត្រូវបានកាត់បន្ថយដោយលំដាប់នៃទំហំធៀបនឹងការប៉ុនប៉ងដើម្បីដំណើរការសំណុំទិន្នន័យដែលមានស្រាប់ទាំងស្រុង។

ដើម្បីទទួលបានគំរូតំណាងមានវិធីសាស្រ្តពិសេសឧទាហរណ៍ការយកគំរូ។ ការប្រើប្រាស់របស់ពួកគេធ្វើឱ្យវាអាចបង្កើនល្បឿននៃដំណើរការវិភាគដោយមិនបាត់បង់គុណភាពនៃការវិភាគ។

សង្ខេប

វិធីសាស្រ្តដែលបានពិពណ៌នាគឺគ្រាន់តែជាផ្នែកតូចមួយនៃវិធីសាស្រ្តដែលអនុញ្ញាតឱ្យអ្នកវិភាគទិន្នន័យយ៉ាងច្រើន។ មានវិធីសាស្រ្តផ្សេងទៀត ឧទាហរណ៍ ការប្រើប្រាស់ក្បួនដោះស្រាយពិសេសដែលអាចធ្វើមាត្រដ្ឋានបាន គំរូឋានានុក្រម ការរៀនបង្អួច។ល។

ការវិភាគមូលដ្ឋានទិន្នន័យដ៏ធំគឺជាកិច្ចការមិនសំខាន់ដែលក្នុងករណីភាគច្រើនមិនអាចដោះស្រាយបាន ប៉ុន្តែមូលដ្ឋានទិន្នន័យទំនើប និងវេទិកាវិភាគផ្តល់នូវវិធីសាស្រ្តជាច្រើនសម្រាប់ការដោះស្រាយបញ្ហានេះ។ នៅពេលប្រើដោយឆ្លាតវៃ ប្រព័ន្ធមានសមត្ថភាពក្នុងការដំណើរការទិន្នន័យ terabytes ក្នុងល្បឿនដែលអាចទទួលយកបាន។

ពាក្យ "ទិន្នន័យធំ" អាចត្រូវបានគេទទួលស្គាល់សព្វថ្ងៃនេះ ប៉ុន្តែនៅតែមានការភាន់ច្រលំបន្តិចជុំវិញវាថា តើវាមានន័យយ៉ាងណា។ ជាការពិត គំនិតនេះកំពុងវិវត្តន៍ឥតឈប់ឈរ និងត្រូវបានកំណត់ឡើងវិញ ព្រោះវានៅតែជាកម្លាំងជំរុញនៅពីក្រោយរលកបន្តនៃការផ្លាស់ប្តូរឌីជីថល រួមទាំងបញ្ញាសិប្បនិម្មិត វិទ្យាសាស្ត្រទិន្នន័យ និងអ៊ីនធឺណិតនៃអ្វីៗ។ ប៉ុន្តែតើបច្ចេកវិទ្យា Big-Data គឺជាអ្វី ហើយតើវាផ្លាស់ប្តូរពិភពលោករបស់យើងយ៉ាងដូចម្តេច? ចូរយើងព្យាយាមស្វែងយល់ពីខ្លឹមសារនៃបច្ចេកវិទ្យា Big Data និងអត្ថន័យរបស់វានៅក្នុងពាក្យសាមញ្ញ។

វាទាំងអស់បានចាប់ផ្តើមជាមួយនឹងការផ្ទុះនៅក្នុងបរិមាណនៃទិន្នន័យដែលយើងបានបង្កើតតាំងពីព្រឹកព្រលឹមនៃយុគសម័យឌីជីថល។ នេះភាគច្រើនដោយសារតែការអភិវឌ្ឍន៍កុំព្យូទ័រ អ៊ីនធឺណិត និងបច្ចេកវិទ្យាដែលអាច "ឆក់" ទិន្នន័យពីពិភពលោកជុំវិញយើង។ ទិន្នន័យនៅក្នុងខ្លួនវាមិនមែនជាការច្នៃប្រឌិតថ្មីទេ។ សូម្បីតែមុនអាយុនៃកុំព្យូទ័រ និងមូលដ្ឋានទិន្នន័យ យើងបានប្រើកំណត់ត្រាប្រតិបត្តិការក្រដាស កំណត់ត្រាអតិថិជន និងឯកសារបណ្ណសារដែលបង្កើតជាទិន្នន័យ។ កុំព្យូទ័រ ជាពិសេសសៀវភៅបញ្ជី និងមូលដ្ឋានទិន្នន័យ បានធ្វើឱ្យយើងងាយស្រួលរក្សាទុក និងរៀបចំទិន្នន័យក្នុងទ្រង់ទ្រាយធំ។ ភ្លាមៗនោះព័ត៌មានអាចរកបានដោយគ្រាន់តែចុចតែម្តងប៉ុណ្ណោះ។

ទោះយ៉ាងណាក៏ដោយ យើងបានមកផ្លូវឆ្ងាយពីតារាងដើម និងមូលដ្ឋានទិន្នន័យ។ សព្វថ្ងៃនេះ រៀងរាល់ពីរថ្ងៃម្តង យើងបង្កើតទិន្នន័យច្រើនដូចដែលយើងបានទទួលតាំងពីដំបូងរហូតដល់ឆ្នាំ 2000។ ត្រូវហើយ រៀងរាល់ពីរថ្ងៃម្តង។ ហើយចំនួនទិន្នន័យដែលយើងបង្កើតនៅតែបន្តកើនឡើងជាលំដាប់។ នៅឆ្នាំ 2020 ចំនួនព័ត៌មានឌីជីថលដែលមាននឹងកើនឡើងពីប្រមាណ 5 zettabytes ដល់ 20 zettabytes។

សព្វថ្ងៃនេះ ស្ទើរតែគ្រប់សកម្មភាពដែលយើងធ្វើបានបន្សល់ទុកនូវសញ្ញារបស់វា។ យើងបង្កើតទិន្នន័យរាល់ពេលដែលយើងទៅអ៊ីនធឺណិត នៅពេលដែលយើងយកស្មាតហ្វូនរបស់យើងដែលបំពាក់ដោយម៉ាស៊ីនស្វែងរក នៅពេលយើងនិយាយជាមួយមិត្តរបស់យើងតាមរយៈបណ្តាញសង្គម ឬការជជែកជាដើម។ លើសពីនេះ បរិមាណទិន្នន័យដែលបង្កើតដោយម៉ាស៊ីនក៏កំពុងកើនឡើងយ៉ាងឆាប់រហ័សផងដែរ។ ទិន្នន័យត្រូវបានបង្កើត និងចែករំលែកនៅពេលដែលឧបករណ៍ផ្ទះឆ្លាតវៃរបស់យើងទាក់ទងគ្នាទៅវិញទៅមក ឬជាមួយម៉ាស៊ីនមេផ្ទះរបស់ពួកគេ។ ឧបករណ៍ឧស្សាហកម្មនៅក្នុងរោងចក្រ និងរោងចក្រត្រូវបានបំពាក់កាន់តែខ្លាំងឡើងជាមួយនឹងឧបករណ៍ចាប់សញ្ញាដែលប្រមូលផ្តុំ និងបញ្ជូនទិន្នន័យ។

ពាក្យ "ទិន្នន័យធំ" សំដៅលើការប្រមូលទិន្នន័យទាំងអស់នេះ និងសមត្ថភាពរបស់យើងក្នុងការប្រើប្រាស់វាឱ្យមានប្រយោជន៍ក្នុងវិស័យជាច្រើន រួមទាំងអាជីវកម្មផងដែរ។

តើបច្ចេកវិទ្យា Big-Data ដំណើរការយ៉ាងដូចម្តេច?

ទិន្នន័យធំដំណើរការលើគោលការណ៍៖ នៅពេលដែលអ្នកដឹងកាន់តែច្រើនអំពីប្រធានបទ ឬបាតុភូតជាក់លាក់មួយ នោះអ្នកអាចសម្រេចបានការយល់ដឹងថ្មី និងទស្សន៍ទាយអំពីអ្វីដែលនឹងកើតឡើងនាពេលអនាគតកាន់តែជឿជាក់។ នៅពេលយើងប្រៀបធៀបចំណុចទិន្នន័យកាន់តែច្រើន ទំនាក់ទំនងត្រូវបានលាក់ទុកពីមុន ហើយទំនាក់ទំនងទាំងនេះអនុញ្ញាតឱ្យយើងរៀន និងធ្វើការសម្រេចចិត្តបានប្រសើរជាងមុន។ ភាគច្រើន វាត្រូវបានធ្វើតាមរយៈដំណើរការដែលពាក់ព័ន្ធនឹងការកសាងគំរូដោយផ្អែកលើទិន្នន័យដែលយើងអាចប្រមូលបាន ហើយបន្ទាប់មកដំណើរការការក្លែងធ្វើដែលកែប្រែតម្លៃនៃចំណុចទិន្នន័យរាល់ពេល និងតាមដានពីរបៀបដែលពួកគេប៉ះពាល់ដល់លទ្ធផលរបស់យើង។ ដំណើរការនេះគឺដោយស្វ័យប្រវត្តិ បច្ចេកវិទ្យាវិភាគទំនើបនឹងដំណើរការការក្លែងធ្វើទាំងនេះរាប់លាន ដោយកែប្រែរាល់អថេរដែលអាចកើតមាន រហូតដល់ពួកគេរកឃើញគំរូ ឬគំនិតដែលជួយដោះស្រាយបញ្ហាដែលពួកគេកំពុងធ្វើការ។

Bill Gates ព្យួរលើមាតិកាក្រដាសនៃស៊ីឌីមួយ។

រហូតមកដល់ពេលថ្មីៗនេះ ទិន្នន័យត្រូវបានកំណត់ចំពោះសៀវភៅបញ្ជី ឬមូលដ្ឋានទិន្នន័យ ហើយអ្វីៗទាំងអស់ត្រូវបានរៀបចំ និងយ៉ាងស្អាត។ អ្វីដែលមិនងាយស្រួលរៀបចំជាជួរដេក និងជួរឈរត្រូវបានគេចាត់ទុកថាស្មុគស្មាញពេកក្នុងការធ្វើការជាមួយ និងត្រូវបានគេមិនអើពើ។ ទោះជាយ៉ាងណាក៏ដោយ ការជឿនលឿនក្នុងការផ្ទុក និងការវិភាគមានន័យថា យើងអាចចាប់យក រក្សាទុក និងដំណើរការទិន្នន័យប្រភេទផ្សេងៗគ្នាជាច្រើន។ ជាលទ្ធផល "ទិន្នន័យ" សព្វថ្ងៃនេះអាចមានន័យអ្វីទាំងអស់ពីមូលដ្ឋានទិន្នន័យរហូតដល់រូបថត វីដេអូ ការថតសំឡេង អត្ថបទដែលបានសរសេរ និងទិន្នន័យឧបករណ៍ចាប់សញ្ញា។

ដើម្បីយល់អំពីទិន្នន័យរញ៉េរញ៉ៃទាំងអស់នេះ គម្រោងដែលមានមូលដ្ឋានលើទិន្នន័យធំ តែងតែប្រើការវិភាគដ៏ទំនើបដោយប្រើបញ្ញាសិប្បនិម្មិត និងការរៀនកុំព្យូទ័រ។ តាមរយៈការបង្រៀនម៉ាស៊ីនកុំព្យូទ័រដើម្បីកំណត់នូវទិន្នន័យជាក់លាក់ណាមួយ តាមរយៈការទទួលស្គាល់គំរូ ឬដំណើរការភាសាធម្មជាតិ ជាឧទាហរណ៍ យើងអាចបង្រៀនពួកគេឱ្យកំណត់អត្តសញ្ញាណគំរូបានលឿន និងអាចទុកចិត្តបានជាងខ្លួនយើង។

តើ Big Data ត្រូវបានប្រើប្រាស់យ៉ាងដូចម្តេច?

លំហូរទិន្នន័យឧបករណ៍ចាប់សញ្ញា អត្ថបទ សំឡេង រូបថត និងវីដេអូដែលកើនឡើងឥតឈប់ឈរនេះ មានន័យថាឥឡូវនេះយើងអាចប្រើប្រាស់ទិន្នន័យតាមរបៀបដែលមិននឹកស្មានដល់កាលពីប៉ុន្មានឆ្នាំមុន។ នេះគឺជាការនាំមកនូវការផ្លាស់ប្តូរបដិវត្តន៍ដល់ពិភពអាជីវកម្មនៅក្នុងស្ទើរតែគ្រប់ឧស្សាហកម្ម។ សព្វថ្ងៃនេះ ក្រុមហ៊ុននានាអាចទស្សន៍ទាយជាមួយនឹងភាពត្រឹមត្រូវមិនគួរឱ្យជឿដែលប្រភេទជាក់លាក់នៃអតិថិជននឹងចង់ធ្វើការទិញ និងនៅពេលណា។ ទិន្នន័យធំក៏ជួយឱ្យក្រុមហ៊ុនអនុវត្តសកម្មភាពរបស់ពួកគេកាន់តែមានប្រសិទ្ធភាពផងដែរ។

សូម្បីតែនៅខាងក្រៅអាជីវកម្មក៏ដោយ គម្រោងដែលទាក់ទងនឹង Big Data កំពុងជួយផ្លាស់ប្តូរពិភពលោករបស់យើងតាមវិធីផ្សេងៗរួចហើយ៖

ការកែលម្អការថែទាំសុខភាព - ឱសថដែលជំរុញដោយទិន្នន័យមានសមត្ថភាពវិភាគព័ត៌មាន និងរូបភាពវេជ្ជសាស្រ្តយ៉ាងច្រើនទៅជាគំរូដែលអាចជួយរកឃើញជំងឺនៅដំណាក់កាលដំបូង និងបង្កើតថ្នាំថ្មី។
ការទស្សន៍ទាយ និងការឆ្លើយតបទៅនឹងគ្រោះមហន្តរាយធម្មជាតិ និងមនុស្សបង្កើត។ ទិន្នន័យឧបករណ៍ចាប់សញ្ញាអាចត្រូវបានវិភាគដើម្បីទស្សន៍ទាយកន្លែងដែលការរញ្ជួយដីទំនងជាកើតឡើង ហើយគំរូអាកប្បកិរិយារបស់មនុស្សផ្តល់នូវតម្រុយដែលជួយអង្គការផ្តល់ជំនួយដល់អ្នកនៅរស់រានមានជីវិត។ បច្ចេកវិទ្យា Big Data ក៏ត្រូវបានប្រើដើម្បីតាមដាន និងការពារលំហូរជនភៀសខ្លួនពីតំបន់សង្រ្គាមជុំវិញពិភពលោក។
ទប់ស្កាត់បទល្មើស។ កងកម្លាំងប៉ូលិសកំពុងប្រើប្រាស់យុទ្ធសាស្ត្រជំរុញទិន្នន័យកាន់តែខ្លាំងឡើង ដែលបញ្ចូលព័ត៌មានស៊ើបការណ៍សម្ងាត់របស់ពួកគេ និងព័ត៌មានដែលមានជាសាធារណៈ ដើម្បីប្រើប្រាស់ធនធានឱ្យកាន់តែមានប្រសិទ្ធភាព និងចាត់វិធានការទប់ស្កាត់ក្នុងករណីចាំបាច់។

សៀវភៅល្អបំផុតអំពីបច្ចេកវិទ្យា Big-Data

គ្រប់គ្នាកុហក។ ម៉ាស៊ីនស្វែងរក ទិន្នន័យធំ និងអ៊ីនធឺណិតដឹងពីអ្វីៗគ្រប់យ៉ាងអំពីអ្នក។
ទិន្នន័យធំ។ បច្ចេកវិទ្យាទាំងអស់នៅក្នុងសៀវភៅមួយ។
ឧស្សាហកម្មសុភមង្គល។ របៀបដែលទិន្នន័យធំ និងបច្ចេកវិទ្យាថ្មីជួយបន្ថែមអារម្មណ៍ដល់ផលិតផល និងសេវាកម្ម។
បដិវត្តក្នុងការវិភាគ។ វិធីកែលម្អអាជីវកម្មរបស់អ្នកក្នុងយុគសម័យនៃទិន្នន័យធំដោយប្រើការវិភាគប្រតិបត្តិការ។

បញ្ហាជាមួយទិន្នន័យធំ

ទិន្នន័យធំផ្តល់ឱ្យយើងនូវគំនិត និងឱកាសដែលមិនធ្លាប់មានពីមុនមក ប៉ុន្តែក៏លើកឡើងនូវបញ្ហា និងសំណួរដែលត្រូវដោះស្រាយផងដែរ៖

ឯកជនភាពទិន្នន័យ - ទិន្នន័យធំដែលយើងបង្កើតថ្ងៃនេះមានព័ត៌មានជាច្រើនអំពីជីវិតផ្ទាល់ខ្លួនរបស់យើង ភាពឯកជនដែលយើងមានសិទ្ធិទាំងអស់។ កាន់តែច្រើនឡើង យើងកំពុងត្រូវបានស្នើសុំឱ្យធ្វើសមតុល្យបរិមាណទិន្នន័យផ្ទាល់ខ្លួនដែលយើងបញ្ចេញជាមួយនឹងភាពងាយស្រួលដែលកម្មវិធី និងសេវាកម្មផ្អែកលើទិន្នន័យធំផ្តល់ជូន។
សុវត្ថិភាពទិន្នន័យ - ទោះបីជាយើងសម្រេចចិត្តថាយើងសប្បាយចិត្តជាមួយនឹងនរណាម្នាក់ដែលមានទិន្នន័យរបស់យើងសម្រាប់គោលបំណងជាក់លាក់មួយក៏ដោយ យើងអាចទុកចិត្តពួកគេឱ្យរក្សាទិន្នន័យរបស់យើងឱ្យមានសុវត្ថិភាពនិងសុវត្ថិភាពដែរឬទេ?
ការរើសអើងទិន្នន័យ - នៅពេលដែលព័ត៌មានទាំងអស់ត្រូវបានគេដឹង តើវាអាចទទួលយកបានទេក្នុងការរើសអើងមនុស្សដោយផ្អែកលើទិន្នន័យពីជីវិតផ្ទាល់ខ្លួនរបស់ពួកគេ? យើងប្រើប្រាស់ពិន្ទុឥណទានរួចហើយ ដើម្បីសម្រេចថាអ្នកណាអាចខ្ចីប្រាក់ ហើយការធានារ៉ាប់រងក៏ត្រូវបានជំរុញដោយទិន្នន័យយ៉ាងច្រើនផងដែរ។ យើងគួររំពឹងថានឹងត្រូវបានវិភាគ និងវាយតម្លៃឱ្យបានលម្អិតបន្ថែមទៀត ប៉ុន្តែត្រូវយកចិត្តទុកដាក់ដើម្បីធានាថាវាមិនធ្វើឱ្យជីវិតកាន់តែលំបាកសម្រាប់អ្នកដែលមានធនធានតិច និងលទ្ធភាពទទួលបានព័ត៌មានមានកម្រិត។

ការអនុវត្តភារកិច្ចទាំងនេះគឺជាធាតុផ្សំដ៏សំខាន់នៃទិន្នន័យធំ ហើយត្រូវតែដោះស្រាយដោយអង្គការដែលចង់ប្រើទិន្នន័យបែបនេះ។ ការបរាជ័យក្នុងការធ្វើបែបនេះអាចទុកឱ្យអាជីវកម្មងាយរងគ្រោះ មិនត្រឹមតែទាក់ទងនឹងកេរ្តិ៍ឈ្មោះប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងស្របច្បាប់ និងហិរញ្ញវត្ថុផងដែរ។

សម្លឹងមើលទៅអនាគត

ទិន្នន័យកំពុងផ្លាស់ប្តូរពិភពលោក និងជីវិតរបស់យើងក្នុងល្បឿនដែលមិនធ្លាប់មានពីមុនមក។ ប្រសិនបើ Big Data មានសមត្ថភាពទាំងអស់នៅថ្ងៃនេះ សូមស្រមៃមើលថាតើវានឹងមានសមត្ថភាពអ្វីខ្លះនៅថ្ងៃស្អែក។ ចំនួនទិន្នន័យដែលមានសម្រាប់ពួកយើងនឹងកើនឡើងតែប៉ុណ្ណោះ ហើយបច្ចេកវិទ្យាវិភាគនឹងកាន់តែជឿនលឿនជាងមុន។

សម្រាប់អាជីវកម្ម សមត្ថភាពក្នុងការអនុវត្ត Big Data នឹងកាន់តែមានសារៈសំខាន់ក្នុងប៉ុន្មានឆ្នាំខាងមុខនេះ។ មានតែក្រុមហ៊ុនទាំងនោះដែលចាត់ទុកទិន្នន័យជាទ្រព្យសកម្មយុទ្ធសាស្ត្រប៉ុណ្ណោះដែលនឹងរស់រានមានជីវិត និងរីកចម្រើន។ អ្នកដែលព្រងើយកន្តើយនឹងបដិវត្តន៍នេះ ប្រថុយនឹងការចាកចេញ។

ទិន្នន័យធំ (ឬទិន្នន័យធំ) គឺជាសំណុំនៃវិធីសាស្រ្តសម្រាប់ធ្វើការជាមួយបរិមាណដ៏ធំនៃព័ត៌មានដែលមានរចនាសម្ព័ន្ធ ឬមិនមានរចនាសម្ព័ន្ធ។ អ្នកឯកទេសទិន្នន័យធំដំណើរការ និងវិភាគវា ដើម្បីទទួលបានលទ្ធផលដែលអាចមើលឃើញដោយមនុស្ស។ Look At Me បានពិភាក្សាជាមួយអ្នកជំនាញ ហើយស្វែងយល់ថាតើស្ថានភាពបែបណាជាមួយនឹងការដំណើរការទិន្នន័យធំនៅក្នុងប្រទេសរុស្ស៊ី កន្លែងណា និងអ្វីដែលល្អបំផុតក្នុងការសិក្សាសម្រាប់អ្នកដែលចង់ធ្វើការក្នុងវិស័យនេះ។

Alexey Ryvkin អំពីនិន្នាការចម្បងនៅក្នុងវិស័យទិន្នន័យធំ ការទំនាក់ទំនងជាមួយអតិថិជន និងពិភពនៃលេខ

ខ្ញុំបានសិក្សានៅវិទ្យាស្ថានបច្ចេកវិទ្យាអេឡិចត្រូនិចម៉ូស្គូ។ រឿងចំបងដែលខ្ញុំបានយកចេញពីទីនោះ គឺចំណេះដឹងជាមូលដ្ឋានក្នុងរូបវិទ្យា និងគណិតវិទ្យា។ ក្នុងពេលដំណាលគ្នាជាមួយនឹងការសិក្សារបស់ខ្ញុំ ខ្ញុំបានធ្វើការនៅមជ្ឈមណ្ឌល R&D ដែលខ្ញុំបានចូលរួមនៅក្នុងការអភិវឌ្ឍន៍ និងការអនុវត្តក្បួនដោះស្រាយការសរសេរកូដដែលធន់នឹងសំឡេងសម្រាប់ការបញ្ជូនទិន្នន័យប្រកបដោយសុវត្ថិភាព។ បន្ទាប់ពីបញ្ចប់ថ្នាក់បរិញ្ញាបត្រមក ខ្ញុំបានចូលរៀនថ្នាក់អនុបណ្ឌិតផ្នែកព័ត៌មានធុរកិច្ចនៅវិទ្យាល័យសេដ្ឋកិច្ច។ បន្ទាប់មកខ្ញុំចង់ធ្វើការនៅ IBS ។ ខ្ញុំមានសំណាងណាស់ដែលនៅពេលនោះ ដោយសារគម្រោងមួយចំនួនធំ មានការជ្រើសរើសអ្នកហាត់ការបន្ថែម ហើយបន្ទាប់ពីការសម្ភាសន៍ជាច្រើនដង ខ្ញុំបានចាប់ផ្តើមធ្វើការនៅ IBS ដែលជាក្រុមហ៊ុនធំបំផុតរបស់រុស្ស៊ីក្នុងវិស័យនេះ។ ក្នុងរយៈពេលបីឆ្នាំ ខ្ញុំបានចេញពីអ្នកហាត់ការទៅស្ថាបត្យករដំណោះស្រាយសហគ្រាស។ បច្ចុប្បន្នខ្ញុំកំពុងអភិវឌ្ឍជំនាញក្នុងបច្ចេកវិទ្យា Big Data សម្រាប់ក្រុមហ៊ុនអតិថិជនមកពីផ្នែកហិរញ្ញវត្ថុ និងទូរគមនាគមន៍។

មានឯកទេសសំខាន់ពីរសម្រាប់អ្នកដែលចង់ធ្វើការជាមួយទិន្នន័យធំ៖ អ្នកវិភាគ និងអ្នកប្រឹក្សាព័ត៌មានវិទ្យា ដែលបង្កើតបច្ចេកវិទ្យាដើម្បីធ្វើការជាមួយទិន្នន័យធំ។ លើសពីនេះ យើងក៏អាចនិយាយអំពីវិជ្ជាជីវៈរបស់អ្នកវិភាគទិន្នន័យធំ ពោលគឺមនុស្សដែលធ្វើការដោយផ្ទាល់ជាមួយទិន្នន័យ ជាមួយនឹងវេទិកា IT របស់អតិថិជន។ ពីមុន ទាំងនេះគឺជាអ្នកវិភាគគណិតវិទ្យាសាមញ្ញដែលស្គាល់ស្ថិតិ និងគណិតវិទ្យា ហើយបានប្រើកម្មវិធីស្ថិតិដើម្បីដោះស្រាយបញ្ហាការវិភាគទិន្នន័យ។ សព្វថ្ងៃនេះ បន្ថែមពីលើចំណេះដឹងអំពីស្ថិតិ និងគណិតវិទ្យា ការយល់ដឹងអំពីបច្ចេកវិទ្យា និងវដ្តជីវិតទិន្នន័យក៏ចាំបាច់ផងដែរ។ នេះតាមគំនិតរបស់ខ្ញុំ គឺជាភាពខុសគ្នារវាងអ្នកវិភាគទិន្នន័យទំនើប និងអ្នកវិភាគទាំងនោះដែលពីមុនមក។

ជំនាញរបស់ខ្ញុំគឺការប្រឹក្សាផ្នែកព័ត៌មានវិទ្យា ពោលគឺខ្ញុំបានមកជាមួយ និងផ្តល់ជូនអតិថិជននូវវិធីដោះស្រាយបញ្ហាអាជីវកម្មដោយប្រើបច្ចេកវិទ្យា IT ។ មនុស្សដែលមានបទពិសោធន៍ផ្សេងៗគ្នាមកប្រឹក្សា ប៉ុន្តែគុណសម្បត្តិសំខាន់បំផុតសម្រាប់វិជ្ជាជីវៈនេះគឺសមត្ថភាពក្នុងការយល់ពីតម្រូវការរបស់អតិថិជន បំណងប្រាថ្នាដើម្បីជួយមនុស្ស និងអង្គការ ការទំនាក់ទំនងល្អ និងជំនាញជាក្រុម (ចាប់តាំងពីវាតែងតែធ្វើការជាមួយអតិថិជន និង នៅក្នុងក្រុម) ជំនាញវិភាគល្អ។ ការលើកទឹកចិត្តផ្ទៃក្នុងមានសារៈសំខាន់ខ្លាំងណាស់៖ យើងធ្វើការក្នុងបរិយាកាសប្រកួតប្រជែង ហើយអតិថិជនរំពឹងថានឹងមានដំណោះស្រាយមិនធម្មតា និងការចាប់អារម្មណ៍លើការងារ។

ពេលវេលារបស់ខ្ញុំភាគច្រើនគឺត្រូវចំណាយក្នុងការទំនាក់ទំនងជាមួយអតិថិជន បង្កើតតម្រូវការអាជីវកម្មរបស់ពួកគេជាផ្លូវការ និងជួយពួកគេអភិវឌ្ឍស្ថាបត្យកម្មបច្ចេកវិទ្យាដែលសមស្របបំផុត។ លក្ខណៈវិនិច្ឆ័យជ្រើសរើសនៅទីនេះមានលក្ខណៈពិសេសផ្ទាល់ខ្លួនរបស់ពួកគេ៖ បន្ថែមពីលើមុខងារ និង TCO (តម្លៃកម្មសិទ្ធិសរុប) តម្រូវការមិនដំណើរការសម្រាប់ប្រព័ន្ធមានសារៈសំខាន់ខ្លាំងណាស់ ដែលភាគច្រើនទាំងនេះគឺជាពេលវេលាឆ្លើយតប និងពេលវេលាដំណើរការព័ត៌មាន។ ដើម្បីបញ្ចុះបញ្ចូលអតិថិជន ជាញឹកញាប់យើងប្រើភស្តុតាងនៃវិធីសាស្រ្តគំនិត - យើងផ្តល់ជូន "សាកល្បង" បច្ចេកវិទ្យាដោយមិនគិតថ្លៃលើកិច្ចការមួយចំនួន លើសំណុំទិន្នន័យតូចចង្អៀត ដើម្បីប្រាកដថាបច្ចេកវិទ្យាដំណើរការ។ ដំណោះស្រាយគួរតែបង្កើតអត្ថប្រយោជន៍ប្រកួតប្រជែងសម្រាប់អតិថិជនដោយការទទួលបានអត្ថប្រយោជន៍បន្ថែម (ឧទាហរណ៍ x-sell, cross-selling) ឬដោះស្រាយបញ្ហាអាជីវកម្មមួយចំនួន និយាយថា កាត់បន្ថយកម្រិតខ្ពស់នៃការក្លែងបន្លំប្រាក់កម្ចី។

វានឹងកាន់តែងាយស្រួល ប្រសិនបើអតិថិជនមកជាមួយនឹងកិច្ចការដែលត្រៀមរួចជាស្រេច។ប៉ុន្តែរហូតមកដល់ពេលនេះ ពួកគេមិនយល់ថា បច្ចេកវិទ្យាបដិវត្តន៍មួយបានលេចឡើងដែលអាចផ្លាស់ប្តូរទីផ្សារក្នុងរយៈពេលពីរបីឆ្នាំ

តើអ្នកប្រឈមមុខនឹងបញ្ហាអ្វីខ្លះ? ទីផ្សារមិនទាន់រួចរាល់ក្នុងការប្រើប្រាស់បច្ចេកវិទ្យាទិន្នន័យធំនៅឡើយ។ វានឹងកាន់តែងាយស្រួល ប្រសិនបើអតិថិជនមកជាមួយនឹងកិច្ចការដែលត្រៀមរួចជាស្រេច ប៉ុន្តែរហូតមកដល់ពេលនេះ ពួកគេមិនយល់ថា បច្ចេកវិទ្យាបដិវត្តន៍មួយបានលេចឡើងដែលអាចផ្លាស់ប្តូរទីផ្សារក្នុងរយៈពេលពីរបីឆ្នាំ។ នេះជាមូលហេតុដែលយើងធ្វើការយ៉ាងសំខាន់ក្នុងរបៀបចាប់ផ្ដើមអាជីវកម្ម - យើងមិនគ្រាន់តែលក់បច្ចេកវិទ្យាប៉ុណ្ណោះទេ ប៉ុន្តែរាល់ពេលដែលយើងបញ្ចុះបញ្ចូលអតិថិជនថាពួកគេត្រូវការវិនិយោគក្នុងដំណោះស្រាយទាំងនេះ។ នេះគឺជាទីតាំងរបស់អ្នកមានចក្ខុវិស័យ - យើងបង្ហាញអតិថិជនពីរបៀបដែលពួកគេអាចផ្លាស់ប្តូរអាជីវកម្មរបស់ពួកគេដោយប្រើទិន្នន័យ និងព័ត៌មានវិទ្យា។ យើងកំពុងបង្កើតទីផ្សារថ្មីនេះ - ទីផ្សារសម្រាប់ការប្រឹក្សាពាណិជ្ជកម្មផ្នែកព័ត៌មានវិទ្យាក្នុងវិស័យទិន្នន័យធំ

ប្រសិនបើមនុស្សម្នាក់ចង់ចូលរួមក្នុងការវិភាគទិន្នន័យ ឬការប្រឹក្សាផ្នែក IT ក្នុងវិស័យ Big Data នោះរឿងដំបូងដែលសំខាន់គឺការអប់រំផ្នែកគណិតវិទ្យា ឬបច្ចេកទេសជាមួយនឹងការបណ្តុះបណ្តាលគណិតវិទ្យាល្អ។ វាក៏មានប្រយោជន៍ផងដែរក្នុងការធ្វើជាម្ចាស់នៃបច្ចេកវិទ្យាជាក់លាក់ឧទាហរណ៍ SAS, Hadoop, R languages ឬដំណោះស្រាយ IBM ។ លើសពីនេះទៀត អ្នកត្រូវចាប់អារម្មណ៍យ៉ាងសកម្មចំពោះកម្មវិធីសម្រាប់ Big Data - ឧទាហរណ៍ របៀបដែលវាអាចត្រូវបានប្រើសម្រាប់ការកែលម្អពិន្ទុឥណទាននៅក្នុងធនាគារ ឬការគ្រប់គ្រងវដ្តជីវិតរបស់អតិថិជន។ នេះ និងចំណេះដឹងផ្សេងទៀតអាចទទួលបានពីប្រភពដែលមាន៖ ឧទាហរណ៍ Coursera និង Big Data University ។ វាក៏មានគំនិតផ្តួចផ្តើមវិភាគអតិថិជននៅសាកលវិទ្យាល័យ Wharton នៃរដ្ឋ Pennsylvania ដែលជាកន្លែងឯកសារគួរឱ្យចាប់អារម្មណ៍ជាច្រើនត្រូវបានបោះពុម្ពផ្សាយ។

បញ្ហាចម្បងសម្រាប់អ្នកដែលចង់ធ្វើការក្នុងវិស័យរបស់យើងគឺកង្វះព័ត៌មានច្បាស់លាស់អំពីទិន្នន័យធំ។ អ្នកមិនអាចចូលទៅកាន់ហាងលក់សៀវភៅ ឬគេហទំព័រមួយចំនួន ហើយទទួលបានឧទាហរណ៍ ការប្រមូលករណីដ៏ទូលំទូលាយនៅលើកម្មវិធីទាំងអស់នៃបច្ចេកវិទ្យា Big Data នៅក្នុងធនាគារ។ មិនមានថតឯកសារបែបនេះទេ។ ព័ត៌មានខ្លះមាននៅក្នុងសៀវភៅ ខ្លះត្រូវបានប្រមូលនៅសន្និសីទ ហើយខ្លះទៀតអ្នកត្រូវស្វែងយល់ដោយខ្លួនឯង។

បញ្ហាមួយទៀតគឺថាអ្នកវិភាគមានផាសុកភាពនៅក្នុងពិភពនៃលេខ ប៉ុន្តែពួកគេមិនតែងតែមានផាសុកភាពក្នុងអាជីវកម្មនោះទេ។ មនុស្សទាំងនេះច្រើនតែជាមនុស្សគិតទុកជាមុន និងពិបាកក្នុងការទំនាក់ទំនង ដែលធ្វើឱ្យវាពិបាកសម្រាប់ពួកគេក្នុងការប្រាស្រ័យទាក់ទងការរកឃើញនៃការស្រាវជ្រាវទៅកាន់អតិថិជន។ ដើម្បីអភិវឌ្ឍជំនាញទាំងនេះ ខ្ញុំនឹងណែនាំសៀវភៅដូចជា The Pyramid Principle, Speak the Language of Diagrams។ ពួកគេជួយអភិវឌ្ឍជំនាញធ្វើបទបង្ហាញ និងបង្ហាញពីគំនិតរបស់អ្នកដោយសង្ខេប និងច្បាស់លាស់។

ការចូលរួមក្នុងការប្រកួតជើងឯកផ្សេងៗពេលកំពុងសិក្សានៅសាកលវិទ្យាល័យស្រាវជ្រាវជាតិ វិទ្យាល័យសេដ្ឋកិច្ច បានជួយខ្ញុំយ៉ាងច្រើន។ Case championships គឺជាការប្រកួតប្រជែងបញ្ញាសម្រាប់និស្សិតដែលពួកគេត្រូវសិក្សាពីបញ្ហាអាជីវកម្ម និងស្នើដំណោះស្រាយដល់ពួកគេ។ មានពីរប្រភេទ៖ ជើងឯកករណីនៃក្រុមហ៊ុនប្រឹក្សាឧទាហរណ៍ McKinsey, BCG, Accenture ក៏ដូចជាជើងឯកករណីឯករាជ្យដូចជា Changellenge ។ ខណៈពេលដែលចូលរួមក្នុងពួកគេ ខ្ញុំបានរៀនមើល និងដោះស្រាយបញ្ហាស្មុគ្រស្មាញ - ពីការកំណត់បញ្ហា និងការរៀបចំរចនាសម្ព័ន្ធវា រហូតដល់ការការពារអនុសាសន៍សម្រាប់ដំណោះស្រាយរបស់វា។

Oleg Mikhalsky អំពីទីផ្សាររុស្ស៊ីនិងភាពជាក់លាក់នៃការបង្កើតផលិតផលថ្មីនៅក្នុងវិស័យទិន្នន័យធំ

មុនពេលចូលរួមជាមួយ Acronis ខ្ញុំបានចូលរួមរួចហើយក្នុងការចាប់ផ្តើមផលិតផលថ្មីទៅកាន់ទីផ្សារនៅក្រុមហ៊ុនផ្សេងទៀត។ វាតែងតែគួរឱ្យចាប់អារម្មណ៍ និងប្រឈមនៅពេលតែមួយ ដូច្នេះខ្ញុំចាប់អារម្មណ៍ភ្លាមៗអំពីឱកាសដើម្បីធ្វើការលើសេវាកម្មពពក និងដំណោះស្រាយការផ្ទុកទិន្នន័យ។ បទពិសោធន៍ពីមុនទាំងអស់របស់ខ្ញុំនៅក្នុងឧស្សាហកម្ម IT រួមទាំងគម្រោងចាប់ផ្តើមអាជីវកម្មផ្ទាល់ខ្លួនរបស់ខ្ញុំ I-accelerator បានមានប្រយោជន៍នៅក្នុងតំបន់នេះ។ ការមានការអប់រំអាជីវកម្ម (MBA) បន្ថែមពីលើសញ្ញាបត្រវិស្វកម្មមូលដ្ឋានក៏បានជួយផងដែរ។

នៅប្រទេសរុស្ស៊ីក្រុមហ៊ុនធំ ៗ - ធនាគារប្រតិបត្តិករទូរស័ព្ទចល័តជាដើម - មានតម្រូវការសម្រាប់ការវិភាគទិន្នន័យធំដូច្នេះនៅក្នុងប្រទេសរបស់យើងមានការរំពឹងទុកសម្រាប់អ្នកដែលចង់ធ្វើការនៅក្នុងតំបន់នេះ។ ពិតហើយ គម្រោងជាច្រើនឥឡូវនេះគឺជាគម្រោងសមាហរណកម្ម ពោលគឺធ្វើឡើងដោយឈរលើមូលដ្ឋាននៃការអភិវឌ្ឍន៍បរទេស ឬបច្ចេកវិទ្យាប្រភពបើកចំហ។ នៅក្នុងគម្រោងបែបនេះ វិធីសាស្រ្ត និងបច្ចេកវិទ្យាថ្មីជាមូលដ្ឋានមិនត្រូវបានបង្កើតទេ ប៉ុន្តែការអភិវឌ្ឍន៍ដែលមានស្រាប់គឺត្រូវបានសម្រួល។ នៅ Acronis យើងបានដើរលើផ្លូវផ្សេង ហើយបន្ទាប់ពីការវិភាគជម្រើសដែលមានរួចហើយ បានសម្រេចចិត្តវិនិយោគលើការអភិវឌ្ឍន៍ផ្ទាល់ខ្លួនរបស់យើង ដែលបណ្តាលឱ្យមានប្រព័ន្ធផ្ទុកទិន្នន័យដែលអាចទុកចិត្តបានសម្រាប់ទិន្នន័យធំដែលមិនទាបជាងតម្លៃឧទាហរណ៍ Amazon S3 ប៉ុន្តែដំណើរការដោយភាពជឿជាក់ និងប្រកបដោយប្រសិទ្ធភាព និងលើមាត្រដ្ឋានតូចជាង។ ក្រុមហ៊ុនអ៊ិនធឺណិតធំ ៗ ក៏មានការអភិវឌ្ឍន៍ផ្ទាល់ខ្លួនរបស់ពួកគេនៅក្នុងទិន្នន័យធំផងដែរ ប៉ុន្តែពួកគេផ្តោតលើតម្រូវការខាងក្នុងជាជាងបំពេញតម្រូវការរបស់អតិថិជនខាងក្រៅ។

វាមានសារៈសំខាន់ណាស់ក្នុងការយល់ដឹងអំពីនិន្នាការ និងកម្លាំងសេដ្ឋកិច្ចដែលមានឥទ្ធិពលលើវិស័យទិន្នន័យធំ។ ដើម្បីធ្វើដូច្នេះ អ្នកត្រូវអានឱ្យបានច្រើន ស្តាប់សុន្ទរកថារបស់អ្នកជំនាញដែលមានសិទ្ធិអំណាចក្នុងឧស្សាហកម្មព័ត៌មានវិទ្យា និងចូលរួមសន្និសីទប្រធានបទ។ ឥឡូវនេះស្ទើរតែគ្រប់សន្និសីទទាំងអស់មានផ្នែកមួយនៅលើទិន្នន័យធំ ប៉ុន្តែពួកគេទាំងអស់និយាយអំពីវាពីមុំផ្សេងគ្នា: ពីទស្សនៈនៃបច្ចេកវិទ្យា អាជីវកម្ម ឬទីផ្សារ។ អ្នកអាចទៅធ្វើការគម្រោង ឬកម្មសិក្សានៅក្រុមហ៊ុនដែលឈានមុខគេលើគម្រោងលើប្រធានបទនេះ។ ប្រសិនបើអ្នកមានទំនុកចិត្តលើសមត្ថភាពរបស់អ្នក នោះវាមិនយឺតពេលទេក្នុងការរៀបចំការចាប់ផ្តើមអាជីវកម្មក្នុងវិស័យទិន្នន័យធំ។

ដោយគ្មានទំនាក់ទំនងថេរជាមួយទីផ្សារហានិភ័យនៃការអភិវឌ្ឍន៍ថ្មីមិនត្រូវបានទាមទារ

ពិតហើយ នៅពេលដែលអ្នកទទួលខុសត្រូវចំពោះផលិតផលថ្មី ពេលវេលាជាច្រើនត្រូវបានចំណាយទៅលើការវិភាគទីផ្សារ និងការប្រាស្រ័យទាក់ទងជាមួយអតិថិជនសក្តានុពល ដៃគូ និងអ្នកវិភាគអាជីពដែលដឹងច្រើនអំពីអតិថិជន និងតម្រូវការរបស់ពួកគេ។ បើគ្មានការទំនាក់ទំនងជាប្រចាំជាមួយទីផ្សារទេ ហានិភ័យនៃការអភិវឌ្ឍន៍ថ្មីមិនត្រូវបានទាមទារ។ វាតែងតែមានភាពមិនប្រាកដប្រជាជាច្រើន៖ អ្នកត្រូវស្វែងយល់ថាតើអ្នកចិញ្ចឹមដំបូងនឹងក្លាយជានរណា អ្វីដែលអ្នកត្រូវផ្តល់ជូនពួកគេ និងរបៀបទាក់ទាញទស្សនិកជនយ៉ាងច្រើន។ កិច្ចការសំខាន់បំផុតទីពីរគឺបង្កើត និងបញ្ជូនដល់អ្នកអភិវឌ្ឍន៍នូវចក្ខុវិស័យច្បាស់លាស់ និងរួមនៃផលិតផលចុងក្រោយ ដើម្បីជំរុញពួកគេឱ្យធ្វើការក្នុងលក្ខខណ្ឌបែបនេះ នៅពេលដែលតម្រូវការមួយចំនួននៅតែអាចផ្លាស់ប្តូរ ហើយអាទិភាពអាស្រ័យលើមតិកែលម្អដែលចេញមកពីអតិថិជនដំបូង។ ដូច្នេះ កិច្ចការសំខាន់មួយគឺការគ្រប់គ្រងការរំពឹងទុករបស់អតិថិជននៅលើដៃម្ខាង និងអ្នកអភិវឌ្ឍន៍នៅម្ខាងទៀត។ ដូច្នេះមិនថាអ្នកណាម្នាក់ក៏មិនបាត់បង់ការប្រាក់ ហើយនាំឱ្យគម្រោងនេះសម្រេចបានដែរ។ បន្ទាប់ពីគម្រោងជោគជ័យដំបូង វាកាន់តែងាយស្រួល ហើយបញ្ហាប្រឈមចម្បងគឺការស្វែងរកគំរូកំណើនត្រឹមត្រូវសម្រាប់អាជីវកម្មថ្មី។

ជួរឈរដោយគ្រូបង្រៀន HSE អំពីទេវកថានិងករណីនៃការធ្វើការជាមួយទិន្នន័យធំ

ទៅចំណាំ

គ្រូបង្រៀននៅសាលាប្រព័ន្ធផ្សព្វផ្សាយថ្មីនៅសាកលវិទ្យាល័យស្រាវជ្រាវជាតិ វិទ្យាល័យសេដ្ឋកិច្ច Konstantin Romanov និង Alexander Pyatigorsky ដែលជានាយកនៃការផ្លាស់ប្តូរឌីជីថលនៅ Beeline បានសរសេរជួរឈរសម្រាប់គេហទំព័រអំពីការយល់ខុសចម្បងអំពីទិន្នន័យធំ - ឧទាហរណ៍នៃការប្រើប្រាស់ បច្ចេកវិទ្យា និងឧបករណ៍។ អ្នកនិពន្ធផ្ដល់យោបល់ថាការបោះពុម្ពនេះនឹងជួយអ្នកគ្រប់គ្រងក្រុមហ៊ុនយល់ពីគោលគំនិតនេះ។

ទេវកថា និងការយល់ខុសអំពីទិន្នន័យធំ

ទិន្នន័យធំមិនមែនជាទីផ្សារទេ។

ពាក្យថា Big Data បានក្លាយជាម៉ូដទាន់សម័យណាស់ - វាត្រូវបានគេប្រើនៅក្នុងស្ថានភាពរាប់លាន និងជាមួយនឹងការបកស្រាយខុសៗគ្នារាប់រយ ដែលជារឿយៗមិនទាក់ទងនឹងអ្វីដែលវាជានោះទេ។ គំនិតជាញឹកញាប់ត្រូវបានជំនួសនៅក្នុងក្បាលរបស់មនុស្ស ហើយទិន្នន័យធំត្រូវបានច្រលំជាមួយនឹងផលិតផលទីផ្សារ។ លើសពីនេះទៅទៀត នៅក្នុងក្រុមហ៊ុនមួយចំនួន Big Data គឺជាផ្នែកមួយនៃផ្នែកទីផ្សារ។ លទ្ធផលនៃការវិភាគទិន្នន័យធំអាចក្លាយជាប្រភពសម្រាប់សកម្មភាពទីផ្សារ ប៉ុន្តែគ្មានអ្វីទៀតទេ។ តោះមើលរបៀបដែលវាដំណើរការ។

ប្រសិនបើយើងកំណត់បញ្ជីរាយនាមអ្នកដែលបានទិញទំនិញដែលមានតម្លៃលើសពីបីពាន់រូប្លិ៍នៅក្នុងហាងរបស់យើងកាលពីពីរខែមុន ហើយបន្ទាប់មកបានផ្ញើឱ្យអ្នកប្រើប្រាស់ប្រភេទនៃការផ្តល់ជូនមួយចំនួន នោះនេះគឺជាទីផ្សារធម្មតា។ យើងទាញយកគំរូច្បាស់លាស់ពីទិន្នន័យរចនាសម្ព័ន្ធ ហើយប្រើវាដើម្បីបង្កើនការលក់។

ទោះជាយ៉ាងណាក៏ដោយ ប្រសិនបើយើងរួមបញ្ចូលគ្នានូវទិន្នន័យ CRM ជាមួយនឹងការផ្សាយព័ត៌មានពីឧទាហរណ៍ Instagram ហើយវិភាគវា យើងរកឃើញគំរូមួយ៖ មនុស្សម្នាក់ដែលបានកាត់បន្ថយសកម្មភាពរបស់គាត់នៅល្ងាចថ្ងៃពុធ ហើយរូបថតចុងក្រោយបង្អស់ដែលបង្ហាញពីកូនឆ្មាគួរតែធ្វើការផ្តល់ជូនជាក់លាក់មួយ។ វានឹងក្លាយជាទិន្នន័យធំរួចទៅហើយ។ យើងបានរកឃើញគន្លឹះមួយ បញ្ជូនវាទៅឱ្យអ្នកទីផ្សារ ហើយពួកគេបានប្រើវាសម្រាប់គោលបំណងផ្ទាល់ខ្លួនរបស់ពួកគេ។

វាកើតឡើងពីនេះ ដែលបច្ចេកវិទ្យាជាធម្មតាដំណើរការជាមួយទិន្នន័យដែលមិនមានរចនាសម្ព័ន្ធ ហើយទោះបីជាទិន្នន័យត្រូវបានរៀបចំក៏ដោយ ប្រព័ន្ធនៅតែបន្តស្វែងរកគំរូដែលលាក់នៅក្នុងវា ដែលទីផ្សារមិនធ្វើ។

ទិន្នន័យធំមិនមែនជា IT ទេ។

ភាពខ្លាំងទីពីរនៃរឿងនេះ៖ ទិន្នន័យធំច្រើនតែច្រឡំជាមួយអាយធី។ នេះគឺដោយសារតែការពិតដែលថានៅក្នុងក្រុមហ៊ុនរុស្ស៊ីជាក្បួនអ្នកឯកទេសផ្នែកព័ត៌មានវិទ្យាគឺជាអ្នកបើកបរនៃបច្ចេកវិទ្យាទាំងអស់រួមទាំងទិន្នន័យធំ។ ដូច្នេះហើយ ប្រសិនបើអ្វីៗកើតឡើងនៅក្នុងនាយកដ្ឋាននេះ ក្រុមហ៊ុនទាំងមូលទទួលបានចំណាប់អារម្មណ៍ថា នេះគឺជាសកម្មភាព IT មួយចំនួន។

តាមពិត មានភាពខុសប្លែកគ្នាជាមូលដ្ឋាននៅទីនេះ៖ ទិន្នន័យធំគឺជាសកម្មភាពដែលមានគោលបំណងដើម្បីទទួលបានផលិតផលជាក់លាក់មួយ ដែលមិនទាក់ទងនឹងព័ត៌មានវិទ្យាទាំងអស់ ទោះបីជាបច្ចេកវិទ្យាមិនអាចមានដោយគ្មានវាក៏ដោយ។

ទិន្នន័យធំមិនតែងតែជាការប្រមូល និងវិភាគព័ត៌មាននោះទេ។

មានការយល់ខុសមួយទៀតអំពីទិន្នន័យធំ។ មនុស្សគ្រប់គ្នាយល់ថាបច្ចេកវិទ្យានេះពាក់ព័ន្ធនឹងទិន្នន័យដ៏ធំ ប៉ុន្តែទិន្នន័យប្រភេទណាដែលមានន័យគឺមិនតែងតែច្បាស់លាស់នោះទេ។ នរណាម្នាក់អាចប្រមូល និងប្រើប្រាស់ព័ត៌មានបាន ឥឡូវនេះវាអាចធ្វើទៅបានមិនត្រឹមតែនៅក្នុងខ្សែភាពយន្តប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងនៅក្នុងក្រុមហ៊ុនតូចធំមួយទៀតផង។ សំណួរតែមួយគត់គឺអ្វីដែលត្រូវប្រមូល និងរបៀបប្រើប្រាស់វាឱ្យមានប្រយោជន៍។

ប៉ុន្តែវាគួរតែត្រូវបានយល់ថា បច្ចេកវិទ្យា Big Data នឹងមិនមែនជាការប្រមូល និងវិភាគព័ត៌មានណាមួយជាដាច់ខាត។ ឧទាហរណ៍ ប្រសិនបើអ្នកប្រមូលទិន្នន័យអំពីមនុស្សជាក់លាក់នៅលើបណ្តាញសង្គម វានឹងមិនមែនជាទិន្នន័យធំទេ។

តើ Big Data ជាអ្វី?

ទិន្នន័យធំមានធាតុបី៖

ទិន្នន័យ;
ការវិភាគ;
បច្ចេកវិទ្យា។

ទិន្នន័យធំមិនមែនគ្រាន់តែជាធាតុផ្សំមួយក្នុងចំនោមសមាសធាតុទាំងនេះទេ ប៉ុន្តែជាការបញ្ចូលគ្នានៃធាតុទាំងបី។ មនុស្សច្រើនតែជំនួសគំនិត៖ អ្នកខ្លះជឿថា Big Data គ្រាន់តែជាទិន្នន័យ អ្នកខ្លះទៀតជឿថាវាជាបច្ចេកវិទ្យា។ ប៉ុន្តែតាមពិតទៅ មិនថាអ្នកប្រមូលទិន្នន័យបានប៉ុន្មានទេ អ្នកនឹងមិនអាចធ្វើអ្វីជាមួយវាដោយគ្មានបច្ចេកវិទ្យា និងការវិភាគត្រឹមត្រូវនោះទេ។ បើមានការវិភាគល្អ ប៉ុន្តែគ្មានទិន្នន័យ វាកាន់តែអាក្រក់។

ប្រសិនបើយើងនិយាយអំពីទិន្នន័យ នេះមិនត្រឹមតែជាអត្ថបទប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងរូបថតទាំងអស់ដែលបានបង្ហោះនៅលើ Instagram ហើយជាទូទៅអ្វីគ្រប់យ៉ាងដែលអាចវិភាគ និងប្រើប្រាស់សម្រាប់គោលបំណង និងភារកិច្ចផ្សេងៗ។ ម្យ៉ាងវិញទៀត ទិន្នន័យសំដៅលើបរិមាណដ៏ធំនៃទិន្នន័យខាងក្នុង និងខាងក្រៅនៃរចនាសម្ព័ន្ធផ្សេងៗ។

ការវិភាគក៏ត្រូវការផងដែរ ពីព្រោះភារកិច្ចរបស់ Big Data គឺបង្កើតគំរូមួយចំនួន។ នោះគឺ ការវិភាគគឺជាការកំណត់អត្តសញ្ញាណនៃភាពអាស្រ័យលាក់កំបាំង និងការស្វែងរកសំណួរ និងចម្លើយថ្មីដោយផ្អែកលើការវិភាគនៃបរិមាណទាំងមូលនៃទិន្នន័យខុសប្រក្រតី។ លើសពីនេះ Big Data ចោទជាសំណួរដែលមិនអាចទទួលបានដោយផ្ទាល់ពីទិន្នន័យនេះទេ។

បើនិយាយពីរូបភាព ការដែលអ្នកបង្ហោះរូបថតខ្លួនឯងពាក់អាវយឺតពណ៌ខៀវ គឺមិនមានន័យអ្វីនោះទេ។ ប៉ុន្តែប្រសិនបើអ្នកប្រើការថតរូបសម្រាប់ការធ្វើគំរូទិន្នន័យធំ វាអាចបង្ហាញថាឥឡូវនេះអ្នកគួរតែផ្តល់ប្រាក់កម្ចី ពីព្រោះនៅក្នុងក្រុមសង្គមរបស់អ្នក អាកប្បកិរិយាបែបនេះបង្ហាញពីបាតុភូតជាក់លាក់មួយនៅក្នុងសកម្មភាព។ ដូច្នេះ ទិន្នន័យ "ទទេ" ដោយគ្មានការវិភាគ ដោយមិនកំណត់អត្តសញ្ញាណភាពអាស្រ័យដែលលាក់កំបាំង និងមិនច្បាស់លាស់ មិនមែនជាទិន្នន័យធំនោះទេ។

ដូច្នេះយើងមានទិន្នន័យធំ។ អារេរបស់ពួកគេមានទំហំធំ។ យើងក៏មានអ្នកវិភាគផងដែរ។ ប៉ុន្តែតើយើងអាចធ្វើដូចម្តេចដើម្បីឱ្យប្រាកដថាពីទិន្នន័យឆៅនេះយើងមកឡើងជាមួយនឹងដំណោះស្រាយជាក់លាក់មួយ? ដើម្បីធ្វើដូចនេះយើងត្រូវការបច្ចេកវិទ្យាដែលអនុញ្ញាតឱ្យយើងមិនត្រឹមតែរក្សាទុកពួកវា (ហើយវាមិនអាចទៅរួចពីមុនទេ) ប៉ុន្តែក៏ដើម្បីវិភាគពួកវាផងដែរ។

និយាយឱ្យសាមញ្ញ ប្រសិនបើអ្នកមានទិន្នន័យច្រើន អ្នកនឹងត្រូវការបច្ចេកវិទ្យា ឧទាហរណ៍ Hadoop ដែលធ្វើឱ្យវាអាចរក្សាទុកព័ត៌មានទាំងអស់នៅក្នុងទម្រង់ដើមរបស់វាសម្រាប់ការវិភាគនៅពេលក្រោយ។ បច្ចេកវិទ្យាប្រភេទនេះបានកើតឡើងនៅក្នុងក្រុមហ៊ុនអ៊ីនធឺណេតយក្ស ដោយសារពួកគេជាអ្នកដំបូងដែលប្រឈមមុខនឹងបញ្ហានៃការរក្សាទុកទិន្នន័យយ៉ាងច្រើន ហើយវិភាគវាសម្រាប់ការរកប្រាក់ជាបន្តបន្ទាប់។

បន្ថែមពីលើឧបករណ៍សម្រាប់ការបង្កើនប្រសិទ្ធភាពនិងការផ្ទុកទិន្នន័យថោក អ្នកត្រូវការឧបករណ៍វិភាគ ក៏ដូចជាកម្មវិធីបន្ថែមទៅវេទិកាដែលបានប្រើ។ ឧទាហរណ៍ ប្រព័ន្ធអេកូឡូស៊ីទាំងមូលនៃគម្រោង និងបច្ចេកវិទ្យាដែលពាក់ព័ន្ធបានបង្កើតឡើងនៅជុំវិញ Hadoop ។ នេះគឺជាពួកគេមួយចំនួន៖

ជ្រូកគឺជាភាសាវិភាគទិន្នន័យប្រកាស។
Hive - ការវិភាគទិន្នន័យដោយប្រើភាសាស្រដៀងនឹង SQL ។
Oozie - លំហូរការងារ Hadoop ។
Hbase គឺជាមូលដ្ឋានទិន្នន័យ (មិនទាក់ទង) ស្រដៀងទៅនឹង Google Big Table ។
Mahout - ការរៀនម៉ាស៊ីន។
Sqoop - ផ្ទេរទិន្នន័យពី RSDB ទៅ Hadoop និងច្រាសមកវិញ។
Flume - ផ្ទេរកំណត់ហេតុទៅ HDFS ។
Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS ជាដើម។

ឧបករណ៍ទាំងអស់នេះមានសម្រាប់អ្នកគ្រប់គ្នាដោយឥតគិតថ្លៃ ប៉ុន្តែក៏មានកម្មវិធីបន្ថែមដែលបានបង់ប្រាក់មួយចំនួនផងដែរ។

លើសពីនេះទៀត អ្នកឯកទេសគឺត្រូវការជាចាំបាច់៖ អ្នកអភិវឌ្ឍន៍ និងអ្នកវិភាគ (អ្នកវិទ្យាសាស្ត្រទិន្នន័យ)។ អ្នកគ្រប់គ្រងក៏ត្រូវការផងដែរ ដែលអាចយល់ពីរបៀបអនុវត្តការវិភាគនេះ ដើម្បីដោះស្រាយបញ្ហាជាក់លាក់មួយ ពីព្រោះដោយខ្លួនវាផ្ទាល់ វាគ្មានន័យទាំងស្រុងទេ ប្រសិនបើវាមិនត្រូវបានដាក់បញ្ចូលទៅក្នុងដំណើរការអាជីវកម្ម។

បុគ្គលិកទាំងបីត្រូវតែធ្វើការជាក្រុម។ អ្នកគ្រប់គ្រងដែលផ្តល់ឱ្យអ្នកឯកទេសវិទ្យាសាស្ត្រទិន្នន័យនូវភារកិច្ចក្នុងការស្វែងរកគំរូជាក់លាក់មួយត្រូវតែយល់ថាគាត់នឹងមិនតែងតែស្វែងរកអ្វីដែលគាត់ត្រូវការនោះទេ។ ក្នុងករណីនេះ អ្នកគ្រប់គ្រងគួរតែស្តាប់ដោយប្រុងប្រយ័ត្ននូវអ្វីដែលអ្នក Data Scientist បានរកឃើញ ព្រោះជារឿយៗការរកឃើញរបស់គាត់ប្រែទៅជាគួរឱ្យចាប់អារម្មណ៍ និងមានប្រយោជន៍សម្រាប់អាជីវកម្ម។ ការងាររបស់អ្នកគឺអនុវត្តវាទៅអាជីវកម្ម និងបង្កើតផលិតផលចេញពីវា។

ទោះបីជាការពិតដែលថាឥឡូវនេះមានម៉ាស៊ីននិងបច្ចេកវិជ្ជាជាច្រើនប្រភេទខុសៗគ្នាក៏ដោយក៏ការសម្រេចចិត្តចុងក្រោយតែងតែនៅជាមួយមនុស្ស។ ដើម្បីធ្វើដូច្នេះ ព័ត៌មានចាំបាច់ត្រូវមើលឃើញដោយវិធីណាមួយ។ មានឧបករណ៍ជាច្រើនសម្រាប់រឿងនេះ។

ឧទាហរណ៍ដែលប្រាប់បំផុតគឺរបាយការណ៍ភូមិសាស្ត្រវិភាគ។ ក្រុមហ៊ុន Beeline ធ្វើការច្រើនជាមួយរដ្ឋាភិបាលនៃទីក្រុង និងតំបន់ផ្សេងៗគ្នា។ ជាញឹកញាប់ អង្គការទាំងនេះបញ្ជាររបាយការណ៍ដូចជា "ការកកស្ទះចរាចរណ៍នៅក្នុងទីតាំងជាក់លាក់មួយ"។

វាច្បាស់ណាស់ថារបាយការណ៍បែបនេះគួរតែទៅដល់ភ្នាក់ងាររដ្ឋាភិបាលក្នុងទម្រង់សាមញ្ញ និងអាចយល់បាន។ ប្រសិនបើយើងផ្តល់ឱ្យពួកគេនូវតារាងដ៏ធំនិងមិនអាចយល់បានទាំងស្រុង (នោះគឺជាព័ត៌មាននៅក្នុងទម្រង់ដែលយើងទទួលបាន) ពួកគេទំនងជាមិនទិញរបាយការណ៍បែបនេះទេ - វានឹងគ្មានប្រយោជន៍ទាំងស្រុងទេពួកគេនឹងមិនទទួលបានចំណេះដឹងពីវាទេ។ ពួកគេចង់ទទួល។

ដូច្នេះ មិនថាអ្នកវិទ្យាសាស្ត្រទិន្នន័យល្អប៉ុណ្ណា ហើយមិនថាពួកគេរកឃើញគំរូបែបណាក៏ដោយ អ្នកនឹងមិនអាចធ្វើការជាមួយទិន្នន័យនេះដោយគ្មានឧបករណ៍មើលឃើញល្អនោះទេ។

ប្រភពទិន្នន័យ

អារេនៃទិន្នន័យដែលទទួលបានគឺមានទំហំធំណាស់ដូច្នេះវាអាចបែងចែកជាក្រុមជាច្រើន។

ទិន្នន័យផ្ទៃក្នុងរបស់ក្រុមហ៊ុន

ទោះបីជា 80% នៃទិន្នន័យដែលប្រមូលបានជាកម្មសិទ្ធិរបស់ក្រុមនេះក៏ដោយ ប្រភពនេះមិនតែងតែត្រូវបានប្រើប្រាស់ទេ។ ជាញឹកញាប់នេះគឺជាទិន្នន័យដែលហាក់ដូចជាគ្មាននរណាម្នាក់ត្រូវការទាល់តែសោះ ឧទាហរណ៍ កំណត់ហេតុ។ ប៉ុន្តែប្រសិនបើអ្នកក្រឡេកមើលពួកគេពីមុំផ្សេងគ្នា ពេលខ្លះអ្នកអាចរកឃើញគំរូដែលមិននឹកស្មានដល់នៅក្នុងពួកគេ។

ប្រភព Shareware

នេះរួមបញ្ចូលទាំងទិន្នន័យពីបណ្តាញសង្គម អ៊ីនធឺណិត និងអ្វីគ្រប់យ៉ាងដែលអាចចូលប្រើបានដោយឥតគិតថ្លៃ។ ហេតុអ្វីបានជា Shareware ឥតគិតថ្លៃ? ម៉្យាងវិញទៀត ទិន្នន័យនេះគឺមានសម្រាប់មនុស្សគ្រប់គ្នា ប៉ុន្តែប្រសិនបើអ្នកជាក្រុមហ៊ុនធំ នោះការទទួលបានវាក្នុងទំហំនៃអតិថិជនរាប់ម៉ឺននាក់ រាប់រយនាក់ ឬរាប់លាននាក់ មិនមែនជាកិច្ចការងាយស្រួលទៀតទេ។ ដូច្នេះ មានសេវាកម្មបង់ប្រាក់នៅលើទីផ្សារ ដើម្បីផ្តល់ទិន្នន័យនេះ។

ប្រភពបង់ប្រាក់

នេះរួមបញ្ចូលទាំងក្រុមហ៊ុនដែលលក់ទិន្នន័យដើម្បីប្រាក់។ ទាំងនេះអាចជាទូរគមនាគមន៍ ក្រុមហ៊ុន DMP ក្រុមហ៊ុនអ៊ីនធឺណិត ការិយាល័យឥណទាន និងអ្នកប្រមូលផ្ដុំ។ នៅប្រទេសរុស្ស៊ីទូរគមនាគមន៍មិនលក់ទិន្នន័យទេ។ ទីមួយ វាមិនចំណេញខាងសេដ្ឋកិច្ច ហើយទីពីរវាត្រូវបានហាមឃាត់ដោយច្បាប់។ ដូច្នេះ ពួកគេលក់លទ្ធផលនៃការដំណើរការរបស់ពួកគេ ឧទាហរណ៍ របាយការណ៍ភូមិសាស្ត្រ។

បើកទិន្នន័យ

រដ្ឋកំពុងសម្រុះសម្រួលអាជីវកម្ម និងផ្តល់ឱកាសឱ្យពួកគេប្រើប្រាស់ទិន្នន័យដែលពួកគេប្រមូលបាន។ នេះត្រូវបានអភិវឌ្ឍក្នុងកម្រិតធំជាងនៅលោកខាងលិច ប៉ុន្តែរុស្ស៊ីក្នុងរឿងនេះក៏រក្សាបានតាមសម័យកាលដែរ។ ជាឧទាហរណ៍ មានវិបផតថលទិន្នន័យបើកចំហររបស់រដ្ឋាភិបាលក្រុងម៉ូស្គូ ដែលព័ត៌មានអំពីហេដ្ឋារចនាសម្ព័ន្ធទីក្រុងផ្សេងៗត្រូវបានបោះពុម្ពផ្សាយ។

សម្រាប់អ្នករស់នៅ និងភ្ញៀវនៃទីក្រុងមូស្គូ ទិន្នន័យត្រូវបានបង្ហាញជាទម្រង់តារាង និងគំនូសតាង ហើយសម្រាប់អ្នកអភិវឌ្ឍន៍ - ជាទម្រង់ម៉ាស៊ីនពិសេសដែលអាចអានបាន។ ខណៈពេលដែលគម្រោងកំពុងដំណើរការក្នុងទម្រង់មានកំណត់ វាកំពុងអភិវឌ្ឍ ដែលមានន័យថាវាក៏ជាប្រភពនៃទិន្នន័យដែលអ្នកអាចប្រើសម្រាប់កិច្ចការអាជីវកម្មរបស់អ្នក។

ស្រាវជ្រាវ

ដូចដែលបានកត់សម្គាល់រួចមកហើយ ភារកិច្ចរបស់ Big Data គឺស្វែងរកគំរូមួយ។ ជាញឹកញាប់ ការស្រាវជ្រាវដែលធ្វើឡើងនៅជុំវិញពិភពលោកអាចក្លាយជា fulcrum សម្រាប់ការស្វែងរកគំរូជាក់លាក់មួយ - អ្នកអាចទទួលបានលទ្ធផលជាក់លាក់មួយ ហើយព្យាយាមអនុវត្តតក្កវិជ្ជាស្រដៀងគ្នាសម្រាប់គោលបំណងផ្ទាល់ខ្លួនរបស់អ្នក។

ទិន្នន័យធំគឺជាផ្នែកដែលមិនមែនគ្រប់ច្បាប់នៃគណិតវិទ្យាអនុវត្តនោះទេ។ ឧទាហរណ៍ "1" + "1" មិនមែនជា "2" ទេ ប៉ុន្តែមានច្រើនទៀត ពីព្រោះដោយការលាយប្រភពទិន្នន័យ ឥទ្ធិពលអាចត្រូវបានពង្រឹងយ៉ាងខ្លាំង។

ឧទាហរណ៍ផលិតផល

មនុស្សជាច្រើនស្គាល់សេវាកម្មជ្រើសរើសតន្ត្រី Spotify ។ វាអស្ចារ្យណាស់ ព្រោះវាមិនបានសួរអ្នកប្រើប្រាស់ថា តើអារម្មណ៍របស់ពួកគេថ្ងៃនេះយ៉ាងណានោះទេ ប៉ុន្តែត្រូវគណនាវាដោយផ្អែកលើប្រភពដែលមានសម្រាប់វា។ គាត់តែងតែដឹងពីអ្វីដែលអ្នកត្រូវការឥឡូវនេះ - ចង្វាក់ jazz ឬ hard rock ។ នេះគឺជាភាពខុសគ្នាដ៏សំខាន់ដែលផ្តល់ឱ្យវាជាមួយអ្នកគាំទ្រ និងសម្គាល់វាពីសេវាកម្មផ្សេងទៀត។

ផលិតផលបែបនេះត្រូវបានគេហៅថាជាធម្មតាផលិតផលដែលមានអារម្មណ៍ - ផលិតផលដែលមានអារម្មណ៍ថាអតិថិជនរបស់ពួកគេ។

បច្ចេកវិទ្យា Big Data ក៏ត្រូវបានប្រើប្រាស់នៅក្នុងឧស្សាហកម្មរថយន្តផងដែរ។ ឧទាហរណ៍ Tesla ធ្វើបែបនេះ - ម៉ូដែលចុងក្រោយបំផុតរបស់ពួកគេមាន autopilot ។ ក្រុមហ៊ុនខិតខំបង្កើតរថយន្តដែលខ្លួននឹងដឹកអ្នកដំណើរទៅកន្លែងដែលគាត់ត្រូវទៅ។ បើគ្មាន Big Data នេះមិនអាចទៅរួចនោះទេ ព្រោះបើយើងប្រើតែទិន្នន័យដែលយើងទទួលដោយផ្ទាល់ដូចមនុស្សម្នាក់នោះ ឡាននឹងមិនអាចកែលម្អបានទេ។

នៅពេលដែលយើងបើកឡានដោយខ្លួនឯង យើងប្រើណឺរ៉ូនរបស់យើងដើម្បីធ្វើការសម្រេចចិត្តដោយផ្អែកលើកត្តាជាច្រើនដែលយើងមិនបានកត់សម្គាល់។ ជាឧទាហរណ៍ យើងប្រហែលជាមិនដឹងពីមូលហេតុដែលយើងសម្រេចចិត្តមិនបង្កើនល្បឿនភ្លាមៗនៅពេលភ្លើងពណ៌បៃតង ប៉ុន្តែបន្ទាប់មកវាប្រែថាការសម្រេចចិត្តគឺត្រឹមត្រូវ ឡានបានបើកឆ្លងកាត់អ្នកក្នុងល្បឿនលឿនហើយអ្នកបានជៀសវាងគ្រោះថ្នាក់។

អ្នកក៏អាចផ្តល់ឧទាហរណ៍នៃការប្រើប្រាស់ទិន្នន័យធំនៅក្នុងកីឡាផងដែរ។ ក្នុងឆ្នាំ 2002 អ្នកគ្រប់គ្រងទូទៅនៃក្រុមកីឡាបេស្បល Oakland Athletics លោក Billy Beane បានសម្រេចចិត្តបំបែកគំរូនៃរបៀបជ្រើសរើសអត្តពលិក - គាត់បានជ្រើសរើស និងបណ្តុះបណ្តាលអ្នកលេង "តាមលេខ" ។

ជាធម្មតាអ្នកគ្រប់គ្រងមើលទៅលើភាពជោគជ័យរបស់កីឡាករ ប៉ុន្តែក្នុងករណីនេះអ្វីគ្រប់យ៉ាងគឺខុសគ្នា - ដើម្បីទទួលបានលទ្ធផល អ្នកគ្រប់គ្រងបានសិក្សាពីការរួមបញ្ចូលគ្នានៃអត្តពលិកដែលគាត់ត្រូវការ ដោយយកចិត្តទុកដាក់លើលក្ខណៈបុគ្គល។ លើសពីនេះទៅទៀតគាត់បានជ្រើសរើសអត្តពលិកដែលនៅក្នុងខ្លួនពួកគេមិនមានសក្តានុពលច្រើនប៉ុន្តែក្រុមទាំងមូលបានប្រែទៅជាទទួលបានជោគជ័យយ៉ាងខ្លាំងដែលពួកគេបានឈ្នះ 20 ប្រកួតជាប់ៗគ្នា។

អ្នកដឹកនាំរឿង Bennett Miller បានបង្កើតខ្សែភាពយន្តជាបន្តបន្ទាប់សម្រាប់រឿងនេះ - "The Man Who Changes All" សម្តែងដោយ Brad Pitt ។

បច្ចេកវិទ្យា Big Data ក៏មានប្រយោជន៍ក្នុងវិស័យហិរញ្ញវត្ថុផងដែរ។ មិនមានមនុស្សតែម្នាក់នៅក្នុងពិភពលោកអាចកំណត់ដោយឯករាជ្យ និងត្រឹមត្រូវថាតើវាសមនឹងផ្តល់ប្រាក់កម្ចីដល់នរណាម្នាក់នោះទេ។ ដើម្បីធ្វើការសម្រេចចិត្ត ការដាក់ពិន្ទុត្រូវបានអនុវត្ត ពោលគឺគំរូប្រូបាប៊ីលីតេត្រូវបានបង្កើតឡើង ដែលមនុស្សម្នាក់អាចយល់បានថាតើបុគ្គលនេះនឹងសងប្រាក់វិញឬអត់។ លើសពីនេះទៀត ការដាក់ពិន្ទុត្រូវបានអនុវត្តនៅគ្រប់ដំណាក់កាល៖ ជាឧទាហរណ៍ អ្នកអាចគណនាថានៅពេលណាមួយមនុស្សម្នាក់នឹងឈប់បង់ប្រាក់។

ទិន្នន័យធំអនុញ្ញាតឱ្យអ្នកមិនត្រឹមតែរកលុយប៉ុណ្ណោះទេប៉ុន្តែថែមទាំងរក្សាទុកវាទៀតផង។ ជាពិសេស បច្ចេកវិទ្យានេះបានជួយឱ្យក្រសួងការងាររបស់អាល្លឺម៉ង់កាត់បន្ថយថ្លៃដើមនៃអត្ថប្រយោជន៍អត់ការងារធ្វើចំនួន 10 ពាន់លានអឺរ៉ូ ចាប់តាំងពីបន្ទាប់ពីការវិភាគព័ត៌មានវាច្បាស់ថា 20% នៃអត្ថប្រយោជន៍ត្រូវបានបង់ដោយមិនសមនឹងទទួលបាន។

បច្ចេកវិជ្ជាក៏ត្រូវបានប្រើប្រាស់ក្នុងវេជ្ជសាស្ត្រផងដែរ (ជាពិសេសគឺធម្មតាសម្រាប់អ៊ីស្រាអែល)។ ដោយមានជំនួយពីទិន្នន័យធំ អ្នកអាចធ្វើការវិភាគបានត្រឹមត្រូវជាងវេជ្ជបណ្ឌិតដែលមានបទពិសោធន៍សាមសិបឆ្នាំអាចធ្វើបាន។

វេជ្ជបណ្ឌិតណាក៏ដោយ ពេលធ្វើរោគវិនិច្ឆ័យ គឺពឹងផ្អែកតែលើបទពិសោធន៍ផ្ទាល់ខ្លួនប៉ុណ្ណោះ។ នៅពេលដែលម៉ាស៊ីនធ្វើបែបនេះ វាកើតចេញពីបទពិសោធន៍របស់វេជ្ជបណ្ឌិតរាប់ពាន់នាក់ និងប្រវត្តិករណីដែលមានស្រាប់ទាំងអស់។ វាត្រូវគិតគូរអំពីសម្ភារៈដែលផ្ទះរបស់អ្នកជំងឺត្រូវបានផលិតពីអ្វីដែលជាតំបន់ដែលជនរងគ្រោះរស់នៅ តើមានផ្សែងប្រភេទណា។ល។ នោះគឺវាត្រូវគិតគូរពីកត្តាជាច្រើនដែលគ្រូពេទ្យមិនយកមកពិចារណា។

ឧទាហរណ៍នៃការប្រើប្រាស់ទិន្នន័យធំក្នុងការថែទាំសុខភាពគឺគម្រោង Project Artemis ដែលត្រូវបានអនុវត្តដោយមន្ទីរពេទ្យកុមារ Toronto ។ នេះគឺជាប្រព័ន្ធព័ត៌មានដែលប្រមូល និងវិភាគទិន្នន័យអំពីទារកក្នុងពេលវេលាជាក់ស្តែង។ ម៉ាស៊ីនអនុញ្ញាតឱ្យអ្នកវិភាគសូចនាករសុខភាព 1260 នៃកុមារម្នាក់ៗរៀងរាល់វិនាទី។ គម្រោងនេះមានគោលបំណងទស្សន៍ទាយស្ថានភាពមិនស្ថិតស្ថេររបស់កុមារ និងការពារជំងឺក្នុងកុមារ។

ទិន្នន័យធំក៏កំពុងចាប់ផ្តើមប្រើប្រាស់នៅក្នុងប្រទេសរុស្ស៊ីផងដែរ៖ ឧទាហរណ៍ Yandex មានការបែងចែកទិន្នន័យធំ។ ក្រុមហ៊ុននេះរួមជាមួយនឹង AstraZeneca និងសមាគមរុស្សីនៃគ្លីនិកជំងឺមហារីក RUSSCO បានចាប់ផ្តើមវេទិកា RAY ដែលមានបំណងសម្រាប់អ្នកជំនាញខាងហ្សែន និងជីវវិទូម៉ូលេគុល។ គម្រោងនេះអនុញ្ញាតឱ្យយើងធ្វើឱ្យប្រសើរឡើងនូវវិធីសាស្រ្តសម្រាប់ការធ្វើរោគវិនិច្ឆ័យជំងឺមហារីក និងកំណត់អត្តសញ្ញាណ predisposition នៃជំងឺមហារីក។ វេទិកានេះនឹងចាប់ផ្តើមនៅខែធ្នូ ឆ្នាំ 2016។

តើមានរឿងអ្វីកើតឡើង ទិន្នន័យធំ(ព្យញ្ជនៈ - ទិន្នន័យធំ)? សូមក្រឡេកមើលវចនានុក្រម Oxford ជាមុនសិន៖

ទិន្នន័យ- បរិមាណ សញ្ញា ឬនិមិត្តសញ្ញាដែលកុំព្យូទ័រដំណើរការ ហើយដែលអាចរក្សាទុក និងបញ្ជូនក្នុងទម្រង់ជាសញ្ញាអគ្គិសនី កត់ត្រានៅលើមេឌៀ អុបទិក ឬមេកានិក។

រយៈពេល ទិន្នន័យធំប្រើដើម្បីពណ៌នាអំពីសំណុំទិន្នន័យធំដែលរីកធំធាត់តាមពេលវេលា។ ដើម្បីដំណើរការបរិមាណទិន្នន័យបែបនេះ អ្នកមិនអាចធ្វើដោយគ្មានបានទេ។

អត្ថប្រយោជន៍ដែល Big Data ផ្តល់ជូន៖

ការប្រមូលទិន្នន័យពីប្រភពផ្សេងៗ។
ការកែលម្អដំណើរការអាជីវកម្មតាមរយៈការវិភាគពេលវេលាជាក់ស្តែង។
ការរក្សាទុកទិន្នន័យយ៉ាងច្រើន។
ការយល់ដឹង។ ទិន្នន័យធំមានការយល់ដឹងកាន់តែច្បាស់អំពីព័ត៌មានលាក់កំបាំងតាមរយៈទិន្នន័យដែលមានរចនាសម្ព័ន្ធ និងពាក់កណ្តាលរចនាសម្ព័ន្ធ។
ទិន្នន័យធំជួយអ្នកកាត់បន្ថយហានិភ័យ និងធ្វើការសម្រេចចិត្តដ៏ឆ្លាតវៃជាមួយនឹងការវិភាគហានិភ័យត្រឹមត្រូវ។

ឧទាហរណ៍ទិន្នន័យធំ

ផ្សារហ៊ុនញូវយ៉កបង្កើតប្រចាំថ្ងៃ 1 តេរ៉ាបៃទិន្នន័យជួញដូរសម្រាប់វគ្គកន្លងមក។

ប្រព័ន្ធផ្សព្វផ្សាយសង្គម៖ ស្ថិតិបង្ហាញថា Facebook បង្ហោះជារៀងរាល់ថ្ងៃ 500 តេរ៉ាបៃទិន្នន័យថ្មីត្រូវបានបង្កើតឡើងជាចម្បងដោយសារតែការផ្ទុកឡើងរូបថតនិងវីដេអូទៅម៉ាស៊ីនបម្រើបណ្តាញសង្គម, ការផ្ញើសារ, មតិយោបល់នៅក្រោមការបង្ហោះនិងដូច្នេះនៅលើ។

ម៉ាស៊ីនយន្តហោះបង្កើត 10 តេរ៉ាបៃទិន្នន័យរៀងរាល់ 30 នាទីក្នុងអំឡុងពេលហោះហើរ។ ចាប់តាំងពីការហោះហើររាប់ពាន់ជើងត្រូវបានធ្វើឡើងជារៀងរាល់ថ្ងៃ បរិមាណនៃទិន្នន័យឈានដល់ petabytes ។

ចំណាត់ថ្នាក់ទិន្នន័យធំ

ទម្រង់ទិន្នន័យធំ៖

រចនាសម្ព័ន្ធ
គ្មានរចនាសម្ព័ន្ធ
ពាក់កណ្តាលរចនាសម្ព័ន្ធ

ទម្រង់រចនាសម្ព័ន្ធ

ទិន្នន័យដែលអាចត្រូវបានរក្សាទុក ចូលប្រើ និងដំណើរការក្នុងទម្រង់ដែលមានទម្រង់ថេរត្រូវបានគេហៅថារចនាសម្ព័ន្ធ។ យូរៗទៅ វិទ្យាសាស្ត្រកុំព្យូទ័របានបោះជំហានយ៉ាងខ្លាំងក្នុងការកែលម្អបច្ចេកទេសសម្រាប់ធ្វើការជាមួយទិន្នន័យប្រភេទនេះ (ដែលទម្រង់ត្រូវបានគេស្គាល់ជាមុន) និងបានរៀនពីរបៀបដើម្បីទទួលបានអត្ថប្រយោជន៍ពីវា។ ទោះយ៉ាងណាក៏ដោយ សព្វថ្ងៃនេះមានបញ្ហារួចហើយដែលទាក់ទងនឹងការរីកលូតលាស់នៃបរិមាណទៅទំហំដែលបានវាស់នៅក្នុងជួរនៃ zettabytes ជាច្រើន។

1 zettabyte ស្មើនឹងមួយពាន់លាន terabytes

ក្រឡេកមើលលេខទាំងនេះ វាងាយស្រួលមើលឃើញពីភាពត្រឹមត្រូវនៃពាក្យថា Big Data និងការលំបាកទាក់ទងនឹងដំណើរការ និងរក្សាទុកទិន្នន័យបែបនេះ។

ទិន្នន័យដែលរក្សាទុកក្នុងមូលដ្ឋានទិន្នន័យទំនាក់ទំនងត្រូវបានរៀបចំឡើងហើយមើលទៅដូចជាឧទាហរណ៍តារាងបុគ្គលិកក្រុមហ៊ុន

ទម្រង់គ្មានរចនាសម្ព័ន្ធ

ទិន្នន័យនៃរចនាសម្ព័ន្ធមិនស្គាល់ត្រូវបានចាត់ថ្នាក់ថាមិនមានរចនាសម្ព័ន្ធ។ បន្ថែមពីលើទំហំធំរបស់វា រូបរាងនេះត្រូវបានកំណត់លក្ខណៈដោយការលំបាកមួយចំនួនក្នុងដំណើរការ និងទាញយកព័ត៌មានដែលមានប្រយោជន៍។ ឧទាហរណ៍ធម្មតានៃទិន្នន័យដែលមិនមានរចនាសម្ព័ន្ធគឺជាប្រភពផ្សេងៗគ្នាដែលមានការរួមបញ្ចូលគ្នានៃឯកសារអត្ថបទ រូបភាព និងវីដេអូសាមញ្ញ។ សព្វថ្ងៃនេះ អង្គការមានលទ្ធភាពប្រើប្រាស់ទិន្នន័យឆៅ ឬមិនមានរចនាសម្ព័ន្ធច្រើន ប៉ុន្តែមិនដឹងពីរបៀបទាញយកតម្លៃពីវានោះទេ។

ទម្រង់ពាក់កណ្តាលរចនាសម្ព័ន្ធ

ប្រភេទនេះមានទាំងពីរប្រភេទដែលបានពិពណ៌នាខាងលើ ដូច្នេះទិន្នន័យពាក់កណ្តាលរចនាសម្ព័ន្ធមានទម្រង់មួយចំនួន ប៉ុន្តែមិនត្រូវបានកំណត់យ៉ាងពិតប្រាកដដោយតារាងក្នុងមូលដ្ឋានទិន្នន័យទំនាក់ទំនងទេ។ ឧទាហរណ៍នៃប្រភេទនេះគឺជាទិន្នន័យផ្ទាល់ខ្លួនដែលបង្ហាញនៅក្នុងឯកសារ XML ។

Prashant Raoប្រុស35 សែម៉ា រ.ស្រី41 Satish Maneប្រុស29 Subrato Royប្រុស26 យេរេមា ជេ.ប្រុស35

លក្ខណៈនៃទិន្នន័យធំ

កំណើនទិន្នន័យធំតាមពេលវេលា៖

ពណ៌ខៀវតំណាងឱ្យទិន្នន័យរចនាសម្ព័ន្ធ (ទិន្នន័យសហគ្រាស) ដែលត្រូវបានរក្សាទុកក្នុងមូលដ្ឋានទិន្នន័យទំនាក់ទំនង។ ពណ៌ផ្សេងទៀតបង្ហាញពីទិន្នន័យដែលមិនមានរចនាសម្ព័ន្ធពីប្រភពផ្សេងៗ (IP telephony, devices and sensors, social networks and web applications)។

យោងទៅតាម Gartner ទិន្នន័យធំប្រែប្រួលក្នុងបរិមាណ អត្រានៃការបង្កើត ភាពខុសគ្នា និងភាពប្រែប្រួល។ ចូរយើងពិនិត្យមើលឱ្យកាន់តែច្បាស់អំពីលក្ខណៈទាំងនេះ។

កម្រិតសំឡេង. ពាក្យថា Big Data ខ្លួនវាទាក់ទងនឹងទំហំធំ។ ទំហំទិន្នន័យគឺជាម៉ែត្រដ៏សំខាន់ក្នុងការកំណត់តម្លៃសក្តានុពលដែលត្រូវស្រង់ចេញ។ ជារៀងរាល់ថ្ងៃ មនុស្ស 6 លាននាក់ប្រើប្រាស់ប្រព័ន្ធផ្សព្វផ្សាយឌីជីថល ដោយបង្កើតទិន្នន័យប៉ាន់ស្មានចំនួន 2.5 quintillion bytes ។ ដូច្នេះបរិមាណគឺជាលក្ខណៈដំបូងដែលត្រូវពិចារណា។
ភាពចម្រុះ- ទិដ្ឋភាពបន្ទាប់។ វាសំដៅទៅលើប្រភពផ្សេងៗគ្នា និងធម្មជាតិនៃទិន្នន័យ ដែលអាចមានរចនាសម្ព័ន្ធ ឬមិនមានរចនាសម្ព័ន្ធ។ ពីមុន សៀវភៅបញ្ជី និងមូលដ្ឋានទិន្នន័យគឺជាប្រភពព័ត៌មានតែមួយគត់ដែលត្រូវបានពិចារណានៅក្នុងកម្មវិធីភាគច្រើន។ សព្វថ្ងៃនេះ ទិន្នន័យក្នុងទម្រង់ជាអ៊ីមែល រូបថត វីដេអូ ឯកសារ PDF និងសំឡេងក៏ត្រូវបានពិចារណាក្នុងកម្មវិធីវិភាគផងដែរ។ ភាពខុសគ្នានៃទិន្នន័យដែលមិនមានរចនាសម្ព័ន្ធនេះនាំឱ្យមានបញ្ហាក្នុងការផ្ទុក ការជីកយករ៉ែ និងការវិភាគ៖ 27% នៃក្រុមហ៊ុនមិនមានទំនុកចិត្តថាពួកគេកំពុងធ្វើការជាមួយទិន្នន័យត្រឹមត្រូវ។
ល្បឿននៃជំនាន់. តើទិន្នន័យត្រូវបានប្រមូលផ្តុំ និងដំណើរការលឿនប៉ុណ្ណា ដើម្បីបំពេញតាមតម្រូវការកំណត់សក្តានុពល។ ល្បឿនកំណត់ល្បឿននៃលំហូរព័ត៌មានពីប្រភព - ដំណើរការអាជីវកម្ម កំណត់ហេតុកម្មវិធី បណ្តាញទំនាក់ទំនងសង្គម និងប្រព័ន្ធផ្សព្វផ្សាយ ឧបករណ៍ចាប់សញ្ញា ឧបករណ៍ចល័ត។ លំហូរនៃទិន្នន័យមានទំហំធំ និងបន្តតាមពេលវេលា។
ភាពប្រែប្រួលពិពណ៌នាអំពីភាពប្រែប្រួលនៃទិន្នន័យនៅចំណុចមួយចំនួនក្នុងពេលវេលា ដែលធ្វើអោយស្មុគស្មាញដល់ដំណើរការ និងការគ្រប់គ្រង។ ឧទាហរណ៍ ទិន្នន័យភាគច្រើនមិនមានរចនាសម្ព័ន្ធនៅក្នុងធម្មជាតិ។

ការវិភាគទិន្នន័យធំ៖ តើអ្វីទៅជាអត្ថប្រយោជន៍នៃទិន្នន័យធំ

ការផ្សព្វផ្សាយទំនិញ និងសេវាកម្ម៖ ការចូលប្រើទិន្នន័យពីម៉ាស៊ីនស្វែងរក និងគេហទំព័រដូចជា Facebook និង Twitter អនុញ្ញាតឱ្យអាជីវកម្មបង្កើតយុទ្ធសាស្រ្តទីផ្សារកាន់តែត្រឹមត្រូវ។

ការកែលម្អសេវាកម្មសម្រាប់អតិថិជន៖ ប្រព័ន្ធមតិកែលម្អអតិថិជនបែបប្រពៃណីកំពុងត្រូវបានជំនួសដោយប្រព័ន្ធថ្មីដែលប្រើទិន្នន័យធំ និងដំណើរការភាសាធម្មជាតិ ដើម្បីអាន និងវាយតម្លៃមតិកែលម្អរបស់អតិថិជន។

ការគណនាហានិភ័យពាក់ព័ន្ធនឹងការចេញផ្សាយផលិតផល ឬសេវាកម្មថ្មី។

ប្រសិទ្ធភាពប្រតិបត្តិការ៖ ទិន្នន័យធំត្រូវបានរៀបចំឡើងដើម្បីទាញយកព័ត៌មានចាំបាច់យ៉ាងឆាប់រហ័ស និងបង្កើតលទ្ធផលត្រឹមត្រូវយ៉ាងឆាប់រហ័ស។ ការរួមបញ្ចូលគ្នានៃទិន្នន័យធំ និងបច្ចេកវិទ្យាផ្ទុកទិន្នន័យនេះជួយឱ្យស្ថាប័នបង្កើនប្រសិទ្ធភាពការងាររបស់ពួកគេជាមួយនឹងព័ត៌មានកម្រប្រើ។