ទិន្នន័យធំជាឧបករណ៍។ តើអ្វីទៅជាទិន្នន័យធំ៖ យើងបានប្រមូលនូវអ្វីដែលសំខាន់បំផុតទាំងអស់អំពីទិន្នន័យធំ។ បច្ចេកទេសវិភាគទិន្នន័យធំ

ជាធម្មតានៅពេលដែលពួកគេនិយាយអំពីដំណើរការវិភាគដ៏ធ្ងន់ធ្ងរ ជាពិសេសប្រសិនបើពួកគេប្រើពាក្យ Data Mining ពួកគេមានន័យថាមានទិន្នន័យយ៉ាងច្រើន។ ជាទូទៅ នេះមិនមែនជាករណីនោះទេ ព្រោះជាញឹកញាប់អ្នកត្រូវដំណើរការសំណុំទិន្នន័យតូចៗ ហើយការស្វែងរកគំរូនៅក្នុងពួកវាគឺមិនងាយស្រួលជាងកំណត់ត្រារាប់រយលាននោះទេ។ ទោះបីជាគ្មានការងឿងឆ្ងល់ថា តម្រូវការស្វែងរកលំនាំនៅក្នុងមូលដ្ឋានទិន្នន័យធំធ្វើឱ្យស្មុគស្មាញដល់កិច្ចការដែលមិនមែនជារឿងតូចតាចនៃការវិភាគរួចទៅហើយ។

ស្ថានភាពនេះមានលក្ខណៈធម្មតាជាពិសេសសម្រាប់អាជីវកម្មដែលទាក់ទងនឹងពាណិជ្ជកម្មលក់រាយ ទូរគមនាគមន៍ ធនាគារ និងអ៊ីនធឺណិត។ មូលដ្ឋានទិន្នន័យរបស់ពួកគេប្រមូលផ្តុំនូវព័ត៌មានជាច្រើនដែលទាក់ទងនឹងប្រតិបត្តិការ៖ មូលប្បទានប័ត្រ ការទូទាត់ ការហៅទូរសព្ទ កំណត់ហេតុជាដើម។

មិនមានវិធីសាស្រ្តជាសកលនៃការវិភាគ ឬក្បួនដោះស្រាយដែលសមរម្យសម្រាប់គ្រប់ករណី និងចំនួនព័ត៌មានណាមួយឡើយ។ វិធីសាស្រ្តវិភាគទិន្នន័យមានភាពខុសប្លែកគ្នាយ៉ាងខ្លាំងនៅក្នុងការអនុវត្ត គុណភាពនៃលទ្ធផល ភាពងាយស្រួលនៃការប្រើប្រាស់ និងតម្រូវការទិន្នន័យ។ ការបង្កើនប្រសិទ្ធភាពអាចត្រូវបានអនុវត្តនៅកម្រិតផ្សេងៗ៖ ឧបករណ៍ មូលដ្ឋានទិន្នន័យ វេទិកាវិភាគ ការរៀបចំទិន្នន័យដំបូង ក្បួនដោះស្រាយឯកទេស។ ការវិភាគទិន្នន័យទំហំធំ ទាមទារវិធីសាស្រ្តពិសេសមួយ ព្រោះ... វាពិបាកខាងបច្ចេកទេសក្នុងការដំណើរការពួកវាដោយប្រើតែ "brute force" ពោលគឺឧ។ ដោយប្រើឧបករណ៍ខ្លាំងជាង។

ជាការពិតណាស់ អ្នកអាចបង្កើនល្បឿននៃដំណើរការទិន្នន័យដោយប្រើផ្នែករឹងដែលមានអនុភាពជាងមុន ជាពិសេសចាប់តាំងពីម៉ាស៊ីនមេ និងស្ថានីយការងារទំនើបប្រើប្រាស់ប្រព័ន្ធដំណើរការពហុស្នូល RAM សំខាន់ៗ និងអារេឌីសដ៏មានឥទ្ធិពល។ ទោះយ៉ាងណាក៏ដោយ មានវិធីជាច្រើនទៀតដើម្បីដំណើរការទិន្នន័យដ៏ច្រើនដែលអនុញ្ញាតឱ្យមានលទ្ធភាពធ្វើមាត្រដ្ឋានបានកាន់តែច្រើន ហើយមិនត្រូវការការអាប់ដេតផ្នែករឹងគ្មានទីបញ្ចប់នោះទេ។

សមត្ថភាព DBMS

មូលដ្ឋានទិន្នន័យទំនើបរួមមានយន្តការផ្សេងៗ ការប្រើប្រាស់ដែលនឹងបង្កើនល្បឿនដំណើរការវិភាគយ៉ាងសំខាន់៖

  • ការគណនាទិន្នន័យបឋម។ ព័ត៌មានដែលត្រូវបានប្រើជាញឹកញាប់បំផុតសម្រាប់ការវិភាគអាចត្រូវបានគណនាជាមុន (ឧទាហរណ៍នៅពេលយប់) និងរក្សាទុកក្នុងទម្រង់ដែលបានរៀបចំសម្រាប់ដំណើរការនៅលើម៉ាស៊ីនមេមូលដ្ឋានទិន្នន័យក្នុងទម្រង់ជាគូបពហុវិមាត្រ ទិដ្ឋភាពជាក់ស្តែង និងតារាងពិសេស។
  • រក្សាទុកតារាងក្នុង RAM ។ ទិន្នន័យដែលប្រើកន្លែងទំនេរតិចតួច ប៉ុន្តែជាញឹកញាប់ត្រូវបានចូលប្រើក្នុងអំឡុងពេលដំណើរការវិភាគ ឧទាហរណ៍ ថតឯកសារ អាចត្រូវបានទុកក្នុងឃ្លាំងសម្ងាត់ RAM ដោយប្រើឧបករណ៍មូលដ្ឋានទិន្នន័យ។ វាកាត់បន្ថយការហៅទៅកាន់ប្រព័ន្ធរងនៃឌីសយឺតច្រើនដង។
  • ការបែងចែកតារាងទៅជាភាគថាស និងចន្លោះតារាង។ អ្នកអាចដាក់ទិន្នន័យ លិបិក្រម និងតារាងជំនួយនៅលើថាសដាច់ដោយឡែក។ វានឹងអនុញ្ញាតឱ្យ DBMS អាន និងសរសេរព័ត៌មានទៅថាសស្របគ្នា។ លើសពីនេះទៀតតារាងអាចត្រូវបានបែងចែកទៅជាភាគថាសដូច្នេះនៅពេលចូលប្រើទិន្នន័យមានចំនួនអប្បបរមានៃប្រតិបត្តិការថាស។ ឧទាហរណ៍ ប្រសិនបើយើងវិភាគទិន្នន័យជាញឹកញយសម្រាប់ខែចុងក្រោយ នោះយើងអាចប្រើតារាងមួយជាមួយទិន្នន័យប្រវត្តិសាស្រ្តបានដោយសមហេតុផល ប៉ុន្តែបំបែកវាទៅជាផ្នែកជាច្រើន ដូច្នេះនៅពេលចូលប្រើទិន្នន័យប្រចាំខែ ភាគតូចមួយត្រូវបានអាន ហើយមិនមានការចូលប្រើទេ។ ចំពោះទិន្នន័យប្រវត្តិសាស្ត្រទាំងអស់។

នេះគ្រាន់តែជាផ្នែកនៃសមត្ថភាពដែល DBMSs ទំនើបផ្តល់។ អ្នកអាចបង្កើនល្បឿននៃការទាញយកព័ត៌មានពីមូលដ្ឋានទិន្នន័យតាមវិធីជាច្រើនផ្សេងទៀត៖ ការធ្វើលិបិក្រមសមហេតុផល ការកសាងផែនការសំណួរ ដំណើរការស្របគ្នានៃសំណួរ SQL ដោយប្រើចង្កោម រៀបចំទិន្នន័យដែលបានវិភាគដោយប្រើនីតិវិធីដែលបានរក្សាទុក និងកេះនៅផ្នែកម្ខាងនៃម៉ាស៊ីនមេមូលដ្ឋានទិន្នន័យ។ល។ . លើសពីនេះទៅទៀត យន្តការទាំងនេះជាច្រើនអាចត្រូវបានប្រើដោយមិនត្រឹមតែ DBMSs "ធ្ងន់" ប៉ុណ្ណោះទេ ប៉ុន្តែក៏មានមូលដ្ឋានទិន្នន័យឥតគិតថ្លៃផងដែរ។

ការរួមបញ្ចូលគ្នានៃម៉ូដែល

លទ្ធភាពសម្រាប់ការបង្កើនល្បឿនមិនត្រូវបានកំណត់ចំពោះការបង្កើនប្រសិទ្ធភាពដំណើរការនៃមូលដ្ឋានទិន្នន័យទេ ច្រើនអាចត្រូវបានធ្វើដោយការរួមបញ្ចូលគ្នារវាងម៉ូដែលផ្សេងៗគ្នា។ វាត្រូវបានគេដឹងថាល្បឿនដំណើរការគឺទាក់ទងយ៉ាងសំខាន់ទៅនឹងភាពស្មុគស្មាញនៃឧបករណ៍គណិតវិទ្យាដែលបានប្រើ។ យន្តការនៃការវិភាគកាន់តែសាមញ្ញ ទិន្នន័យត្រូវបានវិភាគកាន់តែលឿន។

វាអាចធ្វើទៅបានដើម្បីបង្កើតសេណារីយ៉ូដំណើរការទិន្នន័យតាមរបៀបដែលទិន្នន័យត្រូវបាន "ដំណើរការ" តាមរយៈ Sieve នៃគំរូ។ គំនិតសាមញ្ញមួយត្រូវបានអនុវត្តនៅទីនេះ៖ កុំខ្ជះខ្ជាយពេលវេលាកែច្នៃអ្វីដែលអ្នកមិនចាំបាច់វិភាគ។

ក្បួនដោះស្រាយសាមញ្ញបំផុតត្រូវបានប្រើដំបូង។ ផ្នែកនៃទិន្នន័យដែលអាចត្រូវបានដំណើរការដោយប្រើក្បួនដោះស្រាយបែបនេះ ហើយដែលគ្មានន័យសម្រាប់ដំណើរការដោយប្រើវិធីសាស្ត្រស្មុគ្រស្មាញគឺត្រូវបានវិភាគ និងដកចេញពីដំណើរការបន្ថែមទៀត។ ទិន្នន័យដែលនៅសេសសល់ត្រូវបានផ្ទេរទៅដំណាក់កាលដំណើរការបន្ទាប់ ដែលប្រើក្បួនដោះស្រាយស្មុគស្មាញកាន់តែច្រើន ហើយបន្តបន្ទាប់ទៀត។ នៅថ្នាំងចុងក្រោយនៃស្គ្រីបដំណើរការ ក្បួនដោះស្រាយស្មុគស្មាញបំផុតត្រូវបានប្រើ ប៉ុន្តែបរិមាណនៃទិន្នន័យដែលបានវិភាគគឺតូចជាងគំរូដំបូងច្រើនដង។ ជាលទ្ធផល ពេលវេលាសរុបដែលត្រូវការដើម្បីដំណើរការទិន្នន័យទាំងអស់ត្រូវបានកាត់បន្ថយដោយលំដាប់នៃរ៉ិចទ័រ។

ចូរយើងផ្តល់ឧទាហរណ៍ជាក់ស្តែងនៃការប្រើប្រាស់វិធីសាស្រ្តនេះ។ នៅពេលដោះស្រាយបញ្ហានៃការព្យាករណ៍តម្រូវការ វាត្រូវបានណែនាំដំបូងឱ្យធ្វើការវិភាគ XYZ ដែលអនុញ្ញាតឱ្យអ្នកកំណត់ថាតើតម្រូវការសម្រាប់ទំនិញផ្សេងៗមានស្ថេរភាពកម្រិតណា។ ផលិតផលនៃក្រុម X ត្រូវបានលក់ជាប់លាប់ ដូច្នេះការអនុវត្តន៍ក្បួនដោះស្រាយការព្យាករណ៍ទៅពួកវាអនុញ្ញាតឱ្យយើងទទួលបាននូវការព្យាករណ៍គុណភាពខ្ពស់។ ផលិតផលនៃក្រុម Y ត្រូវបានលក់មិនសូវជាប់លាប់ ប្រហែលជាវាមានតម្លៃក្នុងការបង្កើតគំរូសម្រាប់ពួកគេមិនមែនសម្រាប់អត្ថបទនីមួយៗទេ ប៉ុន្តែសម្រាប់ក្រុម នេះអនុញ្ញាតឱ្យអ្នកធ្វើឱ្យស៊េរីពេលវេលារលូន និងធានាបាននូវប្រតិបត្តិការនៃក្បួនដោះស្រាយការព្យាករណ៍។ ផលិតផលរបស់ក្រុម Z ត្រូវបានលក់យ៉ាងច្របូកច្របល់ ដូច្នេះមិនចាំបាច់បង្កើតគំរូព្យាករណ៍សម្រាប់ពួកគេទាល់តែសោះ តម្រូវការសម្រាប់ពួកគេគួរតែត្រូវបានគណនាដោយផ្អែកលើរូបមន្តសាមញ្ញ ឧទាហរណ៍ ការលក់ប្រចាំខែជាមធ្យម។

យោងតាមស្ថិតិប្រហែល 70% នៃការចាត់ថ្នាក់មានផលិតផលពីក្រុម Z ។ ប្រហែល 25% ជាផលិតផលពីក្រុម Y ហើយប្រហែល 5% ប៉ុណ្ណោះជាផលិតផលពីក្រុម X ។ ដូច្នេះការសាងសង់និងការអនុវត្តគំរូស្មុគស្មាញគឺពាក់ព័ន្ធសម្រាប់ អតិបរមា 30% នៃផលិតផល។ ដូច្នេះការប្រើវិធីសាស្រ្តដែលបានពិពណ៌នាខាងលើនឹងកាត់បន្ថយពេលវេលាសម្រាប់ការវិភាគនិងការព្យាករណ៍ដោយ 5-10 ដង។

ដំណើរការប៉ារ៉ាឡែល

យុទ្ធសាស្ត្រដ៏មានប្រសិទ្ធភាពមួយទៀតសម្រាប់ដំណើរការទិន្នន័យក្នុងបរិមាណច្រើនគឺការបំបែកទិន្នន័យទៅជាផ្នែក និងបង្កើតគំរូសម្រាប់ផ្នែកនីមួយៗដាច់ដោយឡែកពីគ្នា បន្ទាប់មកបញ្ចូលគ្នានូវលទ្ធផល។ ភាគច្រើនជាញឹកញាប់ ក្នុងបរិមាណដ៏ធំនៃទិន្នន័យ សំណុំរងជាច្រើនដែលខុសគ្នាពីគ្នាទៅវិញទៅមកអាចត្រូវបានកំណត់អត្តសញ្ញាណ។ ជាឧទាហរណ៍ ទាំងនេះអាចជាក្រុមអតិថិជន ផលិតផលដែលមានឥរិយាបថស្រដៀងគ្នា និងដែលគួរបង្កើតគំរូមួយ។

ក្នុងករណីនេះ ជំនួសឱ្យការកសាងគំរូស្មុគស្មាញមួយសម្រាប់មនុស្សគ្រប់គ្នា អ្នកអាចបង្កើតគំរូសាមញ្ញជាច្រើនសម្រាប់ផ្នែកនីមួយៗ។ វិធីសាស្រ្តនេះអនុញ្ញាតឱ្យអ្នកបង្កើនល្បឿននៃការវិភាគ និងកាត់បន្ថយតម្រូវការអង្គចងចាំដោយដំណើរការទិន្នន័យក្នុងចំនួនតូចជាងក្នុងសំបុត្រតែមួយ។ លើសពីនេះទៀតក្នុងករណីនេះដំណើរការវិភាគអាចត្រូវបានប៉ារ៉ាឡែលដែលមានឥទ្ធិពលវិជ្ជមានទៅលើពេលវេលាដែលបានចំណាយផងដែរ។ លើសពីនេះទៀតអ្នកវិភាគផ្សេងៗគ្នាអាចបង្កើតគំរូសម្រាប់ផ្នែកនីមួយៗ។

បន្ថែមពីលើការបង្កើនល្បឿន វិធីសាស្រ្តនេះមានអត្ថប្រយោជន៍សំខាន់មួយទៀត - ម៉ូដែលសាមញ្ញមួយចំនួនដោយឡែកពីគ្នាគឺងាយស្រួលបង្កើត និងថែទាំជាងមួយធំ។ អ្នកអាចដំណើរការគំរូតាមដំណាក់កាល ដូច្នេះទទួលបានលទ្ធផលដំបូងក្នុងរយៈពេលដ៏ខ្លីបំផុត។

គំរូតំណាង

ប្រសិនបើទិន្នន័យមានបរិមាណច្រើន មិនមែនព័ត៌មានទាំងអស់អាចត្រូវបានប្រើដើម្បីបង្កើតគំរូនោះទេ ប៉ុន្តែមានសំណុំរងជាក់លាក់មួយ - គំរូតំណាង។ គំរូតំណាងដែលបានរៀបចំយ៉ាងត្រឹមត្រូវមានព័ត៌មានចាំបាច់សម្រាប់បង្កើតគំរូដែលមានគុណភាពខ្ពស់។

ដំណើរការ​វិភាគ​ត្រូវ​បាន​បែង​ចែក​ជា 2 ផ្នែក​គឺ​ការ​បង្កើត​គំរូ និង​ការ​អនុវត្ត​គំរូ​ដែល​បាន​បង្កើត​ទៅ​នឹង​ទិន្នន័យ​ថ្មី។ ការកសាងគំរូស្មុគស្មាញគឺជាដំណើរការដែលពឹងផ្អែកលើធនធាន។ អាស្រ័យលើក្បួនដោះស្រាយដែលបានប្រើ ទិន្នន័យត្រូវបានទុកក្នុងឃ្លាំងសម្ងាត់ ស្កេនរាប់ពាន់ដង ប៉ារ៉ាម៉ែត្រជំនួយជាច្រើនត្រូវបានគណនា។ល។ ការ​អនុវត្ត​គំរូ​ដែល​បាន​បង្កើត​រួច​ទៅ​ហើយ​ចំពោះ​ទិន្នន័យ​ថ្មី​តម្រូវ​ឱ្យ​មាន​ធនធាន​តិច​ជាង​ដប់​ទៅ​រាប់រយ​ដង។ ជាញឹកញាប់វាកើតឡើងចំពោះការគណនាមុខងារសាមញ្ញមួយចំនួន។

ដូច្នេះ ប្រសិនបើគំរូត្រូវបានបង្កើតឡើងនៅលើសំណុំតូចៗ ហើយអនុវត្តជាបន្តបន្ទាប់ចំពោះសំណុំទិន្នន័យទាំងមូល នោះពេលវេលាដើម្បីទទួលបានលទ្ធផលនឹងត្រូវបានកាត់បន្ថយដោយលំដាប់នៃទំហំធៀបនឹងការប៉ុនប៉ងដើម្បីដំណើរការសំណុំទិន្នន័យដែលមានស្រាប់ទាំងស្រុង។

ដើម្បីទទួលបានគំរូតំណាងមានវិធីសាស្រ្តពិសេសឧទាហរណ៍ការយកគំរូ។ ការប្រើប្រាស់របស់ពួកគេធ្វើឱ្យវាអាចបង្កើនល្បឿននៃដំណើរការវិភាគដោយមិនបាត់បង់គុណភាពនៃការវិភាគ។

សង្ខេប

វិធីសាស្រ្តដែលបានពិពណ៌នាគឺគ្រាន់តែជាផ្នែកតូចមួយនៃវិធីសាស្រ្តដែលអនុញ្ញាតឱ្យអ្នកវិភាគទិន្នន័យយ៉ាងច្រើន។ មានវិធីសាស្រ្តផ្សេងទៀត ឧទាហរណ៍ ការប្រើប្រាស់ក្បួនដោះស្រាយពិសេសដែលអាចធ្វើមាត្រដ្ឋានបាន គំរូឋានានុក្រម ការរៀនបង្អួច។ល។

ការវិភាគមូលដ្ឋានទិន្នន័យដ៏ធំគឺជាកិច្ចការមិនសំខាន់ដែលក្នុងករណីភាគច្រើនមិនអាចដោះស្រាយបាន ប៉ុន្តែមូលដ្ឋានទិន្នន័យទំនើប និងវេទិកាវិភាគផ្តល់នូវវិធីសាស្រ្តជាច្រើនសម្រាប់ការដោះស្រាយបញ្ហានេះ។ នៅពេលប្រើដោយឆ្លាតវៃ ប្រព័ន្ធមានសមត្ថភាពក្នុងការដំណើរការទិន្នន័យ terabytes ក្នុងល្បឿនដែលអាចទទួលយកបាន។

ពាក្យ "ទិន្នន័យធំ" អាចត្រូវបានគេទទួលស្គាល់សព្វថ្ងៃនេះ ប៉ុន្តែនៅតែមានការភាន់ច្រលំបន្តិចជុំវិញវាថា តើវាមានន័យយ៉ាងណា។ ជាការពិត គំនិតនេះកំពុងវិវត្តន៍ឥតឈប់ឈរ និងត្រូវបានកំណត់ឡើងវិញ ព្រោះវានៅតែជាកម្លាំងជំរុញនៅពីក្រោយរលកបន្តនៃការផ្លាស់ប្តូរឌីជីថល រួមទាំងបញ្ញាសិប្បនិម្មិត វិទ្យាសាស្ត្រទិន្នន័យ និងអ៊ីនធឺណិតនៃអ្វីៗ។ ប៉ុន្តែតើបច្ចេកវិទ្យា Big-Data គឺជាអ្វី ហើយតើវាផ្លាស់ប្តូរពិភពលោករបស់យើងយ៉ាងដូចម្តេច? ចូរយើងព្យាយាមស្វែងយល់ពីខ្លឹមសារនៃបច្ចេកវិទ្យា Big Data និងអត្ថន័យរបស់វានៅក្នុងពាក្យសាមញ្ញ។

វាទាំងអស់បានចាប់ផ្តើមជាមួយនឹងការផ្ទុះនៅក្នុងបរិមាណនៃទិន្នន័យដែលយើងបានបង្កើតតាំងពីព្រឹកព្រលឹមនៃយុគសម័យឌីជីថល។ នេះភាគច្រើនដោយសារតែការអភិវឌ្ឍន៍កុំព្យូទ័រ អ៊ីនធឺណិត និងបច្ចេកវិទ្យាដែលអាច "ឆក់" ទិន្នន័យពីពិភពលោកជុំវិញយើង។ ទិន្នន័យនៅក្នុងខ្លួនវាមិនមែនជាការច្នៃប្រឌិតថ្មីទេ។ សូម្បីតែមុនអាយុនៃកុំព្យូទ័រ និងមូលដ្ឋានទិន្នន័យ យើងបានប្រើកំណត់ត្រាប្រតិបត្តិការក្រដាស កំណត់ត្រាអតិថិជន និងឯកសារបណ្ណសារដែលបង្កើតជាទិន្នន័យ។ កុំព្យូទ័រ ជាពិសេសសៀវភៅបញ្ជី និងមូលដ្ឋានទិន្នន័យ បានធ្វើឱ្យយើងងាយស្រួលរក្សាទុក និងរៀបចំទិន្នន័យក្នុងទ្រង់ទ្រាយធំ។ ភ្លាមៗនោះព័ត៌មានអាចរកបានដោយគ្រាន់តែចុចតែម្តងប៉ុណ្ណោះ។

ទោះយ៉ាងណាក៏ដោយ យើងបានមកផ្លូវឆ្ងាយពីតារាងដើម និងមូលដ្ឋានទិន្នន័យ។ សព្វថ្ងៃនេះ រៀងរាល់ពីរថ្ងៃម្តង យើងបង្កើតទិន្នន័យច្រើនដូចដែលយើងបានទទួលតាំងពីដំបូងរហូតដល់ឆ្នាំ 2000។ ត្រូវហើយ រៀងរាល់ពីរថ្ងៃម្តង។ ហើយចំនួនទិន្នន័យដែលយើងបង្កើតនៅតែបន្តកើនឡើងជាលំដាប់។ នៅឆ្នាំ 2020 ចំនួនព័ត៌មានឌីជីថលដែលមាននឹងកើនឡើងពីប្រមាណ 5 zettabytes ដល់ 20 zettabytes។

សព្វថ្ងៃនេះ ស្ទើរតែគ្រប់សកម្មភាពដែលយើងធ្វើបានបន្សល់ទុកនូវសញ្ញារបស់វា។ យើងបង្កើតទិន្នន័យរាល់ពេលដែលយើងទៅអ៊ីនធឺណិត នៅពេលដែលយើងយកស្មាតហ្វូនរបស់យើងដែលបំពាក់ដោយម៉ាស៊ីនស្វែងរក នៅពេលយើងនិយាយជាមួយមិត្តរបស់យើងតាមរយៈបណ្តាញសង្គម ឬការជជែកជាដើម។ លើសពីនេះ បរិមាណទិន្នន័យដែលបង្កើតដោយម៉ាស៊ីនក៏កំពុងកើនឡើងយ៉ាងឆាប់រហ័សផងដែរ។ ទិន្នន័យត្រូវបានបង្កើត និងចែករំលែកនៅពេលដែលឧបករណ៍ផ្ទះឆ្លាតវៃរបស់យើងទាក់ទងគ្នាទៅវិញទៅមក ឬជាមួយម៉ាស៊ីនមេផ្ទះរបស់ពួកគេ។ ឧបករណ៍ឧស្សាហកម្មនៅក្នុងរោងចក្រ និងរោងចក្រត្រូវបានបំពាក់កាន់តែខ្លាំងឡើងជាមួយនឹងឧបករណ៍ចាប់សញ្ញាដែលប្រមូលផ្តុំ និងបញ្ជូនទិន្នន័យ។

ពាក្យ "ទិន្នន័យធំ" សំដៅលើការប្រមូលទិន្នន័យទាំងអស់នេះ និងសមត្ថភាពរបស់យើងក្នុងការប្រើប្រាស់វាឱ្យមានប្រយោជន៍ក្នុងវិស័យជាច្រើន រួមទាំងអាជីវកម្មផងដែរ។

តើបច្ចេកវិទ្យា Big-Data ដំណើរការយ៉ាងដូចម្តេច?

ទិន្នន័យធំដំណើរការលើគោលការណ៍៖ នៅពេលដែលអ្នកដឹងកាន់តែច្រើនអំពីប្រធានបទ ឬបាតុភូតជាក់លាក់មួយ នោះអ្នកអាចសម្រេចបានការយល់ដឹងថ្មី និងទស្សន៍ទាយអំពីអ្វីដែលនឹងកើតឡើងនាពេលអនាគតកាន់តែជឿជាក់។ នៅពេលយើងប្រៀបធៀបចំណុចទិន្នន័យកាន់តែច្រើន ទំនាក់ទំនងត្រូវបានលាក់ទុកពីមុន ហើយទំនាក់ទំនងទាំងនេះអនុញ្ញាតឱ្យយើងរៀន និងធ្វើការសម្រេចចិត្តបានប្រសើរជាងមុន។ ភាគច្រើន វាត្រូវបានធ្វើតាមរយៈដំណើរការដែលពាក់ព័ន្ធនឹងការកសាងគំរូដោយផ្អែកលើទិន្នន័យដែលយើងអាចប្រមូលបាន ហើយបន្ទាប់មកដំណើរការការក្លែងធ្វើដែលកែប្រែតម្លៃនៃចំណុចទិន្នន័យរាល់ពេល និងតាមដានពីរបៀបដែលពួកគេប៉ះពាល់ដល់លទ្ធផលរបស់យើង។ ដំណើរការនេះគឺដោយស្វ័យប្រវត្តិ បច្ចេកវិទ្យាវិភាគទំនើបនឹងដំណើរការការក្លែងធ្វើទាំងនេះរាប់លាន ដោយកែប្រែរាល់អថេរដែលអាចកើតមាន រហូតដល់ពួកគេរកឃើញគំរូ ឬគំនិតដែលជួយដោះស្រាយបញ្ហាដែលពួកគេកំពុងធ្វើការ។

Bill Gates ព្យួរលើមាតិកាក្រដាសនៃស៊ីឌីមួយ។

រហូតមកដល់ពេលថ្មីៗនេះ ទិន្នន័យត្រូវបានកំណត់ចំពោះសៀវភៅបញ្ជី ឬមូលដ្ឋានទិន្នន័យ ហើយអ្វីៗទាំងអស់ត្រូវបានរៀបចំ និងយ៉ាងស្អាត។ អ្វី​ដែល​មិន​ងាយ​ស្រួល​រៀបចំ​ជា​ជួរ​ដេក និង​ជួរ​ឈរ​ត្រូវ​បាន​គេ​ចាត់​ទុក​ថា​ស្មុគស្មាញ​ពេក​ក្នុង​ការ​ធ្វើ​ការ​ជាមួយ និង​ត្រូវ​បាន​គេ​មិន​អើពើ។ ទោះជាយ៉ាងណាក៏ដោយ ការជឿនលឿនក្នុងការផ្ទុក និងការវិភាគមានន័យថា យើងអាចចាប់យក រក្សាទុក និងដំណើរការទិន្នន័យប្រភេទផ្សេងៗគ្នាជាច្រើន។ ជាលទ្ធផល "ទិន្នន័យ" សព្វថ្ងៃនេះអាចមានន័យអ្វីទាំងអស់ពីមូលដ្ឋានទិន្នន័យរហូតដល់រូបថត វីដេអូ ការថតសំឡេង អត្ថបទដែលបានសរសេរ និងទិន្នន័យឧបករណ៍ចាប់សញ្ញា។

ដើម្បីយល់អំពីទិន្នន័យរញ៉េរញ៉ៃទាំងអស់នេះ គម្រោងដែលមានមូលដ្ឋានលើទិន្នន័យធំ តែងតែប្រើការវិភាគដ៏ទំនើបដោយប្រើបញ្ញាសិប្បនិម្មិត និងការរៀនកុំព្យូទ័រ។ តាមរយៈការបង្រៀនម៉ាស៊ីនកុំព្យូទ័រដើម្បីកំណត់នូវទិន្នន័យជាក់លាក់ណាមួយ តាមរយៈការទទួលស្គាល់គំរូ ឬដំណើរការភាសាធម្មជាតិ ជាឧទាហរណ៍ យើងអាចបង្រៀនពួកគេឱ្យកំណត់អត្តសញ្ញាណគំរូបានលឿន និងអាចទុកចិត្តបានជាងខ្លួនយើង។

តើ Big Data ត្រូវបានប្រើប្រាស់យ៉ាងដូចម្តេច?

លំហូរទិន្នន័យឧបករណ៍ចាប់សញ្ញា អត្ថបទ សំឡេង រូបថត និងវីដេអូដែលកើនឡើងឥតឈប់ឈរនេះ មានន័យថាឥឡូវនេះយើងអាចប្រើប្រាស់ទិន្នន័យតាមរបៀបដែលមិននឹកស្មានដល់កាលពីប៉ុន្មានឆ្នាំមុន។ នេះ​គឺ​ជា​ការ​នាំ​មក​នូវ​ការ​ផ្លាស់​ប្តូ​រ​បដិវត្តន៍​ដល់​ពិភព​អាជីវកម្ម​នៅ​ក្នុង​ស្ទើរ​តែ​គ្រប់​ឧស្សាហកម្ម​។ សព្វថ្ងៃនេះ ក្រុមហ៊ុននានាអាចទស្សន៍ទាយជាមួយនឹងភាពត្រឹមត្រូវមិនគួរឱ្យជឿដែលប្រភេទជាក់លាក់នៃអតិថិជននឹងចង់ធ្វើការទិញ និងនៅពេលណា។ ទិន្នន័យធំក៏ជួយឱ្យក្រុមហ៊ុនអនុវត្តសកម្មភាពរបស់ពួកគេកាន់តែមានប្រសិទ្ធភាពផងដែរ។

សូម្បីតែនៅខាងក្រៅអាជីវកម្មក៏ដោយ គម្រោងដែលទាក់ទងនឹង Big Data កំពុងជួយផ្លាស់ប្តូរពិភពលោករបស់យើងតាមវិធីផ្សេងៗរួចហើយ៖

  • ការកែលម្អការថែទាំសុខភាព - ឱសថដែលជំរុញដោយទិន្នន័យមានសមត្ថភាពវិភាគព័ត៌មាន និងរូបភាពវេជ្ជសាស្រ្តយ៉ាងច្រើនទៅជាគំរូដែលអាចជួយរកឃើញជំងឺនៅដំណាក់កាលដំបូង និងបង្កើតថ្នាំថ្មី។
  • ការទស្សន៍ទាយ និងការឆ្លើយតបទៅនឹងគ្រោះមហន្តរាយធម្មជាតិ និងមនុស្សបង្កើត។ ទិន្នន័យឧបករណ៍ចាប់សញ្ញាអាចត្រូវបានវិភាគដើម្បីទស្សន៍ទាយកន្លែងដែលការរញ្ជួយដីទំនងជាកើតឡើង ហើយគំរូអាកប្បកិរិយារបស់មនុស្សផ្តល់នូវតម្រុយដែលជួយអង្គការផ្តល់ជំនួយដល់អ្នកនៅរស់រានមានជីវិត។ បច្ចេកវិទ្យា Big Data ក៏ត្រូវបានប្រើដើម្បីតាមដាន និងការពារលំហូរជនភៀសខ្លួនពីតំបន់សង្រ្គាមជុំវិញពិភពលោក។
  • ទប់ស្កាត់បទល្មើស។ កងកម្លាំងប៉ូលិសកំពុងប្រើប្រាស់យុទ្ធសាស្ត្រជំរុញទិន្នន័យកាន់តែខ្លាំងឡើង ដែលបញ្ចូលព័ត៌មានស៊ើបការណ៍សម្ងាត់របស់ពួកគេ និងព័ត៌មានដែលមានជាសាធារណៈ ដើម្បីប្រើប្រាស់ធនធានឱ្យកាន់តែមានប្រសិទ្ធភាព និងចាត់វិធានការទប់ស្កាត់ក្នុងករណីចាំបាច់។

សៀវភៅល្អបំផុតអំពីបច្ចេកវិទ្យា Big-Data

  • គ្រប់គ្នា​កុហក។ ម៉ាស៊ីនស្វែងរក ទិន្នន័យធំ និងអ៊ីនធឺណិតដឹងពីអ្វីៗគ្រប់យ៉ាងអំពីអ្នក។
  • ទិន្នន័យ​ធំ។ បច្ចេកវិទ្យាទាំងអស់នៅក្នុងសៀវភៅមួយ។
  • ឧស្សាហកម្មសុភមង្គល។ របៀបដែលទិន្នន័យធំ និងបច្ចេកវិទ្យាថ្មីជួយបន្ថែមអារម្មណ៍ដល់ផលិតផល និងសេវាកម្ម។
  • បដិវត្តក្នុងការវិភាគ។ វិធីកែលម្អអាជីវកម្មរបស់អ្នកក្នុងយុគសម័យនៃទិន្នន័យធំដោយប្រើការវិភាគប្រតិបត្តិការ។

បញ្ហាជាមួយទិន្នន័យធំ

ទិន្នន័យធំផ្តល់ឱ្យយើងនូវគំនិត និងឱកាសដែលមិនធ្លាប់មានពីមុនមក ប៉ុន្តែក៏លើកឡើងនូវបញ្ហា និងសំណួរដែលត្រូវដោះស្រាយផងដែរ៖

  • ឯកជនភាពទិន្នន័យ - ទិន្នន័យធំដែលយើងបង្កើតថ្ងៃនេះមានព័ត៌មានជាច្រើនអំពីជីវិតផ្ទាល់ខ្លួនរបស់យើង ភាពឯកជនដែលយើងមានសិទ្ធិទាំងអស់។ កាន់តែច្រើនឡើង យើងកំពុងត្រូវបានស្នើសុំឱ្យធ្វើសមតុល្យបរិមាណទិន្នន័យផ្ទាល់ខ្លួនដែលយើងបញ្ចេញជាមួយនឹងភាពងាយស្រួលដែលកម្មវិធី និងសេវាកម្មផ្អែកលើទិន្នន័យធំផ្តល់ជូន។
  • សុវត្ថិភាពទិន្នន័យ - ទោះបីជាយើងសម្រេចចិត្តថាយើងសប្បាយចិត្តជាមួយនឹងនរណាម្នាក់ដែលមានទិន្នន័យរបស់យើងសម្រាប់គោលបំណងជាក់លាក់មួយក៏ដោយ យើងអាចទុកចិត្តពួកគេឱ្យរក្សាទិន្នន័យរបស់យើងឱ្យមានសុវត្ថិភាពនិងសុវត្ថិភាពដែរឬទេ?
  • ការរើសអើងទិន្នន័យ - នៅពេលដែលព័ត៌មានទាំងអស់ត្រូវបានគេដឹង តើវាអាចទទួលយកបានទេក្នុងការរើសអើងមនុស្សដោយផ្អែកលើទិន្នន័យពីជីវិតផ្ទាល់ខ្លួនរបស់ពួកគេ? យើងប្រើប្រាស់ពិន្ទុឥណទានរួចហើយ ដើម្បីសម្រេចថាអ្នកណាអាចខ្ចីប្រាក់ ហើយការធានារ៉ាប់រងក៏ត្រូវបានជំរុញដោយទិន្នន័យយ៉ាងច្រើនផងដែរ។ យើងគួររំពឹងថានឹងត្រូវបានវិភាគ និងវាយតម្លៃឱ្យបានលម្អិតបន្ថែមទៀត ប៉ុន្តែត្រូវយកចិត្តទុកដាក់ដើម្បីធានាថាវាមិនធ្វើឱ្យជីវិតកាន់តែលំបាកសម្រាប់អ្នកដែលមានធនធានតិច និងលទ្ធភាពទទួលបានព័ត៌មានមានកម្រិត។

ការអនុវត្តភារកិច្ចទាំងនេះគឺជាធាតុផ្សំដ៏សំខាន់នៃទិន្នន័យធំ ហើយត្រូវតែដោះស្រាយដោយអង្គការដែលចង់ប្រើទិន្នន័យបែបនេះ។ ការបរាជ័យក្នុងការធ្វើបែបនេះអាចទុកឱ្យអាជីវកម្មងាយរងគ្រោះ មិនត្រឹមតែទាក់ទងនឹងកេរ្តិ៍ឈ្មោះប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងស្របច្បាប់ និងហិរញ្ញវត្ថុផងដែរ។

សម្លឹងមើលទៅអនាគត

ទិន្នន័យកំពុងផ្លាស់ប្តូរពិភពលោក និងជីវិតរបស់យើងក្នុងល្បឿនដែលមិនធ្លាប់មានពីមុនមក។ ប្រសិនបើ Big Data មានសមត្ថភាពទាំងអស់នៅថ្ងៃនេះ សូមស្រមៃមើលថាតើវានឹងមានសមត្ថភាពអ្វីខ្លះនៅថ្ងៃស្អែក។ ចំនួនទិន្នន័យដែលមានសម្រាប់ពួកយើងនឹងកើនឡើងតែប៉ុណ្ណោះ ហើយបច្ចេកវិទ្យាវិភាគនឹងកាន់តែជឿនលឿនជាងមុន។

សម្រាប់អាជីវកម្ម សមត្ថភាពក្នុងការអនុវត្ត Big Data នឹងកាន់តែមានសារៈសំខាន់ក្នុងប៉ុន្មានឆ្នាំខាងមុខនេះ។ មានតែក្រុមហ៊ុនទាំងនោះដែលចាត់ទុកទិន្នន័យជាទ្រព្យសកម្មយុទ្ធសាស្ត្រប៉ុណ្ណោះដែលនឹងរស់រានមានជីវិត និងរីកចម្រើន។ អ្នកដែលព្រងើយកន្តើយនឹងបដិវត្តន៍នេះ ប្រថុយនឹងការចាកចេញ។



ទិន្នន័យធំ (ឬទិន្នន័យធំ) គឺជាសំណុំនៃវិធីសាស្រ្តសម្រាប់ធ្វើការជាមួយបរិមាណដ៏ធំនៃព័ត៌មានដែលមានរចនាសម្ព័ន្ធ ឬមិនមានរចនាសម្ព័ន្ធ។ អ្នកឯកទេសទិន្នន័យធំដំណើរការ និងវិភាគវា ដើម្បីទទួលបានលទ្ធផលដែលអាចមើលឃើញដោយមនុស្ស។ Look At Me បានពិភាក្សាជាមួយអ្នកជំនាញ ហើយស្វែងយល់ថាតើស្ថានភាពបែបណាជាមួយនឹងការដំណើរការទិន្នន័យធំនៅក្នុងប្រទេសរុស្ស៊ី កន្លែងណា និងអ្វីដែលល្អបំផុតក្នុងការសិក្សាសម្រាប់អ្នកដែលចង់ធ្វើការក្នុងវិស័យនេះ។

Alexey Ryvkin អំពីនិន្នាការចម្បងនៅក្នុងវិស័យទិន្នន័យធំ ការទំនាក់ទំនងជាមួយអតិថិជន និងពិភពនៃលេខ

ខ្ញុំបានសិក្សានៅវិទ្យាស្ថានបច្ចេកវិទ្យាអេឡិចត្រូនិចម៉ូស្គូ។ រឿងចំបងដែលខ្ញុំបានយកចេញពីទីនោះ គឺចំណេះដឹងជាមូលដ្ឋានក្នុងរូបវិទ្យា និងគណិតវិទ្យា។ ក្នុងពេលដំណាលគ្នាជាមួយនឹងការសិក្សារបស់ខ្ញុំ ខ្ញុំបានធ្វើការនៅមជ្ឈមណ្ឌល R&D ដែលខ្ញុំបានចូលរួមនៅក្នុងការអភិវឌ្ឍន៍ និងការអនុវត្តក្បួនដោះស្រាយការសរសេរកូដដែលធន់នឹងសំឡេងសម្រាប់ការបញ្ជូនទិន្នន័យប្រកបដោយសុវត្ថិភាព។ បន្ទាប់​ពី​បញ្ចប់​ថ្នាក់​បរិញ្ញាបត្រ​មក ខ្ញុំ​បាន​ចូល​រៀន​ថ្នាក់​អនុបណ្ឌិត​ផ្នែក​ព័ត៌មាន​ធុរកិច្ច​នៅ​វិទ្យាល័យ​សេដ្ឋកិច្ច។ បន្ទាប់មកខ្ញុំចង់ធ្វើការនៅ IBS ។ ខ្ញុំមានសំណាងណាស់ដែលនៅពេលនោះ ដោយសារគម្រោងមួយចំនួនធំ មានការជ្រើសរើសអ្នកហាត់ការបន្ថែម ហើយបន្ទាប់ពីការសម្ភាសន៍ជាច្រើនដង ខ្ញុំបានចាប់ផ្តើមធ្វើការនៅ IBS ដែលជាក្រុមហ៊ុនធំបំផុតរបស់រុស្ស៊ីក្នុងវិស័យនេះ។ ក្នុងរយៈពេលបីឆ្នាំ ខ្ញុំបានចេញពីអ្នកហាត់ការទៅស្ថាបត្យករដំណោះស្រាយសហគ្រាស។ បច្ចុប្បន្នខ្ញុំកំពុងអភិវឌ្ឍជំនាញក្នុងបច្ចេកវិទ្យា Big Data សម្រាប់ក្រុមហ៊ុនអតិថិជនមកពីផ្នែកហិរញ្ញវត្ថុ និងទូរគមនាគមន៍។

មានឯកទេសសំខាន់ពីរសម្រាប់អ្នកដែលចង់ធ្វើការជាមួយទិន្នន័យធំ៖ អ្នកវិភាគ និងអ្នកប្រឹក្សាព័ត៌មានវិទ្យា ដែលបង្កើតបច្ចេកវិទ្យាដើម្បីធ្វើការជាមួយទិន្នន័យធំ។ លើសពីនេះ យើងក៏អាចនិយាយអំពីវិជ្ជាជីវៈរបស់អ្នកវិភាគទិន្នន័យធំ ពោលគឺមនុស្សដែលធ្វើការដោយផ្ទាល់ជាមួយទិន្នន័យ ជាមួយនឹងវេទិកា IT របស់អតិថិជន។ ពីមុន ទាំងនេះគឺជាអ្នកវិភាគគណិតវិទ្យាសាមញ្ញដែលស្គាល់ស្ថិតិ និងគណិតវិទ្យា ហើយបានប្រើកម្មវិធីស្ថិតិដើម្បីដោះស្រាយបញ្ហាការវិភាគទិន្នន័យ។ សព្វថ្ងៃនេះ បន្ថែមពីលើចំណេះដឹងអំពីស្ថិតិ និងគណិតវិទ្យា ការយល់ដឹងអំពីបច្ចេកវិទ្យា និងវដ្តជីវិតទិន្នន័យក៏ចាំបាច់ផងដែរ។ នេះតាមគំនិតរបស់ខ្ញុំ គឺជាភាពខុសគ្នារវាងអ្នកវិភាគទិន្នន័យទំនើប និងអ្នកវិភាគទាំងនោះដែលពីមុនមក។

ជំនាញរបស់ខ្ញុំគឺការប្រឹក្សាផ្នែកព័ត៌មានវិទ្យា ពោលគឺខ្ញុំបានមកជាមួយ និងផ្តល់ជូនអតិថិជននូវវិធីដោះស្រាយបញ្ហាអាជីវកម្មដោយប្រើបច្ចេកវិទ្យា IT ។ មនុស្សដែលមានបទពិសោធន៍ផ្សេងៗគ្នាមកប្រឹក្សា ប៉ុន្តែគុណសម្បត្តិសំខាន់បំផុតសម្រាប់វិជ្ជាជីវៈនេះគឺសមត្ថភាពក្នុងការយល់ពីតម្រូវការរបស់អតិថិជន បំណងប្រាថ្នាដើម្បីជួយមនុស្ស និងអង្គការ ការទំនាក់ទំនងល្អ និងជំនាញជាក្រុម (ចាប់តាំងពីវាតែងតែធ្វើការជាមួយអតិថិជន និង នៅក្នុងក្រុម) ជំនាញវិភាគល្អ។ ការលើកទឹកចិត្តផ្ទៃក្នុងមានសារៈសំខាន់ខ្លាំងណាស់៖ យើងធ្វើការក្នុងបរិយាកាសប្រកួតប្រជែង ហើយអតិថិជនរំពឹងថានឹងមានដំណោះស្រាយមិនធម្មតា និងការចាប់អារម្មណ៍លើការងារ។

ពេលវេលារបស់ខ្ញុំភាគច្រើនគឺត្រូវចំណាយក្នុងការទំនាក់ទំនងជាមួយអតិថិជន បង្កើតតម្រូវការអាជីវកម្មរបស់ពួកគេជាផ្លូវការ និងជួយពួកគេអភិវឌ្ឍស្ថាបត្យកម្មបច្ចេកវិទ្យាដែលសមស្របបំផុត។ លក្ខណៈវិនិច្ឆ័យជ្រើសរើសនៅទីនេះមានលក្ខណៈពិសេសផ្ទាល់ខ្លួនរបស់ពួកគេ៖ បន្ថែមពីលើមុខងារ និង TCO (តម្លៃកម្មសិទ្ធិសរុប) តម្រូវការមិនដំណើរការសម្រាប់ប្រព័ន្ធមានសារៈសំខាន់ខ្លាំងណាស់ ដែលភាគច្រើនទាំងនេះគឺជាពេលវេលាឆ្លើយតប និងពេលវេលាដំណើរការព័ត៌មាន។ ដើម្បីបញ្ចុះបញ្ចូលអតិថិជន ជាញឹកញាប់យើងប្រើភស្តុតាងនៃវិធីសាស្រ្តគំនិត - យើងផ្តល់ជូន "សាកល្បង" បច្ចេកវិទ្យាដោយមិនគិតថ្លៃលើកិច្ចការមួយចំនួន លើសំណុំទិន្នន័យតូចចង្អៀត ដើម្បីប្រាកដថាបច្ចេកវិទ្យាដំណើរការ។ ដំណោះស្រាយគួរតែបង្កើតអត្ថប្រយោជន៍ប្រកួតប្រជែងសម្រាប់អតិថិជនដោយការទទួលបានអត្ថប្រយោជន៍បន្ថែម (ឧទាហរណ៍ x-sell, cross-selling) ឬដោះស្រាយបញ្ហាអាជីវកម្មមួយចំនួន និយាយថា កាត់បន្ថយកម្រិតខ្ពស់នៃការក្លែងបន្លំប្រាក់កម្ចី។

វានឹងកាន់តែងាយស្រួល ប្រសិនបើអតិថិជនមកជាមួយនឹងកិច្ចការដែលត្រៀមរួចជាស្រេច។ប៉ុន្តែរហូតមកដល់ពេលនេះ ពួកគេមិនយល់ថា បច្ចេកវិទ្យាបដិវត្តន៍មួយបានលេចឡើងដែលអាចផ្លាស់ប្តូរទីផ្សារក្នុងរយៈពេលពីរបីឆ្នាំ

តើអ្នកប្រឈមមុខនឹងបញ្ហាអ្វីខ្លះ? ទីផ្សារមិនទាន់រួចរាល់ក្នុងការប្រើប្រាស់បច្ចេកវិទ្យាទិន្នន័យធំនៅឡើយ។ វានឹងកាន់តែងាយស្រួល ប្រសិនបើអតិថិជនមកជាមួយនឹងកិច្ចការដែលត្រៀមរួចជាស្រេច ប៉ុន្តែរហូតមកដល់ពេលនេះ ពួកគេមិនយល់ថា បច្ចេកវិទ្យាបដិវត្តន៍មួយបានលេចឡើងដែលអាចផ្លាស់ប្តូរទីផ្សារក្នុងរយៈពេលពីរបីឆ្នាំ។ នេះ​ជា​មូលហេតុ​ដែល​យើង​ធ្វើការ​យ៉ាង​សំខាន់​ក្នុង​របៀប​ចាប់ផ្ដើម​អាជីវកម្ម - យើង​មិន​គ្រាន់តែ​លក់​បច្ចេកវិទ្យា​ប៉ុណ្ណោះ​ទេ ប៉ុន្តែ​រាល់​ពេល​ដែល​យើង​បញ្ចុះបញ្ចូល​អតិថិជន​ថា​ពួកគេ​ត្រូវ​ការ​វិនិយោគ​ក្នុង​ដំណោះស្រាយ​ទាំងនេះ។ នេះគឺជាទីតាំងរបស់អ្នកមានចក្ខុវិស័យ - យើងបង្ហាញអតិថិជនពីរបៀបដែលពួកគេអាចផ្លាស់ប្តូរអាជីវកម្មរបស់ពួកគេដោយប្រើទិន្នន័យ និងព័ត៌មានវិទ្យា។ យើងកំពុងបង្កើតទីផ្សារថ្មីនេះ - ទីផ្សារសម្រាប់ការប្រឹក្សាពាណិជ្ជកម្មផ្នែកព័ត៌មានវិទ្យាក្នុងវិស័យទិន្នន័យធំ

ប្រសិនបើមនុស្សម្នាក់ចង់ចូលរួមក្នុងការវិភាគទិន្នន័យ ឬការប្រឹក្សាផ្នែក IT ក្នុងវិស័យ Big Data នោះរឿងដំបូងដែលសំខាន់គឺការអប់រំផ្នែកគណិតវិទ្យា ឬបច្ចេកទេសជាមួយនឹងការបណ្តុះបណ្តាលគណិតវិទ្យាល្អ។ វាក៏មានប្រយោជន៍ផងដែរក្នុងការធ្វើជាម្ចាស់នៃបច្ចេកវិទ្យាជាក់លាក់ឧទាហរណ៍ SAS, Hadoop, R languages ​​ឬដំណោះស្រាយ IBM ។ លើសពីនេះទៀត អ្នកត្រូវចាប់អារម្មណ៍យ៉ាងសកម្មចំពោះកម្មវិធីសម្រាប់ Big Data - ឧទាហរណ៍ របៀបដែលវាអាចត្រូវបានប្រើសម្រាប់ការកែលម្អពិន្ទុឥណទាននៅក្នុងធនាគារ ឬការគ្រប់គ្រងវដ្តជីវិតរបស់អតិថិជន។ នេះ និងចំណេះដឹងផ្សេងទៀតអាចទទួលបានពីប្រភពដែលមាន៖ ឧទាហរណ៍ Coursera និង Big Data University ។ វាក៏មានគំនិតផ្តួចផ្តើមវិភាគអតិថិជននៅសាកលវិទ្យាល័យ Wharton នៃរដ្ឋ Pennsylvania ដែលជាកន្លែងឯកសារគួរឱ្យចាប់អារម្មណ៍ជាច្រើនត្រូវបានបោះពុម្ពផ្សាយ។

បញ្ហាចម្បងសម្រាប់អ្នកដែលចង់ធ្វើការក្នុងវិស័យរបស់យើងគឺកង្វះព័ត៌មានច្បាស់លាស់អំពីទិន្នន័យធំ។ អ្នកមិនអាចចូលទៅកាន់ហាងលក់សៀវភៅ ឬគេហទំព័រមួយចំនួន ហើយទទួលបានឧទាហរណ៍ ការប្រមូលករណីដ៏ទូលំទូលាយនៅលើកម្មវិធីទាំងអស់នៃបច្ចេកវិទ្យា Big Data នៅក្នុងធនាគារ។ មិនមានថតឯកសារបែបនេះទេ។ ព័ត៌មានខ្លះមាននៅក្នុងសៀវភៅ ខ្លះត្រូវបានប្រមូលនៅសន្និសីទ ហើយខ្លះទៀតអ្នកត្រូវស្វែងយល់ដោយខ្លួនឯង។

បញ្ហាមួយទៀតគឺថាអ្នកវិភាគមានផាសុកភាពនៅក្នុងពិភពនៃលេខ ប៉ុន្តែពួកគេមិនតែងតែមានផាសុកភាពក្នុងអាជីវកម្មនោះទេ។ មនុស្សទាំងនេះច្រើនតែជាមនុស្សគិតទុកជាមុន និងពិបាកក្នុងការទំនាក់ទំនង ដែលធ្វើឱ្យវាពិបាកសម្រាប់ពួកគេក្នុងការប្រាស្រ័យទាក់ទងការរកឃើញនៃការស្រាវជ្រាវទៅកាន់អតិថិជន។ ដើម្បីអភិវឌ្ឍជំនាញទាំងនេះ ខ្ញុំនឹងណែនាំសៀវភៅដូចជា The Pyramid Principle, Speak the Language of Diagrams។ ពួកគេជួយអភិវឌ្ឍជំនាញធ្វើបទបង្ហាញ និងបង្ហាញពីគំនិតរបស់អ្នកដោយសង្ខេប និងច្បាស់លាស់។

ការចូលរួមក្នុងការប្រកួតជើងឯកផ្សេងៗពេលកំពុងសិក្សានៅសាកលវិទ្យាល័យស្រាវជ្រាវជាតិ វិទ្យាល័យសេដ្ឋកិច្ច បានជួយខ្ញុំយ៉ាងច្រើន។ Case championships គឺជាការប្រកួតប្រជែងបញ្ញាសម្រាប់និស្សិតដែលពួកគេត្រូវសិក្សាពីបញ្ហាអាជីវកម្ម និងស្នើដំណោះស្រាយដល់ពួកគេ។ មានពីរប្រភេទ៖ ជើងឯកករណីនៃក្រុមហ៊ុនប្រឹក្សាឧទាហរណ៍ McKinsey, BCG, Accenture ក៏ដូចជាជើងឯកករណីឯករាជ្យដូចជា Changellenge ។ ខណៈពេលដែលចូលរួមក្នុងពួកគេ ខ្ញុំបានរៀនមើល និងដោះស្រាយបញ្ហាស្មុគ្រស្មាញ - ពីការកំណត់បញ្ហា និងការរៀបចំរចនាសម្ព័ន្ធវា រហូតដល់ការការពារអនុសាសន៍សម្រាប់ដំណោះស្រាយរបស់វា។

Oleg Mikhalsky អំពីទីផ្សាររុស្ស៊ីនិងភាពជាក់លាក់នៃការបង្កើតផលិតផលថ្មីនៅក្នុងវិស័យទិន្នន័យធំ

មុនពេលចូលរួមជាមួយ Acronis ខ្ញុំបានចូលរួមរួចហើយក្នុងការចាប់ផ្តើមផលិតផលថ្មីទៅកាន់ទីផ្សារនៅក្រុមហ៊ុនផ្សេងទៀត។ វាតែងតែគួរឱ្យចាប់អារម្មណ៍ និងប្រឈមនៅពេលតែមួយ ដូច្នេះខ្ញុំចាប់អារម្មណ៍ភ្លាមៗអំពីឱកាសដើម្បីធ្វើការលើសេវាកម្មពពក និងដំណោះស្រាយការផ្ទុកទិន្នន័យ។ បទពិសោធន៍ពីមុនទាំងអស់របស់ខ្ញុំនៅក្នុងឧស្សាហកម្ម IT រួមទាំងគម្រោងចាប់ផ្តើមអាជីវកម្មផ្ទាល់ខ្លួនរបស់ខ្ញុំ I-accelerator បានមានប្រយោជន៍នៅក្នុងតំបន់នេះ។ ការមានការអប់រំអាជីវកម្ម (MBA) បន្ថែមពីលើសញ្ញាបត្រវិស្វកម្មមូលដ្ឋានក៏បានជួយផងដែរ។

នៅប្រទេសរុស្ស៊ីក្រុមហ៊ុនធំ ៗ - ធនាគារប្រតិបត្តិករទូរស័ព្ទចល័តជាដើម - មានតម្រូវការសម្រាប់ការវិភាគទិន្នន័យធំដូច្នេះនៅក្នុងប្រទេសរបស់យើងមានការរំពឹងទុកសម្រាប់អ្នកដែលចង់ធ្វើការនៅក្នុងតំបន់នេះ។ ពិតហើយ គម្រោងជាច្រើនឥឡូវនេះគឺជាគម្រោងសមាហរណកម្ម ពោលគឺធ្វើឡើងដោយឈរលើមូលដ្ឋាននៃការអភិវឌ្ឍន៍បរទេស ឬបច្ចេកវិទ្យាប្រភពបើកចំហ។ នៅក្នុងគម្រោងបែបនេះ វិធីសាស្រ្ត និងបច្ចេកវិទ្យាថ្មីជាមូលដ្ឋានមិនត្រូវបានបង្កើតទេ ប៉ុន្តែការអភិវឌ្ឍន៍ដែលមានស្រាប់គឺត្រូវបានសម្រួល។ នៅ Acronis យើងបានដើរលើផ្លូវផ្សេង ហើយបន្ទាប់ពីការវិភាគជម្រើសដែលមានរួចហើយ បានសម្រេចចិត្តវិនិយោគលើការអភិវឌ្ឍន៍ផ្ទាល់ខ្លួនរបស់យើង ដែលបណ្តាលឱ្យមានប្រព័ន្ធផ្ទុកទិន្នន័យដែលអាចទុកចិត្តបានសម្រាប់ទិន្នន័យធំដែលមិនទាបជាងតម្លៃឧទាហរណ៍ Amazon S3 ប៉ុន្តែដំណើរការដោយភាពជឿជាក់ និងប្រកបដោយប្រសិទ្ធភាព និងលើមាត្រដ្ឋានតូចជាង។ ក្រុមហ៊ុនអ៊ិនធឺណិតធំ ៗ ក៏មានការអភិវឌ្ឍន៍ផ្ទាល់ខ្លួនរបស់ពួកគេនៅក្នុងទិន្នន័យធំផងដែរ ប៉ុន្តែពួកគេផ្តោតលើតម្រូវការខាងក្នុងជាជាងបំពេញតម្រូវការរបស់អតិថិជនខាងក្រៅ។

វាមានសារៈសំខាន់ណាស់ក្នុងការយល់ដឹងអំពីនិន្នាការ និងកម្លាំងសេដ្ឋកិច្ចដែលមានឥទ្ធិពលលើវិស័យទិន្នន័យធំ។ ដើម្បីធ្វើដូច្នេះ អ្នកត្រូវអានឱ្យបានច្រើន ស្តាប់សុន្ទរកថារបស់អ្នកជំនាញដែលមានសិទ្ធិអំណាចក្នុងឧស្សាហកម្មព័ត៌មានវិទ្យា និងចូលរួមសន្និសីទប្រធានបទ។ ឥឡូវនេះស្ទើរតែគ្រប់សន្និសីទទាំងអស់មានផ្នែកមួយនៅលើទិន្នន័យធំ ប៉ុន្តែពួកគេទាំងអស់និយាយអំពីវាពីមុំផ្សេងគ្នា: ពីទស្សនៈនៃបច្ចេកវិទ្យា អាជីវកម្ម ឬទីផ្សារ។ អ្នកអាចទៅធ្វើការគម្រោង ឬកម្មសិក្សានៅក្រុមហ៊ុនដែលឈានមុខគេលើគម្រោងលើប្រធានបទនេះ។ ប្រសិនបើអ្នកមានទំនុកចិត្តលើសមត្ថភាពរបស់អ្នក នោះវាមិនយឺតពេលទេក្នុងការរៀបចំការចាប់ផ្តើមអាជីវកម្មក្នុងវិស័យទិន្នន័យធំ។

ដោយគ្មានទំនាក់ទំនងថេរជាមួយទីផ្សារហានិភ័យនៃការអភិវឌ្ឍន៍ថ្មីមិនត្រូវបានទាមទារ

ពិតហើយ នៅពេលដែលអ្នកទទួលខុសត្រូវចំពោះផលិតផលថ្មី ពេលវេលាជាច្រើនត្រូវបានចំណាយទៅលើការវិភាគទីផ្សារ និងការប្រាស្រ័យទាក់ទងជាមួយអតិថិជនសក្តានុពល ដៃគូ និងអ្នកវិភាគអាជីពដែលដឹងច្រើនអំពីអតិថិជន និងតម្រូវការរបស់ពួកគេ។ បើគ្មានការទំនាក់ទំនងជាប្រចាំជាមួយទីផ្សារទេ ហានិភ័យនៃការអភិវឌ្ឍន៍ថ្មីមិនត្រូវបានទាមទារ។ វាតែងតែមានភាពមិនប្រាកដប្រជាជាច្រើន៖ អ្នកត្រូវស្វែងយល់ថាតើអ្នកចិញ្ចឹមដំបូងនឹងក្លាយជានរណា អ្វីដែលអ្នកត្រូវផ្តល់ជូនពួកគេ និងរបៀបទាក់ទាញទស្សនិកជនយ៉ាងច្រើន។ កិច្ចការសំខាន់បំផុតទីពីរគឺបង្កើត និងបញ្ជូនដល់អ្នកអភិវឌ្ឍន៍នូវចក្ខុវិស័យច្បាស់លាស់ និងរួមនៃផលិតផលចុងក្រោយ ដើម្បីជំរុញពួកគេឱ្យធ្វើការក្នុងលក្ខខណ្ឌបែបនេះ នៅពេលដែលតម្រូវការមួយចំនួននៅតែអាចផ្លាស់ប្តូរ ហើយអាទិភាពអាស្រ័យលើមតិកែលម្អដែលចេញមកពីអតិថិជនដំបូង។ ដូច្នេះ កិច្ចការសំខាន់មួយគឺការគ្រប់គ្រងការរំពឹងទុករបស់អតិថិជននៅលើដៃម្ខាង និងអ្នកអភិវឌ្ឍន៍នៅម្ខាងទៀត។ ដូច្នេះ​មិន​ថា​អ្នក​ណា​ម្នាក់​ក៏​មិន​បាត់​បង់​ការ​ប្រាក់ ហើយ​នាំ​ឱ្យ​គម្រោង​នេះ​សម្រេច​បាន​ដែរ។ បន្ទាប់ពីគម្រោងជោគជ័យដំបូង វាកាន់តែងាយស្រួល ហើយបញ្ហាប្រឈមចម្បងគឺការស្វែងរកគំរូកំណើនត្រឹមត្រូវសម្រាប់អាជីវកម្មថ្មី។

ជួរឈរដោយគ្រូបង្រៀន HSE អំពីទេវកថានិងករណីនៃការធ្វើការជាមួយទិន្នន័យធំ

ទៅចំណាំ

គ្រូបង្រៀននៅសាលាប្រព័ន្ធផ្សព្វផ្សាយថ្មីនៅសាកលវិទ្យាល័យស្រាវជ្រាវជាតិ វិទ្យាល័យសេដ្ឋកិច្ច Konstantin Romanov និង Alexander Pyatigorsky ដែលជានាយកនៃការផ្លាស់ប្តូរឌីជីថលនៅ Beeline បានសរសេរជួរឈរសម្រាប់គេហទំព័រអំពីការយល់ខុសចម្បងអំពីទិន្នន័យធំ - ឧទាហរណ៍នៃការប្រើប្រាស់ បច្ចេកវិទ្យា និងឧបករណ៍។ អ្នក​និពន្ធ​ផ្ដល់​យោបល់​ថា​ការ​បោះពុម្ព​នេះ​នឹង​ជួយ​អ្នក​គ្រប់​គ្រង​ក្រុមហ៊ុន​យល់​ពី​គោល​គំនិត​នេះ។

ទេវកថា និងការយល់ខុសអំពីទិន្នន័យធំ

ទិន្នន័យធំមិនមែនជាទីផ្សារទេ។

ពាក្យថា Big Data បានក្លាយជាម៉ូដទាន់សម័យណាស់ - វាត្រូវបានគេប្រើនៅក្នុងស្ថានភាពរាប់លាន និងជាមួយនឹងការបកស្រាយខុសៗគ្នារាប់រយ ដែលជារឿយៗមិនទាក់ទងនឹងអ្វីដែលវាជានោះទេ។ គំនិតជាញឹកញាប់ត្រូវបានជំនួសនៅក្នុងក្បាលរបស់មនុស្ស ហើយទិន្នន័យធំត្រូវបានច្រលំជាមួយនឹងផលិតផលទីផ្សារ។ លើសពីនេះទៅទៀត នៅក្នុងក្រុមហ៊ុនមួយចំនួន Big Data គឺជាផ្នែកមួយនៃផ្នែកទីផ្សារ។ លទ្ធផលនៃការវិភាគទិន្នន័យធំអាចក្លាយជាប្រភពសម្រាប់សកម្មភាពទីផ្សារ ប៉ុន្តែគ្មានអ្វីទៀតទេ។ តោះមើលរបៀបដែលវាដំណើរការ។

ប្រសិនបើយើងកំណត់បញ្ជីរាយនាមអ្នកដែលបានទិញទំនិញដែលមានតម្លៃលើសពីបីពាន់រូប្លិ៍នៅក្នុងហាងរបស់យើងកាលពីពីរខែមុន ហើយបន្ទាប់មកបានផ្ញើឱ្យអ្នកប្រើប្រាស់ប្រភេទនៃការផ្តល់ជូនមួយចំនួន នោះនេះគឺជាទីផ្សារធម្មតា។ យើងទាញយកគំរូច្បាស់លាស់ពីទិន្នន័យរចនាសម្ព័ន្ធ ហើយប្រើវាដើម្បីបង្កើនការលក់។

ទោះជាយ៉ាងណាក៏ដោយ ប្រសិនបើយើងរួមបញ្ចូលគ្នានូវទិន្នន័យ CRM ជាមួយនឹងការផ្សាយព័ត៌មានពីឧទាហរណ៍ Instagram ហើយវិភាគវា យើងរកឃើញគំរូមួយ៖ មនុស្សម្នាក់ដែលបានកាត់បន្ថយសកម្មភាពរបស់គាត់នៅល្ងាចថ្ងៃពុធ ហើយរូបថតចុងក្រោយបង្អស់ដែលបង្ហាញពីកូនឆ្មាគួរតែធ្វើការផ្តល់ជូនជាក់លាក់មួយ។ វានឹងក្លាយជាទិន្នន័យធំរួចទៅហើយ។ យើងបានរកឃើញគន្លឹះមួយ បញ្ជូនវាទៅឱ្យអ្នកទីផ្សារ ហើយពួកគេបានប្រើវាសម្រាប់គោលបំណងផ្ទាល់ខ្លួនរបស់ពួកគេ។

វាកើតឡើងពីនេះ ដែលបច្ចេកវិទ្យាជាធម្មតាដំណើរការជាមួយទិន្នន័យដែលមិនមានរចនាសម្ព័ន្ធ ហើយទោះបីជាទិន្នន័យត្រូវបានរៀបចំក៏ដោយ ប្រព័ន្ធនៅតែបន្តស្វែងរកគំរូដែលលាក់នៅក្នុងវា ដែលទីផ្សារមិនធ្វើ។

ទិន្នន័យធំមិនមែនជា IT ទេ។

ភាពខ្លាំងទីពីរនៃរឿងនេះ៖ ទិន្នន័យធំច្រើនតែច្រឡំជាមួយអាយធី។ នេះគឺដោយសារតែការពិតដែលថានៅក្នុងក្រុមហ៊ុនរុស្ស៊ីជាក្បួនអ្នកឯកទេសផ្នែកព័ត៌មានវិទ្យាគឺជាអ្នកបើកបរនៃបច្ចេកវិទ្យាទាំងអស់រួមទាំងទិន្នន័យធំ។ ដូច្នេះហើយ ប្រសិនបើអ្វីៗកើតឡើងនៅក្នុងនាយកដ្ឋាននេះ ក្រុមហ៊ុនទាំងមូលទទួលបានចំណាប់អារម្មណ៍ថា នេះគឺជាសកម្មភាព IT មួយចំនួន។

តាមពិត មានភាពខុសប្លែកគ្នាជាមូលដ្ឋាននៅទីនេះ៖ ទិន្នន័យធំគឺជាសកម្មភាពដែលមានគោលបំណងដើម្បីទទួលបានផលិតផលជាក់លាក់មួយ ដែលមិនទាក់ទងនឹងព័ត៌មានវិទ្យាទាំងអស់ ទោះបីជាបច្ចេកវិទ្យាមិនអាចមានដោយគ្មានវាក៏ដោយ។

ទិន្នន័យធំមិនតែងតែជាការប្រមូល និងវិភាគព័ត៌មាននោះទេ។

មាន​ការ​យល់​ខុស​មួយ​ទៀត​អំពី​ទិន្នន័យ​ធំ។ មនុស្សគ្រប់គ្នាយល់ថាបច្ចេកវិទ្យានេះពាក់ព័ន្ធនឹងទិន្នន័យដ៏ធំ ប៉ុន្តែទិន្នន័យប្រភេទណាដែលមានន័យគឺមិនតែងតែច្បាស់លាស់នោះទេ។ នរណាម្នាក់អាចប្រមូល និងប្រើប្រាស់ព័ត៌មានបាន ឥឡូវនេះវាអាចធ្វើទៅបានមិនត្រឹមតែនៅក្នុងខ្សែភាពយន្តប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងនៅក្នុងក្រុមហ៊ុនតូចធំមួយទៀតផង។ សំណួរតែមួយគត់គឺអ្វីដែលត្រូវប្រមូល និងរបៀបប្រើប្រាស់វាឱ្យមានប្រយោជន៍។

ប៉ុន្តែវាគួរតែត្រូវបានយល់ថា បច្ចេកវិទ្យា Big Data នឹងមិនមែនជាការប្រមូល និងវិភាគព័ត៌មានណាមួយជាដាច់ខាត។ ឧទាហរណ៍ ប្រសិនបើអ្នកប្រមូលទិន្នន័យអំពីមនុស្សជាក់លាក់នៅលើបណ្តាញសង្គម វានឹងមិនមែនជាទិន្នន័យធំទេ។

តើ Big Data ជាអ្វី?

ទិន្នន័យធំមានធាតុបី៖

  • ទិន្នន័យ;
  • ការវិភាគ;
  • បច្ចេកវិទ្យា។

ទិន្នន័យធំមិនមែនគ្រាន់តែជាធាតុផ្សំមួយក្នុងចំនោមសមាសធាតុទាំងនេះទេ ប៉ុន្តែជាការបញ្ចូលគ្នានៃធាតុទាំងបី។ មនុស្សច្រើនតែជំនួសគំនិត៖ អ្នកខ្លះជឿថា Big Data គ្រាន់តែជាទិន្នន័យ អ្នកខ្លះទៀតជឿថាវាជាបច្ចេកវិទ្យា។ ប៉ុន្តែតាមពិតទៅ មិនថាអ្នកប្រមូលទិន្នន័យបានប៉ុន្មានទេ អ្នកនឹងមិនអាចធ្វើអ្វីជាមួយវាដោយគ្មានបច្ចេកវិទ្យា និងការវិភាគត្រឹមត្រូវនោះទេ។ បើ​មាន​ការ​វិភាគ​ល្អ ប៉ុន្តែ​គ្មាន​ទិន្នន័យ វា​កាន់​តែ​អាក្រក់។

ប្រសិនបើយើងនិយាយអំពីទិន្នន័យ នេះមិនត្រឹមតែជាអត្ថបទប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងរូបថតទាំងអស់ដែលបានបង្ហោះនៅលើ Instagram ហើយជាទូទៅអ្វីគ្រប់យ៉ាងដែលអាចវិភាគ និងប្រើប្រាស់សម្រាប់គោលបំណង និងភារកិច្ចផ្សេងៗ។ ម្យ៉ាងវិញទៀត ទិន្នន័យសំដៅលើបរិមាណដ៏ធំនៃទិន្នន័យខាងក្នុង និងខាងក្រៅនៃរចនាសម្ព័ន្ធផ្សេងៗ។

ការវិភាគក៏ត្រូវការផងដែរ ពីព្រោះភារកិច្ចរបស់ Big Data គឺបង្កើតគំរូមួយចំនួន។ នោះគឺ ការវិភាគគឺជាការកំណត់អត្តសញ្ញាណនៃភាពអាស្រ័យលាក់កំបាំង និងការស្វែងរកសំណួរ និងចម្លើយថ្មីដោយផ្អែកលើការវិភាគនៃបរិមាណទាំងមូលនៃទិន្នន័យខុសប្រក្រតី។ លើសពីនេះ Big Data ចោទជាសំណួរដែលមិនអាចទទួលបានដោយផ្ទាល់ពីទិន្នន័យនេះទេ។

បើនិយាយពីរូបភាព ការដែលអ្នកបង្ហោះរូបថតខ្លួនឯងពាក់អាវយឺតពណ៌ខៀវ គឺមិនមានន័យអ្វីនោះទេ។ ប៉ុន្តែប្រសិនបើអ្នកប្រើការថតរូបសម្រាប់ការធ្វើគំរូទិន្នន័យធំ វាអាចបង្ហាញថាឥឡូវនេះអ្នកគួរតែផ្តល់ប្រាក់កម្ចី ពីព្រោះនៅក្នុងក្រុមសង្គមរបស់អ្នក អាកប្បកិរិយាបែបនេះបង្ហាញពីបាតុភូតជាក់លាក់មួយនៅក្នុងសកម្មភាព។ ដូច្នេះ ទិន្នន័យ "ទទេ" ដោយគ្មានការវិភាគ ដោយមិនកំណត់អត្តសញ្ញាណភាពអាស្រ័យដែលលាក់កំបាំង និងមិនច្បាស់លាស់ មិនមែនជាទិន្នន័យធំនោះទេ។

ដូច្នេះយើងមានទិន្នន័យធំ។ អារេរបស់ពួកគេមានទំហំធំ។ យើងក៏មានអ្នកវិភាគផងដែរ។ ប៉ុន្តែ​តើ​យើង​អាច​ធ្វើ​ដូចម្តេច​ដើម្បី​ឱ្យ​ប្រាកដ​ថា​ពី​ទិន្នន័យ​ឆៅ​នេះ​យើង​មក​ឡើង​ជាមួយ​នឹង​ដំណោះ​ស្រាយ​ជាក់លាក់​មួយ? ដើម្បីធ្វើដូចនេះយើងត្រូវការបច្ចេកវិទ្យាដែលអនុញ្ញាតឱ្យយើងមិនត្រឹមតែរក្សាទុកពួកវា (ហើយវាមិនអាចទៅរួចពីមុនទេ) ប៉ុន្តែក៏ដើម្បីវិភាគពួកវាផងដែរ។

និយាយឱ្យសាមញ្ញ ប្រសិនបើអ្នកមានទិន្នន័យច្រើន អ្នកនឹងត្រូវការបច្ចេកវិទ្យា ឧទាហរណ៍ Hadoop ដែលធ្វើឱ្យវាអាចរក្សាទុកព័ត៌មានទាំងអស់នៅក្នុងទម្រង់ដើមរបស់វាសម្រាប់ការវិភាគនៅពេលក្រោយ។ បច្ចេកវិទ្យាប្រភេទនេះបានកើតឡើងនៅក្នុងក្រុមហ៊ុនអ៊ីនធឺណេតយក្ស ដោយសារពួកគេជាអ្នកដំបូងដែលប្រឈមមុខនឹងបញ្ហានៃការរក្សាទុកទិន្នន័យយ៉ាងច្រើន ហើយវិភាគវាសម្រាប់ការរកប្រាក់ជាបន្តបន្ទាប់។

បន្ថែមពីលើឧបករណ៍សម្រាប់ការបង្កើនប្រសិទ្ធភាពនិងការផ្ទុកទិន្នន័យថោក អ្នកត្រូវការឧបករណ៍វិភាគ ក៏ដូចជាកម្មវិធីបន្ថែមទៅវេទិកាដែលបានប្រើ។ ឧទាហរណ៍ ប្រព័ន្ធអេកូឡូស៊ីទាំងមូលនៃគម្រោង និងបច្ចេកវិទ្យាដែលពាក់ព័ន្ធបានបង្កើតឡើងនៅជុំវិញ Hadoop ។ នេះគឺជាពួកគេមួយចំនួន៖

  • ជ្រូកគឺជាភាសាវិភាគទិន្នន័យប្រកាស។
  • Hive - ការវិភាគទិន្នន័យដោយប្រើភាសាស្រដៀងនឹង SQL ។
  • Oozie - លំហូរការងារ Hadoop ។
  • Hbase គឺជាមូលដ្ឋានទិន្នន័យ (មិនទាក់ទង) ស្រដៀងទៅនឹង Google Big Table ។
  • Mahout - ការរៀនម៉ាស៊ីន។
  • Sqoop - ផ្ទេរទិន្នន័យពី RSDB ទៅ Hadoop និងច្រាសមកវិញ។
  • Flume - ផ្ទេរកំណត់ហេតុទៅ HDFS ។
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS ជាដើម។

ឧបករណ៍ទាំងអស់នេះមានសម្រាប់អ្នកគ្រប់គ្នាដោយឥតគិតថ្លៃ ប៉ុន្តែក៏មានកម្មវិធីបន្ថែមដែលបានបង់ប្រាក់មួយចំនួនផងដែរ។

លើសពីនេះទៀត អ្នកឯកទេសគឺត្រូវការជាចាំបាច់៖ អ្នកអភិវឌ្ឍន៍ និងអ្នកវិភាគ (អ្នកវិទ្យាសាស្ត្រទិន្នន័យ)។ អ្នកគ្រប់គ្រងក៏ត្រូវការផងដែរ ដែលអាចយល់ពីរបៀបអនុវត្តការវិភាគនេះ ដើម្បីដោះស្រាយបញ្ហាជាក់លាក់មួយ ពីព្រោះដោយខ្លួនវាផ្ទាល់ វាគ្មានន័យទាំងស្រុងទេ ប្រសិនបើវាមិនត្រូវបានដាក់បញ្ចូលទៅក្នុងដំណើរការអាជីវកម្ម។

បុគ្គលិកទាំងបីត្រូវតែធ្វើការជាក្រុម។ អ្នកគ្រប់គ្រងដែលផ្តល់ឱ្យអ្នកឯកទេសវិទ្យាសាស្ត្រទិន្នន័យនូវភារកិច្ចក្នុងការស្វែងរកគំរូជាក់លាក់មួយត្រូវតែយល់ថាគាត់នឹងមិនតែងតែស្វែងរកអ្វីដែលគាត់ត្រូវការនោះទេ។ ក្នុងករណីនេះ អ្នកគ្រប់គ្រងគួរតែស្តាប់ដោយប្រុងប្រយ័ត្ននូវអ្វីដែលអ្នក Data Scientist បានរកឃើញ ព្រោះជារឿយៗការរកឃើញរបស់គាត់ប្រែទៅជាគួរឱ្យចាប់អារម្មណ៍ និងមានប្រយោជន៍សម្រាប់អាជីវកម្ម។ ការងាររបស់អ្នកគឺអនុវត្តវាទៅអាជីវកម្ម និងបង្កើតផលិតផលចេញពីវា។

ទោះបីជាការពិតដែលថាឥឡូវនេះមានម៉ាស៊ីននិងបច្ចេកវិជ្ជាជាច្រើនប្រភេទខុសៗគ្នាក៏ដោយក៏ការសម្រេចចិត្តចុងក្រោយតែងតែនៅជាមួយមនុស្ស។ ដើម្បីធ្វើដូច្នេះ ព័ត៌មានចាំបាច់ត្រូវមើលឃើញដោយវិធីណាមួយ។ មានឧបករណ៍ជាច្រើនសម្រាប់រឿងនេះ។

ឧទាហរណ៍ដែលប្រាប់បំផុតគឺរបាយការណ៍ភូមិសាស្ត្រវិភាគ។ ក្រុមហ៊ុន Beeline ធ្វើការច្រើនជាមួយរដ្ឋាភិបាលនៃទីក្រុង និងតំបន់ផ្សេងៗគ្នា។ ជាញឹកញាប់ អង្គការទាំងនេះបញ្ជាររបាយការណ៍ដូចជា "ការកកស្ទះចរាចរណ៍នៅក្នុងទីតាំងជាក់លាក់មួយ"។

វាច្បាស់ណាស់ថារបាយការណ៍បែបនេះគួរតែទៅដល់ភ្នាក់ងាររដ្ឋាភិបាលក្នុងទម្រង់សាមញ្ញ និងអាចយល់បាន។ ប្រសិនបើយើងផ្តល់ឱ្យពួកគេនូវតារាងដ៏ធំនិងមិនអាចយល់បានទាំងស្រុង (នោះគឺជាព័ត៌មាននៅក្នុងទម្រង់ដែលយើងទទួលបាន) ពួកគេទំនងជាមិនទិញរបាយការណ៍បែបនេះទេ - វានឹងគ្មានប្រយោជន៍ទាំងស្រុងទេពួកគេនឹងមិនទទួលបានចំណេះដឹងពីវាទេ។ ពួកគេចង់ទទួល។

ដូច្នេះ មិនថាអ្នកវិទ្យាសាស្ត្រទិន្នន័យល្អប៉ុណ្ណា ហើយមិនថាពួកគេរកឃើញគំរូបែបណាក៏ដោយ អ្នកនឹងមិនអាចធ្វើការជាមួយទិន្នន័យនេះដោយគ្មានឧបករណ៍មើលឃើញល្អនោះទេ។

ប្រភពទិន្នន័យ

អារេនៃទិន្នន័យដែលទទួលបានគឺមានទំហំធំណាស់ដូច្នេះវាអាចបែងចែកជាក្រុមជាច្រើន។

ទិន្នន័យផ្ទៃក្នុងរបស់ក្រុមហ៊ុន

ទោះបីជា 80% នៃទិន្នន័យដែលប្រមូលបានជាកម្មសិទ្ធិរបស់ក្រុមនេះក៏ដោយ ប្រភពនេះមិនតែងតែត្រូវបានប្រើប្រាស់ទេ។ ជាញឹកញាប់នេះគឺជាទិន្នន័យដែលហាក់ដូចជាគ្មាននរណាម្នាក់ត្រូវការទាល់តែសោះ ឧទាហរណ៍ កំណត់ហេតុ។ ប៉ុន្តែប្រសិនបើអ្នកក្រឡេកមើលពួកគេពីមុំផ្សេងគ្នា ពេលខ្លះអ្នកអាចរកឃើញគំរូដែលមិននឹកស្មានដល់នៅក្នុងពួកគេ។

ប្រភព Shareware

នេះរួមបញ្ចូលទាំងទិន្នន័យពីបណ្តាញសង្គម អ៊ីនធឺណិត និងអ្វីគ្រប់យ៉ាងដែលអាចចូលប្រើបានដោយឥតគិតថ្លៃ។ ហេតុអ្វីបានជា Shareware ឥតគិតថ្លៃ? ម៉្យាងវិញទៀត ទិន្នន័យនេះគឺមានសម្រាប់មនុស្សគ្រប់គ្នា ប៉ុន្តែប្រសិនបើអ្នកជាក្រុមហ៊ុនធំ នោះការទទួលបានវាក្នុងទំហំនៃអតិថិជនរាប់ម៉ឺននាក់ រាប់រយនាក់ ឬរាប់លាននាក់ មិនមែនជាកិច្ចការងាយស្រួលទៀតទេ។ ដូច្នេះ មានសេវាកម្មបង់ប្រាក់នៅលើទីផ្សារ ដើម្បីផ្តល់ទិន្នន័យនេះ។

ប្រភពបង់ប្រាក់

នេះរួមបញ្ចូលទាំងក្រុមហ៊ុនដែលលក់ទិន្នន័យដើម្បីប្រាក់។ ទាំងនេះអាចជាទូរគមនាគមន៍ ក្រុមហ៊ុន DMP ក្រុមហ៊ុនអ៊ីនធឺណិត ការិយាល័យឥណទាន និងអ្នកប្រមូលផ្ដុំ។ នៅប្រទេសរុស្ស៊ីទូរគមនាគមន៍មិនលក់ទិន្នន័យទេ។ ទីមួយ វាមិនចំណេញខាងសេដ្ឋកិច្ច ហើយទីពីរវាត្រូវបានហាមឃាត់ដោយច្បាប់។ ដូច្នេះ ពួកគេលក់លទ្ធផលនៃការដំណើរការរបស់ពួកគេ ឧទាហរណ៍ របាយការណ៍ភូមិសាស្ត្រ។

បើកទិន្នន័យ

រដ្ឋកំពុងសម្រុះសម្រួលអាជីវកម្ម និងផ្តល់ឱកាសឱ្យពួកគេប្រើប្រាស់ទិន្នន័យដែលពួកគេប្រមូលបាន។ នេះត្រូវបានអភិវឌ្ឍក្នុងកម្រិតធំជាងនៅលោកខាងលិច ប៉ុន្តែរុស្ស៊ីក្នុងរឿងនេះក៏រក្សាបានតាមសម័យកាលដែរ។ ជាឧទាហរណ៍ មានវិបផតថលទិន្នន័យបើកចំហររបស់រដ្ឋាភិបាលក្រុងម៉ូស្គូ ដែលព័ត៌មានអំពីហេដ្ឋារចនាសម្ព័ន្ធទីក្រុងផ្សេងៗត្រូវបានបោះពុម្ពផ្សាយ។

សម្រាប់អ្នករស់នៅ និងភ្ញៀវនៃទីក្រុងមូស្គូ ទិន្នន័យត្រូវបានបង្ហាញជាទម្រង់តារាង និងគំនូសតាង ហើយសម្រាប់អ្នកអភិវឌ្ឍន៍ - ជាទម្រង់ម៉ាស៊ីនពិសេសដែលអាចអានបាន។ ខណៈពេលដែលគម្រោងកំពុងដំណើរការក្នុងទម្រង់មានកំណត់ វាកំពុងអភិវឌ្ឍ ដែលមានន័យថាវាក៏ជាប្រភពនៃទិន្នន័យដែលអ្នកអាចប្រើសម្រាប់កិច្ចការអាជីវកម្មរបស់អ្នក។

ស្រាវជ្រាវ

ដូចដែលបានកត់សម្គាល់រួចមកហើយ ភារកិច្ចរបស់ Big Data គឺស្វែងរកគំរូមួយ។ ជាញឹកញាប់ ការស្រាវជ្រាវដែលធ្វើឡើងនៅជុំវិញពិភពលោកអាចក្លាយជា fulcrum សម្រាប់ការស្វែងរកគំរូជាក់លាក់មួយ - អ្នកអាចទទួលបានលទ្ធផលជាក់លាក់មួយ ហើយព្យាយាមអនុវត្តតក្កវិជ្ជាស្រដៀងគ្នាសម្រាប់គោលបំណងផ្ទាល់ខ្លួនរបស់អ្នក។

ទិន្នន័យធំគឺជាផ្នែកដែលមិនមែនគ្រប់ច្បាប់នៃគណិតវិទ្យាអនុវត្តនោះទេ។ ឧទាហរណ៍ "1" + "1" មិនមែនជា "2" ទេ ប៉ុន្តែមានច្រើនទៀត ពីព្រោះដោយការលាយប្រភពទិន្នន័យ ឥទ្ធិពលអាចត្រូវបានពង្រឹងយ៉ាងខ្លាំង។

ឧទាហរណ៍ផលិតផល

មនុស្សជាច្រើនស្គាល់សេវាកម្មជ្រើសរើសតន្ត្រី Spotify ។ វាអស្ចារ្យណាស់ ព្រោះវាមិនបានសួរអ្នកប្រើប្រាស់ថា តើអារម្មណ៍របស់ពួកគេថ្ងៃនេះយ៉ាងណានោះទេ ប៉ុន្តែត្រូវគណនាវាដោយផ្អែកលើប្រភពដែលមានសម្រាប់វា។ គាត់តែងតែដឹងពីអ្វីដែលអ្នកត្រូវការឥឡូវនេះ - ចង្វាក់ jazz ឬ hard rock ។ នេះគឺជាភាពខុសគ្នាដ៏សំខាន់ដែលផ្តល់ឱ្យវាជាមួយអ្នកគាំទ្រ និងសម្គាល់វាពីសេវាកម្មផ្សេងទៀត។

ផលិតផលបែបនេះត្រូវបានគេហៅថាជាធម្មតាផលិតផលដែលមានអារម្មណ៍ - ផលិតផលដែលមានអារម្មណ៍ថាអតិថិជនរបស់ពួកគេ។

បច្ចេកវិទ្យា Big Data ក៏ត្រូវបានប្រើប្រាស់នៅក្នុងឧស្សាហកម្មរថយន្តផងដែរ។ ឧទាហរណ៍ Tesla ធ្វើបែបនេះ - ម៉ូដែលចុងក្រោយបំផុតរបស់ពួកគេមាន autopilot ។ ក្រុមហ៊ុនខិតខំបង្កើតរថយន្តដែលខ្លួននឹងដឹកអ្នកដំណើរទៅកន្លែងដែលគាត់ត្រូវទៅ។ បើគ្មាន Big Data នេះមិនអាចទៅរួចនោះទេ ព្រោះបើយើងប្រើតែទិន្នន័យដែលយើងទទួលដោយផ្ទាល់ដូចមនុស្សម្នាក់នោះ ឡាននឹងមិនអាចកែលម្អបានទេ។

នៅពេលដែលយើងបើកឡានដោយខ្លួនឯង យើងប្រើណឺរ៉ូនរបស់យើងដើម្បីធ្វើការសម្រេចចិត្តដោយផ្អែកលើកត្តាជាច្រើនដែលយើងមិនបានកត់សម្គាល់។ ជាឧទាហរណ៍ យើងប្រហែលជាមិនដឹងពីមូលហេតុដែលយើងសម្រេចចិត្តមិនបង្កើនល្បឿនភ្លាមៗនៅពេលភ្លើងពណ៌បៃតង ប៉ុន្តែបន្ទាប់មកវាប្រែថាការសម្រេចចិត្តគឺត្រឹមត្រូវ ឡានបានបើកឆ្លងកាត់អ្នកក្នុងល្បឿនលឿនហើយអ្នកបានជៀសវាងគ្រោះថ្នាក់។

អ្នកក៏អាចផ្តល់ឧទាហរណ៍នៃការប្រើប្រាស់ទិន្នន័យធំនៅក្នុងកីឡាផងដែរ។ ក្នុងឆ្នាំ 2002 អ្នកគ្រប់គ្រងទូទៅនៃក្រុមកីឡាបេស្បល Oakland Athletics លោក Billy Beane បានសម្រេចចិត្តបំបែកគំរូនៃរបៀបជ្រើសរើសអត្តពលិក - គាត់បានជ្រើសរើស និងបណ្តុះបណ្តាលអ្នកលេង "តាមលេខ" ។

ជាធម្មតាអ្នកគ្រប់គ្រងមើលទៅលើភាពជោគជ័យរបស់កីឡាករ ប៉ុន្តែក្នុងករណីនេះអ្វីគ្រប់យ៉ាងគឺខុសគ្នា - ដើម្បីទទួលបានលទ្ធផល អ្នកគ្រប់គ្រងបានសិក្សាពីការរួមបញ្ចូលគ្នានៃអត្តពលិកដែលគាត់ត្រូវការ ដោយយកចិត្តទុកដាក់លើលក្ខណៈបុគ្គល។ លើសពីនេះទៅទៀតគាត់បានជ្រើសរើសអត្តពលិកដែលនៅក្នុងខ្លួនពួកគេមិនមានសក្តានុពលច្រើនប៉ុន្តែក្រុមទាំងមូលបានប្រែទៅជាទទួលបានជោគជ័យយ៉ាងខ្លាំងដែលពួកគេបានឈ្នះ 20 ប្រកួតជាប់ៗគ្នា។

អ្នកដឹកនាំរឿង Bennett Miller បានបង្កើតខ្សែភាពយន្តជាបន្តបន្ទាប់សម្រាប់រឿងនេះ - "The Man Who Changes All" សម្តែងដោយ Brad Pitt ។

បច្ចេកវិទ្យា Big Data ក៏មានប្រយោជន៍ក្នុងវិស័យហិរញ្ញវត្ថុផងដែរ។ មិនមានមនុស្សតែម្នាក់នៅក្នុងពិភពលោកអាចកំណត់ដោយឯករាជ្យ និងត្រឹមត្រូវថាតើវាសមនឹងផ្តល់ប្រាក់កម្ចីដល់នរណាម្នាក់នោះទេ។ ដើម្បីធ្វើការសម្រេចចិត្ត ការដាក់ពិន្ទុត្រូវបានអនុវត្ត ពោលគឺគំរូប្រូបាប៊ីលីតេត្រូវបានបង្កើតឡើង ដែលមនុស្សម្នាក់អាចយល់បានថាតើបុគ្គលនេះនឹងសងប្រាក់វិញឬអត់។ លើសពីនេះទៀត ការដាក់ពិន្ទុត្រូវបានអនុវត្តនៅគ្រប់ដំណាក់កាល៖ ជាឧទាហរណ៍ អ្នកអាចគណនាថានៅពេលណាមួយមនុស្សម្នាក់នឹងឈប់បង់ប្រាក់។

ទិន្នន័យធំអនុញ្ញាតឱ្យអ្នកមិនត្រឹមតែរកលុយប៉ុណ្ណោះទេប៉ុន្តែថែមទាំងរក្សាទុកវាទៀតផង។ ជាពិសេស បច្ចេកវិទ្យានេះបានជួយឱ្យក្រសួងការងាររបស់អាល្លឺម៉ង់កាត់បន្ថយថ្លៃដើមនៃអត្ថប្រយោជន៍អត់ការងារធ្វើចំនួន 10 ពាន់លានអឺរ៉ូ ចាប់តាំងពីបន្ទាប់ពីការវិភាគព័ត៌មានវាច្បាស់ថា 20% នៃអត្ថប្រយោជន៍ត្រូវបានបង់ដោយមិនសមនឹងទទួលបាន។

បច្ចេកវិជ្ជាក៏ត្រូវបានប្រើប្រាស់ក្នុងវេជ្ជសាស្ត្រផងដែរ (ជាពិសេសគឺធម្មតាសម្រាប់អ៊ីស្រាអែល)។ ដោយមានជំនួយពីទិន្នន័យធំ អ្នកអាចធ្វើការវិភាគបានត្រឹមត្រូវជាងវេជ្ជបណ្ឌិតដែលមានបទពិសោធន៍សាមសិបឆ្នាំអាចធ្វើបាន។

វេជ្ជបណ្ឌិតណាក៏ដោយ ពេលធ្វើរោគវិនិច្ឆ័យ គឺពឹងផ្អែកតែលើបទពិសោធន៍ផ្ទាល់ខ្លួនប៉ុណ្ណោះ។ នៅពេលដែលម៉ាស៊ីនធ្វើបែបនេះ វាកើតចេញពីបទពិសោធន៍របស់វេជ្ជបណ្ឌិតរាប់ពាន់នាក់ និងប្រវត្តិករណីដែលមានស្រាប់ទាំងអស់។ វា​ត្រូវ​គិតគូរ​អំពី​សម្ភារៈ​ដែល​ផ្ទះ​របស់​អ្នក​ជំងឺ​ត្រូវ​បាន​ផលិត​ពី​អ្វី​ដែល​ជា​តំបន់​ដែល​ជនរងគ្រោះ​រស់នៅ ​តើ​មាន​ផ្សែង​ប្រភេទ​ណា​។​ល។ នោះគឺវាត្រូវគិតគូរពីកត្តាជាច្រើនដែលគ្រូពេទ្យមិនយកមកពិចារណា។

ឧទាហរណ៍នៃការប្រើប្រាស់ទិន្នន័យធំក្នុងការថែទាំសុខភាពគឺគម្រោង Project Artemis ដែលត្រូវបានអនុវត្តដោយមន្ទីរពេទ្យកុមារ Toronto ។ នេះគឺជាប្រព័ន្ធព័ត៌មានដែលប្រមូល និងវិភាគទិន្នន័យអំពីទារកក្នុងពេលវេលាជាក់ស្តែង។ ម៉ាស៊ីនអនុញ្ញាតឱ្យអ្នកវិភាគសូចនាករសុខភាព 1260 នៃកុមារម្នាក់ៗរៀងរាល់វិនាទី។ គម្រោងនេះមានគោលបំណងទស្សន៍ទាយស្ថានភាពមិនស្ថិតស្ថេររបស់កុមារ និងការពារជំងឺក្នុងកុមារ។

ទិន្នន័យធំក៏កំពុងចាប់ផ្តើមប្រើប្រាស់នៅក្នុងប្រទេសរុស្ស៊ីផងដែរ៖ ឧទាហរណ៍ Yandex មានការបែងចែកទិន្នន័យធំ។ ក្រុមហ៊ុននេះរួមជាមួយនឹង AstraZeneca និងសមាគមរុស្សីនៃគ្លីនិកជំងឺមហារីក RUSSCO បានចាប់ផ្តើមវេទិកា RAY ដែលមានបំណងសម្រាប់អ្នកជំនាញខាងហ្សែន និងជីវវិទូម៉ូលេគុល។ គម្រោងនេះអនុញ្ញាតឱ្យយើងធ្វើឱ្យប្រសើរឡើងនូវវិធីសាស្រ្តសម្រាប់ការធ្វើរោគវិនិច្ឆ័យជំងឺមហារីក និងកំណត់អត្តសញ្ញាណ predisposition នៃជំងឺមហារីក។ វេទិកានេះនឹងចាប់ផ្តើមនៅខែធ្នូ ឆ្នាំ 2016។

តើ​មាន​រឿង​អ្វី​កើតឡើង ទិន្នន័យ​ធំ(ព្យញ្ជនៈ - ទិន្នន័យ​ធំ)? សូមក្រឡេកមើលវចនានុក្រម Oxford ជាមុនសិន៖

ទិន្នន័យ- បរិមាណ សញ្ញា ឬនិមិត្តសញ្ញាដែលកុំព្យូទ័រដំណើរការ ហើយដែលអាចរក្សាទុក និងបញ្ជូនក្នុងទម្រង់ជាសញ្ញាអគ្គិសនី កត់ត្រានៅលើមេឌៀ អុបទិក ឬមេកានិក។

រយៈពេល ទិន្នន័យ​ធំប្រើដើម្បីពណ៌នាអំពីសំណុំទិន្នន័យធំដែលរីកធំធាត់តាមពេលវេលា។ ដើម្បីដំណើរការបរិមាណទិន្នន័យបែបនេះ អ្នកមិនអាចធ្វើដោយគ្មានបានទេ។

អត្ថប្រយោជន៍ដែល Big Data ផ្តល់ជូន៖

  1. ការប្រមូលទិន្នន័យពីប្រភពផ្សេងៗ។
  2. ការកែលម្អដំណើរការអាជីវកម្មតាមរយៈការវិភាគពេលវេលាជាក់ស្តែង។
  3. ការរក្សាទុកទិន្នន័យយ៉ាងច្រើន។
  4. ការយល់ដឹង។ ទិន្នន័យធំមានការយល់ដឹងកាន់តែច្បាស់អំពីព័ត៌មានលាក់កំបាំងតាមរយៈទិន្នន័យដែលមានរចនាសម្ព័ន្ធ និងពាក់កណ្តាលរចនាសម្ព័ន្ធ។
  5. ទិន្នន័យធំជួយអ្នកកាត់បន្ថយហានិភ័យ និងធ្វើការសម្រេចចិត្តដ៏ឆ្លាតវៃជាមួយនឹងការវិភាគហានិភ័យត្រឹមត្រូវ។

ឧទាហរណ៍ទិន្នន័យធំ

ផ្សារហ៊ុនញូវយ៉កបង្កើតប្រចាំថ្ងៃ 1 តេរ៉ាបៃទិន្នន័យជួញដូរសម្រាប់វគ្គកន្លងមក។

ប្រព័ន្ធ​ផ្សព្វផ្សាយ​សង្គម៖ ស្ថិតិបង្ហាញថា Facebook បង្ហោះជារៀងរាល់ថ្ងៃ 500 តេរ៉ាបៃទិន្នន័យ​ថ្មី​ត្រូវ​បាន​បង្កើត​ឡើង​ជា​ចម្បង​ដោយ​សារ​តែ​ការ​ផ្ទុក​ឡើង​រូបថត​និង​វីដេអូ​ទៅ​ម៉ាស៊ីន​បម្រើ​ប​ណ្តា​ញ​សង្គម​, ការ​ផ្ញើ​សារ​, មតិ​យោបល់​នៅ​ក្រោម​ការ​បង្ហោះ​និង​ដូច្នេះ​នៅ​លើ​។

ម៉ាស៊ីន​យន្តហោះបង្កើត 10 តេរ៉ាបៃទិន្នន័យរៀងរាល់ 30 នាទីក្នុងអំឡុងពេលហោះហើរ។ ចាប់តាំងពីការហោះហើររាប់ពាន់ជើងត្រូវបានធ្វើឡើងជារៀងរាល់ថ្ងៃ បរិមាណនៃទិន្នន័យឈានដល់ petabytes ។

ចំណាត់ថ្នាក់ទិន្នន័យធំ

ទម្រង់ទិន្នន័យធំ៖

  • រចនាសម្ព័ន្ធ
  • គ្មានរចនាសម្ព័ន្ធ
  • ពាក់កណ្តាលរចនាសម្ព័ន្ធ

ទម្រង់រចនាសម្ព័ន្ធ

ទិន្នន័យដែលអាចត្រូវបានរក្សាទុក ចូលប្រើ និងដំណើរការក្នុងទម្រង់ដែលមានទម្រង់ថេរត្រូវបានគេហៅថារចនាសម្ព័ន្ធ។ យូរៗទៅ វិទ្យាសាស្ត្រកុំព្យូទ័របានបោះជំហានយ៉ាងខ្លាំងក្នុងការកែលម្អបច្ចេកទេសសម្រាប់ធ្វើការជាមួយទិន្នន័យប្រភេទនេះ (ដែលទម្រង់ត្រូវបានគេស្គាល់ជាមុន) និងបានរៀនពីរបៀបដើម្បីទទួលបានអត្ថប្រយោជន៍ពីវា។ ទោះយ៉ាងណាក៏ដោយ សព្វថ្ងៃនេះមានបញ្ហារួចហើយដែលទាក់ទងនឹងការរីកលូតលាស់នៃបរិមាណទៅទំហំដែលបានវាស់នៅក្នុងជួរនៃ zettabytes ជាច្រើន។

1 zettabyte ស្មើនឹងមួយពាន់លាន terabytes

ក្រឡេកមើលលេខទាំងនេះ វាងាយស្រួលមើលឃើញពីភាពត្រឹមត្រូវនៃពាក្យថា Big Data និងការលំបាកទាក់ទងនឹងដំណើរការ និងរក្សាទុកទិន្នន័យបែបនេះ។

ទិន្នន័យ​ដែល​រក្សាទុក​ក្នុង​មូលដ្ឋាន​ទិន្នន័យ​ទំនាក់ទំនង​ត្រូវ​បាន​រៀបចំ​ឡើង​ហើយ​មើលទៅ​ដូច​ជា​ឧទាហរណ៍​តារាង​បុគ្គលិក​ក្រុមហ៊ុន

ទម្រង់គ្មានរចនាសម្ព័ន្ធ

ទិន្នន័យនៃរចនាសម្ព័ន្ធមិនស្គាល់ត្រូវបានចាត់ថ្នាក់ថាមិនមានរចនាសម្ព័ន្ធ។ បន្ថែមពីលើទំហំធំរបស់វា រូបរាងនេះត្រូវបានកំណត់លក្ខណៈដោយការលំបាកមួយចំនួនក្នុងដំណើរការ និងទាញយកព័ត៌មានដែលមានប្រយោជន៍។ ឧទាហរណ៍ធម្មតានៃទិន្នន័យដែលមិនមានរចនាសម្ព័ន្ធគឺជាប្រភពផ្សេងៗគ្នាដែលមានការរួមបញ្ចូលគ្នានៃឯកសារអត្ថបទ រូបភាព និងវីដេអូសាមញ្ញ។ សព្វថ្ងៃនេះ អង្គការមានលទ្ធភាពប្រើប្រាស់ទិន្នន័យឆៅ ឬមិនមានរចនាសម្ព័ន្ធច្រើន ប៉ុន្តែមិនដឹងពីរបៀបទាញយកតម្លៃពីវានោះទេ។

ទម្រង់ពាក់កណ្តាលរចនាសម្ព័ន្ធ

ប្រភេទនេះមានទាំងពីរប្រភេទដែលបានពិពណ៌នាខាងលើ ដូច្នេះទិន្នន័យពាក់កណ្តាលរចនាសម្ព័ន្ធមានទម្រង់មួយចំនួន ប៉ុន្តែមិនត្រូវបានកំណត់យ៉ាងពិតប្រាកដដោយតារាងក្នុងមូលដ្ឋានទិន្នន័យទំនាក់ទំនងទេ។ ឧទាហរណ៍នៃប្រភេទនេះគឺជាទិន្នន័យផ្ទាល់ខ្លួនដែលបង្ហាញនៅក្នុងឯកសារ XML ។

Prashant Raoប្រុស35 សែម៉ា រ.ស្រី41 Satish Maneប្រុស29 Subrato Royប្រុស26 យេរេមា ជេ.ប្រុស35

លក្ខណៈនៃទិន្នន័យធំ

កំណើនទិន្នន័យធំតាមពេលវេលា៖

ពណ៌ខៀវតំណាងឱ្យទិន្នន័យរចនាសម្ព័ន្ធ (ទិន្នន័យសហគ្រាស) ដែលត្រូវបានរក្សាទុកក្នុងមូលដ្ឋានទិន្នន័យទំនាក់ទំនង។ ពណ៌ផ្សេងទៀតបង្ហាញពីទិន្នន័យដែលមិនមានរចនាសម្ព័ន្ធពីប្រភពផ្សេងៗ (IP telephony, devices and sensors, social networks and web applications)។

យោងទៅតាម Gartner ទិន្នន័យធំប្រែប្រួលក្នុងបរិមាណ អត្រានៃការបង្កើត ភាពខុសគ្នា និងភាពប្រែប្រួល។ ចូរយើងពិនិត្យមើលឱ្យកាន់តែច្បាស់អំពីលក្ខណៈទាំងនេះ។

  1. កម្រិតសំឡេង. ពាក្យថា Big Data ខ្លួនវាទាក់ទងនឹងទំហំធំ។ ទំហំទិន្នន័យគឺជាម៉ែត្រដ៏សំខាន់ក្នុងការកំណត់តម្លៃសក្តានុពលដែលត្រូវស្រង់ចេញ។ ជារៀងរាល់ថ្ងៃ មនុស្ស 6 លាននាក់ប្រើប្រាស់ប្រព័ន្ធផ្សព្វផ្សាយឌីជីថល ដោយបង្កើតទិន្នន័យប៉ាន់ស្មានចំនួន 2.5 quintillion bytes ។ ដូច្នេះបរិមាណគឺជាលក្ខណៈដំបូងដែលត្រូវពិចារណា។
  2. ភាពចម្រុះ- ទិដ្ឋភាពបន្ទាប់។ វាសំដៅទៅលើប្រភពផ្សេងៗគ្នា និងធម្មជាតិនៃទិន្នន័យ ដែលអាចមានរចនាសម្ព័ន្ធ ឬមិនមានរចនាសម្ព័ន្ធ។ ពីមុន សៀវភៅបញ្ជី និងមូលដ្ឋានទិន្នន័យគឺជាប្រភពព័ត៌មានតែមួយគត់ដែលត្រូវបានពិចារណានៅក្នុងកម្មវិធីភាគច្រើន។ សព្វថ្ងៃនេះ ទិន្នន័យក្នុងទម្រង់ជាអ៊ីមែល រូបថត វីដេអូ ឯកសារ PDF និងសំឡេងក៏ត្រូវបានពិចារណាក្នុងកម្មវិធីវិភាគផងដែរ។ ភាពខុសគ្នានៃទិន្នន័យដែលមិនមានរចនាសម្ព័ន្ធនេះនាំឱ្យមានបញ្ហាក្នុងការផ្ទុក ការជីកយករ៉ែ និងការវិភាគ៖ 27% នៃក្រុមហ៊ុនមិនមានទំនុកចិត្តថាពួកគេកំពុងធ្វើការជាមួយទិន្នន័យត្រឹមត្រូវ។
  3. ល្បឿននៃជំនាន់. តើទិន្នន័យត្រូវបានប្រមូលផ្តុំ និងដំណើរការលឿនប៉ុណ្ណា ដើម្បីបំពេញតាមតម្រូវការកំណត់សក្តានុពល។ ល្បឿនកំណត់ល្បឿននៃលំហូរព័ត៌មានពីប្រភព - ដំណើរការអាជីវកម្ម កំណត់ហេតុកម្មវិធី បណ្តាញទំនាក់ទំនងសង្គម និងប្រព័ន្ធផ្សព្វផ្សាយ ឧបករណ៍ចាប់សញ្ញា ឧបករណ៍ចល័ត។ លំហូរ​នៃ​ទិន្នន័យ​មាន​ទំហំ​ធំ និង​បន្ត​តាម​ពេលវេលា។
  4. ភាពប្រែប្រួលពិពណ៌នាអំពីភាពប្រែប្រួលនៃទិន្នន័យនៅចំណុចមួយចំនួនក្នុងពេលវេលា ដែលធ្វើអោយស្មុគស្មាញដល់ដំណើរការ និងការគ្រប់គ្រង។ ឧទាហរណ៍ ទិន្នន័យភាគច្រើនមិនមានរចនាសម្ព័ន្ធនៅក្នុងធម្មជាតិ។

ការវិភាគទិន្នន័យធំ៖ តើអ្វីទៅជាអត្ថប្រយោជន៍នៃទិន្នន័យធំ

ការផ្សព្វផ្សាយទំនិញ និងសេវាកម្ម៖ ការចូលប្រើទិន្នន័យពីម៉ាស៊ីនស្វែងរក និងគេហទំព័រដូចជា Facebook និង Twitter អនុញ្ញាតឱ្យអាជីវកម្មបង្កើតយុទ្ធសាស្រ្តទីផ្សារកាន់តែត្រឹមត្រូវ។

ការកែលម្អសេវាកម្មសម្រាប់អតិថិជន៖ ប្រព័ន្ធមតិកែលម្អអតិថិជនបែបប្រពៃណីកំពុងត្រូវបានជំនួសដោយប្រព័ន្ធថ្មីដែលប្រើទិន្នន័យធំ និងដំណើរការភាសាធម្មជាតិ ដើម្បីអាន និងវាយតម្លៃមតិកែលម្អរបស់អតិថិជន។

ការគណនាហានិភ័យពាក់ព័ន្ធនឹងការចេញផ្សាយផលិតផល ឬសេវាកម្មថ្មី។

ប្រសិទ្ធភាពប្រតិបត្តិការ៖ ទិន្នន័យធំត្រូវបានរៀបចំឡើងដើម្បីទាញយកព័ត៌មានចាំបាច់យ៉ាងឆាប់រហ័ស និងបង្កើតលទ្ធផលត្រឹមត្រូវយ៉ាងឆាប់រហ័ស។ ការរួមបញ្ចូលគ្នានៃទិន្នន័យធំ និងបច្ចេកវិទ្យាផ្ទុកទិន្នន័យនេះជួយឱ្យស្ថាប័នបង្កើនប្រសិទ្ធភាពការងាររបស់ពួកគេជាមួយនឹងព័ត៌មានកម្រប្រើ។