ഇന്റലിജന്റ് ടെക്നോളജി ടെക്സ്റ്റ് മൈനിംഗ്. ടെക്‌സ്‌റ്റ് ഡാറ്റ വിശകലനം ചെയ്യുന്നതിനുള്ള സാങ്കേതികത: നോളജ് മൈനിംഗ്

ദിമിത്രി ലാൻഡെയുടെ ലേഖനം2003 ഒക്ടോബറിൽ CHIP മാസികയിൽ പ്രസിദ്ധീകരിച്ച, ടെക്സ്റ്റ് മൈനിംഗിനെക്കുറിച്ച് ഞാൻ ആദ്യം വായിച്ച ലേഖനങ്ങളിൽ ഒന്നാണ് "നോളജ് മൈനിംഗ്".

ഉപയോക്താക്കൾ കൈകാര്യം ചെയ്യുന്ന വിവരങ്ങളുടെ 90% എങ്കിലും അസംസ്‌കൃതമായ ഘടനയില്ലാത്ത ഡാറ്റയാണ്. അത്തരം ഡാറ്റയിൽ മൂല്യവത്തായ എന്തെങ്കിലും കണ്ടെത്തുന്നത് പ്രത്യേക സാങ്കേതികവിദ്യകളിലൂടെ മാത്രമേ സാധ്യമാകൂ.

ആധുനിക സമൂഹത്തിലെ ജീവിതത്തിന്റെ എല്ലാ മേഖലകളിലും ഇലക്ട്രോണിക് വിവരങ്ങൾക്ക് കൂടുതൽ പ്രാധാന്യമുണ്ട്. ലോകമെമ്പാടുമുള്ള വിവരശേഖരണങ്ങളിൽ ടെറാബൈറ്റ് ടെക്സ്റ്റ് ഡാറ്റ ശേഖരിക്കപ്പെടുന്നു. ഇന്റർനെറ്റ് വിവര ഉറവിടങ്ങളുടെ വികസനം വിവരങ്ങളുടെ അമിതഭാരത്തിന്റെ പ്രശ്നം ആവർത്തിച്ച് വഷളാക്കുന്നു.

2001-ൽ ഇൻറർനെറ്റിലെ മൊത്തം പേജുകളുടെ എണ്ണം 4 ബില്യൺ കവിഞ്ഞതായി ഗവേഷണ സേവനമായ സൈവെലൻസ് റിപ്പോർട്ട് ചെയ്തു. ഒരു വെബ് പേജിന്റെ ശരാശരി വലുപ്പം 10 KB ആണ്, ശരാശരി പേജിൽ 23 അടങ്ങിയിരിക്കുന്നു ആന്തരിക ലിങ്കുകൾ, 5.6 - ബാഹ്യവും 14-15 ചിത്രങ്ങളും. കോർപ്പറേറ്റ് ഫയലിംഗ് സിസ്റ്റങ്ങളിലെയും ഡാറ്റാബേസുകളിലെയും ഘടനയില്ലാത്ത ഡോക്യുമെന്റുകളുടെ നിരകൾ ഇതിലേക്ക് ചേർത്താൽ, ഓട്ടോമേറ്റഡ് വിശകലനത്തിനും അവതരിപ്പിച്ച വിവരങ്ങളുടെ വർഗ്ഗീകരണത്തിനുമുള്ള സാങ്കേതികവിദ്യകളിൽ പല ഓർഗനൈസേഷനുകളും താൽപ്പര്യപ്പെടുന്നത് എന്തുകൊണ്ടാണെന്ന് കാണാൻ എളുപ്പമാണ്. സ്വാഭാവിക ഭാഷ. വാസ്തവത്തിൽ, നിലവിലെ കണക്കുകൾ പ്രകാരം, ഘടനാരഹിതമായ ഡാറ്റ - പ്രധാനമായും ടെക്സ്റ്റ് - സ്ഥാപനങ്ങളും ഓർഗനൈസേഷനുകളും കൈകാര്യം ചെയ്യുന്ന വിവരങ്ങളുടെ 90% എങ്കിലും ഉൾക്കൊള്ളുന്നു. റിലേഷണൽ ഡിബിഎംഎസുകളിലേക്ക് ലോഡ് ചെയ്ത ഘടനാപരമായ ഡാറ്റയിൽ നിന്ന് 10% മാത്രമേ വരുന്നുള്ളൂ.

"ആളുകൾ ഡോക്യുമെന്റ് റിപ്പോസിറ്ററികൾ ആക്‌സസ് ചെയ്‌ത് അവർക്കറിയാവുന്ന കാര്യങ്ങൾ തിരയും. എന്നിരുന്നാലും, അവർക്ക് ഒരു രേഖകളുടെ ശേഖരത്തിലേക്ക് ആക്‌സസ് ഉണ്ടെങ്കിൽപ്പോലും അവർക്ക് അറിയാത്തത് അന്വേഷിക്കാനോ അല്ലെങ്കിൽ അന്വേഷിക്കാനോ കഴിയില്ല," സെമിയോയുടെ വൈസ് പ്രസിഡന്റ് ജിം നിസ്ബെറ്റ് പറഞ്ഞു. ഡാറ്റ മൈനിംഗ് സിസ്റ്റങ്ങളുടെ മുൻനിര നിർമ്മാതാക്കളിൽ ഒരാളാണ് ഇത്. "ഒരു തരം ഫലപ്രദമായ വാചക വിശകലനം - ടെക്സ്റ്റ് മൈനിംഗ്- കമ്പ്യൂട്ടിംഗ് പവർ ഉപയോഗിച്ച് ഉപയോക്താവിന് പുതിയ അറിവ് നേടുന്നതിന് കാരണമാകുന്ന ബന്ധങ്ങൾ തിരിച്ചറിയണം."

ഫലപ്രദമായ ടെക്സ്റ്റ് വിശകലനത്തിനുള്ള സാങ്കേതികവിദ്യ ടെക്സ്റ്റ് മൈനിംഗ്മുഴുവൻ കോഴ്‌സും പഠിച്ച്, ഏറ്റവും പ്രധാനപ്പെട്ടതും പ്രധാനപ്പെട്ടതുമായ വിവരങ്ങൾ മാത്രം പഠിപ്പിക്കുന്ന ഒരു അദ്ധ്യാപകനായി പ്രവർത്തിക്കാൻ അദ്ദേഹത്തിന് കഴിയും. അതിനാൽ, ഉപയോക്താവിന് നോൺ-ഇൻ്റെ വലിയൊരു തുക "അരിച്ചുനോക്കേണ്ട" ആവശ്യമില്ല. ഘടനാപരമായ വിവരങ്ങൾ. സ്ഥിതിവിവരക്കണക്ക്, ഭാഷാപരമായ വിശകലനം, ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ്, സാങ്കേതികവിദ്യകൾ എന്നിവയുടെ അടിസ്ഥാനത്തിൽ വികസിപ്പിച്ചെടുത്തത് ടെക്സ്റ്റ് മൈനിംഗ്സെമാന്റിക് വിശകലനം നടത്താനും നാവിഗേഷൻ നൽകാനും ഘടനാരഹിതമായ ഗ്രന്ഥങ്ങളിൽ തിരയാനും അവ കൃത്യമായി രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്നു. അവയുടെ അടിസ്ഥാനത്തിൽ നിർമ്മിച്ച സിസ്റ്റങ്ങൾ ഉപയോഗിക്കുന്നതിലൂടെ, ഉപയോക്താക്കൾക്ക് പുതിയത് നേടാനാകും വിലപ്പെട്ട വിവരങ്ങൾ- അറിവ്.

ഗോതമ്പും പതിരും വേർപെടുത്തുന്നു...

ഇന്റലിജൻസ് കമ്മ്യൂണിറ്റി വിശകലനത്തിനായുള്ള തന്ത്രപരമായ നിക്ഷേപ പദ്ധതി CIA അടുത്തിടെ പ്രസിദ്ധീകരിച്ചു. പദ്ധതിയിൽ, രഹസ്യാന്വേഷണ ഉദ്യോഗസ്ഥർ ഓപ്പൺ സോഴ്‌സുകളുടെ കഴിവുകൾ പൂർണ്ണമായി ചൂഷണം ചെയ്തിട്ടില്ലെന്ന് സമ്മതിക്കുന്നു, ഇപ്പോൾ അവരോടൊപ്പം പ്രവർത്തിക്കണം " മുൻ‌ഗണനനിക്ഷേപത്തിനായി." ഇപ്പോൾ CIA ന്യായമായും വിശ്വസിക്കുന്നത് ഓപ്പൺ സോഴ്സുകളിൽ നിന്ന് വിവരങ്ങൾ എടുക്കുന്നത് ഇന്റലിജൻസ് ഡാറ്റ ഉപയോഗിക്കുന്നതിനേക്കാൾ സുരക്ഷിതവും വിലകുറഞ്ഞതുമാണെന്ന്. ടെക്സ്റ്റ് മൈനിംഗ് സാങ്കേതികവിദ്യ - ടെക്സ്റ്റ് മൈനിംഗ്- തന്ത്രപരമായ തീരുമാനങ്ങൾ എടുക്കാൻ സഹായിക്കുന്ന ട്രെൻഡുകൾ, പാറ്റേണുകൾ, ബന്ധങ്ങൾ എന്നിവയ്ക്കായി വലിയ അളവിലുള്ള വിവരങ്ങൾ വിശകലനം ചെയ്യാൻ നിങ്ങളെ അനുവദിക്കുന്ന ടൂൾകിറ്റ് ഇതാണ്. കൂടാതെ, ടെക്സ്റ്റ് മൈനിംഗ്- ഈ പുതിയ തരംപരമ്പരാഗത സമീപനങ്ങളിൽ നിന്ന് വ്യത്യസ്തമായി, ഔപചാരികമായി രേഖകളുടെ ലിസ്റ്റുകൾ കണ്ടെത്തുക മാത്രമല്ല, തിരയൽ ചോദ്യങ്ങൾക്ക് പ്രസക്തമാണ്, എന്നാൽ ചോദ്യത്തിന് ഉത്തരം നൽകാൻ സഹായിക്കുന്നു: "അർത്ഥം മനസ്സിലാക്കാൻ എന്നെ സഹായിക്കൂ, ഈ പ്രശ്നം കൈകാര്യം ചെയ്യുക." സെമിയോയുടെ സഹസ്ഥാപകനും ചീഫ് ടെക്‌നോളജി ഓഫീസറുമായ ക്ലോഡ് വോഗൽ വിശദീകരിക്കുന്നു: “ഒരു ലൈബ്രറി സാമ്യം ഉപയോഗിച്ച്, സാങ്കേതികവിദ്യ ടെക്സ്റ്റ് മൈനിംഗ്ആവശ്യമായ വിവരങ്ങൾ രേഖപ്പെടുത്തി വായനക്കാരന് ഒരു പുസ്തകം തുറക്കുന്നത് പോലെയാണ്. വായനക്കാരന് ആവശ്യമായ വിവരങ്ങൾ എവിടെയെങ്കിലും ഉൾക്കൊള്ളുന്ന, എന്നാൽ അത് എളുപ്പത്തിൽ കണ്ടെത്താൻ കഴിയാത്ത രേഖകളുടെയും പുസ്തകങ്ങളുടെയും ഒരു കൂട്ടം വായനക്കാരനെ അവതരിപ്പിക്കുന്നതിനോട് ഇതിനെ താരതമ്യം ചെയ്യുക." അർത്ഥവത്തായ തിരയൽ പ്രക്രിയ വളരെ നിസ്സാരമല്ല; പലപ്പോഴും പ്രമാണങ്ങളുടെ ശേഖരത്തിൽ ഉണ്ട് ആവശ്യമായ വിവരങ്ങളുടെ ഒരു സൂചന മാത്രം.ആവശ്യമുള്ളത് കണ്ടെത്താൻ ശക്തമായ ബുദ്ധി അവസരങ്ങൾ ആവശ്യമാണ്.സാങ്കേതികവിദ്യയുടെ പേരിൽ, "ഖനനം" എന്ന വാക്ക് ആഴത്തിൽ "അടക്കം ചെയ്യപ്പെട്ട" വിവരങ്ങൾ കണ്ടെത്തുന്നതിനുള്ള ഒരു രൂപകമായി പ്രവർത്തിക്കുന്നു.

ആഴത്തിലുള്ള വാചക വിശകലനത്തിന്റെ സാങ്കേതികവിദ്യ ചരിത്രപരമായി ഡാറ്റാ മൈനിംഗ് (ഡാറ്റ മൈനിംഗ്) സാങ്കേതികവിദ്യയ്ക്ക് മുമ്പായിരുന്നു എന്നത് ശ്രദ്ധിക്കേണ്ടതാണ്, ഇതിന്റെ രീതിശാസ്ത്രവും സമീപനങ്ങളും രീതികളിൽ വ്യാപകമായി ഉപയോഗിക്കുന്നു. ടെക്സ്റ്റ് മൈനിംഗ്. ടെക്‌സ്‌റ്റ് മൈനിംഗിന്, ലോകത്തിലെ പ്രമുഖ വിദഗ്ധരിൽ ഒരാളായ ജിടിഇ ലാബിൽ നിന്നുള്ള ഗ്രിഗറി പയറ്റെറ്റ്‌സ്‌കി-ഷാപ്പിറോ നൽകിയ നിർവചനം തികച്ചും ന്യായമാണ്: “മുമ്പ് അറിയപ്പെടാത്തതും നിസ്സാരമല്ലാത്തതും പ്രായോഗികമായി ഉപയോഗപ്രദവും വ്യാഖ്യാനിക്കാവുന്നതുമായ അറിവ് അസംസ്‌കൃത ഡാറ്റയിൽ കണ്ടെത്തുന്ന പ്രക്രിയ. മനുഷ്യ പ്രവർത്തനത്തിന്റെ വിവിധ മേഖലകളിൽ തീരുമാനമെടുക്കുന്നതിന് അത്യാവശ്യമാണ്. മിക്ക വൈജ്ഞാനിക സാങ്കേതികവിദ്യകളും പോലെ - ടെക്സ്റ്റ് മൈനിംഗ്നിലവിലുള്ള ടെക്സ്റ്റ് ഡാറ്റയിൽ മുമ്പ് അറിയപ്പെടാത്ത കണക്ഷനുകളുടെയും പരസ്പര ബന്ധങ്ങളുടെയും അൽഗോരിതം തിരിച്ചറിയൽ ആണ്.

ഇരുപതാം നൂറ്റാണ്ടിന്റെ 90-കളുടെ മധ്യത്തിൽ ഘടനാരഹിതമായ ഗ്രന്ഥങ്ങളെ വിശകലനം ചെയ്യുന്നതിനുള്ള ഒരു ദിശയായി, സാങ്കേതികവിദ്യ ടെക്സ്റ്റ് മൈനിംഗ്ക്ലാസിഫിക്കേഷൻ അല്ലെങ്കിൽ ക്ലസ്റ്ററിംഗ് പോലുള്ള ക്ലാസിക്കൽ ഡാറ്റ മൈനിംഗ് രീതികൾ ഉടനടി സ്വീകരിച്ചു. IN ടെക്സ്റ്റ് മൈനിംഗ്പാഠങ്ങളുടെ സ്വയമേവ സംഗ്രഹം, ആശയങ്ങൾ, പ്രതിഭാസങ്ങൾ, വസ്‌തുതകൾ എന്നിവയുടെ തിരഞ്ഞെടുപ്പ് പോലുള്ള അധിക സവിശേഷതകളും പ്രത്യക്ഷപ്പെട്ടു. ആധുനിക സംവിധാനങ്ങളുടെ കഴിവുകൾ ടെക്സ്റ്റ് മൈനിംഗ്ടെക്‌സ്‌റ്റിലെ പാറ്റേണുകൾ തിരിച്ചറിയുന്നതിനും ഉപയോക്താക്കൾക്ക് താൽപ്പര്യമുള്ള പ്രൊഫൈലുകളിൽ വിവരങ്ങൾ സ്വയമേവ "വലിക്കുന്നതിന്" അല്ലെങ്കിൽ സ്ഥാപിക്കുന്നതിനും ഡോക്യുമെന്റ് അവലോകനങ്ങൾ സൃഷ്ടിക്കുന്നതിനും വിജ്ഞാന മാനേജുമെന്റിൽ ഉപയോഗിക്കാം. സാങ്കേതികവിദ്യകൾ ടെക്സ്റ്റ് മൈനിംഗ്കൂടാതെ, വസ്തുനിഷ്ഠത അന്തർലീനമാണ് - ഒരു മാനുഷിക വിശകലന വിദഗ്ദ്ധന്റെ വ്യക്തിനിഷ്ഠത സ്വഭാവമില്ല.

സാങ്കേതികവിദ്യയുടെ ഒരു പ്രധാന ഘടകം ടെക്സ്റ്റ് മൈനിംഗ്ഡോക്യുമെന്റ് മെറ്റാഡാറ്റ, കീവേഡുകൾ, വ്യാഖ്യാനങ്ങൾ എന്നിവയായി ഉപയോഗിക്കാവുന്ന ടെക്‌സ്‌റ്റിൽ നിന്ന് അതിന്റെ സ്വഭാവ സവിശേഷതകളോ ഗുണങ്ങളോ വേർതിരിച്ചെടുക്കുന്നതുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു. മറ്റുള്ളവ പ്രധാനപ്പെട്ട ദൗത്യംചില വിഭാഗങ്ങൾക്ക് അവരുടെ വ്യവസ്ഥാപിതവൽക്കരണത്തിന്റെ ഒരു നിശ്ചിത സ്കീമിൽ നിന്ന് ഒരു ഡോക്യുമെന്റ് നൽകുന്നത് ഉൾക്കൊള്ളുന്നു. ടെക്സ്റ്റ് മൈനിംഗ്എന്നിവയും നൽകുന്നു പുതിയ ലെവൽപ്രമാണങ്ങളുടെ സെമാന്റിക് തിരയൽ.

ടെക്സ്റ്റ് മൈനിംഗ് ടെക്നോളജിയുടെ അടിസ്ഥാനങ്ങൾ

ഇതിനകം സ്ഥാപിതമായ രീതിശാസ്ത്രത്തിന് അനുസൃതമായി, പ്രധാന ഘടകങ്ങൾ ടെക്സ്റ്റ് മൈനിംഗ്സംഗ്രഹം, ഫീച്ചർ എക്‌സ്‌ട്രാക്‌ഷൻ, ക്ലസ്റ്ററിംഗ്, വർഗ്ഗീകരണം, ചോദ്യത്തിന് ഉത്തരം നൽകൽ, തീമാറ്റിക് ഇൻഡെക്‌സിംഗ്, കീവേഡ് തിരയൽ എന്നിവ ഉൾപ്പെടുന്നു. കൂടാതെ, ചില സന്ദർഭങ്ങളിൽ, ടാക്സോണമികളും (oftaxonomies) തെസൗറിയും പിന്തുണയ്ക്കുന്നതിനും സൃഷ്ടിക്കുന്നതിനുമുള്ള ഉപകരണങ്ങളാൽ സെറ്റ് പൂരകമാണ്.

ഗാർട്ട്നർ റിസർച്ചിന്റെ ഡയറക്ടർ അലക്സാണ്ടർ ലിൻഡൻ നാല് പ്രധാന സാങ്കേതിക പ്രയോഗങ്ങളെ തിരിച്ചറിഞ്ഞു ടെക്സ്റ്റ് മൈനിംഗ്:

രേഖകൾ മുൻകൂട്ടി നിർവചിച്ച വിഭാഗങ്ങളായി സ്ഥാപിക്കുന്നതിനുള്ള നിയമങ്ങൾ നിർമ്മിക്കുന്നതിന് സ്റ്റാറ്റിസ്റ്റിക്കൽ കോറിലേഷനുകൾ ഉപയോഗിക്കുന്ന ടെക്സ്റ്റ് വർഗ്ഗീകരണം. മുൻ നിർവചിക്കപ്പെട്ട വിഭാഗങ്ങൾ ഉപയോഗിക്കാതെ ഭാഷാപരവും ഗണിതപരവുമായ രീതികൾ ഉപയോഗിച്ച്, പ്രമാണ സവിശേഷതകളെ അടിസ്ഥാനമാക്കിയുള്ള ക്ലസ്റ്ററിംഗ്. വലിയ അളവിലുള്ള ഡാറ്റയുടെ ഫലപ്രദമായ കവറേജ് നൽകുന്ന ഒരു ടാക്സോണമി അല്ലെങ്കിൽ വിഷ്വൽ മാപ്പ് ആണ് ഫലം. സെമാന്റിക് നെറ്റ്‌വർക്കുകൾ അല്ലെങ്കിൽ ഡിസ്ക്രിപ്റ്ററുകളുടെ സംഭവം നിർണ്ണയിക്കുന്ന ലിങ്ക് വിശകലനം ( പ്രധാന വാക്യങ്ങൾ) വ്യവസ്ഥയ്ക്കും നാവിഗേഷനുമുള്ള പ്രമാണത്തിൽ. വർഗ്ഗീകരണം, വീണ്ടെടുക്കൽ, ക്ലസ്റ്ററിംഗ് എന്നിവ മെച്ചപ്പെടുത്തുന്നതിനായി വാചകത്തിൽ നിന്ന് ചില വസ്തുതകൾ നേടുന്നതിനാണ് ഫാക്റ്റ് എക്സ്ട്രാക്ഷൻ രൂപകൽപ്പന ചെയ്തിരിക്കുന്നത്.

ഇത് മിക്കപ്പോഴും കാണപ്പെടുന്നത് സംഭവിക്കുന്നു ടെക്സ്റ്റ് മൈനിംഗ്വർഗ്ഗീകരണമാണ് ചുമതല - ഡാറ്റാബേസ് ഒബ്ജക്റ്റുകൾ മുൻകൂട്ടി നിശ്ചയിച്ച വിഭാഗങ്ങളിലേക്ക് അസൈൻ ചെയ്യുക. വാസ്തവത്തിൽ, ക്ലാസിഫിക്കേഷൻ ടാസ്‌ക് ഒരു ക്ലാസിക്കൽ റെക്കഗ്നിഷൻ ടാസ്‌ക് ആണ്, അവിടെ പരിശീലന സാമ്പിളിനെ അടിസ്ഥാനമാക്കി സിസ്റ്റം അസൈൻ ചെയ്യുന്നു പുതിയ വസ്തുഒരു വിഭാഗത്തിലേക്ക് അല്ലെങ്കിൽ മറ്റൊരു വിഭാഗത്തിലേക്ക്. സിസ്റ്റത്തിന്റെ സവിശേഷത ടെക്സ്റ്റ് മൈനിംഗ്വസ്തുക്കളുടെ എണ്ണവും അവയുടെ ആട്രിബ്യൂട്ടുകളും വളരെ വലുതായിരിക്കും എന്നതാണ്; അതിനാൽ, വർഗ്ഗീകരണ പ്രക്രിയ ഒപ്റ്റിമൈസ് ചെയ്യുന്നതിന് ഇന്റലിജന്റ് മെക്കാനിസങ്ങൾ നൽകണം. ഇന്ന് നിലവിലുള്ള സിസ്റ്റങ്ങളിൽ, വർഗ്ഗീകരണം ഉപയോഗിക്കുന്നു, ഉദാഹരണത്തിന്, ഇനിപ്പറയുന്ന ജോലികളിൽ: ഇൻട്രാനെറ്റ് നെറ്റ്‌വർക്കുകളിലും വെബ്‌സൈറ്റുകളിലും പ്രമാണങ്ങൾ ഗ്രൂപ്പുചെയ്യൽ, ഡോക്യുമെന്റുകൾ പോസ്റ്റുചെയ്യൽ നിർദ്ദിഷ്ട ഫോൾഡറുകൾ, സന്ദേശം അടുക്കൽ ഇമെയിൽ, വരിക്കാർക്കുള്ള വാർത്തകളുടെ തിരഞ്ഞെടുത്ത വിതരണം.

രണ്ടാമത്തെ ടാസ്‌ക് ക്ലസ്റ്ററിംഗ് ആണ് - സമാന ഗുണങ്ങളുള്ള ഒബ്‌ജക്റ്റുകളുടെ കോം‌പാക്റ്റ് ഉപഗ്രൂപ്പുകളെ തിരിച്ചറിയുക. സിസ്റ്റം സ്വതന്ത്രമായി അടയാളങ്ങൾ കണ്ടെത്തുകയും വസ്തുക്കളെ ഉപഗ്രൂപ്പുകളായി വിഭജിക്കുകയും വേണം. ഒബ്‌ജക്‌റ്റുകളുടെ ഗ്രൂപ്പുകൾ നിർവചിക്കാൻ നിങ്ങളെ അനുവദിക്കുന്നതിനാൽ ഇത് സാധാരണയായി ക്ലാസിഫിക്കേഷൻ ടാസ്‌ക്കിന് മുമ്പാണ്. രണ്ട് പ്രധാന തരം ക്ലസ്റ്ററിംഗുകൾ ഉണ്ട് - ഹൈറാർക്കിക്കൽ, ബൈനറി. ഹൈറാർക്കിക്കൽ ക്ലസ്റ്ററിംഗ് എന്നത് ക്ലസ്റ്ററുകളുടെ ഒരു വൃക്ഷം നിർമ്മിക്കുന്നത് ഉൾക്കൊള്ളുന്നു, അവയിൽ ഓരോന്നിനും ഒരു ചെറിയ കൂട്ടം രേഖകൾ അടങ്ങിയിരിക്കുന്നു. ബൈനറി ക്ലസ്റ്ററിംഗ് യൂട്ടിലിറ്റിയുടെ ഒരു ഉദാഹരണം IBM സെർവറിൽ http://www.software.ibm.com/data/iminer/fortext എന്നതിൽ ലഭ്യമാണ്. ബൈനറി ക്ലസ്റ്ററിംഗ് സാമ്യമുള്ള ലിങ്കുകളെ അടിസ്ഥാനമാക്കി ഡോക്യുമെന്റ് ക്ലസ്റ്ററുകളുടെ ഗ്രൂപ്പിംഗും ബ്രൗസിംഗും നൽകുന്നു. അവരുടെ വസ്തുവകകളിൽ ഏറ്റവും അടുത്തുള്ള രേഖകൾ ഒരു ക്ലസ്റ്ററിൽ സ്ഥാപിച്ചിരിക്കുന്നു. ക്ലസ്റ്ററിംഗ് പ്രക്രിയയിൽ, ഭാരവും നിർവചിക്കപ്പെട്ട കീവേഡുകളുടെ സംയുക്ത ഉപയോഗവും അടിസ്ഥാനമാക്കി, ഒരു പ്രമാണത്തിൽ നിന്ന് പ്രമാണത്തിലേക്ക് ലിങ്കുകളുടെ ഒരു അടിസ്ഥാനം നിർമ്മിക്കപ്പെടുന്നു. വലിയ ഡോക്യുമെന്ററി അറേകൾ സംഗ്രഹിക്കുന്നതിനും, പരസ്പര ബന്ധമുള്ള ഡോക്യുമെന്ററി ഗ്രൂപ്പുകളെ തിരിച്ചറിയുന്നതിനും, ആവശ്യമായ വിവരങ്ങൾക്കായി തിരയുമ്പോൾ ബ്രൗസിംഗ് പ്രക്രിയ ലളിതമാക്കുന്നതിനും, ഒരു ശേഖരത്തിൽ നിന്ന് തനതായ പ്രമാണങ്ങൾ കണ്ടെത്തുന്നതിനും, ഉള്ളടക്കത്തിൽ വളരെ സാമ്യമുള്ള ഡ്യൂപ്ലിക്കേറ്റുകൾ അല്ലെങ്കിൽ പ്രമാണങ്ങൾ തിരിച്ചറിയുന്നതിനും ഇന്ന് ക്ലസ്റ്ററിംഗ് ഉപയോഗിക്കുന്നു.

നമുക്ക് ഇനിയും നിരവധി സാങ്കേതിക വെല്ലുവിളികളെ പേരിടാം ടെക്സ്റ്റ് മൈനിംഗ്, ഉദാഹരണത്തിന്, പ്രവചനം, ഒരു വസ്തുവിന്റെ ചില സവിശേഷതകളുടെ മൂല്യങ്ങളെ അടിസ്ഥാനമാക്കി മറ്റുള്ളവരുടെ മൂല്യങ്ങൾ പ്രവചിക്കുന്നത് ഉൾക്കൊള്ളുന്നു.

ഒഴിവാക്കലുകൾ കണ്ടെത്തുക എന്നതാണ് മറ്റൊരു ചുമതല, അതായത്, ആൾക്കൂട്ടത്തിൽ നിന്ന് വേറിട്ടുനിൽക്കുന്ന വസ്തുക്കളെ അവയുടെ സ്വഭാവസവിശേഷതകൾക്കായി തിരയുക. ഇത് ചെയ്യുന്നതിന്, ആദ്യം ഒബ്‌ജക്റ്റുകളുടെ ശരാശരി പാരാമീറ്ററുകൾ നിർണ്ണയിക്കപ്പെടുന്നു, തുടർന്ന് ശരാശരി മൂല്യങ്ങളിൽ നിന്ന് ഏറ്റവും ശക്തമായി വ്യത്യാസമുള്ള പാരാമീറ്ററുകൾ പരിശോധിക്കുന്നു. അറിയപ്പെടുന്നതുപോലെ, അപവാദങ്ങൾക്കായി തിരയുന്നത് വ്യാപകമായി ഉപയോഗിക്കപ്പെടുന്നു, ഉദാഹരണത്തിന്, രഹസ്യാന്വേഷണ ഏജൻസികളുടെ പ്രവർത്തനത്തിൽ. രണ്ടാമത്തേത് എത്രത്തോളം കൃത്യമാണെന്ന് കണ്ടെത്തുന്നതിന് വർഗ്ഗീകരണത്തിന് ശേഷം ഇത്തരത്തിലുള്ള വിശകലനം പലപ്പോഴും നടത്താറുണ്ട്.

വ്യക്തിഗത പ്രമാണങ്ങളുടെ അനുബന്ധ സവിശേഷതകൾ (ഫീൽഡുകൾ, ആശയങ്ങൾ) തിരയുന്നതിനുള്ള ചുമതല ക്ലസ്റ്ററിംഗിന്റെ ചുമതലയിൽ നിന്ന് അൽപം വ്യത്യസ്തമാണ്. ഈ ടാസ്ക് പ്രവചനത്തിൽ നിന്ന് വ്യത്യസ്തമാണ്, കാരണം ഏത് സ്വഭാവസവിശേഷതകളാൽ ബന്ധം തിരിച്ചറിഞ്ഞുവെന്ന് മുൻകൂട്ടി അറിയില്ല; സവിശേഷതകൾ തമ്മിലുള്ള കണക്ഷനുകൾ കണ്ടെത്തുക എന്നതാണ് ലക്ഷ്യം. ഈ ടാസ്ക് ക്ലസ്റ്ററിംഗിന് സമാനമാണ്, പക്ഷേ ഒരു കൂട്ടം പ്രമാണങ്ങളെ അടിസ്ഥാനമാക്കിയല്ല, മറിച്ച് അവയിൽ അന്തർലീനമായ സ്വഭാവസവിശേഷതകളെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്.

അവസാനമായി, ഫലങ്ങൾ പ്രോസസ്സ് ചെയ്യാനും വ്യാഖ്യാനിക്കാനും ടെക്സ്റ്റ് മൈനിംഗ്ദൃശ്യവൽക്കരണത്തിന് വലിയ പ്രാധാന്യമുണ്ട്. ഡാറ്റാ ദൃശ്യവൽക്കരണത്തിൽ ഘടനാപരമായ സംഖ്യാ ഡാറ്റയുടെ പ്രോസസ്സിംഗ് ഉൾപ്പെടുന്നു, എന്നാൽ ഇത് ഘടനാരഹിതമായ പാറ്റേണുകളെ പ്രതിനിധീകരിക്കുന്നതിനുള്ള ഒരു പ്രധാന ഘടകമാണ്. ടെക്സ്റ്റ് പ്രമാണങ്ങൾ. പ്രത്യേകിച്ചും, ആധുനിക ക്ലാസ് സംവിധാനങ്ങൾ ടെക്സ്റ്റ് മൈനിംഗ്പ്രമാണങ്ങളുടെ വലിയ നിരകൾ വിശകലനം ചെയ്യാനും ഈ പ്രമാണങ്ങളിൽ ഉൾപ്പെടുത്തിയിരിക്കുന്ന ആശയങ്ങളുടെയും വിഷയങ്ങളുടെയും വിഷയ സൂചികകൾ സൃഷ്ടിക്കാനും കഴിയും. ഡോക്യുമെന്റുകളുടെ മുഴുവൻ ശ്രേണിയുടെയും ഉള്ളടക്കം അവതരിപ്പിക്കുന്നതിനും അതുപോലെ തന്നെ പ്രമാണങ്ങളുടെയും അവയുടെ ക്ലാസുകളുടെയും പഠനത്തിൽ ഉപയോഗിക്കാവുന്ന ഒരു നാവിഗേഷൻ സംവിധാനം നടപ്പിലാക്കുന്നതിനുള്ള ഒരു മാർഗമായാണ് ദൃശ്യവൽക്കരണം സാധാരണയായി ഉപയോഗിക്കുന്നത്.

സിസ്റ്റം നടപ്പിലാക്കലുകൾ

നിലവിൽ, പല പ്രമുഖ സോഫ്റ്റ്‌വെയർ നിർമ്മാതാക്കളും ടെക്സ്റ്റ് മൈനിംഗ് മേഖലയിൽ അവരുടെ ഉൽപ്പന്നങ്ങളും പരിഹാരങ്ങളും വാഗ്ദാനം ചെയ്യുന്നു. ചട്ടം പോലെ, ടെക്സ്റ്റ് ഡാറ്റ വിശകലനം ചെയ്യുന്നതിനായി വിവിധ ഗണിതശാസ്ത്ര, ഭാഷാ അൽഗോരിതങ്ങൾ നടപ്പിലാക്കുന്ന സ്കേലബിൾ സിസ്റ്റങ്ങളാണ് ഇവ. അവ വളരെ വികസിതമാണ് ഗ്രാഫിക്കൽ ഇന്റർഫേസുകൾ, സമ്പന്നമായ വിഷ്വലൈസേഷനും ഡാറ്റാ കൃത്രിമത്വം കഴിവുകളും ആക്സസ് നൽകുന്നു വിവിധ ഉറവിടങ്ങൾഒരു ക്ലയന്റ്-സെർവർ ആർക്കിടെക്ചറിൽ ഡാറ്റ പ്രവർത്തിക്കുന്നു. അത്തരം സിസ്റ്റങ്ങളുടെ ചില ഉദാഹരണങ്ങൾ ഇതാ:

  • ഇന്റലിജന്റ് മൈനർ ഫോർ ടെക്‌സ്‌റ്റ് (IBM)
  • ടെക്സ്റ്റ് അനലിസ്റ്റ്, വെബ് അനലിസ്റ്റ് (മെഗാകംപ്യൂട്ടർ ഇന്റലിജൻസ്)
  • ടെക്സ്റ്റ് മൈനർ (എസ്എഎസ്)
  • സെമിയോമാപ്പ് (സെമിയോ കോർപ്പറേഷൻ)
  • ഒറാക്കിൾ ടെക്സ്റ്റ് (ഒറാക്കിൾ)
  • നോളജ് സെർവർ (സ്വയംഭരണം)
  • ഗലക്‌ടിക-സൂം (ഗലക്‌റ്റിക കോർപ്പറേഷൻ)
  • ഇൻഫോസ്ട്രീം (വിവര കേന്ദ്രം "ELVISTI")

ഈ സിസ്റ്റങ്ങളിൽ ചിലത് ഞങ്ങൾ കൂടുതൽ വിശദമായി ചുവടെ നോക്കും.

ടെക്‌സ്‌റ്റിനായി ഇന്റലിജന്റ് മൈനർ

IBM Intelligent Miner for Text product എന്നത് കമാൻഡ് ലൈനിൽ നിന്നോ സ്ക്രിപ്റ്റുകളിൽ നിന്നോ പരസ്പരം സ്വതന്ത്രമായി സമാരംഭിച്ച പ്രത്യേക യൂട്ടിലിറ്റികളുടെ ഒരു കൂട്ടമാണ്. ആഴത്തിലുള്ള വാചക വിശകലനത്തിനുള്ള ഏറ്റവും മികച്ച ഉപകരണങ്ങളിലൊന്നാണ് ഈ സിസ്റ്റം. വിജ്ഞാന മാനേജുമെന്റ് ആപ്ലിക്കേഷനുകൾ നിർമ്മിക്കുന്നതിനുള്ള ഇനിപ്പറയുന്ന അടിസ്ഥാന യൂട്ടിലിറ്റികൾ (ടൂളുകൾ) സിസ്റ്റത്തിൽ അടങ്ങിയിരിക്കുന്നു:

ഭാഷാ ഐഡന്റിഫിക്കേഷൻ ടൂൾ - ഭാഷാ ഐഡന്റിഫിക്കേഷൻ യൂട്ടിലിറ്റി - ഡോക്യുമെന്റ് കംപൈൽ ചെയ്തിരിക്കുന്ന ഭാഷ സ്വയമേവ നിർണയിക്കുന്നതിന്.

വർഗ്ഗീകരണ ഉപകരണം - വർഗ്ഗീകരണ യൂട്ടിലിറ്റി - ഒരു പ്രത്യേക വിഭാഗത്തിലേക്ക് സ്വയമേവയുള്ള വാചകം അസൈൻമെന്റ് (ഈ ടൂളിന്റെ പരിശീലന ഘട്ടത്തിനായുള്ള ഇൻപുട്ട് വിവരങ്ങൾ അടുത്ത യൂട്ടിലിറ്റിയുടെ ഫലമായിരിക്കാം - ക്ലസ്റ്ററൈസേഷൻ ടൂൾ).

ക്ലസ്റ്ററൈസേഷൻ ടൂൾ - ഒരു ക്ലസ്റ്ററിംഗ് യൂട്ടിലിറ്റി - ശൈലി, രൂപം, വ്യത്യസ്തത എന്നിവയുടെ സമാനതയെ അടിസ്ഥാനമാക്കി ധാരാളം പ്രമാണങ്ങളെ ഗ്രൂപ്പുകളായി വിഭജിക്കുന്നു ആവൃത്തി സവിശേഷതകൾകീവേഡുകൾ തിരിച്ചറിഞ്ഞു.

ഫീച്ചർ എക്‌സ്‌ട്രാക്ഷൻ ടൂൾ - പുതിയ കാര്യങ്ങൾ തിരിച്ചറിയുന്നതിനുള്ള ഒരു യൂട്ടിലിറ്റി - മുൻകൂട്ടി നിശ്ചയിച്ചിട്ടുള്ള ഒരു നിഘണ്ടുവിന്റെ വിശകലനത്തെ അടിസ്ഥാനമാക്കി ഒരു ഡോക്യുമെന്റിൽ (ശരിയായ പേരുകൾ, ശീർഷകങ്ങൾ, ചുരുക്കെഴുത്തുകൾ) പുതിയ കീവേഡുകൾ തിരിച്ചറിയുന്നു.

വ്യാഖ്യാന ഉപകരണം - ഗ്രന്ഥങ്ങളുടെ "അർത്ഥം തിരിച്ചറിയുന്നതിനും" സംഗ്രഹങ്ങൾ സമാഹരിക്കുന്നതിനുമുള്ള ഒരു യൂട്ടിലിറ്റി - ഉറവിട ഗ്രന്ഥങ്ങളിലേക്കുള്ള വ്യാഖ്യാനങ്ങൾ.

ഐബിഎം ഇന്റലിജന്റ് മൈനർ ഫോർ ടെക്‌സ്‌റ്റ്, പ്രാഥമികമായി വിവരങ്ങൾ വീണ്ടെടുക്കൽ സംവിധാനങ്ങളെ അടിസ്ഥാനമാക്കിയുള്ള ശക്തമായ ഒരു കൂട്ടം ടൂളുകൾ സംയോജിപ്പിക്കുന്നു, ഇത് മുഴുവൻ ഉൽപ്പന്നത്തിന്റെയും പ്രത്യേകതയാണ്. "ടെക്സ്റ്റ് മൈനിംഗ്" സാങ്കേതികവിദ്യയുടെ പരിധിക്കപ്പുറം സ്വതന്ത്ര പ്രാധാന്യമുള്ള നിരവധി അടിസ്ഥാന ഘടകങ്ങൾ സിസ്റ്റത്തിൽ ഉൾപ്പെടുന്നു - ഇതാണ് ടെക്സ്റ്റ് സെർച്ച് എഞ്ചിൻ വിവരങ്ങൾ വീണ്ടെടുക്കൽ സംവിധാനം, വെബ് സ്പേസ് സ്കാനിംഗ് യൂട്ടിലിറ്റി വെബ് ക്രാളർ, നെറ്റ് ക്വസ്റ്റ്യൻ സൊല്യൂഷൻ - തിരയുന്നതിനുള്ള ഒരു പരിഹാരം പ്രാദേശിക വെബ്‌സൈറ്റ് അല്ലെങ്കിൽ നിരവധി ഇൻട്രാനെറ്റ്/ഇന്റർനെറ്റ് സെർവറുകൾ, ജാവ സാമ്പിൾ ജിയുഐ - ടെക്‌സ്‌റ്റ് സെർച്ച് എഞ്ചിൻ അടിസ്ഥാനമാക്കിയുള്ള തിരയലുകൾ നിയന്ത്രിക്കുന്നതിനും സംഘടിപ്പിക്കുന്നതിനുമുള്ള ജാവ ബീൻസ് ഇന്റർഫേസുകളുടെ ഒരു കൂട്ടം.

ഒരു IBM ഉൽപ്പന്നമായി ടെക്സ്റ്റിനുള്ള ഇന്റലിജന്റ് മൈനർ ഒരു ഇൻഫർമേഷൻ മൈനിംഗ് ടൂൾ എന്ന നിലയിൽ DB2 DBMS-നുള്ള "ഇൻഫർമേഷൻ ഇന്റഗ്രേറ്റർ ഫോർ ഉള്ളടക്കം" കോംപ്ലക്സിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്.

ഇന്റലിജന്റ് മൈനർ കുടുംബത്തിന്റെ വിവിധ തലങ്ങളിലുള്ള ഉൽപ്പന്നങ്ങളുടെ വില 18 മുതൽ 75 ആയിരം ഡോളർ വരെയാണ്.

ടെക്സ്റ്റ് അനലിസ്റ്റ്

പോളിഅനലിസ്റ്റ് ഡാറ്റാ മൈനിംഗ് ക്ലാസ് സിസ്റ്റത്തിന് പേരുകേട്ട റഷ്യൻ കമ്പനിയായ മെഗാപുട്ടർ ഇന്റലിജൻസ് ടെക്സ്റ്റ് അനലിസ്റ്റ് സിസ്റ്റവും വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട് (http://www.megaputer.com/products/ta/index.php3, ഇത് അത്തരം പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നു. ടെക്സ്റ്റ് മൈനിംഗ്: വലിയ ടെക്‌സ്‌റ്റിന്റെ ഒരു സെമാന്റിക് ശൃംഖല സൃഷ്ടിക്കൽ, ടെക്‌സ്‌റ്റ് സംഗ്രഹങ്ങൾ തയ്യാറാക്കൽ, ടെക്‌സ്‌റ്റ് സെർച്ചും ഓട്ടോമാറ്റിക് ക്ലാസിഫിക്കേഷനും ടെക്‌സ്റ്റുകളുടെ ക്ലസ്റ്ററിംഗും. ഒരു സെമാന്റിക് നെറ്റ്‌വർക്ക് നിർമ്മിക്കുന്നത് ഒരു വാചകത്തിലെ പ്രധാന ആശയങ്ങൾക്കായുള്ള തിരയലും അവയ്ക്കിടയിൽ ബന്ധം സ്ഥാപിക്കലും ആണ്. അത്തരമൊരു നെറ്റ്‌വർക്ക് ഉപയോഗിച്ച്, നിങ്ങൾക്ക് വാചകത്തിൽ പറഞ്ഞിരിക്കുന്ന കാര്യങ്ങൾ മനസിലാക്കാൻ മാത്രമല്ല, സന്ദർഭോചിതമായ നാവിഗേഷൻ നടത്താനും കഴിയും. ഒരു സംഗ്രഹം തയ്യാറാക്കുന്നത് വാചകത്തിലെ വാക്യങ്ങൾ ഹൈലൈറ്റ് ചെയ്യുകയാണ്, അതിൽ ഈ വാചകത്തിന് പ്രാധാന്യമുള്ള വാക്കുകൾ മറ്റുള്ളവയേക്കാൾ കൂടുതൽ തവണ കാണപ്പെടുന്നു. 80% കേസുകളിലും വാചകത്തെക്കുറിച്ച് ഒരു ആശയം ലഭിക്കാൻ ഇത് മതിയാകും. സിസ്റ്റത്തിൽ വിവരങ്ങൾ തിരയുന്നതിന്, സ്വാഭാവിക ഭാഷയിലുള്ള അന്വേഷണങ്ങളുടെ ഉപയോഗം നൽകിയിരിക്കുന്നു. അഭ്യർത്ഥന പ്രകാരം, ഒരു അദ്വിതീയ സെമാന്റിക് നെറ്റ്‌വർക്ക് നിർമ്മിക്കുന്നു, അത് ഡോക്യുമെന്റ് നെറ്റ്‌വർക്കുമായി സംവദിക്കുമ്പോൾ, ആവശ്യമായ ടെക്സ്റ്റ് ശകലങ്ങൾ തിരഞ്ഞെടുക്കാൻ നിങ്ങളെ അനുവദിക്കുന്നു. സ്റ്റാൻഡേർഡ് ഡാറ്റ മൈനിംഗ് രീതികൾ ഉപയോഗിച്ചാണ് ക്ലസ്റ്ററിംഗും വർഗ്ഗീകരണവും നടത്തുന്നത്.

ടെക്സ്റ്റ്-അനലിസ്റ്റ് സിസ്റ്റം, പരിഗണിക്കുന്നു ടെക്സ്റ്റ് മൈനിംഗ്വിവരങ്ങൾ വീണ്ടെടുക്കൽ സിസ്റ്റം പ്ലാറ്റ്‌ഫോമുകളെയോ DBMS-കളെയോ ആശ്രയിക്കാതെ സോഫ്റ്റ്‌വെയർ ഡെവലപ്പർമാർക്ക് അവരുടെ ഉൽപ്പന്നങ്ങളിൽ നിർമ്മിക്കാൻ കഴിയുന്ന ഒരു പ്രത്യേക ഗണിത ഉപകരണമെന്ന നിലയിൽ. സിസ്റ്റം ഉപയോഗിക്കുന്നതിനുള്ള പ്രധാന പ്ലാറ്റ്ഫോം MS Windows 9x/2000/NT ആണ്. ഇതിനായി ഒരു TextAnalyst പ്ലഗിൻ ഉണ്ട് മൈക്രോസോഫ്റ്റ് ബ്രൗസർഇന്റർനെറ്റ് എക്സ്പ്ലോറർ.

വെബ് അനലിസ്റ്റ്

WebAnalyst സിസ്റ്റം (http://www.megaputer.com/products/wa/index.php3) - മെഗാപ്യൂട്ടർ ഇന്റലിജൻസിന്റെ ഒരു ഉൽപ്പന്നം കൂടിയാണിത് - ഡാറ്റാ വിശകലനത്തിന്റെ ആഘാതം പരമാവധിയാക്കാൻ ആഗ്രഹിക്കുന്ന കമ്പനികൾക്കായുള്ള ബുദ്ധിപരവും അളക്കാവുന്നതുമായ ക്ലയന്റ്/സെർവർ പരിഹാരമാണ്. വെബ് പരിസ്ഥിതി. വെബ്‌അനലിസ്റ്റ് സെർവർ വിവരങ്ങൾ ശേഖരിക്കുന്നതിനും ഒരു വെബ്‌സൈറ്റിന്റെ ഉള്ളടക്കം കൈകാര്യം ചെയ്യുന്നതിനുമുള്ള ഒരു വിദഗ്ധ സംവിധാനമായി പ്രവർത്തിക്കുന്നു. WebAnalyst മൊഡ്യൂളുകൾ മൂന്ന് പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നു: സൈറ്റ് സന്ദർശകരെയും അവർ ആവശ്യപ്പെടുന്ന വിഭവങ്ങളെയും കുറിച്ചുള്ള പരമാവധി വിവരങ്ങൾ ശേഖരിക്കുന്നു; ശേഖരിച്ച ഡാറ്റയുടെ ഗവേഷണവും ഗവേഷണ ഫലങ്ങളെ അടിസ്ഥാനമാക്കി വ്യക്തിഗതമാക്കിയ ഉള്ളടക്കം സൃഷ്ടിക്കുന്നതും. ഈ പ്രശ്‌നങ്ങൾ ഒരുമിച്ച് പരിഹരിക്കുന്നത്, സിസ്റ്റം ഡെവലപ്പർമാരുടെ അഭിപ്രായത്തിൽ, വെബ്‌സൈറ്റിലേക്കുള്ള പുതിയ സന്ദർശകരുടെ എണ്ണം പരമാവധി വർദ്ധിപ്പിക്കുന്നതിനും നിലവിലുള്ളവരെ നിലനിർത്തുന്നതിനും ഇടയാക്കും, അതിനാൽ വിഭവത്തിന്റെ ജനപ്രീതി വർദ്ധിപ്പിക്കും. WebAnalyst-ന് കഴിവുകൾ സമന്വയിപ്പിക്കാൻ കഴിയും. ടെക്സ്റ്റ് മൈനിംഗ്നേരിട്ട് സംഘടനയുടെ വെബ്സൈറ്റിലേക്ക്. വ്യക്തിഗതമാക്കിയതും സ്വയമേവയുള്ളതും ടാർഗെറ്റുചെയ്‌തതുമായ മാർക്കറ്റിംഗ്, സ്വയമേവയുള്ള തിരയൽ, പൂർത്തീകരണം എന്നിവ വാഗ്ദാനം ചെയ്യാൻ ഇത് ഞങ്ങളെ അനുവദിക്കുന്നു ക്രോസ് വിൽപ്പനഉപയോക്താക്കൾക്ക് ഇഷ്ടാനുസൃതമാക്കാവുന്ന ഡാറ്റാ സെറ്റ് വികസിപ്പിക്കുക. അടിസ്ഥാനപരമായി WebAnalyst ആണ് ബുദ്ധിയുള്ള സെർവർഇ-കൊമേഴ്‌സ് ആപ്ലിക്കേഷനുകൾ.

ടെക്നിക്കൽ പ്ലാറ്റ്ഫോം ടെക്സ്റ്റ് അനലിസ്റ്റിന് സമാനമാണ്.

ടെക്സ്റ്റ് മൈനർ

അമേരിക്കൻ കമ്പനിയായ എസ്എഎസ് ഇൻസ്റ്റിറ്റ്യൂട്ട് രേഖാമൂലമുള്ള സംഭാഷണത്തിലെ ചില വ്യാകരണ, വാക്കാലുള്ള ക്രമങ്ങൾ താരതമ്യം ചെയ്യുന്നതിനായി എസ്എഎസ് ടെക്സ്റ്റ് മൈനർ സംവിധാനം പുറത്തിറക്കി. ടെക്സ്റ്റ് മൈനർ വളരെ വൈവിധ്യപൂർണ്ണമാണ്, കാരണം ഇതിന് വിവിധ ഫോർമാറ്റുകളിൽ - ഡാറ്റാബേസുകളിലും ഫയൽ സിസ്റ്റങ്ങളിലും വെബിലും പോലും ടെക്സ്റ്റ് ഡോക്യുമെന്റുകളുമായി പ്രവർത്തിക്കാൻ കഴിയും.

ശക്തമായ എസ്എഎസ് എന്റർപ്രൈസ് മൈനർ പാക്കേജിനുള്ളിൽ ടെക്സ്റ്റ് മൈനർ ലോജിക്കൽ ടെക്സ്റ്റ് പ്രോസസ്സിംഗ് നൽകുന്നു. ഘടനയില്ലാത്തത് സംയോജിപ്പിച്ച് ഡാറ്റ വിശകലന പ്രക്രിയയെ സമ്പന്നമാക്കാൻ ഇത് ഉപയോക്താക്കളെ അനുവദിക്കുന്നു ടെക്സ്റ്റ് വിവരങ്ങൾപ്രായം, വരുമാനം, ഉപഭോക്തൃ ഡിമാൻഡ് പാറ്റേണുകൾ തുടങ്ങിയ നിലവിലുള്ള ഘടനാപരമായ ഡാറ്റ ഉപയോഗിച്ച്. ടെക്സ്റ്റ് മൈനർ.

ടെക്സ്റ്റ് മൈനറിന്റെ ലോജിക്കൽ കഴിവുകളുടെ വിജയകരമായ ഉപയോഗത്തിന്റെ ഒരു ഉദാഹരണം കോംപാക് കമ്പ്യൂട്ടർ കോർപ്പറേഷൻ തെളിയിക്കുന്നു, ഇ-മെയിൽ വഴി ലഭിച്ചതും കമ്പനി പ്രതിനിധികൾ ശേഖരിച്ചതുമായ 2.5 ജിഗാബൈറ്റിലധികം ടെക്സ്റ്റ് ഡോക്യുമെന്റുകൾ വിശകലനം ചെയ്തുകൊണ്ട് നിലവിൽ ടെക്സ്റ്റ് മൈനർ പരീക്ഷിച്ചുകൊണ്ടിരിക്കുകയാണ്. മുമ്പ്, അത്തരം ഡാറ്റ പ്രോസസ്സ് ചെയ്യുന്നത് മിക്കവാറും അസാധ്യമായിരുന്നു

ഒരു പ്രത്യേക ടെക്സ്റ്റ് ഡോക്യുമെന്റ് എത്രത്തോളം സത്യസന്ധമാണെന്ന് നിർണ്ണയിക്കാൻ ടെക്സ്റ്റ് മൈനർ പ്രോഗ്രാം നിങ്ങളെ അനുവദിക്കുന്നു. രേഖകളിലെ നുണകൾ കണ്ടെത്തുന്നത് ടെക്‌സ്‌റ്റ് വിശകലനം ചെയ്‌ത്, വിവരങ്ങൾ വളച്ചൊടിക്കാനും മറയ്‌ക്കാനും ശ്രമിക്കുമ്പോൾ സംഭവിക്കാവുന്ന എഴുത്ത് ശൈലിയിലെ മാറ്റങ്ങൾ തിരിച്ചറിയുന്നതിലൂടെയാണ്. അത്തരം മാറ്റങ്ങൾക്കായി തിരയുന്നതിന്, ഡാറ്റാബേസ് റെക്കോർഡുകൾക്കിടയിലെ അപാകതകളും ട്രെൻഡുകളും അവയുടെ അർത്ഥം കണ്ടെത്താതെ തിരയുക എന്നതാണ് ഉപയോഗിച്ച തത്വം. അതേ സമയം, ടെക്സ്റ്റ് മൈനറിൽ വ്യത്യസ്ത അളവിലുള്ള കൃത്യതയുടെ വിപുലമായ ഒരു കൂട്ടം രേഖകൾ ഉൾപ്പെടുന്നു, അതിന്റെ ഘടന ടെംപ്ലേറ്റുകളായി എടുക്കുന്നു. ഒരു നുണ ഡിറ്റക്ടറിലെ ഓരോ ഡോക്യുമെന്റും "റൺ" വിശകലനം ചെയ്യുകയും ഈ മാനദണ്ഡങ്ങളുമായി താരതമ്യം ചെയ്യുകയും ചെയ്യുന്നു, അതിനുശേഷം പ്രോഗ്രാം ഡോക്യുമെന്റിലേക്ക് ഒന്നോ അല്ലെങ്കിൽ മറ്റൊരു സത്യസന്ധത സൂചികയോ നൽകുന്നു. വലിയ അളവിൽ ലഭിക്കുന്ന ഓർഗനൈസേഷനുകളിൽ പ്രോഗ്രാം പ്രത്യേകിച്ചും ഉപയോഗപ്രദമാകും ഇലക്ട്രോണിക് കത്തിടപാടുകൾ, അതുപോലെ ഇൻ നിയമ നിർവ്വഹണ ഏജൻസികൾഒരു വ്യക്തിയുടെ വൈകാരികാവസ്ഥ നിരീക്ഷിക്കുന്നതിനെ അടിസ്ഥാനമാക്കിയുള്ള നുണ ഡിറ്റക്ടറുകൾക്ക് തുല്യമായ തെളിവുകൾ വിശകലനം ചെയ്യാൻ.

വൈദ്യശാസ്ത്രത്തിൽ ടെക്സ്റ്റ് മൈനറിന്റെ ഉപയോഗത്തിന്റെ രസകരമായ ഒരു ഉദാഹരണം: അമേരിക്കൻ ദേശീയ ആരോഗ്യ സംരക്ഷണ സംഘടനകളിലൊന്ന് രാജ്യത്തുടനീളമുള്ള ക്ലിനിക്കുകളിൽ നിന്ന് ശേഖരിച്ച ഹൃദ്രോഗങ്ങളെക്കുറിച്ചുള്ള 10 ആയിരത്തിലധികം മെഡിക്കൽ റെക്കോർഡുകൾ ശേഖരിച്ചു. ടെക്സ്റ്റ് മൈനർ ഉപയോഗിച്ച് ഈ ഡാറ്റ വിശകലനം ചെയ്യുന്നതിലൂടെ, റിപ്പോർട്ടിംഗിലെ ചില ഭരണപരമായ ക്രമക്കേടുകൾ വിദഗ്ധർ കണ്ടെത്തി, കൂടാതെ പരമ്പരാഗത രീതികളാൽ നിർണ്ണയിക്കപ്പെടാത്ത ഹൃദയ സംബന്ധമായ അസുഖങ്ങളും മറ്റ് രോഗങ്ങളും തമ്മിലുള്ള ബന്ധം നിർണ്ണയിക്കാനും അവർക്ക് കഴിഞ്ഞു.

അതേസമയം, പ്രധാനമായും ബിസിനസ്സ് ബുദ്ധിജീവികളുടെ ശ്രദ്ധ ആകർഷിക്കുന്നതിനായി ടെക്സ്റ്റ് മൈനർ ഉൽപ്പന്നം പുറത്തിറക്കുമെന്ന് എസ്എഎസ് കുറിക്കുന്നു.

സെമിയോമാപ്പ്

സെമിയോട്ടിക്സ് ശാസ്ത്രജ്ഞനായ ക്ലോഡ് വോഗൽ 1996-ൽ സൃഷ്ടിച്ച ഒരു എൻട്രിവ ഉൽപ്പന്നമാണ് സെമിയോമാപ്പ്. 1998 മെയ് മാസത്തിൽ, ഉൽപ്പന്നം വ്യാവസായിക സമുച്ചയമായ സെമിയോമാപ്പ് 2.0 ആയി പുറത്തിറങ്ങി - ആദ്യത്തെ സിസ്റ്റം. ടെക്സ്റ്റ് മൈനിംഗ്, ഒരു ക്ലയന്റ്-സെർവർ ആർക്കിടെക്ചറിൽ പ്രവർത്തിക്കുന്നു. സെമിയോമാപ്പ് സിസ്റ്റത്തിൽ രണ്ട് പ്രധാന ഘടകങ്ങൾ അടങ്ങിയിരിക്കുന്നു - സെമിയോമാപ്പ് സെർവറും സെമിയോമാപ്പ് ക്ലയന്റും. സിസ്റ്റം മൂന്ന് ഘട്ടങ്ങളിലായാണ് പ്രവർത്തിക്കുന്നത്:

  • ഇൻഡെക്സിംഗ്; സെമിയോമാപ്പ് സെർവർ ഘടനയില്ലാത്ത വാചകത്തിന്റെ നിരകൾ സ്വയമേവ വായിക്കുന്നു, പ്രധാന ശൈലികൾ (സങ്കൽപ്പങ്ങൾ) വേർതിരിച്ചെടുക്കുകയും അവയിൽ നിന്ന് ഒരു സൂചിക സൃഷ്ടിക്കുകയും ചെയ്യുന്നു;
  • ആശയങ്ങളുടെ ക്ലസ്റ്ററിംഗ്; സെമിയോമാപ്പ് സെർവർ എക്‌സ്‌ട്രാക്‌റ്റുചെയ്‌ത വാക്യങ്ങൾ തമ്മിലുള്ള കണക്ഷനുകൾ തിരിച്ചറിയുകയും അവയിൽ നിന്ന് നിർമ്മിക്കുകയും ചെയ്യുന്നു, സഹ-സംഭവത്തെ അടിസ്ഥാനമാക്കി, ഒരു ലെക്സിക്കൽ നെറ്റ്‌വർക്ക് (“കൺസെപ്റ്റ് മാപ്പ്”);
  • ഗ്രാഫിക് ഡിസ്പ്ലേയും നാവിഗേഷനും; ദൃശ്യവൽക്കരണം കണക്ഷൻ മാപ്പുകൾ, ഇത് പ്രധാന വാക്യങ്ങളിലൂടെയും അവ തമ്മിലുള്ള കണക്ഷനുകളിലൂടെയും ദ്രുത നാവിഗേഷൻ നൽകുന്നു, അതുപോലെ തന്നെ നിർദ്ദിഷ്ട പ്രമാണങ്ങൾ വേഗത്തിൽ ആക്‌സസ് ചെയ്യാനുള്ള കഴിവും.

ഓരോ ഫോൾഡറിനും ഒരു പ്രത്യേക ഡാറ്റാബേസ് സൃഷ്‌ടിച്ച് മെറ്റീരിയലിനെ “ഫോൾഡറുകളായി” വിഭജിക്കുന്നതിനെ സെമിയോമാപ്പ് പിന്തുണയ്ക്കുന്നു. സെമിയോമാപ്പ് തിരിച്ചറിയുന്ന ആശയങ്ങൾ തമ്മിലുള്ള ബന്ധങ്ങൾ സോഴ്സ് ടെക്സ്റ്റ് അറേയിലെ ഖണ്ഡികകളിലെ പദസമുച്ചയങ്ങളുടെ സഹ-സംഭവത്തെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്.

സെമിയോമാപ്പിന്റെ സെൻട്രൽ ബ്ലോക്ക് ഒരു ലെക്സിക്കൽ എക്‌സ്‌ട്രാക്‌ടറാണ് - ഒരു ടെക്‌സ്‌റ്റ് ശേഖരത്തിൽ നിന്ന് പദസമുച്ചയങ്ങൾ എക്‌സ്‌ട്രാക്റ്റുചെയ്യുകയും ഈ വാക്യങ്ങളുടെ (അവയുടെ പരസ്പര ബന്ധങ്ങൾ) സഹസംഭവം തിരിച്ചറിയുകയും ചെയ്യുന്ന ഒരു പ്രോഗ്രാം. പേറ്റന്റ് നേടിയ SEMIOLEX സാങ്കേതികവിദ്യയെ അടിസ്ഥാനമാക്കിയുള്ളതാണ് ലെക്സിക്കൽ എക്സ്ട്രാക്റ്റർ. ക്ലോഡ് വോഗൽ വികസിപ്പിച്ച ഭാഷാ ആശയവിനിമയത്തിലെ അടയാളങ്ങളുടെ ശാസ്ത്രമായ കമ്പ്യൂട്ടേഷണൽ സെമിയോട്ടിക്സിന്റെ ആശയങ്ങൾ ഇത് നടപ്പിലാക്കുന്നു.

ഇന്റർമീഡിയ ടെക്സ്റ്റ്, ഒറാക്കിൾ ടെക്സ്റ്റ്

സൌകര്യങ്ങൾ ടെക്സ്റ്റ് മൈനിംഗ്, Oracle DBMS 7.3.3-ലെ ടെക്‌സ്‌റ്റ് സെർവറിലും Oracle8i-ലെ ഇന്റർമീഡിയ ടെക്‌സ്‌റ്റ് കാട്രിഡ്ജിലും തുടങ്ങി, Oracle ഉൽപ്പന്നങ്ങളുടെ അവിഭാജ്യ ഘടകമാണ്. Oracle9i-ൽ, ഈ ഉപകരണങ്ങൾ വികസിക്കുകയും ഒരു പുതിയ പേര് സ്വീകരിക്കുകയും ചെയ്തു - Oracle Text - ഒരു സോഫ്റ്റ്‌വെയർ പാക്കേജ് DBMS-ലേക്ക് സംയോജിപ്പിച്ചിരിക്കുന്നു, ഇത് ഘടനാരഹിതമായ ടെക്‌സ്റ്റുകളുമായി ബന്ധപ്പെട്ട അന്വേഷണങ്ങളിൽ ഫലപ്രദമായി പ്രവർത്തിക്കാൻ നിങ്ങളെ അനുവദിക്കുന്നു. ഈ സാഹചര്യത്തിൽ, റിലേഷണൽ ഡാറ്റാബേസുകളിൽ പ്രവർത്തിക്കുന്നതിന് ഉപയോക്താവിന് നൽകിയിരിക്കുന്ന കഴിവുകളുമായി ടെക്സ്റ്റ് പ്രോസസ്സിംഗ് സംയോജിപ്പിച്ചിരിക്കുന്നു. പ്രത്യേകിച്ചും, ടെക്സ്റ്റ് പ്രോസസ്സിംഗ് ആപ്ലിക്കേഷനുകൾ എഴുതുമ്പോൾ SQL ഉപയോഗിക്കുന്നത് സാധ്യമാണ്.

ഒറാക്കിൾ ടെക്സ്റ്റ് ടൂളുകൾ ലക്ഷ്യമിടുന്ന പ്രധാന ദൌത്യം പ്രമാണങ്ങൾ അവയുടെ ഉള്ളടക്കം അനുസരിച്ച് തിരയുക എന്നതാണ് - വാക്കുകളോ ശൈലികളോ, ആവശ്യമെങ്കിൽ അവ ഉപയോഗിച്ച് സംയോജിപ്പിക്കുന്നു. ബൂളിയൻ പ്രവർത്തനങ്ങൾ. കണ്ടെത്തിയ പ്രമാണങ്ങളിലെ അന്വേഷണ പദങ്ങളുടെ ആവൃത്തി കണക്കിലെടുത്ത്, തിരയൽ ഫലങ്ങൾ പ്രസക്തി അനുസരിച്ച് റാങ്ക് ചെയ്യപ്പെടുന്നു. തിരയൽ സമ്പൂർണ്ണത മെച്ചപ്പെടുത്തുന്നതിന്, ഒറാക്കിൾ ടെക്സ്റ്റ് നിരവധി വിപുലീകരണ ടൂളുകൾ നൽകുന്നു തിരയൽ അന്വേഷണം, അവയിൽ മൂന്ന് ഗ്രൂപ്പുകളെ വേർതിരിച്ചറിയാൻ കഴിയും. ഒന്നാമതായി, ഭാഷയുടെ രൂപഘടനയെക്കുറിച്ചുള്ള അറിവ് ഉൾക്കൊണ്ട് സാക്ഷാത്കരിക്കപ്പെടുന്ന എല്ലാ രൂപാന്തര രൂപങ്ങളുമുള്ള അന്വേഷണ പദങ്ങളുടെ വികാസമാണിത്. രണ്ടാമതായി, ഒറാക്കിൾ ടെക്സ്റ്റ് ഒരു തീസോറസ് - ഒരു സെമാന്റിക് നിഘണ്ടു, അതുപോലെ അക്ഷരവിന്യാസത്തിലും ശബ്‌ദത്തിലും സമാനമായ പദങ്ങളുള്ള ഒരു അന്വേഷണത്തിന്റെ വിപുലീകരണവും - അവ്യക്തമായ തിരയലും വ്യഞ്ജനാക്ഷരങ്ങൾക്കായി തിരയലും ബന്ധിപ്പിച്ച് അർത്ഥത്തോട് അടുത്ത പദങ്ങളുള്ള അന്വേഷണ പദങ്ങളുടെ വിപുലീകരണം അനുവദിക്കുന്നു. അക്ഷരത്തെറ്റുള്ള വാക്കുകൾക്കായി തിരയുമ്പോഴും അതുപോലെ സംശയങ്ങൾ ഉയരുന്ന സന്ദർഭങ്ങളിലും അവ്യക്തമായ തിരയൽ ഉപയോഗിക്കുന്നത് നല്ലതാണ്. ശരിയായ അക്ഷരവിന്യാസം- അവസാന പേരുകൾ, സംഘടനകളുടെ പേരുകൾ മുതലായവ.

ഒറാക്കിൾ ടെക്‌സ്‌റ്റ് സിസ്റ്റം ടെക്‌സ്‌റ്റുകളുടെ തീമാറ്റിക് വിശകലനം നൽകുന്നു ആംഗലേയ ഭാഷ. പ്രോസസ്സിംഗ് സമയത്ത്, ഓരോ ഡോക്യുമെന്റിന്റെയും വാചകം ഭാഷാപരവും സ്ഥിതിവിവരക്കണക്കുകളും വിശകലന നടപടിക്രമങ്ങൾക്ക് വിധേയമാക്കുന്നു, അതിന്റെ ഫലമായി അതിന്റെ പ്രധാന വിഷയങ്ങൾ നിർണ്ണയിക്കുകയും തീമാറ്റിക് സംഗ്രഹങ്ങൾ നിർമ്മിക്കുകയും ചെയ്യുന്നു, അതുപോലെ ഒരു പൊതു സംഗ്രഹം - അമൂർത്തവും.

വിവരിച്ച എല്ലാ ഉപകരണങ്ങളും ഒരുമിച്ച് ഉപയോഗിക്കാനാകും, പ്രമാണങ്ങൾ തിരയുന്നതിനായി പരമ്പരാഗത SQL, PL/SQL വാക്യഘടന എന്നിവയുമായി സംയോജിപ്പിച്ച് ഒരു അന്വേഷണ ഭാഷ പിന്തുണയ്ക്കുന്നു. സങ്കീർണ്ണമായ മൾട്ടി പർപ്പസ് തിരയലിന്റെയും ടെക്സ്റ്റ് ഡാറ്റയുടെ വിശകലനത്തിന്റെയും പശ്ചാത്തലത്തിൽ ആധുനിക റിലേഷണൽ ഡിബിഎംഎസുകളുമായി പ്രവർത്തിക്കാനുള്ള കഴിവ് ഒറാക്കിൾ ടെക്സ്റ്റ് നൽകുന്നു.

ഒറാക്കിൾ ടെക്സ്റ്റിൽ റഷ്യൻ ഭാഷയിൽ ടെക്സ്റ്റ് വിവരങ്ങൾ പ്രോസസ്സ് ചെയ്യുന്നതിനുള്ള കഴിവുകൾ വളരെ പരിമിതമാണ്. ഈ പ്രശ്നം പരിഹരിക്കാൻ, ഗാരന്റ്-പാർക്ക്-ഇന്റർനെറ്റ് കമ്പനി റഷ്യൻ കോൺടെക്സ്റ്റ് ഒപ്റ്റിമൈസർ (ആർ‌സി‌ഒ) മൊഡ്യൂൾ വികസിപ്പിച്ചെടുത്തു, ഇന്റർമീഡിയ ടെക്‌സ്‌റ്റിനൊപ്പം (അല്ലെങ്കിൽ ഒറാക്കിൾ ടെക്‌സ്‌റ്റ്) ഒരുമിച്ച് ഉപയോഗിക്കാൻ ഉദ്ദേശിച്ചുള്ളതാണ്. റഷ്യൻ ഭാഷാ രൂപഘടനയെ പിന്തുണയ്ക്കുന്നതിനു പുറമേ, അവ്യക്തമായ തിരയൽ, തീമാറ്റിക് വിശകലനം, ഡോക്യുമെന്റ് അമൂർത്തീകരണം എന്നിവയ്ക്കുള്ള ടൂളുകൾ RCO ഉൾപ്പെടുന്നു.

സ്വയംഭരണ വിജ്ഞാന സെർവർ

സ്റ്റാറ്റിസ്റ്റിക്കൽ ഉള്ളടക്ക വിശകലനത്തിലെ സംഭവവികാസങ്ങൾക്ക് പേരുകേട്ട, ഓട്ടോണമിയുടെ സിസ്റ്റം ആർക്കിടെക്ചർ ഇന്റലിജന്റ് പാറ്റേൺ പാഴ്‌സിംഗും അത്യാധുനിക സാന്ദർഭിക വിശകലനവും സ്വയമേവയുള്ള വർഗ്ഗീകരണവും ക്രോസ്-റഫറൻസിംഗ് പ്രശ്‌നങ്ങളും പരിഹരിക്കുന്നതിനുള്ള അർത്ഥം വേർതിരിച്ചെടുക്കൽ സാങ്കേതികതകളും സംയോജിപ്പിക്കുന്നു. സ്റ്റാറ്റിസ്റ്റിക്കൽ പ്രോസസ്സിംഗിനെ അടിസ്ഥാനമാക്കിയുള്ള ശക്തമായ ഇന്റലിജന്റ് അൽഗോരിതങ്ങളാണ് ഓട്ടോണമി സിസ്റ്റത്തിന്റെ പ്രധാന നേട്ടം. ക്ലോഡ് ഷാനന്റെ വിവര സിദ്ധാന്തം, ബയേസിയൻ സാധ്യതകൾ, ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ എന്നിവയെ അടിസ്ഥാനമാക്കിയുള്ളതാണ് ഈ അൽഗോരിതങ്ങൾ.

അഡാപ്റ്റീവ് പ്രോബബിലിസ്റ്റിക് മോഡലിംഗ് (APCM) എന്ന ആശയം, ഡോക്യുമെന്റ് ടെക്സ്റ്റിലെ പാറ്റേണുകൾ തിരിച്ചറിയാനും മറ്റ് വിവിധ ഡോക്യുമെന്റുകളിൽ സമാനമായ പാറ്റേണുകൾ സ്വയമേവ കണ്ടെത്താനും സ്വയംഭരണത്തെ അനുവദിക്കുന്നു.

ഓട്ടോണമി നോളജ് സെർവർ സിസ്റ്റത്തിലെ ഒരു പ്രധാന കാര്യം ടെക്‌സ്‌റ്റുകളെ വിശകലനം ചെയ്യാനും പ്രമാണങ്ങൾക്കുള്ളിലെ പ്രധാന ആശയങ്ങൾ തിരിച്ചറിയാനുമുള്ള കഴിവാണ്, വാചകത്തിന്റെ അർത്ഥവുമായുള്ള പദങ്ങളുടെ ആവൃത്തികളുടെയും ബന്ധങ്ങളുടെയും പരസ്പരബന്ധം വിശകലനം ചെയ്യുക. ഡോക്യുമെന്റുകളിൽ നിന്ന് അർത്ഥം വേർതിരിച്ചെടുക്കുന്നതിനും ടെക്സ്റ്റുകളിൽ അടങ്ങിയിരിക്കുന്ന സ്വഭാവസവിശേഷതകൾ നിർണ്ണയിക്കുന്നതിനും ഓട്ടോണമി - ഏജന്റ്‌വെയർ ഘടകം അദ്വിതീയ പാറ്റേൺ വിശകലന സാങ്കേതികവിദ്യ (നോൺ-ലീനിയർ അഡാപ്റ്റീവ് ഡിജിറ്റൽ സിഗ്നൽ പ്രോസസ്സിംഗ്) ഉപയോഗിക്കുന്നു. ടെക്‌സ്‌റ്റിന്റെ അർത്ഥത്തിന്റെ തനതായ "സിഗ്‌നേച്ചറുകൾ" തിരിച്ചറിയുന്നതിനും വെബ്‌സൈറ്റുകളിലും വാർത്തകളിലും ഇമെയിൽ ആർക്കൈവുകളിലും മറ്റ് ഡോക്യുമെന്റുകളിലും സമാനമായ അർത്ഥ എൻട്രികൾക്കായി തിരയുന്ന കൺസെപ്റ്റ് ഏജന്റുകൾ സൃഷ്ടിക്കുന്നതിനും APCM നിങ്ങളെ അനുവദിക്കുന്നു. സിസ്റ്റം മുൻകൂട്ടി നിശ്ചയിച്ച കീവേഡുകളെ അടിസ്ഥാനമാക്കിയുള്ളതല്ലാത്തതിനാൽ, ഏത് ഭാഷയിലും ഇതിന് പ്രവർത്തിക്കാനാകും.

ടെംപ്ലേറ്റ് പ്രോസസ്സിംഗ് സാങ്കേതികവിദ്യയെ അടിസ്ഥാനമാക്കിയുള്ള ഒരു ഡൈനാമിക് റീസണിംഗ് എഞ്ചിൻ (DRE) ആണ് ഓട്ടോണമി ഏജന്റ് സിസ്റ്റത്തിന്റെ കാതൽ ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ, ഇത് സ്വയംഭരണത്തിന്റെ മാതൃ കമ്പനിയായ ന്യൂറോഡൈനാമിക്സിൽ പ്രാരംഭ വികസനം നേടി. ഡിആർഇ നാല് പ്രധാന പ്രവർത്തനങ്ങൾ നടപ്പിലാക്കാൻ അഡാപ്റ്റീവ് പ്രോബബിലിസ്റ്റിക് മോഡലിംഗ് എന്ന ആശയം ഉപയോഗിക്കുന്നു: ആശയം കണ്ടെത്തൽ, ഏജന്റ് സൃഷ്ടിക്കൽ, ഏജന്റ് പരിശീലനം, സാധാരണ ടെക്സ്റ്റ് തിരയൽ. DRE സ്വാഭാവിക ഭാഷാ അന്വേഷണങ്ങൾ അല്ലെങ്കിൽ ബൂളിയൻ ഓപ്പറേറ്റർമാർ ലിങ്ക് ചെയ്ത നിബന്ധനകൾ സ്വീകരിക്കുന്നു, കൂടാതെ അന്വേഷണത്തിന്റെ പ്രസക്തി അനുസരിച്ച് ഓർഡർ ചെയ്ത പ്രമാണങ്ങളുടെ ഒരു ലിസ്റ്റ് തിരികെ നൽകുന്നു. ഈ സംവിധാനം എല്ലാ സ്വയംഭരണ ഏജന്റ് സിസ്റ്റം ഉൽപ്പന്നങ്ങളുടെയും അടിസ്ഥാനമാണ്. സ്വയംഭരണത്തിന്റെ നോളജ് സെർവറിന്റെ ഒരു വിവരണം http://www.autonomy.com/tech/whitepaper.pdf എന്നതിൽ കാണാം.

ഗലാക്ടിക-സൂം

റഷ്യൻ കോർപ്പറേഷന്റെ ഗലാക്റ്റികയുടെ ഉൽപ്പന്നമാണ് ഗലാക്റ്റിക-സൂം സിസ്റ്റം. റഷ്യൻ, ഇംഗ്ലീഷ് ഭാഷകളുടെ രൂപഘടനയും പ്രത്യേക വശങ്ങളിൽ വിവര ശ്രേണികളുടെ രൂപീകരണവും കണക്കിലെടുത്ത് കീവേഡുകൾ ഉപയോഗിച്ച് ഒരു ബുദ്ധിപരമായ തിരയലാണ് സിസ്റ്റത്തിന്റെ പ്രധാന ലക്ഷ്യം. അതേ സമയം, വിവരങ്ങളുടെ അളവ് നൂറുകണക്കിന് ജിഗാബൈറ്റുകളിൽ എത്താം. ഇത് വലിയ വിവര വസ്തുക്കളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു - മീഡിയ സന്ദേശങ്ങളും ലേഖനങ്ങളും, വ്യവസായ പ്രസ്സ്, റെഗുലേറ്ററി ഡോക്യുമെന്റേഷൻ, ബിസിനസ് കത്തിടപാടുകൾ, എന്റർപ്രൈസസിന്റെ ആന്തരിക പ്രമാണ പ്രവാഹത്തിന്റെ മെറ്റീരിയലുകൾ, ഇന്റർനെറ്റിൽ നിന്നുള്ള വിവരങ്ങൾ. അതേ സമയം, തിരഞ്ഞെടുത്ത ഡാറ്റയുടെ വസ്തുനിഷ്ഠമായ സെമാന്റിക് കണക്ഷനുകൾ വിശകലനം ചെയ്യുന്നതിനും പ്രശ്നത്തിന്റെ ഒരു "ഇമേജ്" രൂപപ്പെടുത്തുന്നതിനും സിസ്റ്റം ചില ഉപകരണങ്ങൾ നൽകുന്നു - മൾട്ടിഡൈമൻഷണൽ മോഡൽഒരു റാങ്ക് ലിസ്റ്റിന്റെ രൂപത്തിൽ വിവര ഫ്ലോയിൽ അർത്ഥവത്തായ വാക്കുകൾ, പ്രശ്നത്തിന്റെ വിഷയവുമായി ചേർന്ന് ഉപയോഗിക്കുന്നു. പഠിക്കുന്ന പ്രശ്നത്തിന്റെ വികാസത്തിന്റെ ചലനാത്മകതയിലെ പ്രവണതകൾ തിരിച്ചറിയുന്നതിൽ സിസ്റ്റത്തിൽ വളരെയധികം ശ്രദ്ധ ചെലുത്തുന്നു. സാധാരണ ഫോർമാറ്റുകൾക്കുള്ള കൺവെർട്ടറുകൾ സിസ്റ്റത്തിൽ അടങ്ങിയിരിക്കുന്നു: പ്ലെയിൻ ടെക്സ്റ്റ്, RTF, DOC, HTML. Windows 2000 OS പരിതസ്ഥിതിയിലാണ് Galaktika-ZOOM പ്രവർത്തിക്കുന്നത്.

ഇൻഫോസ്ട്രീം

വെബിൽ തുടർച്ചയായി സൃഷ്ടിക്കപ്പെടുന്ന വലിയ ചലനാത്മക വിവര ശ്രേണികളുടെ കവറേജിനും സാമാന്യവൽക്കരണത്തിനും ഗുണപരമായി പുതിയ സമീപനങ്ങൾ ആവശ്യമാണ്. ഉള്ളടക്ക വിശകലനത്തിന്റെ രീതിശാസ്ത്രവുമായി അടുത്ത ബന്ധമുള്ള വിവര ഉറവിടങ്ങൾ നിരീക്ഷിക്കുന്നതിനുള്ള രീതികൾ സൃഷ്ടിക്കേണ്ടതുണ്ട് - ഉള്ളടക്ക നിരീക്ഷണം. ഗുണപരവും അളവ്പരവുമായ ഡാറ്റ ലഭിക്കുന്നതിന്, മുൻകൂട്ടി നിശ്ചയിച്ചിട്ടില്ലാത്ത ഒരു കാലയളവിൽ അത്തരം നിരീക്ഷണം തുടർച്ചയായി നടത്തണം. ഉക്രെയ്നിലെ ഈ പ്രശ്നം പരിഹരിക്കാൻ ഇൻഫർമേഷൻ സെന്റർ"ELVISTI" InfoStream™ സാങ്കേതികവിദ്യ വികസിപ്പിച്ചെടുത്തു. ഇൻഫോസ്ട്രീം സോഫ്റ്റ്‌വെയർ, ടെക്‌നോളജി ടൂളുകളിൽ മൂന്ന് പ്രധാന ഘടകങ്ങൾ ഉൾപ്പെടുന്നു:

  • വിവര ശേഖരണവും സംസ്കരണ കേന്ദ്രവും;
  • ഡാറ്റാബേസുകളിലേക്കുള്ള സംവേദനാത്മക ആക്സസ് സംഘടിപ്പിക്കുന്നതിനുള്ള കേന്ദ്രം;
  • ഉള്ളടക്ക നിരീക്ഷണ കേന്ദ്രം.

InfoStream ഉള്ളടക്ക പ്രോസസ്സിംഗ് മെക്കാനിസത്തിന്റെ കാതൽ ഫുൾ-ടെക്‌സ്റ്റ് വിവര വീണ്ടെടുക്കൽ സംവിധാനമാണ് InfoReS. സൃഷ്ടിക്കാൻ സാങ്കേതികവിദ്യ നിങ്ങളെ അനുവദിക്കുന്നു മുഴുവൻ ടെക്സ്റ്റ് ഡാറ്റാബേസുകൾഡാറ്റയും വിവരങ്ങളും തിരയുക, തീമാറ്റിക് ഇൻഫർമേഷൻ ചാനലുകൾ സൃഷ്ടിക്കുക, വിവരങ്ങൾ സ്വപ്രേരിതമായി തരംതിരിക്കുക, ഡൈജസ്റ്റുകൾ സൃഷ്ടിക്കുക, ആശയങ്ങൾ തമ്മിലുള്ള ബന്ധങ്ങളുടെ പട്ടികകൾ (ഓൺലൈൻ പ്രസിദ്ധീകരണങ്ങളിൽ അവ സംഭവിക്കുന്നതുമായി ബന്ധപ്പെട്ട്), വ്യക്തിഗത ആശയങ്ങളുടെ ഭാരം മൂല്യങ്ങളുടെ വിതരണത്തിന്റെ ഹിസ്റ്റോഗ്രാമുകൾ, അതുപോലെ തന്നെ കാലക്രമേണ അവ സംഭവിക്കുന്നതിന്റെ ചലനാത്മകത. MS WORD (DOC, RTF), PDF, കൂടാതെ എല്ലാ ടെക്സ്റ്റ് ഫോർമാറ്റുകളിലും (പ്ലെയിൻ ടെക്സ്റ്റ്, HTML, XML) ഡാറ്റ പ്രോസസ്സ് ചെയ്യാൻ InfoStream സാങ്കേതികവിദ്യ നിങ്ങളെ അനുവദിക്കുന്നു. InfoStream അടിസ്ഥാനമാക്കിയുള്ള സിസ്റ്റങ്ങൾ നിലവിൽ ഇനിപ്പറയുന്ന OS പ്ലാറ്റ്‌ഫോമുകളിൽ പ്രവർത്തിക്കുന്നു: FreeBDS, Linux, Solaris.

നമുക്ക് ഭാവിയിലേക്ക് നോക്കാം

ടെക്സ്റ്റുകൾ, റേഡിയോ, ടെലിവിഷൻ പ്രക്ഷേപണങ്ങൾ എന്നിവയിൽ വിവരങ്ങൾ തിരയാൻ ഉപയോഗിക്കുന്ന "ഡാറ്റ മൈനിംഗ്" സാങ്കേതികവിദ്യകൾ യുഎസ് സെൻട്രൽ ഇന്റലിജൻസ് ഏജൻസി പൊതുജനങ്ങൾക്ക് മുന്നിൽ അവതരിപ്പിച്ചു. ഇന്റലിജൻസ് ഏജൻസി പൊതുജനങ്ങൾക്ക് ടെക്‌സ്‌റ്റ് ഡാറ്റ മൈനിംഗ് എന്ന സാങ്കേതിക വിദ്യ പ്രദർശിപ്പിച്ചു, വിവിധ ഭാഷകളിലെ റേഡിയോ, ടെലിവിഷൻ പ്രക്ഷേപണങ്ങളിൽ വലിയൊരു കൂട്ടം രേഖകളിൽ അർത്ഥവത്തായ വിവരങ്ങൾ തിരയാൻ ഉപയോഗിച്ചിരുന്നു. ചിട്ടയായതും ക്രമരഹിതവുമായ സ്രോതസ്സുകൾ ഉപയോഗിച്ചാണ് തിരയൽ നടത്തുന്നത്, കൂടാതെ തിരയൽ ഒബ്ജക്റ്റുകൾ അച്ചടിച്ച പ്രസിദ്ധീകരണങ്ങളിലും ഡിജിറ്റൽ രൂപത്തിലും ഉള്ള പാഠങ്ങളാണ്, ഗ്രാഫിക് ചിത്രങ്ങൾ, 35 ഭാഷകളിൽ ഓഡിയോ വിവരങ്ങൾ. ഓഡിയോ വിവരങ്ങൾ ഫിൽട്ടർ ചെയ്യുന്നതിന്, "ഒയാസിസ്" ടെക്നിക് ഉപയോഗിക്കുന്നു, അത് സംഭാഷണം തിരിച്ചറിയുകയും അതിനെ വാചകമായി മാറ്റുകയും ചെയ്യുന്നു. അതേ സമയം, സാങ്കേതികവിദ്യ വേർപെടുത്തുന്നത് സാധ്യമാക്കുന്നു പുരുഷ ശബ്ദങ്ങൾസ്ത്രീകളിൽ നിന്ന്, അതുപോലെ തന്നെ ശബ്ദങ്ങൾ വ്യത്യസ്ത ആളുകൾ, അവ ഡയലോഗുകളായി എഴുതുക. "ഒയാസിസ്" ടെക്നിക് ഓഡിയോ സ്ട്രീമിൽ നിന്ന് ആ ശബ്ദങ്ങൾ അല്ലെങ്കിൽ തിരയൽ ക്രമീകരണങ്ങളിൽ ഉൾപ്പെടുത്തിയിട്ടുള്ള നിർദ്ദിഷ്ട വിവരങ്ങൾ മാത്രം തിരഞ്ഞെടുക്കാൻ നിങ്ങളെ അനുവദിക്കുന്നു.

മറ്റുള്ളവ കമ്പ്യൂട്ടർ സാങ്കേതികവിദ്യ Fluent എന്ന് വിളിക്കുന്നത് CIA യൂണിറ്റുകളെ ടെക്സ്റ്റ് ഡോക്യുമെന്റുകളിൽ വിവരങ്ങൾ തിരയാൻ അനുവദിക്കുന്നു. ഈ സാങ്കേതികവിദ്യയിൽ ഒരു കീവേഡ് തിരയൽ ഉൾപ്പെടുന്നു, അവിടെ ഒരു വാക്കോ കോമ്പിനേഷനോ ഇംഗ്ലീഷിൽ നൽകിയിട്ടുണ്ട്, അത് ഉടൻ തന്നെ മറ്റ് നിരവധി ഭാഷകളിലേക്ക് വിവർത്തനം ചെയ്യപ്പെടുന്നു, കൂടാതെ വിവിധ ഭാഷകളിലെ ഡാറ്റാബേസിൽ നിന്ന് കണ്ടെത്തിയ വിവരങ്ങൾ യാന്ത്രിക വിവർത്തനത്തിന് ശേഷം ഗവേഷകന് അയയ്ക്കുന്നു. മറ്റൊരു പ്രോഗ്രാം, ടെക്സ്റ്റ് ഡാറ്റ മൈനിംഗ്, ടെക്സ്റ്റ് ഡോക്യുമെന്റുകൾക്കായി സബ്ജക്ട് ഇൻഡെക്സുകൾ സ്വപ്രേരിതമായി സൃഷ്ടിക്കാൻ നിങ്ങളെ അനുവദിക്കുന്നു, അതുപോലെ ഡോക്യുമെന്റുകളിൽ ചില പദങ്ങളുടെ ഉപയോഗത്തിന്റെ ആവൃത്തിയിൽ ഡാറ്റ നേടുകയും ചെയ്യുന്നു. നിയമവിരുദ്ധമായ സാമ്പത്തിക ഇടപാടുകളും മയക്കുമരുന്ന് കടത്തും ട്രാക്ക് ചെയ്യാൻ സിഐഎ ഇന്ന് ഈ സാങ്കേതികവിദ്യകൾ ഉപയോഗിക്കുന്നു.

മുകളിൽ സൂചിപ്പിച്ച സാങ്കേതികവിദ്യകൾ കൈകാര്യം ചെയ്യുന്നത് സിഐഎയുടെ സയൻസ് ആൻഡ് ടെക്നോളജി ഡയറക്ടറേറ്റിലെ അഡ്വാൻസ്ഡ് ഇൻഫർമേഷൻ ടെക്നോളജി (എഐടി) വിഭാഗമാണ്. "എല്ലാ ദിവസവും ഇവിടെ പ്രവഹിക്കുന്ന വിവരങ്ങളുടെ സ്ഫോടനം നിലനിർത്താൻ ഞങ്ങൾ വേഗത്തിൽ വളരുന്നില്ല," എഐടി ഡയറക്ടർ ലാറി ഫെയർചൈൽഡ് പറഞ്ഞു. "പ്രോസസ്സ് ചെയ്യപ്പെടുന്ന വലിയ അളവിലുള്ള ഡാറ്റയെ നേരിടാൻ ജീവനക്കാരെ സഹായിക്കുന്നതിനുള്ള സാങ്കേതികവിദ്യ ഞങ്ങൾ സജ്ജരാക്കേണ്ടതുണ്ട്. ഈച്ച."

ഉപകരണങ്ങളുടെ പ്രൊഫഷണൽ ഉപയോഗത്തിന്റെ കാര്യത്തിൽ ടെക്സ്റ്റ് മൈനിംഗ് CIA ഒരു കുത്തകയിൽ നിന്ന് വളരെ അകലെയാണ്. അനലിറ്റിക്കൽ കമ്പനിയായ ഐഡിസിയുടെ പ്രവചനങ്ങൾ അനുസരിച്ച്, ഡിമാൻഡ് സമാനമായ പ്രോഗ്രാമുകൾഅടുത്ത 4-5 വർഷത്തിനുള്ളിൽ ഗണ്യമായി വർദ്ധിക്കും. അങ്ങനെ, 2005 ആകുമ്പോഴേക്കും ഇത്തരം സോഫ്റ്റ്‌വെയറിൽ നിന്നുള്ള ലാഭം 540 മില്യൺ ഡോളറിൽ നിന്ന് (2002 ൽ) ഒന്നര ബില്യൺ ഡോളറായി ഉയരുമെന്ന് പ്രതീക്ഷിക്കുന്നു. കണ്ടെത്തിയ വിവരങ്ങളുടെ എക്സ്പ്രസ് വിശകലനം, വിവര നിരീക്ഷണം (ഒരു പ്രത്യേക പ്രശ്നത്തെക്കുറിച്ചുള്ള ചിതറിക്കിടക്കുന്ന നേരിട്ടുള്ളതും പരോക്ഷവുമായ വിവരങ്ങൾ വേർതിരിച്ചെടുക്കൽ), വ്യക്തികളുടെ പ്രവണതകളും ബന്ധങ്ങളും, സംഭവങ്ങൾ, പ്രക്രിയകൾ എന്നിവ തിരിച്ചറിയാനുള്ള കഴിവുള്ള തീമാറ്റിക് ഡോസിയറുകളുടെ രൂപീകരണവും പരിപാലനവും പോലുള്ള അവസരങ്ങൾ ഇതിനകം ഉപയോഗിച്ചു. നിരവധി വൻകിട സംരംഭങ്ങളാൽ, തീർച്ചയായും കൂടുതൽ ആവശ്യക്കാരുണ്ടാകും.

2006-ഓടെ, കോൾ സെന്ററുകളോ ഇന്റർനെറ്റ് ഏജൻസികളോ അനലിറ്റിക്കൽ ഏജൻസികളോ ആകട്ടെ, ഏത് തലത്തിലുള്ള കമ്പനികളിലെയും ഉപഭോക്താക്കളിൽ നിന്നുള്ള വിവരങ്ങളുടെ വിശകലനത്തിൽ ഇത്തരത്തിലുള്ള പ്രോഗ്രാമുകൾ പ്രബലമാകും, മുമ്പ് META ഗ്രൂപ്പിന്റെ വിദഗ്ദ്ധനായ അലസ്സാൻഡ്രോ സനാസി പറയുന്നു. സൂചകങ്ങളുടെ സങ്കീർണ്ണ ഗ്രിഡുമായി പൊരുത്തപ്പെടുന്ന റെസ്യൂമുകൾക്കായി തിരയാൻ എച്ച്ആർ വകുപ്പുകൾ ടെക്സ്റ്റ് മൈനിംഗ് പ്രോഗ്രാമുകൾ ഉപയോഗിക്കും. മാർക്കറ്റിംഗ് ഡിപ്പാർട്ട്‌മെന്റുകൾ അത്തരം പ്രോഗ്രാമുകൾക്കായി വിപണി സാഹചര്യത്തിന്റെ അനലൈസറുകൾ, ട്രാക്കിംഗ് ട്രെൻഡുകൾ, എതിരാളികളുടെ സ്ഥാനം, വിവരങ്ങളുടെയും വിവിധ സ്രോതസ്സുകളുടെയും അടിസ്ഥാനത്തിൽ മറ്റ് സൂചകങ്ങൾ - വാർത്താ ഫീഡുകൾ, ഗവേഷണ റിപ്പോർട്ടുകൾ, അവലോകനങ്ങൾ, പേറ്റന്റുകൾ എന്നിവ കണ്ടെത്തും.

വെബ് മൈനിംഗ്"വെബ് ഡാറ്റ മൈനിംഗ്" എന്ന് വിവർത്തനം ചെയ്യാം. വെബ് ഇന്റലിജൻസ് അല്ലെങ്കിൽ വെബ് ഇന്റലിജൻസ് അതിവേഗ വികസനത്തിൽ "ഒരു പുതിയ അധ്യായം തുറക്കാൻ" തയ്യാറാണ് ഇ-ബിസിനസ്. ഓരോ സന്ദർശകന്റെയും പെരുമാറ്റം നിരീക്ഷിച്ച് താൽപ്പര്യങ്ങളും മുൻഗണനകളും നിർണ്ണയിക്കാനുള്ള കഴിവ് ഇ-കൊമേഴ്‌സ് വിപണിയിലെ ഗൗരവമേറിയതും നിർണായകവുമായ മത്സര നേട്ടമാണ്.

വെബ് മൈനിംഗ് സിസ്റ്റങ്ങൾക്ക് നിരവധി ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകാൻ കഴിയും, ഉദാഹരണത്തിന്, സന്ദർശകരിൽ ആരാണ് ഒരു വെബ് സ്റ്റോറിന്റെ സാധ്യതയുള്ള ക്ലയന്റ്, ഏത് വെബ് സ്റ്റോർ ഉപഭോക്താക്കൾ ഏറ്റവും കൂടുതൽ വരുമാനം നൽകുന്നു, ഒരു പ്രത്യേക സന്ദർശകന്റെയോ സന്ദർശകരുടെ ഗ്രൂപ്പിന്റെയോ താൽപ്പര്യങ്ങൾ എന്തൊക്കെയാണ്.

വെബ് മൈനിംഗ് സാങ്കേതികവിദ്യ സൈറ്റ് ഡാറ്റയെ അടിസ്ഥാനമാക്കി പുതിയതും മുമ്പ് അറിയപ്പെടാത്തതുമായ അറിവുകൾ കണ്ടെത്തുന്നതിന് പ്രാപ്തമായ രീതികൾ ഉൾക്കൊള്ളുന്നു, അവ പിന്നീട് പ്രായോഗികമായി ഉപയോഗിക്കാൻ കഴിയും. മറ്റൊരു വിധത്തിൽ പറഞ്ഞാൽ, വെബ്‌സൈറ്റുകളിൽ അടങ്ങിയിരിക്കുന്ന ഘടനാരഹിതവും വൈവിധ്യപൂർണ്ണവും വിതരണം ചെയ്തതും വലിയ അളവിലുള്ളതുമായ വിവരങ്ങൾ വിശകലനം ചെയ്യാൻ വെബ് മൈനിംഗ് സാങ്കേതികവിദ്യ ഡാറ്റാ മൈനിംഗ് സാങ്കേതികവിദ്യ ഉപയോഗിക്കുന്നു.

വെബ് മൈനിംഗ് ടാക്സോണമി അനുസരിച്ച്, രണ്ട് പ്രധാന മേഖലകൾ ഇവിടെ വേർതിരിച്ചറിയാൻ കഴിയും: വെബ് ഉള്ളടക്ക ഖനനവും വെബ് ഉപയോഗ ഖനനവും.

വെബ് ഉള്ളടക്ക ഖനനം"ഓവർലോഡ് ചെയ്തിട്ടുള്ള വിവിധ ഇന്റർനെറ്റ് ഉറവിടങ്ങളിൽ നിന്ന് സ്വയമേവയുള്ള തിരയലും ഉയർന്ന നിലവാരമുള്ള വിവരങ്ങൾ വേർതിരിച്ചെടുക്കലും സൂചിപ്പിക്കുന്നു വിവര ശബ്ദം". ഡോക്യുമെന്റുകൾ ക്ലസ്റ്ററിംഗ് ചെയ്യുന്നതിനും വ്യാഖ്യാനിക്കുന്നതിനുമുള്ള വിവിധ മാർഗങ്ങളെക്കുറിച്ചും ഞങ്ങൾ സംസാരിക്കുന്നു.

ഈ ദിശയിൽ, രണ്ട് സമീപനങ്ങളുണ്ട്: ഏജന്റ് അടിസ്ഥാനമാക്കിയുള്ള സമീപനവും ഡാറ്റാബേസ് അടിസ്ഥാനമാക്കിയുള്ള സമീപനവും.

ഏജന്റ് അടിസ്ഥാനമാക്കിയുള്ള സമീപനത്തിൽ ഇനിപ്പറയുന്ന സംവിധാനങ്ങൾ ഉൾപ്പെടുന്നു:

  • ഇന്റലിജന്റ് സെർച്ച് ഏജന്റ്സ്;
  • വിവര ഫിൽട്ടറിംഗ് / വർഗ്ഗീകരണം;
  • വ്യക്തിഗതമാക്കിയ നെറ്റ്‌വർക്ക് ഏജന്റുകൾ.

ഇന്റലിജന്റ് സെർച്ച് ഏജന്റ് സിസ്റ്റങ്ങളുടെ ഉദാഹരണങ്ങൾ:

  • വിളവെടുപ്പ് (ബ്രൗൺ et al., 1994),
  • പതിവ് ചോദ്യങ്ങൾ-ഫൈൻഡർ (ഹാമണ്ട് et al., 1995),
  • ഇൻഫർമേഷൻ മാനിഫോൾഡ് (കിർക്ക് et al., 1995)
  • OCCAM (ക്വോക്ക് ആൻഡ് വെൽഡ്, 1996), പാരാസൈറ്റ് (സ്പെർട്ടസ്, 1997),
  • ILA (ഇൻഫർമേഷൻ ലേണിംഗ് ഏജന്റ്) (Perkowitz and Etzioni, 1995),
  • ഷോപ്പ്ബോട്ട് (ഡോറൻബോസ് മറ്റുള്ളവരും, 1996).

ഡാറ്റാബേസ് സമീപനത്തിൽ സിസ്റ്റങ്ങൾ ഉൾപ്പെടുന്നു:

  • മൾട്ടി ലെവൽ ഡാറ്റാബേസുകൾ;
  • വെബ് അന്വേഷണ സംവിധാനങ്ങൾ;

വെബ് അഭ്യർത്ഥന സംവിധാനങ്ങളുടെ ഉദാഹരണങ്ങൾ:

  • W3QL (കൊനോപ്നിക്കിയും ഷ്മുയേലിയും, 1995),
  • വെബ്ലോഗ് (ലക്ഷ്മണൻ et al., 1996),
  • ലോറൽ (ക്വാസ് എറ്റ്., 1995),
  • UnQL (Buneman et al., 1995 and 1996),
  • TSIMMIS (ചാവാതെ മറ്റുള്ളവരും, 1994).

രണ്ടാമത്തെ ദിശ വെബ് ഉപയോഗം ഖനനംഒരു വെബ് സൈറ്റ് ഉപയോക്താവിന്റെയോ ഉപയോക്താക്കളുടെ ഗ്രൂപ്പിന്റെയോ പ്രവർത്തനങ്ങളിലെ പാറ്റേണുകൾ കണ്ടെത്തുന്നത് ഉൾപ്പെടുന്നു.

ഇനിപ്പറയുന്ന വിവരങ്ങൾ വിശകലനം ചെയ്യുന്നു:

  • ഉപയോക്താവ് കണ്ട പേജുകൾ;
  • പേജുകൾ കാണുന്നതിന്റെ ക്രമം എന്താണ്.

വെബ്‌സൈറ്റിന്റെ ബ്രൗസിംഗ് ചരിത്രത്തെ അടിസ്ഥാനമാക്കി മൊത്തം എണ്ണത്തിൽ ഏതൊക്കെ ഉപയോക്താക്കളുടെ ഗ്രൂപ്പുകളെ തിരിച്ചറിയാൻ കഴിയുമെന്നും ഇത് വിശകലനം ചെയ്യുന്നു.

വെബ് ഉപയോഗ ഖനനത്തിൽ ഇനിപ്പറയുന്ന ഘടകങ്ങൾ ഉൾപ്പെടുന്നു:

  • പ്രാഥമിക പ്രോസസ്സിംഗ്;
  • പ്രവർത്തന തിരിച്ചറിയൽ;
  • പാറ്റേൺ കണ്ടെത്തൽ ഉപകരണങ്ങൾ;
  • പാറ്റേൺ വിശകലന ഉപകരണങ്ങൾ.

ചെയ്തത് വെബ് ഉപയോഗിക്കുന്നുമൈനിംഗ് ഡെവലപ്പർമാർ രണ്ട് തരത്തിലുള്ള ജോലികൾ അഭിമുഖീകരിക്കുന്നു. ആദ്യത്തേത് ഡാറ്റ ശേഖരണത്തെക്കുറിച്ചാണ്, രണ്ടാമത്തേത് വ്യക്തിവൽക്കരണ രീതികളുടെ ഉപയോഗത്തെക്കുറിച്ചാണ്. ഒരു നിർദ്ദിഷ്‌ട ക്ലയന്റിനെക്കുറിച്ച് ഒരു നിശ്ചിത തുക വ്യക്തിഗതമാക്കിയ മുൻകാല ഡാറ്റ ശേഖരിക്കുന്നതിന്റെ ഫലമായി, സിസ്റ്റം അവനെക്കുറിച്ചുള്ള ചില അറിവുകൾ ശേഖരിക്കുകയും അവനോട് ശുപാർശ ചെയ്യാൻ കഴിയും, ഉദാഹരണത്തിന്, ചില സെറ്റ് ചരക്കുകൾ അല്ലെങ്കിൽ സേവനങ്ങൾ. എല്ലാ സൈറ്റ് സന്ദർശകരെയും കുറിച്ചുള്ള വിവരങ്ങളുടെ അടിസ്ഥാനത്തിൽ, വെബ് സിസ്റ്റത്തിന് സന്ദർശകരുടെ ചില ഗ്രൂപ്പുകളെ തിരിച്ചറിയാനും അവർക്ക് ഉൽപ്പന്നങ്ങൾ ശുപാർശ ചെയ്യാനോ മെയിലിംഗുകളിൽ ഉൽപ്പന്നങ്ങൾ വാഗ്ദാനം ചെയ്യാനോ കഴിയും.

വെബ് മൈനിംഗ് ജോലികളെ ഇനിപ്പറയുന്ന വിഭാഗങ്ങളായി തിരിക്കാം:

  • വെബ് മൈനിംഗിനായുള്ള ഡാറ്റ പ്രീപ്രോസസിംഗ്.
  • അസോസിയേഷൻ നിയമങ്ങൾ, ടെമ്പറൽ സീക്വൻസുകൾ, വർഗ്ഗീകരണം, ക്ലസ്റ്ററിംഗ് എന്നിവ ഉപയോഗിച്ച് പാറ്റേൺ കണ്ടെത്തലും അറിവ് കണ്ടെത്തലും;
  • നേടിയ അറിവിന്റെ വിശകലനം.

ടെക്സ്റ്റ് മൈനിംഗ്

ടെക്സ്റ്റ് മൈനിംഗ്സെമാന്റിക് ടെക്സ്റ്റ് വിശകലനം, വിവരങ്ങൾ വീണ്ടെടുക്കൽ, മാനേജ്മെന്റ് എന്നിവ നടത്തുന്നതിനുള്ള പുതിയ സാങ്കേതിക വിദ്യകൾ ഉൾക്കൊള്ളുന്നു. ടെക്സ്റ്റ് മൈനിംഗ് എന്ന ആശയത്തിന്റെ പര്യായപദമാണ് KDT (Nowledge Discovering in Text - തിരയൽ അല്ലെങ്കിൽ വാചകത്തിലെ അറിവ് കണ്ടെത്തൽ).

ചില ഘടനകളിൽ ക്രമീകരിച്ചിരിക്കുന്ന വിവരങ്ങളുടെ വിശകലനം ഉൾപ്പെടുന്ന ഡാറ്റാ മൈനിംഗ് സാങ്കേതികവിദ്യയിൽ നിന്ന് വ്യത്യസ്തമായി, ടെക്സ്റ്റ് മൈനിംഗ് സാങ്കേതികവിദ്യ ഘടനാരഹിതമായ വിവരങ്ങളുടെ വലുതും അതിവിശാലവുമായ ശ്രേണികളെ വിശകലനം ചെയ്യുന്നു.

ഈ ടാസ്‌ക് നടപ്പിലാക്കുന്ന പ്രോഗ്രാമുകൾ എങ്ങനെയെങ്കിലും സ്വാഭാവിക മാനുഷിക ഭാഷ ഉപയോഗിച്ച് പ്രവർത്തിക്കുകയും അതേ സമയം വിശകലനം ചെയ്ത വാചകത്തിന്റെ സെമാന്റിക്‌സ് മനസ്സിലാക്കുകയും വേണം. ചില ടെക്സ്റ്റ് മൈനിംഗ് സിസ്റ്റങ്ങൾ അടിസ്ഥാനമാക്കിയുള്ള ഒരു രീതി, ഒരു സ്ട്രിംഗിൽ സബ്‌സ്ട്രിംഗ് എന്ന് വിളിക്കപ്പെടുന്നവ തിരയുക എന്നതാണ്.

മൈനിംഗ് വിളിക്കുക

ആൻ ബെഡ്നാർസിന്റെ അഭിപ്രായത്തിൽ, എന്റർപ്രൈസ് ഇൻഫർമേഷൻ സിസ്റ്റങ്ങളിൽ കോൾ മൈനിംഗ് ഒരു ജനപ്രിയ ഉപകരണമായി മാറിയേക്കാം.

സാങ്കേതികവിദ്യ മൈനിംഗ് വിളിക്കുകസംഭാഷണം തിരിച്ചറിയൽ, സംഭാഷണ വിശകലനം, ഡാറ്റാ മൈനിംഗ് എന്നിവ സംയോജിപ്പിക്കുന്നു. ഓപ്പറേറ്റർമാരും ക്ലയന്റുകളും തമ്മിലുള്ള സംഭാഷണങ്ങളുടെ റെക്കോർഡിംഗുകൾ അടങ്ങിയ ഓഡിയോ ആർക്കൈവുകളിലെ തിരയലുകൾ ലളിതമാക്കുക എന്നതാണ് ഇതിന്റെ ലക്ഷ്യം. ഈ സാങ്കേതികവിദ്യ ഉപയോഗിച്ച്, ഓപ്പറേറ്റർമാർക്ക് ഉപഭോക്തൃ സേവനത്തിലെ വിടവുകൾ തിരിച്ചറിയാനും വിൽപ്പന വർദ്ധിപ്പിക്കുന്നതിനുള്ള അവസരങ്ങൾ തിരിച്ചറിയാനും ഉപഭോക്തൃ ആശയവിനിമയത്തിലെ പ്രവണതകൾ തിരിച്ചറിയാനും കഴിയും.

ഡെവലപ്പർമാർക്കിടയിൽ പുതിയ സാങ്കേതികവിദ്യകോൾ മൈനിംഗ് ("ഖനനവും" കോളുകളുടെ വിശകലനവും) - കമ്പനികൾ CallMiner, Nexidia, ScanSoft, Witness Systems. കോൾ മൈനിംഗ് സാങ്കേതികവിദ്യ രണ്ട് സമീപനങ്ങൾ വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട് - സംഭാഷണം-ടു-വാചകം പരിവർത്തനം അടിസ്ഥാനമാക്കിയും സ്വരസൂചക വിശകലനത്തെ അടിസ്ഥാനമാക്കിയും.

സംഭാഷണ പരിവർത്തനത്തെ അടിസ്ഥാനമാക്കിയുള്ള ആദ്യ സമീപനം നടപ്പിലാക്കുന്നതിനുള്ള ഒരു ഉദാഹരണം CallMiner സിസ്റ്റം ആണ്. കോൾ മൈനിംഗ് പ്രക്രിയയിൽ, ഒരു സംഭാഷണ പരിവർത്തന സംവിധാനം ആദ്യം ഉപയോഗിക്കുന്നു, തുടർന്ന് അതിന്റെ വിശകലനം നടത്തുന്നു, ഈ സമയത്ത്, സംഭാഷണങ്ങളുടെ ഉള്ളടക്കത്തെ ആശ്രയിച്ച്, ടെലിഫോൺ കോൾ സ്ഥിതിവിവരക്കണക്കുകൾ സൃഷ്ടിക്കപ്പെടുന്നു. ലഭിച്ച വിവരങ്ങൾ ഒരു ഡാറ്റാബേസിൽ സംഭരിച്ചിരിക്കുന്നു, അത് തിരയാനും വീണ്ടെടുക്കാനും പ്രോസസ്സ് ചെയ്യാനും കഴിയും.

രണ്ടാമത്തെ സമീപനം നടപ്പിലാക്കുന്നതിനുള്ള ഒരു ഉദാഹരണം - സ്വരസൂചക വിശകലനം - നെക്സിഡിയയുടെ ഉൽപ്പന്നമാണ്. ഈ സമീപനം ഉപയോഗിച്ച്, സംസാരം ശബ്ദങ്ങൾ അല്ലെങ്കിൽ ശബ്ദങ്ങളുടെ സംയോജനം ആയ ശബ്ദങ്ങൾ ആയി വിഭജിക്കപ്പെടുന്നു. അത്തരം ഘടകങ്ങൾ തിരിച്ചറിയാവുന്ന ശകലങ്ങൾ ഉണ്ടാക്കുന്നു. ചില വാക്കുകളും അവയുടെ കോമ്പിനേഷനുകളും തിരയുമ്പോൾ, സിസ്റ്റം അവയെ ഫോണിമുകൾ ഉപയോഗിച്ച് തിരിച്ചറിയുന്നു.

സമീപ വർഷങ്ങളിൽ, കോൾ മൈനിംഗിനെ അടിസ്ഥാനമാക്കിയുള്ള സിസ്റ്റങ്ങളോടുള്ള താൽപര്യം ഗണ്യമായി വർദ്ധിച്ചതായി വിശകലന വിദഗ്ധർ അഭിപ്രായപ്പെടുന്നു. വിവിധ മേഖലകളിൽ പ്രവർത്തിക്കുന്ന കമ്പനികളുടെ മുതിർന്ന മാനേജർമാർ ഉൾപ്പെടെയുള്ളവർ ഇത് വിശദീകരിക്കുന്നു. ഫിനാൻസ്, മൊബൈൽ കമ്മ്യൂണിക്കേഷൻസ്, എയർലൈൻ ബിസിനസ്സ് എന്നീ മേഖലകളിൽ, വിവരങ്ങൾ സംഗ്രഹിക്കുന്നതിനോ ലംഘനങ്ങളുടെ ഏതെങ്കിലും വസ്തുതകൾ തിരിച്ചറിയുന്നതിനോ വേണ്ടി കോളുകൾ കേൾക്കാൻ ധാരാളം സമയം ചെലവഴിക്കാൻ അവർ ആഗ്രഹിക്കുന്നില്ല.

ഡാറ്റാമോണിറ്ററിലെ ഒരു അനലിസ്റ്റായ ഡാനിയൽ ഹോങ്ങിന്റെ അഭിപ്രായത്തിൽ: "ഈ സാങ്കേതികവിദ്യകളുടെ ഉപയോഗം കാര്യക്ഷമത വർദ്ധിപ്പിക്കുകയും വിവരങ്ങൾ പ്രോസസ്സ് ചെയ്യുന്നതിനുള്ള ചെലവ് കുറയ്ക്കുകയും ചെയ്യുന്നു."

Nexidia ഡവലപ്പറിൽ നിന്നുള്ള ഉൽപ്പന്നങ്ങളുടെ ഒരു സാധാരണ ഇൻസ്റ്റാളേഷന് 100 മുതൽ 300 ആയിരം ഡോളർ വരെ ചിലവാകും. CallMiner സ്പീച്ച് കൺവേർഷൻ സിസ്റ്റവും ഒരു കൂട്ടം അനലിറ്റിക്കൽ ആപ്ലിക്കേഷനുകളും നടപ്പിലാക്കുന്നതിനുള്ള ചെലവ് ഏകദേശം 450 ആയിരം ഡോളറാണ്.

Schoeller പറയുന്നതനുസരിച്ച്, ഓഡിയോ മൈനിംഗ്, വീഡിയോ മൈനിംഗ് ആപ്ലിക്കേഷനുകൾ ഒടുവിൽ വളരെ വിപുലമായ ഉപയോഗം കണ്ടെത്തും, ഉദാഹരണത്തിന്, കമ്പനി മീഡിയ ലൈബ്രറികളിലെ വിദ്യാഭ്യാസ വീഡിയോകളും അവതരണങ്ങളും സൂചികയിലാക്കുന്നതിൽ. എന്നിരുന്നാലും, ഓഡിയോ മൈനിംഗ്, വീഡിയോ മൈനിംഗ് സാങ്കേതികവിദ്യകൾ ഇപ്പോൾ ഒരു നവീന തലത്തിലാണ്, അവയുടെ പ്രായോഗിക പ്രയോഗം വളരെ പ്രാരംഭ ഘട്ടത്തിലാണ്.

ഇന്ന്, വിവിധ ആപ്ലിക്കേഷൻ ഏരിയകളിലെ ഘടനാപരമായ വിവരങ്ങൾ വിശകലനം ചെയ്യുന്നതിനുള്ള പ്രശ്നങ്ങൾ, ടാസ്ക്കുകളുടെ പ്രത്യേകതകൾ അനുസരിച്ച്, 90-100% വരെ പരിഹരിച്ചു. ഒരു സാങ്കേതിക വീക്ഷണകോണിൽ നിന്ന്, ഇത് വളരെ ലളിതമായി വിശദീകരിക്കാം: ഡാറ്റാബേസിൽ സംഭരിച്ചിരിക്കുന്ന ഡാറ്റ "കാണാൻ" ആധുനിക വിശകലന ഉപകരണങ്ങൾ നിങ്ങളെ അനുവദിക്കുന്നു. ജനപ്രിയ രീതികളെ അടിസ്ഥാനമാക്കിയുള്ള OLAP, BI, Data Mining തുടങ്ങിയ ഉപയോക്താക്കൾക്ക് പരിചിതമായ സാങ്കേതികവിദ്യകൾ വിപണിയിൽ വ്യാപകമായി പ്രതിനിധീകരിക്കുന്നു. സ്റ്റാറ്റിസ്റ്റിക്കൽ പ്രോസസ്സിംഗ്, പ്രവചനവും ദൃശ്യവൽക്കരണവും.

ഘടനാരഹിതമായ ഡാറ്റയുടെ വിശകലനത്തോടെ തികച്ചും വിപരീതമായ ഒരു സാഹചര്യം വികസിച്ചു, മറ്റൊരു വിധത്തിൽ പറഞ്ഞാൽ, സ്വാഭാവിക മനുഷ്യ ഭാഷയിൽ എഴുതിയ വാചകം. ഈ മേഖലയിലെ ഓട്ടോമേഷനുമായി ബന്ധപ്പെട്ട പ്രശ്നങ്ങൾ മിക്ക ഉപയോക്താക്കൾക്കും ഇതുവരെ പരിഹരിച്ചിട്ടില്ല. വിശകലനത്തെക്കുറിച്ച് സംസാരിക്കുമ്പോൾ, ഒരു പ്രത്യേക വ്യക്തിയുടെ ഒരു നിർദ്ദിഷ്ട ചോദ്യത്തിനുള്ള ഉത്തരം തിരയുക എന്നതാണ് ഞങ്ങൾ എല്ലായ്പ്പോഴും അർത്ഥമാക്കുന്നത്.

ഉദാഹരണത്തിന്, ഒരു സൂപ്പർവൈസറി സേവനത്തിൽ നിന്നുള്ള ഒരു അനലിസ്റ്റ് ചോദിക്കുന്നു: "ഏത് റഷ്യൻ ബാങ്കുകളാണ് ഏറ്റവും അപകടസാധ്യതയുള്ളത്?" ലളിതമായ രൂപത്തിൽ, റിസ്ക് അസസ്മെന്റുകൾ അടങ്ങുന്ന, വിശ്വാസ്യതയനുസരിച്ച് അടുക്കിയ ബാങ്കുകളുടെ ഒരു ലിസ്റ്റ് ആയിരിക്കും ഫലം. വിവരങ്ങൾ ഡാറ്റാബേസിൽ ഉള്ള സാഹചര്യത്തിൽ, എല്ലാം വ്യക്തമാണ്: ഡാറ്റാബേസ് അന്വേഷിക്കുന്നതിന് നിങ്ങൾ ഒരു വിശകലന ഉപകരണം സജ്ജമാക്കി, ഒരു ഫോർമുല നൽകി റിസ്ക് ലെവൽ അനുസരിച്ച് അടുക്കിയ ഒരു പട്ടിക പ്രദർശിപ്പിക്കാൻ "ചോദിക്കുക". എന്നാൽ ബുദ്ധിമുട്ട്, ചട്ടം പോലെ, ഈ വിവരങ്ങൾ ഡാറ്റാബേസിൽ ഇല്ല എന്നതാണ്. ഒരു രൂപത്തിൽ അല്ലെങ്കിൽ മറ്റൊന്നിൽ, ഇത് ഇന്റർനെറ്റിലും മറ്റ് ഉറവിടങ്ങളിലും ഉണ്ട്. എന്നാൽ ഘടനാരഹിതമായ ഡാറ്റയിൽ നിന്ന് അത് എങ്ങനെ വേർതിരിച്ചെടുക്കാം, ഉദാഹരണത്തിന് ബാങ്ക് റിപ്പോർട്ടുകളിൽ നിന്നും ഇന്റർനെറ്റിൽ പ്രസിദ്ധീകരിച്ച മറ്റ് രേഖകളിൽ നിന്നും?

മിക്കവാറും എല്ലാ ഉപയോക്താക്കളും ഇനിപ്പറയുന്നവ ചെയ്യുന്നു: അവർ ഒരു തിരയൽ എഞ്ചിനിലേക്ക് പോകുന്നു, ഉദാഹരണത്തിന് Yandex, ഒരു അന്വേഷണം നൽകുക - കൂടാതെ... അവർക്ക് ആയിരക്കണക്കിന് ആയിരക്കണക്കിന് ലിങ്കുകൾ ലഭിക്കുന്നു... ഇപ്പോൾ ഏറ്റവും രസകരമായ കാര്യം: ഞങ്ങൾ ഞങ്ങളുടെ സ്ലീവ് ചുരുട്ടി ക്ലിക്ക് ചെയ്യുക ലിങ്കുകളിൽ, ടെക്‌സ്‌റ്റിലൂടെ നോക്കുക, ബാങ്കിന്റെ പേര്, അതിന്റെ സേവനങ്ങളെക്കുറിച്ചുള്ള വിവരങ്ങൾ, അംഗീകൃത മൂലധനം, ലാഭം, ചെലവുകൾ, മറ്റ് സൂചകങ്ങൾ എന്നിവ ഉപയോഗിച്ച് ആവശ്യമായ ശകലങ്ങൾ തിരഞ്ഞെടുക്കുക, രീതിശാസ്ത്രം അല്ലെങ്കിൽ ഞങ്ങളുടെ ധാരണ അനുസരിച്ച്, അപകടസാധ്യതകൾ വിലയിരുത്തുക. ഞങ്ങൾ ലഭിച്ച ഡാറ്റ MS Excel-ലേക്ക് ലോഡ് ചെയ്യുന്നു, ഫോർമുലകൾ പ്രയോഗിക്കുന്നു, ഗ്രാഫുകൾ വരയ്ക്കുന്നു, സത്യസന്ധവും കഠിനാധ്വാനവും വഴി ലഭിച്ച ഫലത്തെ ഞങ്ങൾ അഭിനന്ദിക്കുന്നു.

ദൈനംദിന ജീവിതത്തിലും ബിസിനസ്സിലും സമാനമായ നിരവധി ഉദാഹരണങ്ങളുണ്ട്. അവയ്‌ക്ക് പൊതുവായ ഒരു കാര്യമുണ്ട് - മാനുവൽ തിരയലും ഡാറ്റ എക്‌സ്‌ട്രാക്‌ഷനുമായി ബന്ധപ്പെട്ട ദിനചര്യ. ഇതെല്ലാം മധ്യകാല ഖനികളുടെ ചിത്രത്തെ വളരെ അനുസ്മരിപ്പിക്കുന്നു: പിക്കുകളും കോരികകളും ഉള്ള ആയിരക്കണക്കിന് ആളുകൾ മുരടിച്ച പാറയിൽ കുഴിച്ച് ഉപയോഗപ്രദമായ ധാതുക്കളുടെ ധാന്യങ്ങൾ വേർതിരിച്ചെടുക്കുന്നു. ഘടനയില്ലാത്ത വിവരങ്ങളുമായി ഞങ്ങൾ പ്രവർത്തിക്കുന്ന രീതിയുടെ അടിസ്ഥാനത്തിൽ, ഞങ്ങൾ മധ്യകാലഘട്ടത്തിലാണെന്ന് ഇത് മാറുന്നു. ഈ "ഖനിത്തൊഴിലാളികളുടെ" കഠിനാധ്വാനം ഓട്ടോമേറ്റ് ചെയ്യാൻ ഇന്ന് സാധ്യമാണോ?

റഷ്യൻ, വിദേശ പരിശീലനത്തിന്റെ വിശകലനം കാണിക്കുന്നത് പോലെ, അത്തരം സാങ്കേതികവിദ്യകൾ നിലവിലുണ്ട്. ഉപയോക്താക്കൾക്ക് അവ എങ്ങനെ ഉപയോഗപ്രദമാകുമെന്നും മിഥ്യകളെ യാഥാർത്ഥ്യത്തിൽ നിന്ന് വേർതിരിക്കാനും എങ്ങനെ കഴിയുമെന്ന് മനസിലാക്കാൻ ശ്രമിക്കാം.

ഞങ്ങളുടെ പാത: തിരയൽ, വേർതിരിച്ചെടുക്കൽ, വിശകലനം

മുകളിലുള്ള ലളിതമായ ഉദാഹരണത്തിൽ നിന്ന്, അന്തിമ ഫലം (ചോദ്യത്തിന് ഉത്തരം നൽകൽ) നേടുന്ന പ്രക്രിയയെ മൂന്ന് ഘട്ടങ്ങളായി തിരിക്കാം. ആദ്യം ഞങ്ങൾ പ്രസക്തമായ ഡോക്യുമെന്റുകൾക്കായി നോക്കുന്നു, തുടർന്ന് കണ്ടെത്തിയതിൽ നിന്ന് ഞങ്ങൾ ഡാറ്റ എക്‌സ്‌ട്രാക്റ്റ് ചെയ്യുകയും ഒടുവിൽ അത് വിശകലനം ചെയ്യുകയും ചെയ്യുന്നു. അതനുസരിച്ച്, ഈ പ്രക്രിയയുടെ വിവിധ ഘട്ടങ്ങളുടെ ഓട്ടോമേഷന്റെ അളവ് അനുസരിച്ച് ആധുനിക സമീപനങ്ങളെ മൂന്ന് ഗ്രൂപ്പുകളായി തിരിക്കാം: പ്രമാണ തിരയൽ, വിവരങ്ങൾ വേർതിരിച്ചെടുക്കൽ, വിശകലനം.

അതേ സമയം, തിരയൽ ഓട്ടോമേഷനെ മാത്രം അടിസ്ഥാനമാക്കിയുള്ള ഒരു സമീപനം 90% കേസുകളിലും പ്രയോഗിക്കുന്നു, ഏകദേശം 10% സൊല്യൂഷനുകളിൽ വിവരങ്ങൾ വീണ്ടെടുക്കൽ യാന്ത്രികമാണ്, അപൂർവ സന്ദർഭങ്ങളിൽ മാത്രം സമാന സംവിധാനങ്ങൾവിശകലന ജോലി ഏറ്റെടുക്കുക. അന്തിമ ഉപയോക്താവിന് ഏറ്റവും മനസ്സിലാക്കാവുന്ന വിശകലന ടൂളുകളാണെങ്കിലും. ഈ അവസ്ഥയുടെ കാരണങ്ങൾ കൂടുതൽ ചർച്ച ചെയ്യും.

തിരയൽ എഞ്ചിനുകളുടെ പ്രയോഗം

ഈ സമീപനം എന്റർപ്രൈസിലെ ഒരു തിരയൽ സിസ്റ്റത്തിന്റെ സാന്നിധ്യം സൂചിപ്പിക്കുന്നു, ഇത് ഘടനാരഹിതമായ ടെക്സ്റ്റുകളുമായി പ്രവർത്തിക്കുന്നതിനുള്ള പ്രധാന ഉപകരണമായി ഉപയോഗിക്കുന്നു.

മാനേജർ അല്ലെങ്കിൽ അനലിസ്റ്റ് കീവേഡുകൾ നൽകുകയും റഫറൻസുകൾ പ്രോസസ്സ് ചെയ്യുകയും ഡോക്യുമെന്റ് വീണ്ടെടുക്കുകയും ഉള്ളടക്കം അവലോകനം ചെയ്യുകയും ആവശ്യമുള്ള വിവരങ്ങൾ തിരഞ്ഞെടുക്കുകയും ഒരു വിശകലന പ്രോഗ്രാമിലേക്കോ ഡാറ്റാബേസിലേക്കോ ലോഡ് ചെയ്യുകയും ഒരു റിപ്പോർട്ട് സൃഷ്ടിക്കുകയും ചെയ്യുന്നു. അനലിസ്റ്റിന്റെ അനുഭവത്തെ ആശ്രയിച്ച് അത്തരം ജോലിയുടെ ഉൽപ്പാദനക്ഷമത പ്രതിദിനം 400 മുതൽ 1000 വരെ ലേഖനങ്ങളാണെന്ന് അറിയാം. ഇത് കഠിനാധ്വാനമാണ്, മുകളിൽ സൂചിപ്പിച്ച ഖനികളിലെ ജോലിയുമായി താരതമ്യപ്പെടുത്താവുന്നതാണ്. ഇവിടെയുള്ള മനുഷ്യൻ മിക്കവാറും തിരക്കിലാണ് പതിവ് പ്രവർത്തനങ്ങൾ, അതിനാൽ യഥാർത്ഥ ബൗദ്ധിക പ്രവർത്തനങ്ങളിൽ കൂടുതൽ ശ്രദ്ധ ചെലുത്താൻ കഴിയില്ല.

ഈ സമീപനത്തിന്റെ പ്രധാന ഗുണങ്ങൾ വളരെ വ്യക്തമാണ്: വ്യാപകവും പൊതുവെ ആക്സസ് ചെയ്യാവുന്നതുമാണ് തിരയൽ സാങ്കേതികവിദ്യകൾ. നിങ്ങൾ ഒരു കീവേഡ് ടൈപ്പ് ചെയ്യുമ്പോൾ, ഒരു ബട്ടൺ അമർത്തിപ്പിടിച്ച്... ഒരു വ്യക്തിയല്ലാതെ മറ്റാർക്കും വിവരങ്ങളുടെ തുടർ പ്രോസസ്സിംഗിനെ നേരിടാൻ കഴിയില്ലെന്ന് ചിന്തിക്കുന്ന ശീലം ഇതിലേക്ക് ചേർക്കുക.

സെർച്ച് ടൂളുകൾ വളരെക്കാലമായി വികസിച്ചുകൊണ്ടിരിക്കുന്നതിനാൽ, പക്വതയുടെ ഉയർന്ന ഘട്ടത്തിൽ എത്തിയതിനാൽ, വിവരങ്ങൾ എവിടെയാണ് സ്ഥിതിചെയ്യുന്നത് എന്ന ചോദ്യത്തിന് ഉത്തരം നൽകുന്നതിൽ അവ തികച്ചും വിജയകരമാണ്. ഘടനാരഹിതമായ ഡാറ്റയുടെ ലോകത്ത് നാവിഗേറ്റ് ചെയ്യാൻ നിങ്ങളെ അനുവദിക്കുന്ന ഒരു കോമ്പസുമായി അവയെ താരതമ്യം ചെയ്യാം. പ്രത്യേക പരിശീലനമൊന്നും ആവശ്യമില്ലാത്ത തരത്തിൽ സെർച്ച് എഞ്ചിനുകളുമായി ഉപയോക്താക്കൾ ഇതിനകം പരിചിതരായിക്കഴിഞ്ഞു.

എന്നിരുന്നാലും, എങ്കിൽ ഞങ്ങൾ സംസാരിക്കുന്നത്വലിയ അളവിലുള്ള ഡാറ്റയുടെ പ്രോസസ്സിംഗിനെക്കുറിച്ച്, "ഖനന" വസ്തുതകളുടെയും അവയുടെ വിശകലനത്തിന്റെയും ഘട്ടങ്ങളിൽ കാര്യമായ മനുഷ്യവിഭവശേഷി ആവശ്യമായതിനാൽ, തിരയൽ എഞ്ചിനുകളുടെ ഉപയോഗം മാത്രം ഫലപ്രദമല്ല.

വിവരങ്ങൾ വേർതിരിച്ചെടുക്കുന്നതിനുള്ള ഓട്ടോമേഷൻ

ടെക്‌സ്‌റ്റിൽ നിന്ന് (ടെക്‌സ്‌റ്റ് മൈനിംഗ്) ആവശ്യമായ ഘടകങ്ങൾ എക്‌സ്‌ട്രാക്റ്റുചെയ്യാൻ കഴിവുള്ള ഒരു സാങ്കേതിക “വിപുലമായ” ഉപകരണത്തിന്റെ സാന്നിധ്യം ഈ സമീപനം അനുമാനിക്കുന്നു. ഇൻപുട്ട് സ്വാഭാവിക ഭാഷയിൽ എഴുതിയ വാചകമാണ്, കൂടാതെ ഔട്ട്‌പുട്ടിൽ ഉപയോക്താവ് ആവശ്യപ്പെട്ട വിവരങ്ങൾ ഘടനാപരമായ രൂപത്തിൽ സ്വീകരിക്കുന്നു എന്നതാണ് ഇതിന്റെ പ്രവർത്തനം. ഘടനകൾക്ക് ലളിതമായ എന്റിറ്റികളെയും (വ്യക്തികൾ, ഓർഗനൈസേഷനുകൾ, ഭൂമിശാസ്ത്രപരമായ പേരുകൾ) സങ്കീർണ്ണമായവ (ഒരു ഇവന്റ്, അതിൽ പങ്കെടുക്കുന്നവർ, തീയതി, സാമ്പത്തിക പാരാമീറ്ററുകൾ മുതലായവ ഉൾക്കൊള്ളുന്ന വസ്തുതകൾ) പ്രതിനിധീകരിക്കാൻ കഴിയും. ഇവന്റുകൾ വളരെ വ്യത്യസ്തമായിരിക്കും: സംഭവങ്ങൾ, ഇടപാടുകൾ, കോടതികൾ മുതലായവ. വിശകലനത്തിന് ഇതിനകം അനുയോജ്യമായ ഒരു ഡാറ്റാ ശേഖരത്തിൽ നിങ്ങളുടെ ജോലിയുടെ ഫലങ്ങൾ സ്വയമേവ ശേഖരിക്കാൻ ഈ ഉപകരണം നിങ്ങളെ അനുവദിക്കുന്നു.

അത്തരം ഡാറ്റാ സെറ്റുകൾ വിശകലനം ചെയ്യുന്നത് തീർച്ചയായും ഒരു തിരയൽ എഞ്ചിന്റെ ഫലങ്ങളേക്കാൾ എളുപ്പവും വേഗതയുമാണ്. എന്നിരുന്നാലും, ഇവിടെയും ടെക്സ്റ്റ് മൈനിംഗ് ടൂളുകൾ ഡോക്യുമെന്റ് ഉറവിടങ്ങൾ, സെർച്ച് എഞ്ചിനുകൾ, അനലിറ്റിക്കൽ ടൂളുകൾ എന്നിവയുമായി സംയോജിപ്പിക്കാൻ ശ്രമിക്കേണ്ടതുണ്ട്. ഇന്ന്, ടെക്സ്റ്റ് മൈനിംഗ് ടൂൾ വെണ്ടർമാർ അവരുടെ ഉൽപ്പന്നങ്ങൾക്ക് ഡോക്യുമെന്റ് ഉറവിടങ്ങളുമായും (മിക്കവാറും വെബ് ഉറവിടങ്ങളുമായും) XML ഫയലുകൾ വഴി ഡാറ്റാബേസുകളുമായും സംയോജിപ്പിക്കാനുള്ള കഴിവ് നൽകുന്നു. ഒരു SDK-യും നൽകിയിട്ടുണ്ട്, ഇതിന്റെ ഉപയോഗത്തിന് കൂടുതൽ ചെലവേറിയ വികസനം ആവശ്യമാണ്. എന്നാൽ ഈ സാങ്കേതികവിദ്യകൾ ഉപയോഗിക്കുന്നതിനുള്ള പ്രധാന പ്രശ്നം അത്തരം ഉപകരണങ്ങൾ സജ്ജീകരിക്കുന്നതിനും പരിപാലിക്കുന്നതിനുമുള്ള സങ്കീർണ്ണതയാണ്. വാക്യഘടനയിലും അർത്ഥശാസ്ത്രത്തിലും പ്രവർത്തിക്കുന്ന കമ്പ്യൂട്ടർ ഭാഷാശാസ്ത്രത്തിന്റെ പ്രത്യേകതകളാണ് ഇതിന് കാരണം. ചട്ടം പോലെ, അന്തിമ ഉപയോക്താക്കളും ഡവലപ്പർമാരും ഈ കാര്യങ്ങളിൽ നിന്ന് വളരെ അകലെയാണ്, തൽഫലമായി, അത്തരം ഉപകരണങ്ങളുടെ കഴിവുകൾ 5-10% മാത്രമേ ഉപയോഗിക്കുന്നുള്ളൂ.

എന്നിരുന്നാലും, ആയിരക്കണക്കിന് ഡോക്യുമെന്റുകൾ സ്വമേധയാ അവലോകനം ചെയ്യുകയും കീവേഡുകൾ തിരഞ്ഞെടുക്കുകയും ചെയ്യേണ്ടതിന്റെ ആവശ്യകതയിൽ നിന്ന് ഉപയോക്താവിന് ഇതിനകം തന്നെ ആശ്വാസം ലഭിച്ചിട്ടുണ്ട്. സിസ്റ്റം അവനുവേണ്ടി ഇത് ചെയ്യുന്നു. സമാന പ്രമാണങ്ങളുടെ യാന്ത്രിക വർഗ്ഗീകരണത്തിനും താരതമ്യത്തിനുമുള്ള അധിക സാധ്യതകൾ ദൃശ്യമാകുന്നു. കൂടാതെ, പ്രോഗ്രാമിന് തന്നെ ടെക്സ്റ്റിന്റെ സെമാന്റിക് ഘടകങ്ങൾ തിരിച്ചറിയാൻ കഴിയും, ഉദാഹരണത്തിന്, വസ്തുതകൾ, ഇവന്റുകൾ, തുടർന്നുള്ള പ്രോസസ്സിംഗിനായി അവ കൈമാറുക.

അനലിറ്റിക്കൽ നടപടിക്രമങ്ങളുടെ ഓട്ടോമേഷൻ

ഏറ്റവും ലളിതമായ സാഹചര്യത്തിൽ, അന്തിമ ഉപയോക്താവിന് MS Excel, MS Access പോലുള്ള വിശകലന ടൂളുകൾ ഉണ്ട്, വിപുലമായ സാഹചര്യത്തിൽ - BI, Data Mining. വ്യക്തിഗത ഇഷ്‌ടാനുസൃതമായ വികസനങ്ങളിൽ, ചില അറിവ് നടപ്പിലാക്കുന്നു. അതെന്തായാലും, ഒരു വ്യക്തമായ പരിഹാരം സ്വയം നിർദ്ദേശിക്കുന്നു: സെർച്ച് എഞ്ചിന്റെ ഒരു സാങ്കേതിക ശൃംഖല രൂപീകരിക്കാൻ - ടെക്സ്റ്റ് മൈനിംഗ് - വിശകലന ഉപകരണം. ഡാറ്റാബേസിലൂടെ നിങ്ങൾക്ക് നിർദ്ദിഷ്ട ശൃംഖലയുടെ ഘടകങ്ങൾ സംയോജിപ്പിക്കാൻ കഴിയും. പ്രക്രിയ ഓട്ടോമേറ്റ് ചെയ്യുന്നതിന്, നിങ്ങൾക്ക് ഒരു സെർച്ച് എഞ്ചിനിൽ നിന്ന് വിവരങ്ങൾ അഭ്യർത്ഥിക്കുകയും ഡോക്യുമെന്റുകൾ തന്നെ സ്കാൻ ചെയ്യുകയും ആവശ്യമായ വസ്തുതകൾ കണ്ടെത്തുകയും അവയെ രൂപപ്പെടുത്തുകയും ഡാറ്റാബേസിൽ സംരക്ഷിക്കുകയും പൂർത്തിയാക്കിയ ടാസ്ക്കിനെക്കുറിച്ച് റിപ്പോർട്ടുചെയ്യുകയും ചെയ്യുന്ന ഒരുതരം സംവിധാനം ആവശ്യമാണ്. അപ്പോൾ അനലിസ്റ്റിന് റിപ്പോർട്ടുകൾ തുറന്ന് ഫലങ്ങൾ വിശകലനം ചെയ്യേണ്ടിവരും.

ടെക്സ്റ്റ് മൈനിംഗ് - ഇത് എങ്ങനെ പ്രവർത്തിക്കുന്നു?

ടെക്‌സ്‌റ്റ് മൈനിംഗ് എന്നത് ടെക്‌സ്‌റ്റുകളിൽ നിന്ന് വിവരങ്ങൾ എക്‌സ്‌ട്രാക്റ്റുചെയ്യുന്നതിന് രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്ന സാങ്കേതികവിദ്യകളുടെയും രീതികളുടെയും ഒരു കൂട്ടമാണ്. എക്‌സ്‌ട്രാക്‌ഷൻ പ്രക്രിയ ഓട്ടോമേറ്റ് ചെയ്‌ത് വലിയ അളവിലുള്ള ഉറവിട ഡാറ്റയുമായി പ്രവർത്തിക്കാൻ അനലിസ്റ്റിനെ പ്രാപ്‌തമാക്കുക എന്നതാണ് പ്രധാന ലക്ഷ്യം. ആവശ്യമായ വിവരങ്ങൾ. ടെക്‌സ്‌റ്റ് മൈനിംഗിന്റെ പ്രധാന സാങ്കേതിക വിദ്യകൾക്ക് പേരിടാം.

1. വിവരങ്ങൾ വേർതിരിച്ചെടുക്കൽ:

a) ഫീച്ചർ (എന്റിറ്റി) എക്‌സ്‌ട്രാക്ഷൻ - ഉപയോക്താവിന്റെ വീക്ഷണകോണിൽ നിന്ന്, പ്രമാണത്തിന്റെ ഉള്ളടക്കം വിവരിക്കുന്നതിന് പ്രധാനമായ വാക്കുകളുടെയോ പദങ്ങളുടെ ഗ്രൂപ്പുകളുടെയോ വേർതിരിച്ചെടുക്കൽ. വ്യക്തികൾ, ഓർഗനൈസേഷനുകൾ, ഭൂമിശാസ്ത്രപരമായ ലൊക്കേഷനുകൾ, സബ്ജക്ട് ഏരിയ നിബന്ധനകൾ, മറ്റ് വാക്കുകൾ അല്ലെങ്കിൽ ശൈലികൾ എന്നിവയെ കുറിച്ചുള്ള റഫറൻസുകളായിരിക്കാം ഇത്. എക്‌സ്‌ട്രാക്‌റ്റുചെയ്‌ത എന്റിറ്റികൾ ഡോക്യുമെന്റിനെ അതിന്റെ പ്രധാന വിഷയമനുസരിച്ച് ചിത്രീകരിക്കുന്ന ഏറ്റവും പ്രധാനപ്പെട്ട വാക്യങ്ങളാകാം;

ബി) ഫീച്ചർ (എന്റിറ്റി) അസോസിയേഷൻ എക്സ്ട്രാക്ഷൻ - ഒരു സാങ്കേതിക വീക്ഷണകോണിൽ നിന്ന് കൂടുതൽ സങ്കീർണ്ണമാണ്. വേർതിരിച്ചെടുത്ത എന്റിറ്റികൾക്കിടയിൽ വിവിധ തരത്തിലുള്ള കണക്ഷനുകൾ കണ്ടെത്തുന്നു. ഉദാഹരണത്തിന്, തിരഞ്ഞെടുത്ത വിഷയങ്ങൾ പരാമർശിച്ചാലും വ്യത്യസ്ത രേഖകൾ, എന്നാൽ കുറച്ച് ഉണ്ട് പൊതു സവിശേഷതകൾ(സമയം, സ്ഥലം മുതലായവ), അവ തമ്മിൽ എന്തെങ്കിലും ബന്ധമുണ്ടോ ഇല്ലയോ എന്ന് ഉയർന്ന തോതിൽ ഉറപ്പോടെ പറയാൻ കഴിയും;

സി) ബന്ധം, ഇവന്റ്, ഫാക്റ്റ് എക്‌സ്‌ട്രാക്ഷൻ - വിവരശേഖരണത്തിന്റെ (ഇൻഫർമേഷൻ എക്‌സ്‌ട്രാക്ഷൻ) ഏറ്റവും സങ്കീർണ്ണമായ പതിപ്പ്, അതിൽ എന്റിറ്റികളുടെ എക്‌സ്‌ട്രാക്‌ഷൻ, വസ്തുതകളും സംഭവങ്ങളും തിരിച്ചറിയൽ, ഈ വസ്തുതകളിൽ നിന്ന് വിവരങ്ങൾ വേർതിരിച്ചെടുക്കൽ എന്നിവ ഉൾപ്പെടുന്നു. ഉദാഹരണത്തിന്, ഇവാൻ പെട്രോവ് പപ്പ്കിൻ ആൻഡ് കോ കമ്പനി വാങ്ങിയതായി സിസ്റ്റം നിഗമനം ചെയ്യാം, ഈ ഇവന്റിനെക്കുറിച്ചുള്ള പരോക്ഷ പരാമർശങ്ങൾ മാത്രമേ വാചകത്തിൽ അടങ്ങിയിട്ടുള്ളൂ. സെർച്ച് എഞ്ചിൻ ഇവിടെ നിസ്സഹായമാണ്, കാരണം സാധാരണ മനുഷ്യ സംഭാഷണത്തിൽ അവതരണത്തിനുള്ള ധാരാളം ഓപ്ഷനുകൾ ഉൾപ്പെടുന്നു. ഒരു സെർച്ച് എഞ്ചിൻ മാത്രം ഉപയോഗിച്ച്, ഈ വസ്‌തുതയെ വിശേഷിപ്പിക്കുന്ന എല്ലാ കീവേഡുകളും ഉപയോഗിച്ച് ഞങ്ങൾ തിരിച്ചറിയേണ്ടതുണ്ട്. ടെക്സ്റ്റ് മൈനിംഗ് സാങ്കേതികവിദ്യ ഇത് സ്വയം ചെയ്യുന്നു, നിർദ്ദിഷ്ട നിയന്ത്രണങ്ങൾക്ക് അനുസൃതമായി, കേസുമായി ബന്ധപ്പെട്ട വസ്തുതകളെ അവയുമായി ഒരു തരത്തിലും ബന്ധമില്ലാത്തവയിൽ നിന്ന് ഇത് വേർതിരിക്കുന്നു. ഉദാഹരണത്തിന്, കമ്പനികളുടെ വാങ്ങൽ, വിൽപ്പന ഇടപാടുകൾ ഞങ്ങൾ വിശകലനം ചെയ്യുകയാണെങ്കിൽ, "ഒരു മനുഷ്യൻ ഒരു കുപ്പി വോഡ്ക വാങ്ങി", "ഇവാൻ പെട്രോവ് കമ്പനി പപ്കിൻ ആൻഡ് കോ വാങ്ങി" എന്നീ വസ്തുതകളെ വ്യത്യസ്ത വിഭാഗങ്ങളായി തരംതിരിക്കാൻ സിസ്റ്റത്തിന് കഴിയും.

2. സംഗ്രഹം (യാന്ത്രിക അമൂർത്തീകരണം, വ്യാഖ്യാനം) - ഡോക്യുമെന്റിന്റെ പൂർണ്ണമായ വാചകത്തെ അടിസ്ഥാനമാക്കി ഒരു സംഗ്രഹം നിർമ്മിക്കുന്നു.

3. വർഗ്ഗീകരണം (വർഗ്ഗീകരണം, വർഗ്ഗീകരണം) - ഒന്നോ അതിലധികമോ വിഭാഗങ്ങളിലേക്ക് ഒരു പ്രമാണമോ അതിന്റെ ഭാഗമോ നൽകൽ. വിഭാഗങ്ങൾക്ക് വാചകത്തിന്റെ "ദിശ" നിർണ്ണയിക്കാൻ കഴിയും - തീമാറ്റിക്, തരം, വൈകാരികം, മൂല്യനിർണ്ണയം.

4. ക്ലസ്റ്ററൈസേഷൻ - രേഖകളെ അവയുടെ സമാനതയെ അടിസ്ഥാനമാക്കി ഗ്രൂപ്പുകളായി സംയോജിപ്പിക്കുക.

ഈ സമീപനത്തിന്റെ പ്രശ്നങ്ങൾ വ്യക്തമാണ് കൂടാതെ പരിഹാരത്തിന്റെ മൾട്ടികോംപോണന്റ് സ്വഭാവവുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു. നിങ്ങൾ ഒരു സെർച്ച് എഞ്ചിൻ ഇൻസ്റ്റാൾ ചെയ്യേണ്ടതുണ്ട്, ടെക്‌സ്‌റ്റിൽ നിന്ന് ഡാറ്റ എക്‌സ്‌ട്രാക്റ്റുചെയ്യുന്നതിനുള്ള ഒരു ഉപകരണം, വിശകലന ടൂളുകൾ, കൂടാതെ, ബന്ധപ്പെട്ട എല്ലാ സംയോജനവും നടപ്പിലാക്കുക. എന്നിരുന്നാലും, പരിഹാര ദാതാക്കൾ സ്വീകരിക്കുന്ന പാത ഇതാണ് എന്ന് തോന്നുന്നു. അന്തിമ ഉപയോക്താക്കൾ. ഇതിന് നിരവധി കാരണങ്ങളുണ്ട്.

1. വിശകലന ടൂളുകൾ, പ്രത്യേകിച്ച് BI, ഡാറ്റാ മൈനിംഗ് എന്നിവ ലോകമെമ്പാടും ഒരു യഥാർത്ഥ സ്റ്റാൻഡേർഡ് ആയി മാറുകയാണ്, കൂടാതെ കൂടുതൽ കൂടുതൽ സ്പെഷ്യലിസ്റ്റുകൾ ഒരു വിശകലന അന്തരീക്ഷം സൃഷ്ടിക്കുന്നതിനുള്ള പ്രധാന മാർഗമായി അവയെ ആശ്രയിക്കുന്നു. ഇത്തരത്തിലുള്ള വാണിജ്യ ഉൽപ്പന്നങ്ങൾക്കൊപ്പം, തുറന്ന വിഭവങ്ങളുടെ ഒരു ലോകം വികസിച്ചുകൊണ്ടിരിക്കുന്നു (പെന്റാഹോ, എക്ലിപ്സ് പ്രോജക്റ്റുകൾ), ഉപയോക്താക്കൾക്ക് വിശാലമായ പ്രേക്ഷകർക്ക് ആക്സസ് ചെയ്യാൻ കഴിയും.

2. വിവര സ്രോതസ്സുകളും അനലിറ്റിക്കൽ ടൂളുകളുമുള്ള ഇന്റഗ്രേഷൻ ടൂളുകൾ ഉൾപ്പെടെയുള്ള ടെക്സ്റ്റ് മൈനിംഗ് സാങ്കേതികവിദ്യകളും വാണിജ്യവൽക്കരിക്കപ്പെടുകയാണ് (ക്ലാരാബ്രിഡ്ജ്, എൻസ്റ്റീൻ ടെക്നോളജീസ്, അറ്റൻസിറ്റി പോലുള്ള കമ്പനികൾ അവ വാഗ്ദാനം ചെയ്യുന്നു).

3. ശാസ്ത്രീയ മേഖലകളും വികസിച്ചുകൊണ്ടിരിക്കുന്നു - കമ്പ്യൂട്ടേഷണൽ ഭാഷാശാസ്ത്രം, ടെക്സ്റ്റ് വിശകലന രീതികൾ. അത്തരം പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നത് ഉൾപ്പെടുന്ന പ്രധാന പ്രവർത്തന മേഖലയായ കൺസൾട്ടന്റുകൾ പ്രത്യക്ഷപ്പെട്ടു. ഈ വിദഗ്ധരുടെ ഇടപെടൽ ഇത്തരത്തിലുള്ള പ്രോജക്ടുകളെ വളരെ ഫലപ്രദമാക്കുന്നു.

ഉദാഹരണങ്ങൾ അധികം നോക്കാതെ...

ക്ലാരബ്രിഡ്ജ് പ്ലാറ്റ്‌ഫോമിനെ അടിസ്ഥാനമാക്കി ഞങ്ങളുടെ കമ്പനി നടപ്പിലാക്കിയ ഘടനയില്ലാത്ത വിവരങ്ങളുടെ തിരയൽ - എക്‌സ്‌ട്രാക്ഷൻ - വിശകലനം എന്നിവയുടെ സാങ്കേതിക സംയോജനത്തിന്റെ പ്രവർത്തനത്തിന്റെ നിരവധി ഉദാഹരണങ്ങൾ നമുക്ക് നൽകാം. ഈ തരത്തിലുള്ള ഉപകരണത്തിന്റെ കഴിവുകളുടെ ഒരു ഭാഗം മാത്രമേ അവർ ചിത്രീകരിക്കുന്നുള്ളൂ എന്നത് ശ്രദ്ധിക്കുക. പരിഹാരത്തിന്റെ പ്രവർത്തനം കൂടുതൽ വിശാലമായിരിക്കും.

ഒരു സാങ്കേതിക ലിങ്കിന്റെ തത്വത്തിൽ നിർമ്മിച്ച സിസ്റ്റം, ഓപ്പൺ, കോർപ്പറേറ്റ് ഉറവിടങ്ങളിൽ അടങ്ങിയിരിക്കുന്ന വിവരങ്ങളെ അടിസ്ഥാനമാക്കി വിവിധ തരം റേറ്റിംഗുകളും പ്രവചനങ്ങളും കംപൈൽ ചെയ്യാൻ നിങ്ങളെ അനുവദിക്കുന്നു. അതിനാൽ, Yandex വെബ്‌സൈറ്റിൽ പ്രസിദ്ധീകരിച്ച വാർത്തകളിലെ ഓട്ടോമൊബൈൽ ബ്രാൻഡുകളുടെ പരാമർശങ്ങളുടെ റേറ്റിംഗ് കണക്കാക്കുമ്പോൾ, സിസ്റ്റം ലിങ്കുകൾ കണ്ടെത്തി, വേർതിരിച്ചെടുത്ത വസ്തുതകൾ, അവ തമ്മിലുള്ള കണക്ഷനുകൾ തിരിച്ചറിഞ്ഞു, ലഭിച്ച വിവരങ്ങൾ ക്രമീകരിച്ച് വിശകലനം ചെയ്തു (ചിത്രം 1 കാണുക). പ്രക്രിയ ഓട്ടോമേറ്റഡ് ആയതിനാൽ, ഉപയോക്താവിന് ഉടനടി ഒരു റെഡിമെയ്ഡ് വിവര ഉൽപ്പന്നം ലഭിക്കുന്നു, അത് അവതരിപ്പിച്ച ഓരോ ബ്രാൻഡുമായും എന്ത് പോസിറ്റീവ് (നെഗറ്റീവ്) ഗുണങ്ങൾ ബന്ധപ്പെട്ടിരിക്കുന്നുവെന്നും കാലക്രമേണ ഉപഭോക്തൃ അഭിപ്രായങ്ങൾ എങ്ങനെ മാറുന്നുവെന്നും വിലയിരുത്താൻ അവനെ അനുവദിക്കുന്നു. നിങ്ങൾ ഗ്രാഫിന്റെ ഒന്നോ അതിലധികമോ ഭാഗത്ത് ക്ലിക്കുചെയ്യുകയാണെങ്കിൽ - ഉദാഹരണത്തിന്, ബിഎംഡബ്ല്യു റേറ്റിംഗിൽ ഒരു കുറവ് കാണിക്കുന്നു - ഈ ഇടിവിന്റെ കാരണങ്ങൾ സിസ്റ്റം നിങ്ങളോട് പറയും (ഈ സാഹചര്യത്തിൽ, വിപണിയിൽ നിന്ന് കാറുകൾ തിരിച്ചുവിളിച്ചതാണ് കാരണം).

ഓൺലൈൻ വാർത്താ ഉറവിടങ്ങളിലെ ബ്രാൻഡുകൾ

കൂടാതെ, ക്ലാരബ്രിഡ്ജ് പോലുള്ള സാങ്കേതിക സംവിധാനങ്ങൾ "ഉപഭോക്താവിന്റെ ശബ്ദം" അല്ലെങ്കിൽ "വിപണിയുടെ ശ്വാസം" - കത്തിടപാടുകളുടെ വിശകലനം, കോൾ സെന്റർ കുറിപ്പുകൾ, മാധ്യമങ്ങളിലെയും ഇന്റർനെറ്റിലെയും വാർത്താ ലേഖനങ്ങൾ, ഓൺലൈൻ ഫോറങ്ങളിലെ ഉപഭോക്തൃ അഭിപ്രായങ്ങൾ എന്നിവ തിരിച്ചറിയാൻ ഉപയോഗിക്കാം. ബ്ലോഗുകൾ. അതേ സമയം, ഘടനയില്ലാത്ത പ്രമാണങ്ങളിൽ നിന്നുള്ള വിവരങ്ങൾ CRM സിസ്റ്റങ്ങളിൽ നിന്നും മറ്റ് ഉറവിടങ്ങളിൽ നിന്നുമുള്ള ഡാറ്റയുമായി സംയോജിപ്പിച്ചിരിക്കുന്നു.

ചരിത്രപരമായ പരാമർശം

ടെക്സ്റ്റ് മൈനിംഗ് സാങ്കേതികവിദ്യയുടെ വികസനത്തിന്റെ ആരംഭം യുഎസ് പ്രസിഡന്റ് റിച്ചാർഡ് നിക്സൺ (1969-1974) ഭരണത്തിന്റെ കാലഘട്ടമായി കണക്കാക്കാം. പരിഭാഷ ഓട്ടോമേഷനുമായി ബന്ധപ്പെട്ട ശാസ്ത്രീയ മേഖലകളുടെ വികസനത്തിനായി ദശലക്ഷക്കണക്കിന് ഡോളർ അനുവദിച്ചു. ശീതയുദ്ധ കാലഘട്ടത്തിലാണ് ഇത് സംഭവിച്ചത്, പ്രത്യേകിച്ചും, റഷ്യൻ ഭാഷയിൽ നിന്ന് ഇംഗ്ലീഷിലേക്ക് കമ്പ്യൂട്ടർ വിവർത്തനം ചെയ്യുന്നതിന്റെ ചുമതല, ശാസ്ത്രീയ റിപ്പോർട്ടുകൾ മുതൽ സാങ്കേതിക ഡോക്യുമെന്റേഷൻ. ഈ പദ്ധതി അടച്ചുപൂട്ടിയതിൽ അതിശയിക്കാനില്ല.

അതേ സമയം, വിജ്ഞാനത്തിന്റെ ഒരു പുതിയ മേഖല പ്രത്യക്ഷപ്പെട്ടു - നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻ‌എൽ‌പി), റഷ്യയിൽ കമ്പ്യൂട്ടർ ഭാഷാശാസ്ത്രം എന്ന് വിളിക്കുന്നു. 90 കളിൽ, കൂടെ റിപ്പോർട്ടുകൾ മാത്രമല്ല ശാസ്ത്ര സമ്മേളനങ്ങൾ, മാത്രമല്ല പ്രോഗ്രാം കോഡുകളും, ഇത് വികസനത്തിൽ വിശാലമായ അന്താരാഷ്ട്ര ശാസ്ത്ര സമൂഹത്തെ ഉൾപ്പെടുത്തുന്നത് സാധ്യമാക്കി. ഈ മേഖലയിലെ ഏറ്റവും സജീവമായ ശാസ്ത്രജ്ഞർ യുഎസ്എ, ഗ്രേറ്റ് ബ്രിട്ടൻ, ഫ്രാൻസ്, ജർമ്മനി എന്നിവയാണ്.

നമ്മുടെ രാജ്യത്ത്, കമ്പ്യൂട്ടർ ഭാഷാശാസ്ത്രത്തിന്റെ വികസനത്തിന് അതിന്റേതായ പ്രത്യേകതകൾ ഉണ്ടായിരുന്നു. ഇത് പ്രധാനമായും പ്രതിരോധ സംരംഭങ്ങളുടെയും സുരക്ഷാ സേവനങ്ങളുടെയും താൽപ്പര്യങ്ങൾക്കായി വികസിപ്പിച്ചെടുത്തു, പ്രത്യേക ബിസിനസ്സ് പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ചില്ല. സമീപ വർഷങ്ങളിൽ ഈ മേഖലയ്ക്ക് ലക്ഷ്യമിട്ടുള്ള ഫണ്ടിന്റെ അഭാവവും സ്വാധീനം ചെലുത്തിയിട്ടുണ്ട്. എന്നിരുന്നാലും, മാധ്യമങ്ങളുടെയും ഇൻറർനെറ്റിന്റെയും ദ്രുതഗതിയിലുള്ള വികസനം ഫെഡറൽ സേവനങ്ങളിൽ നിന്നും വാണിജ്യ സംഘടനകളിൽ നിന്നും (ഉദാഹരണത്തിന് മത്സര ബുദ്ധി) ആവശ്യം സൃഷ്ടിക്കുന്നു.

അതിനാൽ, ഇന്റർനെറ്റ് ഫോറങ്ങളിൽ ചർച്ച ചെയ്ത സെല്ലുലാർ ഓപ്പറേറ്റർമാരുടെ താരിഫുകളുടെ ജനപ്രീതിയുടെ താരതമ്യ വിശകലനത്തിനായി, സിസ്റ്റം 20 ലധികം ഫോറങ്ങളും ബ്ലോഗുകളും വിശകലനം ചെയ്തു, സ്ഥാപിത ക്ലാസിഫയറുകൾക്കും ലിമിറ്ററുകൾക്കും അനുസൃതമായി വസ്തുതകൾ വേർതിരിച്ചെടുത്തു. താരതമ്യ വിശകലനംതീരുമാനമെടുക്കുന്നതിന് സൗകര്യപ്രദമായ രൂപത്തിൽ ഡാറ്റ അവതരിപ്പിച്ചു (ചിത്രം 2 കാണുക).

അരി. 2. താരിഫ് പരാമർശങ്ങളിലെ ട്രെൻഡുകൾ

വിവിധ താരിഫുകളുടെ ചർച്ചയിലെ ട്രെൻഡുകളുടെ വിശകലനം അവരുടെ ജനപ്രീതിയുടെ വികസനവും ഇതിന് പിന്നിലെ കാരണങ്ങളും കാണാനും പുതിയ താരിഫുകളുടെ പ്രമോഷനെ മാതൃകയാക്കാനും പ്രവചിക്കാനും നിങ്ങളെ അനുവദിക്കുന്നു. അതേ സമയം, ചില സൂചകങ്ങൾ സോഴ്സ് ടെക്സ്റ്റിന്റെ തലത്തിലേക്ക് വിശദീകരിക്കാം, ഇത് ഡാറ്റയുടെ വിശ്വാസ്യതയും സിസ്റ്റം ക്രമീകരണങ്ങളുടെ കൃത്യതയും പരിശോധിക്കുന്നതിനായി വിവരങ്ങൾ ഓഡിറ്റ് ചെയ്യുന്നത് സാധ്യമാക്കുന്നു.

നിഗമനങ്ങൾ

ചിന്തയുടെ നിഷ്ക്രിയത്വം കാരണം, ഒരു യന്ത്രത്തിന് വസ്തുതകൾ, സംഭവങ്ങൾ, വ്യക്തികൾ, ഓർഗനൈസേഷനുകൾ മുതലായവയുടെ ആശയങ്ങൾ ഉപയോഗിച്ച് പ്രവർത്തിക്കാൻ കഴിയുമെന്ന വസ്തുതയിൽ ബഹുജന പ്രേക്ഷകർക്ക് അവിശ്വാസമുണ്ട്. അടിസ്ഥാനപരമായി, ഇതാണ് ടെക്സ്റ്റ് മൈനിംഗ് സാങ്കേതികവിദ്യകൾ ഉപേക്ഷിച്ച് സ്വയം ലോഡ് ചെയ്യാൻ നമ്മെ പ്രേരിപ്പിക്കുന്നത്. തിരയൽ ഫലങ്ങളുടെ മാനുവൽ പ്രോസസ്സിംഗ്. തീർച്ചയായും, വസ്തുനിഷ്ഠമായ ബുദ്ധിമുട്ടുകൾ ഉണ്ട്. ടെക്സ്റ്റ് മൈനിംഗ് രീതികൾ വിഷയ മേഖലയുമായി പൊരുത്തപ്പെടണം, ഇതിന് പലപ്പോഴും സമയവും മറ്റ് വിഭവങ്ങളും ആവശ്യമാണ്. ചില തരത്തിലുള്ള ടെക്‌സ്‌റ്റുകൾ (ഉദാഹരണത്തിന്, ഫിക്ഷൻ, പ്രൊഫഷണൽ, മറ്റ് സ്ലാംഗ്) മെഷീൻ പ്രോസസ്സ് ചെയ്യുന്നത് ബുദ്ധിമുട്ടാണ്.

അതേസമയം, ഘടനയില്ലാത്ത ഗ്രന്ഥങ്ങളിൽ നിന്ന് (ടെക്സ്റ്റ് മൈനിംഗ്) വിവരങ്ങൾ വേർതിരിച്ചെടുക്കുന്നതിനുള്ള സാങ്കേതികവിദ്യകൾ ഇന്ന് പ്രായോഗികമായി ഉപയോഗിക്കുന്നു. കാലക്രമേണ, അവയുടെ ഉപയോഗം വികസിക്കും, കാരണം ആക്സസ് ചെയ്യാവുന്നതും ഉപയോഗപ്രദവുമായ വിവരങ്ങളുടെ അളവ് അനുദിനം വർദ്ധിച്ചുകൊണ്ടിരിക്കുന്നു, മാത്രമല്ല അവയുടെ വിശകലനത്തിന്റെ ആവശ്യകത ഇപ്പോഴും തൃപ്തികരമല്ല.

സ്ഥിതിവിവരക്കണക്ക്, ഭാഷാ വിശകലനം, അതുപോലെ കൃത്രിമബുദ്ധി രീതികൾ എന്നിവയെ അടിസ്ഥാനമാക്കി വികസിപ്പിച്ച ടെക്സ്റ്റ് മൈനിംഗ് സാങ്കേതികവിദ്യകൾ വിശകലനം ചെയ്യുന്നതിനും നാവിഗേഷൻ നൽകുന്നതിനും ഘടനാരഹിതമായ ഗ്രന്ഥങ്ങളിൽ തിരയുന്നതിനും രൂപകൽപ്പന ചെയ്തിട്ടുള്ളതാണ്. ടെക്സ്റ്റ് മൈനിംഗ് ക്ലാസ് സിസ്റ്റങ്ങൾ ഉപയോഗിച്ച്, ഉപയോക്താക്കൾ പുതിയ അറിവ് നേടുന്നു.

ടെക്സ്റ്റ് മൈനിംഗ് ടെക്നോളജീസ് - അടിസ്ഥാനമാക്കി ടെക്സ്റ്റുകളിൽ നിന്ന് വിവരങ്ങൾ നേടുന്നതിന് രൂപകൽപ്പന ചെയ്ത ഒരു കൂട്ടം രീതികൾ ആധുനിക ഐ.സി.ടി, ഉപയോക്താക്കൾക്ക് ഉപയോഗപ്രദമായ വിവരങ്ങളിലേക്കും പുതിയ അറിവിലേക്കും നയിക്കുന്ന പാറ്റേണുകൾ തിരിച്ചറിയുന്നത് സാധ്യമാക്കുന്നു.

തന്ത്രപരമായ തീരുമാനങ്ങൾ എടുക്കാൻ സഹായിക്കുന്ന ട്രെൻഡുകൾ, പാറ്റേണുകൾ, ബന്ധങ്ങൾ എന്നിവയ്ക്കായി വലിയ അളവിലുള്ള വിവരങ്ങൾ വിശകലനം ചെയ്യാനുള്ള കഴിവ് നൽകുന്ന ഒരു ഉപകരണമാണിത്.

ടെക്സ്റ്റ് വിശകലന സാങ്കേതികവിദ്യ ചരിത്രപരമായി ഡാറ്റാ വിശകലന സാങ്കേതികവിദ്യയുടെ സൃഷ്ടിയാണ് എന്നത് ശ്രദ്ധിക്കേണ്ടതാണ്, ഇതിന്റെ രീതിശാസ്ത്രവും സമീപനങ്ങളും ടെക്സ്റ്റ് മൈനിംഗ് രീതികളിൽ വ്യാപകമായി ഉപയോഗിക്കുന്നു, ഉദാഹരണത്തിന്, വർഗ്ഗീകരണം അല്ലെങ്കിൽ ക്ലസ്റ്ററിംഗ് രീതികൾ. ടെക്സ്റ്റ് മൈനിംഗിൽ പുതിയ സവിശേഷതകൾ പ്രത്യക്ഷപ്പെട്ടു: ടെക്സ്റ്റുകളുടെ യാന്ത്രിക അമൂർത്തീകരണവും പ്രതിഭാസങ്ങളുടെ തിരിച്ചറിയലും, അതായത് ആശയങ്ങളും വസ്തുതകളും. ടെക്‌സ്‌റ്റിലെ പാറ്റേണുകൾ തിരിച്ചറിയാനും പ്രൊഫൈലുകൾക്കിടയിൽ വിവരങ്ങൾ വിതരണം ചെയ്യാനും ഡോക്യുമെന്റ് അവലോകനങ്ങൾ സൃഷ്‌ടിക്കാനും നോളജ് മാനേജ്‌മെന്റ് സിസ്റ്റങ്ങളിൽ ആധുനിക ടെക്‌സ്‌റ്റ് മൈനിംഗ് സിസ്റ്റങ്ങളുടെ കഴിവുകൾ ഉപയോഗിക്കാം. ടെക്സ്റ്റ് മൈനിംഗ് സെമാന്റിക് ഡോക്യുമെന്റ് തിരയലിന്റെ ഒരു പുതിയ തലം നൽകുന്നു.

ടെക്സ്റ്റ് മൈനിംഗ് സാങ്കേതികവിദ്യയുടെ ഒരു പ്രധാന ഘടകം ടെക്സ്റ്റിൽ നിന്ന് അതിന്റെ സ്വഭാവ സവിശേഷതകൾ വേർതിരിച്ചെടുക്കുന്നതുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു, അത് പിന്നീട് കീവേഡുകളും വ്യാഖ്യാനങ്ങളും ആയി ഉപയോഗിക്കുന്നു. തന്നിരിക്കുന്ന സിസ്റ്റമാറ്റിസേഷൻ സ്കീമിൽ നിന്ന് ചില വിഭാഗങ്ങൾക്ക് ഒരു പ്രമാണം നിയോഗിക്കുക എന്നതാണ് മറ്റൊരു പ്രധാന ചുമതല. ടെക്സ്റ്റ് മൈനിംഗിന്റെ പ്രധാന ലക്ഷ്യം

ആവശ്യമായ വിവരങ്ങൾ നേടുന്ന പ്രക്രിയ ഓട്ടോമേറ്റ് ചെയ്തുകൊണ്ട് വലിയ അളവിലുള്ള ഉറവിട ഡാറ്റയുമായി പ്രവർത്തിക്കാനുള്ള അവസരം അനലിസ്റ്റിന് നൽകുക.

ടെക്സ്റ്റ് മൈനിംഗിന്റെ അടിസ്ഥാന ഘടകങ്ങൾ:

1) പ്രതിഭാസങ്ങൾ നേടൽ - ഫീച്ചർ (എന്റിറ്റി) എക്‌സ്‌ട്രാക്ഷൻ - ഉപയോക്താവിന്റെ വീക്ഷണകോണിൽ നിന്ന് പ്രമാണത്തിന്റെ ഉള്ളടക്കം വിവരിക്കുന്നതിന് പ്രധാനപ്പെട്ട വാക്കുകളോ വാക്കുകളുടെ ഗ്രൂപ്പുകളോ എക്‌സ്‌ട്രാക്റ്റുചെയ്യുന്നു. ഇത് ഒരു വ്യക്തിയെയും സ്ഥാപനത്തെയും കുറിച്ചുള്ള വിവരമായിരിക്കാം, ഭൂമിശാസ്ത്രപരമായ സ്ഥലങ്ങൾ, നിബന്ധനകൾ അല്ലെങ്കിൽ മറ്റ് ശൈലികൾ - ഫീച്ചർ (എന്റിറ്റി) അസോസിയേഷൻ എക്സ്ട്രാക്ഷൻ - സാങ്കേതിക വീക്ഷണകോണിൽ നിന്ന് കൂടുതൽ സങ്കീർണ്ണമായ വാക്കുകൾ;

2) സ്വയമേവയുള്ള അമൂർത്തീകരണം, വ്യാഖ്യാനം (സംഗ്രഹം)

പ്രമാണത്തിന്റെ പൂർണ്ണമായ വാചകം ഉപയോഗിച്ച് ഒരു സംഗ്രഹം നിർമ്മിക്കുന്നു;

3) വർഗ്ഗീകരണം (ക്ലാസിഫിക്കേഷൻ), നൽകിയിരിക്കുന്ന വിഭാഗങ്ങളിലേക്ക് പ്രമാണങ്ങൾ സ്ഥാപിക്കുന്നതിനുള്ള നിയമങ്ങൾ നിർമ്മിക്കുന്നതിന് സ്റ്റാറ്റിസ്റ്റിക്കൽ പരസ്പര ബന്ധങ്ങൾ ഉപയോഗിക്കുന്നു;

4) പ്രമാണങ്ങളുടെ സവിശേഷതകളെ അടിസ്ഥാനമാക്കിയുള്ള ക്ലസ്റ്ററിംഗ്, നൽകിയിരിക്കുന്ന വിഭാഗങ്ങൾ ഉപയോഗിക്കാതെ ഭാഷാ, ഗണിതശാസ്ത്ര രീതികൾ ഉപയോഗിക്കുന്നു;

5) ചോദ്യങ്ങൾക്ക് ഉത്തരം (ചോദ്യം ഉത്തരം);

6) തീമാറ്റിക് ഇൻഡക്സിംഗ്;

7) കീവേഡുകൾ ഉപയോഗിച്ച് തിരയുക;

8) സെമാന്റിക് അതിരുകളുടെ നിർമ്മാണം അല്ലെങ്കിൽ കണക്ഷനുകളുടെ വിശകലനം (ബന്ധം, ഇവന്റ്, ഫാക്റ്റ് എക്‌സ്‌ട്രാക്ഷൻ), ഇത് തിരയലും നാവിഗേഷനും ഉറപ്പാക്കുന്നതിന് ഡോക്യുമെന്റിലെ ഡിസ്ക്രിപ്റ്ററുകളുടെ (പ്രധാന വാക്യങ്ങൾ) രൂപം നിർണ്ണയിക്കുന്നു. വിവരങ്ങൾ നേടുന്നതിനുള്ള ഏറ്റവും സങ്കീർണ്ണമായ ഓപ്ഷനാണിത്, അതിൽ സാരാംശം വേർതിരിച്ചെടുക്കൽ, വസ്തുതകളും സംഭവങ്ങളും തിരിച്ചറിയൽ, ഈ വസ്തുതകളിൽ നിന്ന് വിവരങ്ങൾ വേർതിരിച്ചെടുക്കൽ എന്നിവ ഉൾപ്പെടുന്നു. വസ്തുതകൾ മനസ്സിലാക്കുന്നു

ക്ലാസിഫിക്കേഷൻ, സെർച്ച്, ക്ലസ്റ്ററിംഗ് എന്നിവ മെച്ചപ്പെടുത്തുന്നതിനായി ടെക്‌സ്‌റ്റിൽ നിന്ന് ചില വസ്തുതകൾ വേർതിരിച്ചെടുക്കുന്നതാണ് ഇത്.

വർഗ്ഗീകരണ രീതികൾക്കായി, വർഗ്ഗീകരണ പ്രക്രിയ ഒപ്റ്റിമൈസ് ചെയ്യുന്നതിന് നിലവിൽ ഇന്റലിജന്റ് മെക്കാനിസങ്ങൾ ഉപയോഗിക്കുന്നു. ഉദാഹരണത്തിന്, എന്റർപ്രൈസ് നെറ്റ്‌വർക്കുകളിലും വെബ്‌സൈറ്റുകളിലും ഡോക്യുമെന്റുകൾ ഗ്രൂപ്പുചെയ്യൽ, ഇമെയിൽ സന്ദേശങ്ങൾ അടുക്കൽ എന്നിവ പോലുള്ള പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നതിന് ക്ലാസിഫിക്കേഷൻ ഉപയോഗിക്കുന്നു.

വലിയ വിവര ശ്രേണികൾ സംഗ്രഹിക്കുമ്പോഴോ പരസ്പര ബന്ധമുള്ള പ്രമാണങ്ങളുടെ ഗ്രൂപ്പുകളെ തിരിച്ചറിയുമ്പോഴോ, ആവശ്യമായ വിവരങ്ങൾക്കായി തിരയുമ്പോൾ ബ്രൗസിംഗ് പ്രക്രിയ ലളിതമാക്കുന്നതിനും, ഒരു ശേഖരത്തിൽ നിന്ന് തനതായ പ്രമാണങ്ങൾ കണ്ടെത്തുന്നതിനും, ഉള്ളടക്കത്തിൽ വളരെ സാമ്യമുള്ള ഡ്യൂപ്ലിക്കേറ്റുകളോ പ്രമാണങ്ങളോ തിരിച്ചറിയുന്നതിനും ക്ലസ്റ്ററിംഗ് വ്യാപകമായി ഉപയോഗിക്കുന്നു. .

രണ്ട് പ്രധാന തരം ക്ലസ്റ്ററിംഗുകൾ ഉണ്ട്: ഹൈറാർക്കിക്കൽ, ബൈനറി. ഹൈറാർക്കിക്കൽ ക്ലസ്റ്ററിംഗ് എന്നത് ക്ലസ്റ്ററുകളുടെ ഒരു വൃക്ഷം നിർമ്മിക്കുന്നത് ഉൾക്കൊള്ളുന്നു, അവയിൽ ഓരോന്നിനും ഒരു ചെറിയ കൂട്ടം രേഖകൾ അടങ്ങിയിരിക്കുന്നു. ബൈനറി ക്ലസ്റ്ററിംഗ് സാമ്യത്തെ അടിസ്ഥാനമാക്കി ഡോക്യുമെന്റ് ക്ലസ്റ്ററുകളുടെ ഗ്രൂപ്പിംഗും കാണലും നൽകുന്നു. സമാന ഗുണങ്ങളുള്ള രേഖകൾ ഒരു ക്ലസ്റ്ററിൽ സ്ഥാപിച്ചിരിക്കുന്നു. ക്ലസ്റ്ററിംഗ് പ്രക്രിയ ഒരു ഡോക്യുമെന്റിൽ നിന്ന് ഡോക്യുമെന്റിലേക്കുള്ള ലിങ്കുകളുടെ ഒരു അടിസ്ഥാനം നിർമ്മിക്കുന്നു, അത് ഭാരം, കീവേഡുകൾ പങ്കിടൽ എന്നിവയെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്.

ടെക്സ്റ്റ് മൈനിംഗിന്റെ പ്രധാന ആപ്ലിക്കേഷനുകളിലൊന്ന്, ചില ഒബ്ജക്റ്റ് ആട്രിബ്യൂട്ടുകളുടെ മൂല്യങ്ങളെ അടിസ്ഥാനമാക്കി മറ്റുള്ളവരുടെ മൂല്യങ്ങൾ പ്രവചിക്കാൻ നിങ്ങളെ അനുവദിക്കുന്നു. ഒഴിവാക്കലുകൾ കണ്ടെത്തൽ (പൊതുചിത്രങ്ങളിൽ നിന്ന് അവയുടെ സ്വഭാവസവിശേഷതകളോടെ വേറിട്ടുനിൽക്കുന്ന വസ്തുക്കൾക്കായി തിരയുന്നത്) ടെക്സ്റ്റ് മൈനിംഗ് ഗവേഷണത്തിന്റെ ഒരു പ്രധാന മേഖലയാണ്.

വ്യക്തിഗത ഡോക്യുമെന്റുകളുടെ അനുബന്ധ സവിശേഷതകൾ (സങ്കൽപ്പങ്ങൾ) തിരയുന്നതിനുള്ള ചുമതല ക്ലസ്റ്ററിംഗിന് സമാനമാണ്, എന്നാൽ ഒരു നിശ്ചിത സ്വഭാവ സവിശേഷതകൾ ഉപയോഗിച്ചാണ് ഇത് ചെയ്യുന്നത്.

ടെക്സ്റ്റ് മൈനിംഗ് ക്ലാസിലെ ആധുനിക സംവിധാനങ്ങൾക്ക് പ്രമാണങ്ങളുടെ വലിയ നിരകൾ വിശകലനം ചെയ്യാനും ഈ പ്രമാണങ്ങളിൽ ഉൾപ്പെടുത്തിയിരിക്കുന്ന ആശയങ്ങളുടെയും വിഷയങ്ങളുടെയും വിഷയ സൂചികകൾ സൃഷ്ടിക്കാനും കഴിയും.

60-കൾ മുതൽ, ഓട്ടോമേഷൻ ടൂളുകളുടെയും ടെക്സ്റ്റുകളുടെയും വരവോടെ ഇലക്ട്രോണിക് ഫോർമാറ്റിൽ, വലിയ അളവിലുള്ള വിവരങ്ങളുടെ ഉള്ളടക്ക വിശകലനം വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്. ഡാറ്റാ മൈനിംഗ്, ഉള്ളടക്ക വിശകലനത്തിന്റെ വീക്ഷണകോണിൽ നിന്ന്, മോഡലുകൾ, ഡിസൈനുകൾ, അസോസിയേഷനുകൾ, മാറ്റങ്ങൾ, അപാകതകൾ, ഘടനാപരമായ പുതിയ രൂപങ്ങൾ എന്നിവ പോലുള്ള ഒരു ഡാറ്റാ സ്ട്രീമിലെ പുതിയ അറിവ് തിരിച്ചറിയുന്നതിനുള്ള ഒരു സംവിധാനമായാണ് മനസ്സിലാക്കുന്നത്.

ഉള്ളടക്ക വിശകലനം - ഇത് വാചകത്തിന്റെ രൂപത്തിന്റെയും ഉള്ളടക്കത്തിന്റെയും ഗുണപരമായ അളവ്, ചിട്ടയായ പ്രോസസ്സിംഗ്, വിലയിരുത്തൽ, വ്യാഖ്യാനം എന്നിവയാണ്.

നിലവിൽ, ഈ വിവരങ്ങളുടെ കൂടുതൽ വീണ്ടെടുക്കൽ പ്രാപ്തമാക്കുന്നതിന് ഡാറ്റാബേസുകളിൽ വിവരങ്ങൾ അവതരിപ്പിക്കുന്നതിന് നിരവധി സമീപനങ്ങൾ ഉപയോഗിക്കുന്നു. ഏറ്റവും സാധാരണമായ സമീപനങ്ങൾ ബൂളിയൻ, വെക്റ്റർ-സ്പേസ് തിരയൽ മോഡലുകളാണ്.

ബൂളിയൻ മോഡൽ സെറ്റ് സിദ്ധാന്തത്തെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്, അതിനാൽ ഗണിതശാസ്ത്ര യുക്തിയെ അടിസ്ഥാനമാക്കിയുള്ള ഒരു വിവര വീണ്ടെടുക്കൽ മാതൃകയാണ്. ഒരു വശത്ത്, ഗണിതശാസ്ത്ര ലോജിക് ഓപ്പറേറ്റർമാരെ ഉപയോഗിച്ച് ദ്രുത തിരയലും മറുവശത്ത്, കീവേഡ് വെയ്റ്റുകളെ അടിസ്ഥാനമാക്കിയുള്ള ഡോക്യുമെന്റ് റാങ്കിംഗും നൽകുന്ന ഡാറ്റാ പ്രാതിനിധ്യ ബീജഗണിതത്തിന്റെ വെക്റ്റർ-സ്പേഷ്യൽ മോഡലുമായി ബൂളിയനെ സംയോജിപ്പിക്കുന്നത് ഇക്കാലത്ത് ജനപ്രിയമാണ്.

ബൂളിയൻ മോഡൽ ഉപയോഗിക്കുമ്പോൾ, ഡാറ്റാബേസിൽ ഒരു ഇൻവെർട്ടഡ് ഡാറ്റ അറേ ആയി ക്രമീകരിച്ചിരിക്കുന്ന ഒരു സൂചിക ഉൾപ്പെടുന്നു, അതിൽ, ഡാറ്റാബേസ് നിഘണ്ടുവിൽ നിന്നുള്ള ഓരോ പദത്തിനും, ഈ പദം വരുന്ന പ്രമാണങ്ങളുടെ ഒരു ലിസ്റ്റ് അടങ്ങിയിരിക്കുന്നു.

ഓരോ ഡോക്യുമെന്റിലും ഈ പദത്തിന്റെ ആവൃത്തി സംഭരിക്കാനും സൂചികയ്ക്ക് കഴിയും, ഇത് സംഭവത്തിന്റെ അവരോഹണ ക്രമത്തിൽ ലിസ്റ്റ് അടുക്കാൻ സഹായിക്കുന്നു.

ഏറ്റവും അറിയപ്പെടുന്ന വിവര വീണ്ടെടുക്കൽ സംവിധാനങ്ങളും വിവര വർഗ്ഗീകരണ സംവിധാനങ്ങളും വെക്റ്റർ ഡാറ്റ വിവരണ മാതൃകയുടെ (വെക്റ്റർ സ്പേസ് മോഡൽ) ഉപയോഗത്തെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്. വെക്റ്റർ മോഡൽ ആണ് ക്ലാസിക് മോഡൽബീജഗണിതം. ഈ മോഡലിന്റെ ചട്ടക്കൂടിനുള്ളിൽ, ഒരു ഡോക്യുമെന്റ് യൂക്ലിഡിയൻ സ്പേസിലെ ഒരു വെക്റ്റർ വിവരിക്കുന്നു, അതിൽ ഓരോ ഡോക്യുമെന്റിലും ഒരു പദം അതിന്റെ ഭാരം ഗുണകവുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു, ഇത് സംഭവിക്കുന്നതിനെക്കുറിച്ചുള്ള സ്ഥിതിവിവരക്കണക്കുകളുടെ അടിസ്ഥാനത്തിലാണ് നിർണ്ണയിക്കുന്നത്. പ്രത്യേക പ്രമാണംഅല്ലെങ്കിൽ ഡോക്യുമെന്ററി അറേയിൽ. തന്നിരിക്കുന്ന വിഷയവുമായി പൊരുത്തപ്പെടുന്ന ഒരു ചോദ്യത്തിന്റെ വിവരണവും അതേ യൂക്ലിഡിയൻ പദ സ്‌പെയ്‌സിലെ വെക്‌ടറാണ്. ഒരു അന്വേഷണത്തിന്റെയും പ്രമാണത്തിന്റെയും സാമീപ്യം വിലയിരുത്തുന്നതിന്, അനുബന്ധ വിഷയത്തിന്റെയും ഡോക്യുമെന്റ് വിവരണ വെക്റ്ററുകളുടെയും സ്കെലാർ ഉൽപ്പന്നം ഉപയോഗിക്കുന്നു.

വെക്റ്റർ-സ്പേഷ്യൽ ഡാറ്റ പ്രാതിനിധ്യ മോഡൽ സ്വയമേവ സിസ്റ്റങ്ങൾക്ക് ഇനിപ്പറയുന്ന കഴിവുകൾ നൽകുന്നു: വലിയ അന്വേഷണങ്ങൾ പ്രോസസ്സ് ചെയ്യുന്നു; കണ്ടെത്തിയതിന് സമാനമായ പ്രമാണങ്ങൾക്കായുള്ള തിരയൽ മോഡ് ലളിതമായി നടപ്പിലാക്കുക; തുടർന്നുള്ള വ്യക്തതയുള്ള തിരയലിനൊപ്പം ഒരു വിവര ശ്രേണിയിൽ തിരയൽ ഫലങ്ങൾ സംരക്ഷിക്കുന്നു.

എന്നിരുന്നാലും, പ്രായോഗികമായി, ബൂളിയൻ, വെക്റ്റർ-സ്പേഷ്യൽ മോഡലുകളുടെ കഴിവുകൾ സംയോജിപ്പിക്കുകയും സെമാന്റിക് ഇൻഫർമേഷൻ പ്രോസസ്സിംഗിന്റെ യഥാർത്ഥ രീതികൾ ചേർക്കുകയും ചെയ്യുന്ന സംയോജിത സമീപനങ്ങളാണ് മിക്കപ്പോഴും ഉപയോഗിക്കുന്നത്. മിക്കപ്പോഴും, വിവരങ്ങൾ വീണ്ടെടുക്കൽ സംവിധാനങ്ങളിൽ, ബൂളിയൻ മോഡലിന് അനുസൃതമായി തിരയൽ നടപടിക്രമം നടത്തുന്നു, കൂടാതെ വെക്റ്റർ സ്പേസ് മോഡലിന് അനുസൃതമായി ഫലങ്ങൾ റാങ്ക് ചെയ്യുന്നു.

നിലവിൽ, ടെക്സ്റ്റ് മൈനിംഗ് മേഖലയിൽ അവരുടെ ഉൽപ്പന്നങ്ങളും പരിഹാരങ്ങളും വാഗ്ദാനം ചെയ്യുന്ന നിരവധി സോഫ്റ്റ്വെയർ നിർമ്മാതാക്കൾ ഉണ്ട്.

ടെക്സ്റ്റ് ഡാറ്റ വിശകലനം ചെയ്യുന്നതിനും ഫ്രണ്ട്ലി ഗ്രാഫിക്കൽ ഇന്റർഫേസുകൾ, വിഷ്വലൈസേഷൻ, ഡാറ്റ കൃത്രിമത്വം എന്നിവയ്ക്കുള്ള വിവിധ ഗണിതശാസ്ത്രപരവും ഭാഷാപരവുമായ അൽഗോരിതങ്ങൾ നടപ്പിലാക്കുന്ന, വിവിധ ഡാറ്റാ ഉറവിടങ്ങളിലേക്ക് പ്രവേശനം നൽകുകയും ക്ലയന്റ്-സെർവർ ആർക്കിടെക്ചറിൽ പ്രവർത്തിക്കുകയും ചെയ്യുന്ന സ്കേലബിൾ സിസ്റ്റങ്ങളാണിവ. ഉദാഹരണത്തിന്, ഇന്റലിജന്റ് മൈനർ ഫോർ ടെക്‌സ്‌റ്റ് (ഐബിഎം), പോളി അനലിസ്റ്റ്, വെബ് അനലിസ്റ്റ്, ടെക്‌സ്‌റ്റ് മൈനർ (എസ്‌എഎസ്), സെമിയോമാപ്പ് (സെമിയോ കോർപ്പറേഷൻ), ഒറാക്കിൾ ടെക്‌സ്‌റ്റ് (ഒറാക്കിൾ), നോളജ് സെർവർ (ഓട്ടോണമി), ഗാലക്റ്റിക-സൂം, ഇൻഫോസ്ട്രീം (ഇഎൽവിസ്‌ട്രീം).

രണ്ട് പ്രധാന പ്രവണതകളെ അടിസ്ഥാനമാക്കിയാണ് ആധുനിക വിവര വീണ്ടെടുക്കൽ സംവിധാനങ്ങൾ നിർവചിച്ചിരിക്കുന്നത്: വിജ്ഞാന സംസ്കരണവും ഓപ്പൺ സിസ്റ്റങ്ങളുടെ ഉപയോഗവും. ഈ പ്രദേശങ്ങളുടെ കവലയിലാണ് ഏജന്റ് സാങ്കേതികവിദ്യകൾ ഉയർന്നുവന്നത്. വിതരണം ചെയ്ത കൃത്രിമ ബുദ്ധിയുടെ രീതികളുടെയും സാങ്കേതികവിദ്യകളുടെയും സജീവമായ വികസനം, ഹാർഡ്‌വെയർ, സോഫ്‌റ്റ്‌വെയർ മേഖലയിലെ പുരോഗതി, വേർപിരിയലും തുറന്നതും എന്ന ആശയത്തെ പിന്തുണയ്ക്കുന്ന മൾട്ടി-ഏജൻറ് സിസ്റ്റങ്ങളുടെ വികസനത്തിന് കാരണമായി, അതിൽ സോഫ്റ്റ്വെയർ ഏജന്റുമാർ സംയുക്തമായി വിവര സ്ഥലത്ത് സങ്കീർണ്ണമായ പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നു.

കഴിവ് സോഫ്റ്റ്വെയർ ഏജന്റുമാർഅവരുടെ പ്രവർത്തനങ്ങൾ സ്വയം ആസൂത്രണം ചെയ്യുകയും ഏകോപിപ്പിക്കുകയും ചെയ്യുക, മറ്റുള്ളവരുമായി ചർച്ച നടത്തുക അപേക്ഷകൾ വിതരണം ചെയ്തുസങ്കീർണ്ണമായ വൈവിധ്യമാർന്ന വിവര പരിതസ്ഥിതിയിൽ, ചലനാത്മകമായി മാറുന്നതും പ്രവചനാതീതവുമായ സാഹചര്യങ്ങളിൽ വഴക്കത്തോടെയും ബുദ്ധിപരമായും തീരുമാനങ്ങൾ എടുക്കുന്നത്, ഏജന്റ് അധിഷ്‌ഠിത സാങ്കേതികവിദ്യകൾ പ്രധാന വിവര പ്രോസസ്സിംഗ് സാങ്കേതികവിദ്യകളിലൊന്നായി മാറുന്നു എന്ന വസ്തുതയിലേക്ക് നയിക്കുന്നു.

എല്ലാ വിവരങ്ങളും ഒരുപോലെ ഉപയോഗപ്രദമല്ലെന്ന് ഞാൻ പറഞ്ഞാൽ ഞാൻ അമേരിക്കയെ കണ്ടെത്തുമെന്ന് ഞാൻ കരുതുന്നില്ല. ഒരു ആശയം വിശദീകരിക്കാൻ ചിലപ്പോൾ നിങ്ങൾ ധാരാളം വാചകങ്ങൾ എഴുതേണ്ടതുണ്ട്, ചിലപ്പോൾ സങ്കീർണ്ണമായ പ്രശ്നങ്ങൾ വിശദീകരിക്കുന്നതിന് നിങ്ങൾ ഒരു ലളിതമായ ഡയഗ്രം മാത്രം നോക്കേണ്ടതുണ്ട്. വിവരങ്ങളുടെ ആവർത്തനം കുറയ്ക്കുന്നതിന്, അവ കണ്ടുപിടിച്ചു ഗണിത സൂത്രവാക്യങ്ങൾ, ഡ്രോയിംഗുകൾ, ചിഹ്നങ്ങൾ, പ്രോഗ്രാം കോഡ്തുടങ്ങിയവ. കൂടാതെ, വിവരങ്ങൾ മാത്രമല്ല, അവതരണവും പ്രധാനമാണ്. സ്റ്റോക്ക് ഉദ്ധരണികൾ ഒരു ഗ്രാഫ് ഉപയോഗിച്ച് കൂടുതൽ വ്യക്തമായി കാണിക്കാൻ കഴിയുമെന്ന് വ്യക്തമാണ്, കൂടാതെ ഗണിതശാസ്ത്ര സൂത്രവാക്യങ്ങൾ ന്യൂട്ടന്റെ നിയമങ്ങളെ കൂടുതൽ ഒതുക്കമുള്ള രൂപത്തിൽ വിവരിക്കും.

വിവരസാങ്കേതികവിദ്യകളുടെ വികസന പ്രക്രിയയിൽ, ഡാറ്റ ശേഖരിക്കുന്നതിനും സംഭരിക്കുന്നതിനുമുള്ള സംവിധാനങ്ങൾ - ഡാറ്റാബേസുകൾ, ഡാറ്റ വെയർഹൗസിംഗ്, കൂടാതെ സമീപകാലത്ത്, ക്ലൗഡ് ശേഖരണങ്ങൾ, ഒരു അനലിസ്റ്റിനോ മാനേജറിനോ സ്വമേധയാ ചെയ്യാൻ കഴിയാത്തപ്പോൾ വലിയ അളവിലുള്ള ഡാറ്റ വിശകലനം ചെയ്യുന്ന പ്രശ്നം ഉയർന്നുവന്നിട്ടുണ്ട്. വലിയ അളവിലുള്ള ഡാറ്റ പ്രോസസ്സ് ചെയ്യുകയും തീരുമാനങ്ങൾ എടുക്കുകയും ചെയ്യുന്നു. മനുഷ്യ മസ്തിഷ്കത്തിന് സ്വീകാര്യമായ സമയത്ത് കൈകാര്യം ചെയ്യാൻ കഴിയുന്ന കൂടുതൽ ഒതുക്കമുള്ള രൂപത്തിൽ യഥാർത്ഥ വിവരങ്ങൾ എങ്ങനെയെങ്കിലും അവതരിപ്പിക്കേണ്ടതുണ്ടെന്ന് അനലിസ്റ്റ് വ്യക്തമാണ്.

നമുക്ക് നിരവധി തലത്തിലുള്ള വിവരങ്ങൾ ഹൈലൈറ്റ് ചെയ്യാം:

  • ഉറവിട ഡാറ്റ (റോ ഡാറ്റ, ചരിത്രപരമായ ഡാറ്റ അല്ലെങ്കിൽ വെറും ഡാറ്റ) - ഒരു നിശ്ചിത നിരീക്ഷണത്തിന്റെ ഫലമായി ലഭിച്ച അസംസ്കൃത ഡാറ്റ സെറ്റുകൾ ചലനാത്മക സംവിധാനംഅല്ലെങ്കിൽ ഒരു ഒബ്ജക്റ്റ് അതിന്റെ അവസ്ഥയെ നിശ്ചിത സമയങ്ങളിൽ പ്രതിഫലിപ്പിക്കുന്നു (ഉദാഹരണത്തിന്, കഴിഞ്ഞ വർഷത്തെ സ്റ്റോക്ക് ഉദ്ധരണികളുടെ ഡാറ്റ);
  • വിവരങ്ങൾ - ചിലത് വഹിക്കുന്ന പ്രോസസ്സ് ചെയ്ത ഡാറ്റ വിവര മൂല്യംഉപയോക്താവിന്; കൂടുതൽ ഒതുക്കമുള്ള രൂപത്തിൽ അവതരിപ്പിച്ച അസംസ്കൃത ഡാറ്റ (ഉദാഹരണത്തിന്, തിരയൽ ഫലങ്ങൾ);
  • അറിവ് - ഒരു നിശ്ചിത അറിവ് വഹിക്കുന്നു, പൊതുവായി ലഭ്യമല്ലാത്ത വസ്തുക്കൾക്കിടയിൽ മറഞ്ഞിരിക്കുന്ന ബന്ധങ്ങൾ പ്രദർശിപ്പിക്കുന്നു (അല്ലെങ്കിൽ, അത് വെറും വിവരങ്ങൾ മാത്രമായിരിക്കും); നിന്നുള്ള ഡാറ്റ ഉയർന്ന എൻട്രോപ്പി(അല്ലെങ്കിൽ അനിശ്ചിതത്വത്തിന്റെ അളവ്).
നമുക്ക് ഒരു ഉദാഹരണം നോക്കാം. ഒരു നിശ്ചിത സമയത്തേക്ക് ഫോറെക്സ് മാർക്കറ്റിലെ കറൻസി ഇടപാടുകളെക്കുറിച്ചുള്ള കുറച്ച് ഡാറ്റ ഞങ്ങളുടെ പക്കലുണ്ടെന്ന് പറയാം. ഈ ഡാറ്റ ടെക്സ്റ്റ് ഫോമിൽ സംഭരിക്കാൻ കഴിയും, ഇൻ XML ഫോർമാറ്റ്, ഒരു ഡാറ്റാബേസിലോ ബൈനറി രൂപത്തിലോ ഉപയോഗപ്രദമായ സെമാന്റിക് ലോഡുകളൊന്നും വഹിക്കില്ല. അടുത്തതായി, അനലിസ്റ്റ് ഈ ഡാറ്റ ലോഡുചെയ്യുന്നു, ഉദാഹരണത്തിന്, Excel-ലേക്ക്, മാറ്റങ്ങളുടെ ഒരു ഗ്രാഫ് നിർമ്മിക്കുന്നു, അങ്ങനെ വിവരങ്ങൾ ലഭിക്കും. തുടർന്ന് അവൻ ഡാറ്റ ലോഡ് ചെയ്യുന്നു (പൂർണ്ണമായോ ഭാഗികമായോ Excel-ൽ പ്രോസസ്സ് ചെയ്‌തത്), ഉദാഹരണത്തിന്, Microsoft SQL സെർവറിലേക്ക്, കൂടാതെ, വിശകലന സേവനങ്ങൾ ഉപയോഗിച്ച്, ഓഹരികൾ നാളെ വിൽക്കുന്നതാണ് നല്ലതെന്ന് അറിവ് നേടുന്നു. വിശകലന വിദഗ്ധന് ഇതിനകം നേടിയ അറിവ് ഉപയോഗിച്ച് പുതിയ എസ്റ്റിമേറ്റുകൾ ഉണ്ടാക്കാനും അതുവഴി നേടാനും കഴിയും പ്രതികരണംവിവര പ്രക്രിയയിൽ.

ലെവലുകൾക്കിടയിൽ വ്യക്തമായ അതിരുകളില്ല, എന്നാൽ അത്തരമൊരു വർഗ്ഗീകരണം ഭാവിയിൽ പദാവലിയുമായി ആശയക്കുഴപ്പം ഒഴിവാക്കാൻ ഞങ്ങളെ അനുവദിക്കും.

ഡാറ്റ മൈനിംഗ്

ചരിത്രപരമായി, ഡാറ്റാ മൈനിംഗ് എന്ന പദത്തിന് നിരവധി വിവർത്തന ഓപ്ഷനുകൾ ഉണ്ട് (അർത്ഥങ്ങളും):
  • ഡാറ്റ എക്സ്ട്രാക്ഷൻ, ഡാറ്റ ശേഖരണം, ഡാറ്റ മൈനിംഗ് (അവർ ഇൻഫർമേഷൻ റിട്രീവൽ അല്ലെങ്കിൽ ഐആർ ഉപയോഗിക്കുന്നു);
  • അറിവ് വേർതിരിച്ചെടുക്കൽ, ഡാറ്റ മൈനിംഗ് (നോളജ് ഡാറ്റ ഡിസ്കവറി അല്ലെങ്കിൽ കെഡിഡി, ബിസിനസ് ഇന്റലിജൻസ്).
ഐആർ യഥാക്രമം ആദ്യ രണ്ട് തലത്തിലുള്ള വിവരങ്ങളുമായി പ്രവർത്തിക്കുന്നു, മൂന്നാം ലെവലിൽ KDD പ്രവർത്തിക്കുന്നു. നടപ്പിലാക്കൽ രീതികളെക്കുറിച്ച് നമ്മൾ സംസാരിക്കുകയാണെങ്കിൽ, ആദ്യ ഓപ്ഷൻ സൂചിപ്പിക്കുന്നു ആപ്ലിക്കേഷൻ ഏരിയ, പ്രധാന ലക്ഷ്യം ഡാറ്റ തന്നെയാണെങ്കിൽ, രണ്ടാമത്തേത് ഗണിതവും അനലിറ്റിക്‌സും ആണ്, അവിടെ നിലവിലുള്ള വലിയ അളവിലുള്ള ഡാറ്റയിൽ നിന്ന് പുതിയ അറിവ് നേടേണ്ടത് പ്രധാനമാണ്. മിക്കപ്പോഴും, ഡാറ്റ എക്സ്ട്രാക്ഷൻ (ശേഖരണം) ആണ് തയ്യാറെടുപ്പ് ഘട്ടംഅറിവ് വേർതിരിച്ചെടുക്കാൻ (വിശകലനം).

ആദ്യ പോയിന്റിന് മറ്റൊരു പദം അവതരിപ്പിക്കാൻ ഞാൻ ധൈര്യപ്പെടുന്നു - ഡാറ്റ എക്സ്ട്രാക്റ്റിംഗ്, ഞാൻ ഭാവിയിൽ ഉപയോഗിക്കും.

ഡാറ്റ മൈനിംഗ് വഴി പരിഹരിക്കപ്പെട്ട പ്രശ്നങ്ങൾ:

  1. മുമ്പ് അറിയപ്പെടുന്ന ക്ലാസുകളിൽ ഒന്നിലേക്ക് ഇൻപുട്ട് വെക്റ്റർ (വസ്തു, സംഭവം, നിരീക്ഷണം) നൽകുന്നതാണ് വർഗ്ഗീകരണം.
  2. ക്ലസ്റ്ററിംഗ് എന്നത് ഒരു കൂട്ടം ഇൻപുട്ട് വെക്റ്ററുകളെ ഗ്രൂപ്പുകളായി (ക്ലസ്റ്ററുകൾ) പരസ്പരം "സാദൃശ്യം" അനുസരിച്ച് വിഭജിക്കുന്നതാണ്.
  3. വിവരണത്തിന്റെ കുറവ് - ഡാറ്റ ദൃശ്യവൽക്കരിക്കുക, കണക്കുകൂട്ടലും വ്യാഖ്യാനവും ലളിതമാക്കുക, ശേഖരിച്ചതും സംഭരിച്ചതുമായ വിവരങ്ങളുടെ അളവ് ചുരുക്കുക.
  4. അസോസിയേഷൻ - ആവർത്തിക്കുന്ന പാറ്റേണുകൾക്കായി തിരയുന്നു. ഉദാഹരണത്തിന്, "ഷോപ്പിംഗ് കാർട്ടിലെ സുസ്ഥിര കണക്ഷനുകൾ" തിരയുന്നു.
  5. പ്രവചനം - മുമ്പത്തെ അവസ്ഥകളെ അടിസ്ഥാനമാക്കി ഒരു വസ്തുവിന്റെ ഭാവി അവസ്ഥകൾ കണ്ടെത്തൽ (ചരിത്രപരമായ ഡാറ്റ)
  6. വ്യതിയാന വിശകലനം - ഉദാഹരണത്തിന്, വിഭിന്നമായി തിരിച്ചറിയൽ നെറ്റ്വർക്ക് പ്രവർത്തനംക്ഷുദ്രവെയർ കണ്ടുപിടിക്കാൻ നിങ്ങളെ അനുവദിക്കുന്നു.
  7. ഡാറ്റ ദൃശ്യവൽക്കരണം.

വിവരങ്ങൾ വീണ്ടെടുക്കൽ

ഘടനാപരമായ ഡാറ്റ അല്ലെങ്കിൽ ചെറിയ വലിപ്പത്തിലുള്ള ഒരു പ്രതിനിധി സാമ്പിൾ ലഭിക്കുന്നതിന് വിവരങ്ങൾ വീണ്ടെടുക്കൽ ഉപയോഗിക്കുന്നു. ഞങ്ങളുടെ വർഗ്ഗീകരണം അനുസരിച്ച്, വിവര വീണ്ടെടുക്കൽ ഫസ്റ്റ്-ലെവൽ ഡാറ്റയിൽ പ്രവർത്തിക്കുന്നു, അതിന്റെ ഫലമായി, രണ്ടാം ലെവൽ വിവരങ്ങൾ നിർമ്മിക്കുന്നു.

ഏറ്റവും ലളിതമായ ഉദാഹരണംവിവരങ്ങൾ വീണ്ടെടുക്കൽ എന്നത് ഒരു സെർച്ച് എഞ്ചിനാണ്, അത് ചില അൽഗോരിതങ്ങളെ അടിസ്ഥാനമാക്കി, ഒരു പൂർണ്ണമായ പ്രമാണങ്ങളിൽ നിന്ന് വിവരങ്ങളുടെ ഒരു ഭാഗം വീണ്ടെടുക്കുന്നു. കൂടാതെ, ടെസ്റ്റ് ഡാറ്റ, മെറ്റൈൻഫോർമേഷൻ അല്ലെങ്കിൽ ഡാറ്റാബേസുകൾ എന്നിവയിൽ ഒരു തരത്തിലല്ലെങ്കിൽ മറ്റൊരു തരത്തിൽ പ്രവർത്തിക്കുന്ന ഏതൊരു സിസ്റ്റവും വിവരങ്ങൾ വീണ്ടെടുക്കൽ ടൂളുകൾ ഉപയോഗിക്കുന്നു. ഉപകരണങ്ങൾ ഇൻഡെക്‌സിംഗ്, ഫിൽട്ടറിംഗ്, ഡാറ്റ സോർട്ടിംഗ്, പാഴ്‌സറുകൾ മുതലായവയുടെ രീതികളാകാം.

ടെക്സ്റ്റ് മൈനിംഗ്

മറ്റ് പേരുകൾ: ടെക്സ്റ്റ് ഡാറ്റ മൈനിംഗ്, ടെക്സ്റ്റ് വിശകലനം, വളരെ അടുത്ത ആശയം ആശങ്ക ഖനനം ആണ്.

ടെക്സ്റ്റ് മൈനിംഗ് അസംസ്കൃത ഡാറ്റയും ഭാഗികമായി പ്രോസസ്സ് ചെയ്ത ഡാറ്റയും ഉപയോഗിച്ച് പ്രവർത്തിക്കാൻ കഴിയും, എന്നാൽ വിവരങ്ങൾ വീണ്ടെടുക്കുന്നതിൽ നിന്ന് വ്യത്യസ്തമായി, ടെക്സ്റ്റ് മൈനിംഗ് ഗണിതശാസ്ത്ര രീതികൾ ഉപയോഗിച്ച് ടെക്സ്റ്റ് വിവരങ്ങൾ വിശകലനം ചെയ്യുന്നു, ഇത് അറിവിന്റെ ഘടകങ്ങൾ ഉപയോഗിച്ച് ഫലങ്ങൾ നേടാൻ നിങ്ങളെ അനുവദിക്കുന്നു.

ടെക്സ്റ്റ് മൈനിംഗ് പരിഹരിക്കുന്ന ടാസ്ക്കുകൾ ഇവയാണ്: ഡാറ്റ പാറ്റേണുകൾ കണ്ടെത്തൽ, ഘടനാപരമായ വിവരങ്ങൾ നേടൽ, ഒബ്ജക്റ്റ് ശ്രേണികൾ നിർമ്മിക്കൽ, ഡാറ്റ വർഗ്ഗീകരിക്കുകയും ക്ലസ്റ്ററിംഗ് ചെയ്യുകയും ചെയ്യുക, വിഷയങ്ങൾ അല്ലെങ്കിൽ അറിവിന്റെ മേഖലകൾ തിരിച്ചറിയുക, സ്വയമേവയുള്ള ഡോക്യുമെന്റ് അമൂർത്തീകരണം, സ്വയമേവയുള്ള ഉള്ളടക്കം ഫിൽട്ടറിംഗ് ജോലികൾ, സെമാന്റിക് ബന്ധങ്ങൾ തിരിച്ചറിയൽ തുടങ്ങിയവ.

ടെക്സ്റ്റ് മൈനിംഗ് പ്രശ്നങ്ങൾ പരിഹരിക്കാൻ അവർ ഉപയോഗിക്കുന്നു സ്റ്റാറ്റിസ്റ്റിക്കൽ രീതികൾ, ഇന്റർപോളേഷൻ, ഏകദേശ, എക്സ്ട്രാപോളേഷൻ രീതികൾ, അവ്യക്തമായ രീതികൾ, ഉള്ളടക്ക വിശകലന രീതികൾ.

വെബ് മൈനിംഗ്

അവസാനമായി, ഞങ്ങൾ വെബ് മൈനിംഗിൽ എത്തി - വെബ് ഉറവിടങ്ങളിൽ നിന്ന് ഡാറ്റ എക്‌സ്‌ട്രാക്റ്റുചെയ്യുന്നതിനുള്ള ഒരു കൂട്ടം സമീപനങ്ങളും സാങ്കേതികതകളും.
വെബ് ഉറവിടങ്ങൾ സാധാരണയായി ടെക്സ്റ്റ് ഡാറ്റ അല്ലാത്തതിനാൽ, ഡാറ്റ എക്സ്ട്രാക്ഷൻ പ്രക്രിയയിലേക്കുള്ള സമീപനങ്ങൾ ഈ സാഹചര്യത്തിൽ വ്യത്യസ്തമാണ്. ഒന്നാമതായി, വെബിലെ വിവരങ്ങൾ ഒരു പ്രത്യേക HTML മാർക്ക്അപ്പ് ഭാഷയുടെ രൂപത്തിലാണ് സംഭരിച്ചിരിക്കുന്നതെന്ന് നിങ്ങൾ ഓർമ്മിക്കേണ്ടതുണ്ട് (മറ്റ് ഫോർമാറ്റുകൾ ഉണ്ടെങ്കിലും - RSS, Atom, SOAP, പക്ഷേ ഞങ്ങൾ അതിനെക്കുറിച്ച് പിന്നീട് സംസാരിക്കും), വെബ് പേജുകൾക്ക് കഴിയും അധിക മെറ്റാ വിവരങ്ങളും ഒരു ഡോക്യുമെന്റിന്റെ ഘടനയെ (സെമാന്റിക്‌സ്) സംബന്ധിച്ച വിവരങ്ങളും ഉണ്ടായിരിക്കണം, ഓരോ വെബ് ഡോക്യുമെന്റും ഒരു നിശ്ചിത ഡൊമെയ്‌നിലാണ് സ്ഥിതി ചെയ്യുന്നത്, സെർച്ച് എഞ്ചിൻ ഒപ്റ്റിമൈസേഷൻ (എസ്‌ഇഒ) നിയമങ്ങൾ അതിന് ബാധകമാക്കാം.

ഡാറ്റ മൈനിംഗ് / എക്‌സ്‌ട്രാക്റ്റിംഗ് / വെബ് മൈനിംഗ് എന്നിവയ്ക്കായി സമർപ്പിച്ചിരിക്കുന്ന ഒരു പരമ്പരയിലെ ആദ്യ ലേഖനമാണിത്. നിർദ്ദേശങ്ങളും യുക്തിസഹമായ വിമർശനങ്ങളും സ്വീകരിക്കുന്നു.