ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ്സ്: ബാച്ചും സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ്സും. ഡാറ്റ ട്രെൻഡുകളിലെ മാറ്റങ്ങളുടെ കാരണങ്ങൾ കണ്ടെത്തുന്നതിന് ഒരു സോഫ്റ്റ്വെയർ ഉൽപ്പന്നം വികസിപ്പിക്കുന്നതിനുള്ള രീതിശാസ്ത്രം

എവിടെ എഫ് i - i-th ബാച്ചിൽ ഫംഗ്‌ഷൻ കണക്കാക്കുന്നു, i ക്രമരഹിതമായി തിരഞ്ഞെടുത്തു;

പഠന ഘട്ടം ഒരു ഹൈപ്പർപാരാമീറ്ററാണ്; മൂല്യങ്ങൾ വളരെ വലുതാണെങ്കിൽ, പഠന അൽഗോരിതം വ്യതിചലിക്കും; മൂല്യങ്ങൾ വളരെ ചെറുതാണെങ്കിൽ, അത് സാവധാനത്തിൽ ഒത്തുചേരും.

ജഡത്വത്തോടുകൂടിയ സ്‌റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഇറക്കം

സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് രീതിയിൽ, ഓരോ ആവർത്തനത്തിലും ഗ്രേഡിയൻ്റ് വലിയ അളവിൽ മാറുന്നത് അസാധാരണമല്ല. വ്യത്യസ്ത ഡാറ്റയിൽ പ്രവർത്തനം കണക്കാക്കുന്നു എന്നതാണ് ഇതിന് കാരണം, അത് കാര്യമായ വ്യത്യാസമുണ്ടാകാം. മുമ്പത്തെ ആവർത്തനങ്ങളിൽ കണക്കാക്കിയ ഗ്രേഡിയൻ്റുകൾ ഉപയോഗിച്ച് ഈ മാറ്റം സുഗമമാക്കാൻ കഴിയും, കൂടാതെ ഇൻറർഷ്യ ഹൈപ്പർപാരാമീറ്റർ μ:

	(14)
	(15)

നിങ്ങൾ ഊഹിക്കുന്നതുപോലെ, ന്യൂട്ടോണിയൻ ജഡത്വ ശക്തി എന്ന് വിളിക്കപ്പെടുന്നതുപോലെ, ജഡത്വ ഹൈപ്പർപാരാമീറ്റർ μ-ന് ഈ പേര് ലഭിച്ചു. കൗണ്ടർ ഫോഴ്സ്, ഗ്രേഡിയൻ്റിലെ മാറ്റങ്ങളെ "എതിർക്കുന്നു" കൂടാതെ പരിശീലനത്തിലുടനീളം വെയ്റ്റിംഗ് കോഫിഫിഷ്യൻ്റുകളിലെ മാറ്റങ്ങൾ ലഘൂകരിക്കുന്നു. ഈ ലേണിംഗ് അൽഗോരിതത്തെ മൊമെൻ്റം വിത്ത് സ്‌റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് അല്ലെങ്കിൽ എസ്‌ജിഡിഎം (സ്‌റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് വിത്ത് മൊമെൻ്റം) എന്ന് വിളിക്കുന്നു.

അഡാപ്റ്റീവ് ഗ്രേഡിയൻ്റ് രീതി

അഡാപ്റ്റീവ് ഗ്രേഡിയൻ്റ് രീതി (അഡാഗ്രാഡ് - ഇംഗ്ലീഷിൽ നിന്നുള്ള "അഡാപ്റ്റീവ് ഗ്രേഡിയൻ്റ് അൽഗോരിതം") സ്കെയിലിംഗ് എന്ന ആശയത്തെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്. ട്യൂൺ ചെയ്യാവുന്ന ഓരോ പാരാമീറ്ററിനുമുള്ള പഠന നിരക്ക് ഇത് വ്യക്തിഗതമായി പുനഃക്രമീകരിക്കുന്നു, അതേസമയം ആ പാരാമീറ്ററിനായുള്ള എല്ലാ മുൻകാല ഗ്രേഡിയൻ്റുകളുടെയും ചരിത്രം കണക്കിലെടുക്കുന്നു. ഇത് ചെയ്യുന്നതിന്, ഓരോ ഗ്രേഡിയൻ്റ് മൂലകവും മുമ്പത്തെ അനുബന്ധ ഗ്രേഡിയൻ്റ് മൂലകങ്ങളുടെ സ്ക്വയറുകളുടെ ആകെത്തുകയുടെ വർഗ്ഗമൂലത്താൽ ഹരിക്കുന്നു. ഈ സമീപനം വലിയ ഗ്രേഡിയൻ്റ് മൂല്യമുള്ള ഭാരങ്ങളുടെ പഠന നിരക്ക് ഫലപ്രദമായി കുറയ്ക്കുന്നു, കൂടാതെ ഓരോ ആവർത്തനത്തിലും എല്ലാ പാരാമീറ്ററുകൾക്കും സ്ക്വയറുകളുടെ ആകെത്തുക ക്രമാനുഗതമായി വർദ്ധിക്കുന്നതിനാൽ കാലക്രമേണ എല്ലാ പാരാമീറ്ററുകൾക്കുമുള്ള പഠന നിരക്ക് കുറയ്ക്കുകയും ചെയ്യുന്നു. ഒരു പൂജ്യം പ്രാരംഭ സ്കെയിലിംഗ് പാരാമീറ്റർ g = 0 സജ്ജീകരിക്കുമ്പോൾ, വെയ്റ്റിംഗ് ഗുണകങ്ങൾ വീണ്ടും കണക്കാക്കുന്നതിനുള്ള ഫോർമുലയ്ക്ക് ഫോം ഉണ്ട് (വിഭജനം ഘടകം-ബൈ-മൂലകം നടത്തുന്നു).

സൂത്രവാക്യം ഉപയോഗിച്ച് സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് കണക്കാക്കുന്നു:

അതായത്, നൽകിയിരിക്കുന്ന ക്രമരഹിതമായ ദിശകളിൽ ചെറുതാക്കപ്പെടുന്ന പ്രവർത്തനത്തിൻ്റെ വർദ്ധനവിന് തുല്യമായ ഭാരമുള്ള എല്ലാ റാൻഡം വെക്റ്ററുകളുടെയും ആകെത്തുകയാണ് ഇത്.

നമ്മൾ യൂണിറ്റ് വെക്റ്ററുകൾ പാരാമീറ്ററുകളായി എടുക്കുകയാണെങ്കിൽ, (3.3.22) നിന്ന് കാണാൻ എളുപ്പമുള്ള ഈ എസ്റ്റിമേറ്റ് ഗ്രേഡിയൻ്റിൻ്റെ കൃത്യമായ മൂല്യം നൽകുന്നു.

വിവരിച്ച രണ്ട് ഗ്രേഡിയൻ്റ് എസ്റ്റിമേറ്റുകളും ഏത് മൂല്യങ്ങൾക്കും ഫലപ്രദമായി ഉപയോഗിക്കാനാകും, അത് നിർണ്ണായക എസ്റ്റിമേറ്റ് രീതിയിൽ നിന്ന് (3.3.22) കർശനമായി വേർതിരിക്കുന്നു. ഉപവിഭാഗം 3.3.1). അത്തരമൊരു സാമാന്യവൽക്കരണത്തിന് മറ്റൊരു ഉദാഹരണം നൽകാം.

ഗ്രേഡിയൻ്റ് തിരയൽ (3.3.21) കുറഞ്ഞത് രണ്ട് റാൻഡം സെർച്ച് അൽഗോരിതങ്ങളുടെ ഒരു പ്രത്യേക കേസാണ്. ആദ്യ അൽഗോരിതം:

ഇപ്പോഴും ഒരു യൂണിറ്റ് റാൻഡം -ഡൈമൻഷണൽ വെക്റ്റർ എവിടെയാണ്. ഇത് അറിയപ്പെടുന്ന ഗ്രേഡിയൻ്റ് റാൻഡം സെർച്ച് അൽഗോരിതം ആണ്. രണ്ടാമത്തെ അൽഗോരിതത്തിന് ഫോം ഉണ്ട് (3.3.23), എന്നാൽ ഗ്രേഡിയൻ്റ് എസ്റ്റിമേറ്റ് ഫോർമുല ഉപയോഗിച്ച് കണക്കാക്കുന്നു

കാണാൻ എളുപ്പമുള്ളത് പോലെ, രണ്ട് അൽഗോരിതങ്ങളും ഒരു ഗ്രേഡിയൻ്റ് തിരയൽ അൽഗോരിതമായി മാറുമ്പോൾ (3.3.21).

അങ്ങനെ, റാൻഡം തിരയൽ അറിയപ്പെടുന്ന സാധാരണ തിരയൽ രീതികളുടെ സ്വാഭാവിക വിപുലീകരണവും തുടർച്ചയും സാമാന്യവൽക്കരണവുമാണ്.

റാൻഡം സെർച്ചിൻ്റെ മറ്റൊരു സവിശേഷത, അതിൻ്റെ ഫലപ്രദമായ ഉപയോഗത്തിനുള്ള വിശാലമായ സാധ്യതകൾ തുറക്കുന്നു, ഒപ്റ്റിമൈസ് ചെയ്ത പാരാമീറ്ററുകളുടെ ഇടത്തിൽ തിരയൽ ദിശകൾ കണ്ടെത്തുന്നതിന് സങ്കീർണ്ണമായ സാധാരണ ഓപ്പറേറ്റർമാരുടെ ഒരു സ്റ്റോക്കാസ്റ്റിക് മോഡലായി റാൻഡം സ്റ്റെപ്പ് ഓപ്പറേറ്ററെ ഉപയോഗിക്കുന്നു.

അങ്ങനെ, ലീനിയർ തന്ത്രങ്ങളോടുകൂടിയ റാൻഡം സെർച്ച് അൽഗോരിതം (3.3.12) കുത്തനെയുള്ള ഡിസെൻ്റ് അൽഗോരിതത്തിൻ്റെ ഒരു സ്റ്റോക്കാസ്റ്റിക് മാതൃകയാണ്:

അതിൽ ഒരു റാൻഡം വെക്റ്റർ ഗ്രേഡിയൻ്റ് എസ്റ്റിമേഷൻ മാതൃകയാക്കുന്നു. അത്തരമൊരു “എസ്റ്റിമേറ്റ്” പരുക്കൻ എന്ന് വിളിക്കാൻ പോലും കഴിയില്ല എന്നത് കൗതുകകരമാണ്, കാരണം അതിൻ്റെ സ്ഥാപിത ഗുണങ്ങൾ കണക്കാക്കിയ ഗ്രേഡിയൻ്റിൻ്റെ ഗുണങ്ങളുമായി സാമ്യമില്ല. എന്നിരുന്നാലും, മുകളിൽ കാണിച്ചിരിക്കുന്നതുപോലെ, റാൻഡം സെർച്ച് അൽഗോരിതം കാര്യക്ഷമമാണെന്ന് മാത്രമല്ല, ചില സന്ദർഭങ്ങളിൽ ഇത് കുത്തനെയുള്ള ഡിസെൻ്റ് അൽഗോരിതത്തേക്കാൾ കാര്യക്ഷമവുമാണ്. ഇവിടെ

റാൻഡം സ്റ്റെപ്പ് ഓപ്പറേറ്റർ ബുദ്ധിമുട്ടുള്ള ഗ്രേഡിയൻ്റ് എസ്റ്റിമേഷൻ ഓപ്പറേറ്ററെ മാറ്റിസ്ഥാപിക്കുന്നു, ഉദാഹരണത്തിന്, ഫോർമുല അനുസരിച്ച് (3.3.22).

ക്രമരഹിതമായ തിരയലിൻ്റെ അടുത്ത സവിശേഷത, പതിവ് രീതികളിൽ നിന്ന് അതിനെ അനുകൂലമായി വേർതിരിക്കുന്നത് അതിൻ്റെ ആഗോളതയാണ്, ഇത് പ്രാഥമികമായി ഒരു ആഗോള തീവ്രത കണ്ടെത്താൻ ഉദ്ദേശിക്കാത്ത പ്രാദേശിക റാൻഡം തിരയൽ അൽഗോരിതങ്ങളിൽ പ്രകടമാകുന്നു. അങ്ങനെ, റാൻഡം ഡിസെൻറ് അൽഗോരിതം ഒരു ഗ്ലോബൽ എക്സ്ട്രീം കണ്ടെത്താൻ കഴിയും, എന്നാൽ പതിവ് കുത്തനെയുള്ള ഇറക്കം അൽഗോരിതം, തത്വത്തിൽ, ഈ സാധ്യത അനുവദിക്കുന്നില്ല, കാരണം ഇത് ഒരു ലോക്കൽ എക്സ്ട്രീം കണ്ടെത്താൻ രൂപകൽപ്പന ചെയ്തിട്ടുള്ളതാണ്.

തൽഫലമായി, ക്രമരഹിതമായ തിരയൽ അൽഗോരിതങ്ങളുടെ ആഗോള സ്വഭാവം ക്രമരഹിതമായ ഉപയോഗത്തിനുള്ള ഒരു തരം "പ്രീമിയം" ആണ്, കൂടാതെ അൽഗോരിതത്തിന് "സൌജന്യ ആപ്ലിക്കേഷൻ" പോലെയുള്ള ഒന്ന്. ഒരു അജ്ഞാത ഘടനയുള്ള വസ്തുക്കളെ ഒപ്റ്റിമൈസ് ചെയ്യുമ്പോൾ ഈ സാഹചര്യം വളരെ പ്രധാനമാണ്, പ്രശ്നത്തിൻ്റെ ഒരു തീവ്ര സ്വഭാവത്തിൽ പൂർണ്ണമായ ആത്മവിശ്വാസം ഇല്ലാതിരിക്കുകയും നിരവധി തീവ്രതയുടെ സാന്നിധ്യം സാധ്യമാകുകയും ചെയ്യുമ്പോൾ (പ്രതീക്ഷിച്ചില്ലെങ്കിലും). ഈ സാഹചര്യത്തിൽ ആഗോള തിരയൽ രീതികൾ ഉപയോഗിക്കുന്നത് യുക്തിരഹിതമായ പാഴായിപ്പോകും. പ്രാദേശിക റാൻഡം തിരയൽ രീതികൾ ഇവിടെ ഏറ്റവും അനുയോജ്യമാണ്, കാരണം അവ ഒരു പ്രാദേശിക പ്രശ്നം ഫലപ്രദമായി പരിഹരിക്കുകയും തത്വത്തിൽ, ആഗോളമായ ഒന്ന് സംഭവിക്കുകയാണെങ്കിൽ അത് പരിഹരിക്കുകയും ചെയ്യും. ഇത് ഉപയോക്താക്കൾ വളരെയധികം വിലമതിക്കുന്ന ഒരുതരം മനഃശാസ്ത്രപരമായ വിശ്വാസ്യതയുള്ള ക്രമരഹിതമായ തിരയലുകൾ നൽകുന്നു.

റാൻഡം സെർച്ചിൻ്റെ അൽഗോരിതമിക് ലാളിത്യം പ്രധാനമായും ഉപഭോക്താക്കളെ ആകർഷിക്കുന്നു. അറിയപ്പെടുന്ന റാൻഡം സെർച്ച് അൽഗോരിതങ്ങൾ ഒരു "കാൻവാസ്" മാത്രമാണെന്ന് അനുഭവം കാണിക്കുന്നു, ഓരോ പ്രത്യേക സാഹചര്യത്തിലും, ഉപയോക്താവ്, അവൻ്റെ അഭിരുചികളും ചായ്‌വുകളും മാത്രമല്ല (അവഗണിക്കാനാവില്ല) മാത്രമല്ല, പ്രത്യേകതകളും പ്രതിഫലിപ്പിക്കുന്ന പുതിയ അൽഗോരിതങ്ങളുടെ പാറ്റേണുകൾ "എംബ്രോയ്ഡറുകൾ" ചെയ്യുന്നു. ഒപ്റ്റിമൈസ് ചെയ്ത വസ്തുവിൻ്റെ. രണ്ടാമത്തേത് അൽഗോരിതം "ഒബ്ജക്റ്റിനായി" രൂപകൽപ്പന ചെയ്യപ്പെടണം എന്ന അറിയപ്പെടുന്ന തത്വം നടപ്പിലാക്കുന്നതിന് അനുകൂലമായ അടിസ്ഥാനം സൃഷ്ടിക്കുന്നു. അവസാനമായി, റാൻഡം സെർച്ചിൻ്റെ അൽഗോരിതം ലാളിത്യം അതിൻ്റെ ഹാർഡ്‌വെയർ നടപ്പിലാക്കലിൻ്റെ ലാളിത്യം നിർണ്ണയിക്കുന്നു. ഇത് പരിധിയില്ലാത്ത ഒപ്റ്റിമൈസ് ചെയ്ത പാരാമീറ്ററുകൾ ഉപയോഗിച്ച് ലളിതവും ഒതുക്കമുള്ളതും വിശ്വസനീയവുമായ ഒപ്റ്റിമൈസറുകൾ നിർമ്മിക്കുന്നത് സാധ്യമാക്കുക മാത്രമല്ല, ഒരു കമ്പ്യൂട്ടറിൽ അവയുടെ ഒപ്റ്റിമൽ സിന്തസിസ് സംഘടിപ്പിക്കുന്നത് വളരെ ലളിതമാക്കുകയും ചെയ്യുന്നു.

വിജ്ഞാന അടിത്തറയിൽ നിങ്ങളുടെ നല്ല സൃഷ്ടികൾ അയയ്ക്കുക ലളിതമാണ്. ചുവടെയുള്ള ഫോം ഉപയോഗിക്കുക

വിദ്യാർത്ഥികൾ, ബിരുദ വിദ്യാർത്ഥികൾ, അവരുടെ പഠനത്തിലും ജോലിയിലും വിജ്ഞാന അടിത്തറ ഉപയോഗിക്കുന്ന യുവ ശാസ്ത്രജ്ഞർ നിങ്ങളോട് വളരെ നന്ദിയുള്ളവരായിരിക്കും.

പോസ്റ്റ് ചെയ്തത് http://www.allbest.ru/

റഷ്യൻ ഫെഡറേഷൻ്റെ വിദ്യാഭ്യാസ, ശാസ്ത്ര മന്ത്രാലയം

ഫെഡറൽ സ്റ്റേറ്റ് സ്വയംഭരണ വിദ്യാഭ്യാസ സ്ഥാപനം

ഉന്നത വിദ്യാഭ്യാസം

"കസാൻ (വോൾഗ) ഫെഡറൽ യൂണിവേഴ്‌സിറ്റി"

ഹൈസ്കൂൾ ഓഫ് ഇൻഫർമേഷൻ ടെക്നോളജി ആൻഡ് ഇൻഫർമേഷൻ സിസ്റ്റങ്ങൾ

കോഴ്‌സ് വർക്ക്

സ്ഥായിയായ ഗ്രേഡിയൻ്റ് ഇറക്കം. നടപ്പിലാക്കൽ ഓപ്ഷനുകൾ

ആമുഖം

ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് എന്നത് ഒരു ഗ്രേഡിയൻ്റിലൂടെ നീങ്ങിക്കൊണ്ട് ഒരു ഫംഗ്ഷൻ്റെ ഒരു ലോക്കൽ എക്‌സ്‌ട്രീം (മിനിമം അല്ലെങ്കിൽ പരമാവധി) കണ്ടെത്തുന്നതിനുള്ള ഒരു രീതിയാണ്.

എല്ലാ പ്രാദേശിക ഒപ്റ്റിമൈസേഷൻ രീതികളിലും, ഇത് നടപ്പിലാക്കാൻ എളുപ്പമാണ്. ഇതിന് താരതമ്യേന ദുർബലമായ കൺവെർജൻസ് അവസ്ഥകളുണ്ട്, പക്ഷേ ഒത്തുചേരൽ നിരക്ക് വളരെ കുറവാണ്.

സപ്പോർട്ട് വെക്റ്റർ മെഷീനുകൾ, ലോജിസ്റ്റിക് റിഗ്രഷൻ, ഗ്രാഫിക്കൽ മോഡലുകൾ എന്നിവയുൾപ്പെടെയുള്ള മെഷീൻ ലേണിംഗ് മോഡലുകളുടെ വിശാലമായ ശ്രേണികൾക്കായുള്ള ഒരു ജനപ്രിയ അൽഗോരിതം ആണ് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ്. ബാക്ക്‌പ്രൊപഗേഷൻ അൽഗോരിതം സംയോജിപ്പിച്ച്, കൃത്രിമ ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ പരിശീലിപ്പിക്കുന്നതിനുള്ള ഒരു സാധാരണ അൽഗോരിതം ആണ് ഇത്. സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് L-BFGS അൽഗോരിതവുമായി മത്സരിക്കുന്നു, അത് വ്യാപകമായി ഉപയോഗിക്കപ്പെടുന്നു. ലീനിയർ റിഗ്രഷൻ മോഡലുകളെ പരിശീലിപ്പിക്കാൻ കുറഞ്ഞത് 1960 മുതൽ സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് ഉപയോഗിച്ചുവരുന്നു, തുടക്കത്തിൽ അഡലൈൻ എന്ന പേരിൽ.

ഈ കോഴ്‌സ് വർക്കിൻ്റെ ഉദ്ദേശ്യം, സ്‌റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻസിനായുള്ള നിരവധി ഓപ്ഷനുകൾ നടപ്പിലാക്കൽ, അവയുടെ തുടർന്നുള്ള താരതമ്യം, ഗുണങ്ങളും ദോഷങ്ങളും വ്യക്തമാക്കൽ എന്നിവ പരിഗണിക്കുക എന്നതാണ്.

1. സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ്

സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് ഒരു ഒപ്റ്റിമൈസേഷൻ അൽഗോരിതം ആണ്, ഇത് പലപ്പോഴും ഒരു മെഷീൻ ലേണിംഗ് മോഡലിൻ്റെ പാരാമീറ്ററുകൾ ട്യൂൺ ചെയ്യാൻ ഉപയോഗിക്കുന്നു.

സ്റ്റാൻഡേർഡ് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് മോഡൽ പാരാമീറ്ററുകൾ മാറ്റാൻ ഒരു ഗ്രേഡിയൻ്റ് ഉപയോഗിക്കുന്നു. ഓരോ പരിശീലന ഘടകവും മൂലമുണ്ടാകുന്ന ഗ്രേഡിയൻ്റുകളുടെ ആകെത്തുകയാണ് ഗ്രേഡിയൻ്റ് സാധാരണയായി കണക്കാക്കുന്നത്. തന്നിരിക്കുന്ന ഘട്ടം അനുസരിച്ച് പാരാമീറ്റർ വെക്റ്റർ ആൻ്റിഗ്രേഡിയൻ്റിൻ്റെ ദിശയിൽ മാറുന്നു. അതിനാൽ, സ്റ്റാൻഡേർഡ് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റിന് പാരാമീറ്ററുകൾ മാറ്റുന്നതിന് മുമ്പ് പരിശീലന ഡാറ്റയിലൂടെ ഒരു പാസ് ആവശ്യമാണ്.

സ്‌റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻറ്റിൽ, ഒരു പരിശീലന ഘടകത്തിൽ മാത്രം കണക്കാക്കിയ കോസ്റ്റ് ഫംഗ്‌ഷൻ്റെ ഗ്രേഡിയൻ്റാണ് ഗ്രേഡിയൻ്റിൻ്റെ മൂല്യം കണക്കാക്കുന്നത്. അതിനുശേഷം ഏകദേശ ഗ്രേഡിയൻ്റിന് ആനുപാതികമായി പരാമീറ്ററുകൾ മാറ്റുന്നു. അങ്ങനെ, ഓരോ പഠന വസ്തുവിനും ശേഷം മോഡൽ പാരാമീറ്ററുകൾ മാറ്റുന്നു. വലിയ ഡാറ്റാ സെറ്റുകൾക്ക്, സ്റ്റാൻഡേർഡ് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റിനെ അപേക്ഷിച്ച് സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റിന് കാര്യമായ വേഗത നേട്ടം നൽകാൻ കഴിയും.

ഈ രണ്ട് തരം ഗ്രേഡിയൻ്റ് ഡീസൻ്റുകൾക്കിടയിൽ ഒരു വിട്ടുവീഴ്ചയുണ്ട്, ചിലപ്പോൾ "മിനി-ബാച്ച്" എന്ന് വിളിക്കപ്പെടുന്നു. ഈ സാഹചര്യത്തിൽ, ചെറിയ പരിശീലന സാമ്പിളുകളുടെ ആകെത്തുക കൊണ്ട് ഗ്രേഡിയൻ്റ് കണക്കാക്കുന്നു.

1.1 മുൻവ്യവസ്ഥകൾ

സ്റ്റാറ്റിസ്റ്റിക്കൽ എസ്റ്റിമേറ്റുകളും മെഷീൻ ലേണിംഗും ഒരു ഫംഗ്ഷൻ ചെറുതാക്കുന്നതിൻ്റെ പ്രശ്നം പരിഗണിക്കുന്നു, അതിന് ഫോം ഉണ്ട്:

ഇവിടെ ചെറുതാക്കുന്ന പരാമീറ്റർ കണക്കാക്കണം. ഓരോ പദവും സാധാരണയായി ഡാറ്റാ സെറ്റിലെ i-th നിരീക്ഷണവുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു (പരിശീലനത്തിനായി ഉപയോഗിക്കുന്നു).

ക്ലാസിക്കൽ സ്ഥിതിവിവരക്കണക്കുകളിൽ, തുകകൾ കുറയ്ക്കുന്നതിനുള്ള പ്രശ്നം ഏറ്റവും കുറഞ്ഞ സ്ക്വയർ രീതിയിലും പരമാവധി സാധ്യതാ രീതിയിലും (സ്വതന്ത്ര നിരീക്ഷണങ്ങൾക്ക്) ഉയർന്നുവരുന്നു. തുകകൾ ചെറുതാക്കുന്നതിലൂടെ ഉണ്ടാകുന്ന എസ്റ്റിമേറ്റർമാരുടെ പൊതുവിഭാഗത്തെ എം-എസ്റ്റിമേറ്റർ എന്ന് വിളിക്കുന്നു. എന്നിരുന്നാലും, സ്ഥിതിവിവരക്കണക്കുകളിൽ, ചില പരമാവധി സാധ്യത കണക്കാക്കൽ പ്രശ്നങ്ങൾക്ക് പ്രാദേശിക മിനിമൈസേഷൻ്റെ ആവശ്യകത പോലും വളരെ നിയന്ത്രിതമാണെന്ന് വളരെക്കാലമായി തിരിച്ചറിഞ്ഞിട്ടുണ്ട്. അതിനാൽ, ആധുനിക സ്റ്റാറ്റിസ്റ്റിക്കൽ സൈദ്ധാന്തികർ പലപ്പോഴും സാധ്യതാ പ്രവർത്തനത്തെക്കുറിച്ചുള്ള നിശ്ചല പോയിൻ്റുകൾ പരിഗണിക്കുന്നു (ഡെറിവേറ്റീവിൻ്റെ പൂജ്യങ്ങൾ, എസ്റ്റിമേറ്റിംഗ് ഫംഗ്ഷൻ, മറ്റ് എസ്റ്റിമേറ്റിംഗ് സമവാക്യങ്ങൾ).

അനുഭവപരമായ അപകടസാധ്യത കുറയ്ക്കുന്നതിലും തുകകൾ കുറയ്ക്കുന്നതിനുള്ള പ്രശ്നം ഉയർന്നുവരുന്നു. ഈ സാഹചര്യത്തിൽ, ഇത് ഐ-സെറ്റിനുള്ള നഷ്ട പ്രവർത്തനത്തിൻ്റെ മൂല്യവും അനുഭവപരമായ അപകടസാധ്യതയുമാണ്.

ഒരു ഫംഗ്‌ഷൻ ചെറുതാക്കുമ്പോൾ, സ്റ്റാൻഡേർഡ് (അല്ലെങ്കിൽ "ബാച്ച്") ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് ഇനിപ്പറയുന്ന ആവർത്തനങ്ങൾ നടത്തും:

സ്റ്റെപ്പ് സൈസ് എവിടെയാണ് (ചിലപ്പോൾ മെഷീൻ ലേണിംഗിലെ ലേണിംഗ് റേറ്റ് എന്ന് വിളിക്കുന്നു).

മിക്ക കേസുകളിലും, സം ഫംഗ്ഷൻ്റെയും ഗ്രേഡിയൻ്റുകളുടെ ആകെത്തുകയുടെയും ലളിതമായ കണക്കുകൂട്ടലുകൾ ഉൾപ്പെടുന്ന ഒരു ലളിതമായ മാതൃകയാണ് സമ്മണ്ട് ഫംഗ്ഷനുള്ളത്. ഉദാഹരണത്തിന്, സ്ഥിതിവിവരക്കണക്കുകളിൽ, ഒരു പരാമീറ്ററുള്ള എക്‌സ്‌പോണൻഷ്യൽ ഫാമിലികൾ ഫംഗ്‌ഷനുകളുടെയും ഗ്രേഡിയൻ്റുകളുടെയും സാമ്പത്തിക കണക്കുകൂട്ടലുകൾ അനുവദിക്കുന്നു.

എന്നിരുന്നാലും, മറ്റ് സന്ദർഭങ്ങളിൽ, മൊത്തം ഗ്രേഡിയൻ്റ് എസ്റ്റിമേറ്റുകൾക്ക് എല്ലാ ടേം ഫംഗ്ഷനുകളിൽ നിന്നും ഗ്രേഡിയൻ്റുകളുടെ വിലയേറിയ എസ്റ്റിമേറ്റ് ആവശ്യമായി വന്നേക്കാം. പരിശീലന സെറ്റ് വളരെ വലുതും ലളിതമായ സൂത്രവാക്യങ്ങൾ നിലവിലില്ലാത്തതുമായിരിക്കുമ്പോൾ, ഗ്രേഡിയൻ്റുകളുടെ ആകെത്തുക കണക്കാക്കുന്നത് വളരെ ചെലവേറിയതായിത്തീരുന്നു, കാരണം ഗ്രേഡിയൻ്റ് കണക്കാക്കുന്നതിന് ഫംഗ്‌ഷനുകളുടെ എല്ലാ ഗ്രേഡിയൻ്റുകളേയും സംഗ്രഹം ഉപയോഗിച്ച് കണക്കാക്കേണ്ടതുണ്ട്. ഓരോ ആവർത്തനത്തിലും കമ്പ്യൂട്ടേഷണൽ ചെലവ് ലാഭിക്കുന്നതിന്, സ്‌റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻറിൽ സാമ്പിൾ ഓരോ ഘട്ടത്തിലും നിബന്ധനകളുടെ പ്രവർത്തനങ്ങളുടെ ഒരു ഉപവിഭാഗമാണ്. വലിയ തോതിലുള്ള മെഷീൻ ലേണിംഗ് പ്രശ്നങ്ങളുടെ കാര്യത്തിൽ ഇത് വളരെ ഫലപ്രദമാണ്.

1.2 ആവർത്തന രീതി

സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻറ്റിൽ, ഈ ഉദാഹരണത്തിലെ ഗ്രേഡിയൻ്റ് ഉപയോഗിച്ച് യഥാർത്ഥ ഗ്രേഡിയൻ്റ് കണക്കാക്കുന്നു:

പരിശീലന സെറ്റിലൂടെ അൽഗോരിതം കുതിക്കുമ്പോൾ, ഓരോ പരിശീലന ഉദാഹരണത്തിനും മുകളിലുള്ള അപ്‌ഡേറ്റുകൾ അത് നടപ്പിലാക്കുന്നു. അൽഗോരിതം ഒത്തുചേരുന്നത് വരെ പരിശീലന സെറ്റിൽ നിരവധി പാസുകൾ നടത്താം. ലൂപ്പുകൾ തടയാൻ ഓരോ പാസിനും ഡാറ്റ ഷഫിൾ ചെയ്യാം. സാധാരണ നിർവ്വഹണങ്ങൾ ഒരു അഡാപ്റ്റീവ് ലേണിംഗ് നിരക്ക് ഉപയോഗിച്ചേക്കാം, അങ്ങനെ അൽഗോരിതം ഒത്തുചേരുന്നു.

സ്യൂഡോകോഡിൽ, സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് ഇനിപ്പറയുന്ന രീതിയിൽ പ്രതിനിധീകരിക്കാം:

1) പ്രാരംഭ പാരാമീറ്റർ വെക്‌ടറും പഠന നിരക്കും തിരഞ്ഞെടുക്കുക.

2) ഏറ്റവും കുറഞ്ഞത് ലഭിക്കുന്നത് വരെ ആവർത്തിക്കുക:

2.1) പരിശീലന സെറ്റിലെ ഉദാഹരണങ്ങൾ ക്രമരഹിതമായി ഷഫിൾ ചെയ്യുക.

2.2) i = 1,2,...,n, ചെയ്യുക:

കോൺവെക്‌സ് മിനിമൈസേഷൻ്റെയും സ്‌റ്റോക്കാസ്റ്റിക് ഏകദേശത്തിൻ്റെയും സിദ്ധാന്തം ഉപയോഗിച്ച് സ്‌റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻറിൻ്റെ സംയോജനം വിശകലനം ചെയ്തു. പഠന നിരക്ക് ഉചിതമായ നിരക്കിൽ ക്ഷയിക്കുമ്പോൾ, താരതമ്യേന ദുർബലമായ അനുമാനങ്ങൾക്ക് കീഴിൽ, ഫംഗ്ഷൻ കോൺവെക്സ് അല്ലെങ്കിൽ സ്യൂഡോകോൺവെക്സ് ആയിരിക്കുമ്പോൾ, സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് ആഗോള മിനിമം ആയി മാറുന്നു, അല്ലെങ്കിൽ പ്രാദേശിക മിനിമം ആയി ഒത്തുചേരുന്നു.

1.3 നടപ്പിലാക്കൽ ഓപ്ഷനുകൾ

അടിസ്ഥാന സ്‌റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് രീതിയെക്കാൾ നിരവധി മെച്ചപ്പെടുത്തലുകൾ നിർദ്ദേശിക്കപ്പെടുകയും ഉപയോഗിക്കുകയും ചെയ്തിട്ടുണ്ട്. പ്രത്യേകിച്ച് മെഷീൻ ലേണിംഗിൽ, ലേണിംഗ് റേറ്റ് (സ്റ്റെപ്പ് സൈസ്) സജ്ജീകരിക്കേണ്ടതിൻ്റെ ആവശ്യകത പ്രശ്നമാണെന്ന് കണ്ടെത്തി.

നിങ്ങൾ ഈ പരാമീറ്റർ വളരെ വലുതായി സജ്ജീകരിക്കുകയാണെങ്കിൽ, അത് അൽഗോരിതം വ്യതിചലിച്ചേക്കാം. ഇത് നേരെ മറിച്ചാണെങ്കിൽ, അൽഗരിതം സാവധാനം ഒത്തുചേരും.

സ്‌റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻറിൻ്റെ ആശയപരമായി ലളിതമായ ഒരു വിപുലീകരണം, ആവർത്തനങ്ങളുടെ എണ്ണം അനുസരിച്ച് പഠന നിരക്ക് കുറയുന്ന പ്രവർത്തനമാക്കുന്നു m.

ഈ ഓപ്പറേഷൻ ചെയ്തുകഴിഞ്ഞാൽ, ആദ്യ ആവർത്തനങ്ങൾ പരാമീറ്ററുകളിൽ വലിയ മാറ്റങ്ങൾക്ക് കാരണമാകുമെന്ന് വ്യക്തമാണ്, അതേസമയം പിന്നീടുള്ളവ മികച്ച ട്യൂണിംഗ് നടത്തുന്നു.

ഈ സൃഷ്ടിയുടെ ചട്ടക്കൂടിനുള്ളിൽ, സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് നടപ്പിലാക്കുന്നതിനുള്ള ഇനിപ്പറയുന്ന ഓപ്ഷനുകൾ പരിഗണിക്കും:

1. 4 ആക്കം

മൊമെൻ്റം മെത്തേഡ് എന്നും അറിയപ്പെടുന്ന മൊമെൻ്റം, അമേരിക്കൻ മനശാസ്ത്രജ്ഞനായ ഡേവിഡ് റാംൽഹാർട്ടിൽ നിന്നും, ജെഫ്രി ഹിൻ്റണിൻ്റെയും റൊണാൾഡ് ജെ വില്യം എന്നിവരുടെയും ബാക്ക്പ്രൊപ്പഗേഷൻ രീതിയെക്കുറിച്ചുള്ള പഠനത്തിൽ നിന്നാണ് ഉത്ഭവിച്ചത്. മൊമെൻ്റം ഉള്ള സ്‌റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് ഓരോ ആവർത്തനത്തിലും അപ്‌ഡേറ്റുകൾ ഓർമ്മിക്കുകയും ഗ്രേഡിയൻ്റിൻ്റെയും മുമ്പത്തെ അപ്‌ഡേറ്റിൻ്റെയും ലീനിയർ കോമ്പിനേഷനായി അടുത്ത അപ്‌ഡേറ്റ് നിർണ്ണയിക്കുകയും ചെയ്യുന്നു:

ഇത് നയിക്കുന്നു:

ഇവിടെ ചെറുതാക്കുന്ന പാരാമീറ്ററും സ്റ്റെപ്പ് വലുപ്പവും കണക്കാക്കണം (ചിലപ്പോൾ മെഷീൻ ലേണിംഗിലെ ലേണിംഗ് റേറ്റ് എന്ന് വിളിക്കുന്നു).

ഭൗതികശാസ്ത്രത്തിലെ പ്രേരണയുമായി സാമ്യമുള്ളതിൽ നിന്നാണ് ഇംപൾസ് എന്ന പേര് വന്നത്: ഒരു ഭാരം വെക്റ്റർ. പാരാമീറ്റർ സ്‌പെയ്‌സിലൂടെ ഒരു മെറ്റീരിയൽ പോയിൻ്റിൻ്റെ ചലനം ബലം മൂലം ത്വരിതപ്പെടുത്തുന്നു, ഇത് ലോസ് ഗ്രേഡിയൻ്റ് ആണ്.

ക്ലാസിക് സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് രീതി പോലെയല്ല, ഇത് ചലനത്തെ ഒരു ദിശയിൽ നിർത്തുന്നു, ആന്ദോളനങ്ങൾ തടയുന്നു. നിരവധി പതിറ്റാണ്ടുകളായി മൊമെൻ്റം വിജയകരമായി ഉപയോഗിച്ചു.

1.5 അഡാഗ്രാഡ്

AdaGrad ഒരു ലേണിംഗ് റേറ്റ് പ്രീ-പാരാമീറ്റർ ഉള്ള ഒരു പരിഷ്കരിച്ച സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് ആണ്. 2011-ൽ ആദ്യമായി പ്രസിദ്ധീകരിച്ചത്. അനൗപചാരികമായി, ഇത് കൂടുതൽ വിരളമായ പാരാമീറ്ററുകൾക്കുള്ള പഠന നിരക്ക് വർദ്ധിപ്പിക്കുകയും വിരളമായവയ്ക്ക് പഠന നിരക്ക് കുറയ്ക്കുകയും ചെയ്യുന്നു. ഡാറ്റ വിരളവും വിരളമായ പാരാമീറ്ററുകൾ കൂടുതൽ വിവരദായകവുമായ സ്ഥലങ്ങളിലെ സ്റ്റാൻഡേർഡ് സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് അൽഗോരിതവുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ ഈ തന്ത്രം പലപ്പോഴും ഒത്തുചേരാനുള്ള സാധ്യത മെച്ചപ്പെടുത്തുന്നു.

അത്തരം ആപ്ലിക്കേഷനുകളുടെ ഉദാഹരണങ്ങളിൽ സ്വാഭാവിക ഭാഷാ പ്രോസസ്സിംഗും പാറ്റേൺ തിരിച്ചറിയലും ഉൾപ്പെടുന്നു.

ഇതിന് ഇപ്പോഴും ഒരു പഠന നിരക്ക് അടിസ്ഥാനമുണ്ട്, പക്ഷേ മാട്രിക്സിൻ്റെ ടെൻസർ ഉൽപ്പന്നത്തിൻ്റെ ഡയഗണലായ വെക്‌ടറിൻ്റെ മൂലകങ്ങളാൽ ഗുണിക്കപ്പെടുന്നു.

ആവർത്തന m-ൽ ഗ്രേഡിയൻ്റ് എവിടെയാണ്.

ഡയഗണൽ ഇപ്രകാരം വ്യക്തമാക്കിയിരിക്കുന്നു:

ഓരോ ആവർത്തനത്തിനു ശേഷവും വെക്റ്റർ അപ്ഡേറ്റ് ചെയ്യുന്നു. അപ്ഡേറ്റ് ഫോർമുല ഇപ്പോൾ ഇതുപോലെ കാണപ്പെടുന്നു:

അല്ലെങ്കിൽ ഒരു പ്രാഥമിക പാരാമീറ്റർ അപ്ഡേറ്റായി എഴുതിയിരിക്കുന്നു,

ഓരോന്നും ഒരൊറ്റ പാരാമീറ്ററിൽ പ്രയോഗിക്കുന്ന പഠന നിരക്ക് ഘടകത്തിൻ്റെ സ്കേലബിളിറ്റി വർദ്ധിപ്പിക്കുന്നു.

ഡിനോമിനേറ്റർ മുമ്പത്തെ ഡെറിവേറ്റീവുകളുടെ യൂക്ലിഡിയൻ മാനദണ്ഡമായതിനാൽ, അപ്‌ഡേറ്റ് പാരാമീറ്ററുകളുടെ നാമമാത്ര മൂല്യങ്ങൾ പരിമിതപ്പെടുത്തിയിരിക്കുന്നു, അതേസമയം ചെറിയ അപ്‌ഡേറ്റുകൾ ഉള്ള പാരാമീറ്ററുകൾക്ക് ഉയർന്ന തലത്തിലുള്ള പഠനം ലഭിക്കും.

കോൺവെക്‌സ് ഒപ്റ്റിമൈസേഷൻ പ്രശ്‌നങ്ങളിൽ ജോലി നടക്കുമ്പോൾ, കോൺവെക്‌സ് അല്ലാത്ത ഒപ്റ്റിമൈസേഷൻ പ്രശ്‌നങ്ങളിൽ അഡാഗ്രാഡ് വിജയകരമായി പ്രയോഗിച്ചു.

1.6 RMSProp

ഓരോ പാരാമീറ്ററുകൾക്കും പഠന നിരക്ക് പൊരുത്തപ്പെടുത്തുന്ന ഒരു രീതി കൂടിയാണ് RMSProp. ഒരു പ്രത്യേക ഭാരത്തിനായുള്ള പഠന നിരക്ക് ആ ഭാരത്തിനായുള്ള ഏറ്റവും പുതിയ ഗ്രേഡിയൻ്റുകളുടെ ചലിക്കുന്ന ശരാശരി കൊണ്ട് ഹരിക്കുക എന്നതാണ് ആശയം. അങ്ങനെ, ആദ്യത്തെ ചലിക്കുന്ന ശരാശരി ഒരു ചതുരമായി കണക്കാക്കുന്നു:

എക്‌സ്‌പോണൻഷ്യൽ വെയ്റ്റിംഗ് പാരാമീറ്റർ അല്ലെങ്കിൽ "മറക്കുന്ന ഘടകം" പരാമീറ്റർ എവിടെയാണ്

ചുവടെയുള്ള ഫോർമുല ഉപയോഗിച്ച് പാരാമീറ്ററുകൾ അപ്ഡേറ്റ് ചെയ്യുന്നു:

RMSProp വ്യത്യസ്ത ആപ്ലിക്കേഷനുകളിലുടനീളം പഠന നിരക്കുകളുടെ മികച്ച പൊരുത്തപ്പെടുത്തൽ കാണിച്ചു. RMSProp എന്നത് Rprop-ൻ്റെ ഒരു സാമാന്യവൽക്കരണമായി കണക്കാക്കാം, സാധാരണ ഗ്രേഡിയൻ്റ് ഡിസെൻ്റിന് വിരുദ്ധമായ മിനി-ബാച്ച് പോലെയുള്ള ഗ്രേഡിയൻ്റ് ഡീസൻ്റിൻ്റെ ഒരു വകഭേദവുമായി പ്രവർത്തിക്കാനും ഇതിന് കഴിയും.

2. സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് നടപ്പിലാക്കൽ

ഈ ഘട്ടത്തിൽ, പൈത്തൺ പ്രോഗ്രാമിംഗ് ഭാഷയിൽ പ്രോഗ്രാം കോഡിൻ്റെ രൂപത്തിൽ സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റിൻ്റെ നിരവധി വകഭേദങ്ങൾ നടപ്പിലാക്കും.

2.1 സ്റ്റാൻഡേർഡ് സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് നടപ്പിലാക്കൽ

ആദ്യം, നിങ്ങൾക്ക് ഒരു ഡാറ്റ സെറ്റ് ആവശ്യമാണ്. ഈ സാഹചര്യത്തിൽ, Scikit-Learn ലൈബ്രറി ഉപയോഗിച്ച് ഒരു ഡാറ്റാസെറ്റ് സൃഷ്ടിക്കപ്പെടുന്നു:

ഗ്രേഡിയൻ്റ് സ്റ്റോക്കാസ്റ്റിക് അൽഗോരിതം പഠനം

sklearn.datasets-ൽ നിന്ന് make_moons ഇറക്കുമതി ചെയ്യുക

sklearn.cross_validation ഇറക്കുമതി train_test_split എന്നതിൽ നിന്ന്

X, y = make_moons(n_samples=5000, random_state=42, noise=0.1)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

ഞങ്ങൾക്ക് ലഭിച്ചത് ഇതാ:

ചിത്രം 1 - ഡാറ്റാ സെറ്റിൻ്റെ ഗ്രാഫിക്കൽ പ്രാതിനിധ്യം

അടുത്തതായി, ന്യൂറൽ നെറ്റ്വർക്ക് മോഡൽ നിർണ്ണയിക്കപ്പെടുന്നു. ഇത് നെറ്റ്‌വർക്കിൻ്റെ മൂന്ന് പാളികളായിരിക്കും (ഒരു മറഞ്ഞിരിക്കുന്ന പാളി):

nmpy np ആയി ഇറക്കുമതി ചെയ്യുക

def make_network(n_hidden=100):

മോഡൽ = dict(W1=np.random.randn(n_feature, n_hidden),

W2=np.random.randn(n_hidden, n_class)

ഇത് രണ്ട് പ്രവർത്തനങ്ങളെയും നിർവചിക്കുന്നു: ഫോർവേഡ് പ്രൊപ്പഗേഷൻ, ബാക്ക്പ്രൊപഗേഷൻ. ആദ്യം നമുക്ക് ആദ്യ ഓപ്ഷൻ ചെയ്യാം:

np.exp(x) / np.exp(x).sum() തിരികെ നൽകുക

ഡെഫ് ഫോർവേഡ്(x, മോഡൽ):

h = x @model["W1"]

prob = softmax(h @ മോഡൽ["W2"])

സർക്യൂട്ട് ഇൻപുട്ടിൽ നിന്ന് മറഞ്ഞിരിക്കുന്ന ലെയറിലേക്കും തുടർന്ന് ഔട്ട്പുട്ട് ലെയറിലേക്കും പോയിൻ്റുകളുടെ ഒരു ശ്രേണി ഉണ്ടാക്കണം. മറഞ്ഞിരിക്കുന്ന പാളിയിൽ, രേഖീയമല്ലാത്തതും പ്രയോഗിക്കാൻ കഴിയും, അതുവഴി ന്യൂറൽ നെറ്റ്‌വർക്കിന് ഒരു രേഖീയമല്ലാത്ത തീരുമാന അതിർത്തി പ്രവചിക്കാൻ കഴിയും. ഇന്നത്തെ ഒരു നോൺ-ലീനിയർ ഫംഗ്‌ഷൻ്റെ ഒരു പ്രമുഖ പ്രതിനിധി ReLU ആണ്.

ReLU എന്നത് f(x)=max(0,x) എന്നാണ് നിർവചിച്ചിരിക്കുന്നത്, എന്നാൽ np.max(0, x) ചെയ്യുന്നതിനുപകരം ഒരു വൃത്തിയുള്ള നടപ്പിലാക്കൽ ട്രിക്ക് ഉണ്ട്: x = 0.

ഔട്ട്‌പുട്ട് ലെയറിൽ എത്തിക്കഴിഞ്ഞാൽ, ഔട്ട്‌പുട്ട് ബെർണൂലി പ്രോബബിലിറ്റി ഡിസ്‌ട്രിബ്യൂഷൻ കൃത്യമായിരിക്കണം, അതിനാൽ തന്നിരിക്കുന്ന വിതരണം ലഭിക്കുന്നതിന് SoftMax ഫംഗ്‌ഷൻ ഉപയോഗിച്ച് ഔട്ട്‌പുട്ട് ഡീകംപ്രസ് ചെയ്യുന്നു.

ഇപ്പോൾ രണ്ടാമത്തെ പ്രവർത്തനം നിർവചിച്ചിരിക്കുന്നു. Backpropagation ഇതുപോലെ കാണപ്പെടുന്നു:

def backward(മോഡൽ, xs, hs, പിശകുകൾ):

dW2 = hs.T @ പിശകുകൾ

dh = പിശകുകൾ @ മോഡൽ["W2"].T

dh = 0

റിട്ടേൺ ഡിക്ട് (W1=dW1, W2=dW2)

അൽഗോരിതത്തിൻ്റെ അടിസ്ഥാനം സൃഷ്ടിക്കപ്പെടുന്നു. sgd ഫംഗ്‌ഷൻ നടപ്പിലാക്കുന്നു. ഇത് ഇതുപോലെ കാണപ്പെടുന്നു:

def sgd(model, X_train, y_train, batch_size):

ശ്രേണിയിലുള്ള ഇറ്ററിന് (n_iter):

പ്രിൻ്റ് ("ആവർത്തനം ()". ഫോർമാറ്റ്(ഇറ്റർ))

X_train, y_train = ഷഫിൾ (X_ട്രെയിൻ, y_ട്രെയിൻ)

ഞാൻ ശ്രേണിയിൽ (0, X_train.shape, batch_size):

X_train_mini = X_train

y_train_mini = y_train

മോഡൽ = sgd_step(മോഡൽ, X_train_mini, y_train_mini)

മടക്ക മാതൃക

sgd_step ഫംഗ്‌ഷൻ നടപ്പിലാക്കുന്നു. ഇത് ഇതുപോലെ കാണപ്പെടുന്നു:

def sgd_step(മോഡൽ, X_ട്രെയിൻ, y_ട്രെയിൻ):

ഗ്രേഡ് = get_batch_grad(മോഡൽ, X_ട്രെയിൻ, y_ട്രെയിൻ)

മോഡൽ = model.copy()

ഗ്രേഡിലെ ലെയറിനായി:

മോഡൽ += learning_rate * ഗ്രേഡ്

get_batch_grad ഫംഗ്‌ഷൻ നടപ്പിലാക്കുന്നു. ഇത് ഇതുപോലെ കാണപ്പെടുന്നു:

def get_batch_grad(മോഡൽ, X_ട്രെയിൻ, y_ട്രെയിൻ):

xs, hs, പിശകുകൾ = , ,

x-ന്, zip-ലെ cls_idx (X_train, y_train):

h, y_pred = ഫോർവേഡ്(x, മോഡൽ)

y_true = np.zeros(n_class)

y_true = 1.

തെറ്റ് = y_true - y_pred

errs.append(err)

പിന്നിലേക്ക് മടങ്ങുക(മോഡൽ, np.array(xs), np.array(hs), np.array(errs))

ഈ ഫംഗ്‌ഷനിൽ, ബാച്ചിലെ ഓരോ ഡാറ്റാ പോയിൻ്റും ആവർത്തിച്ച് നെറ്റ്‌വർക്കിലേക്ക് അയയ്‌ക്കുകയും പരിശീലന ഡാറ്റയിലൂടെ ലഭിച്ച യഥാർത്ഥ ലേബലിൻ്റെ ഫലം താരതമ്യം ചെയ്യുകയും ചെയ്യുന്നു. യഥാർത്ഥ ലേബലിൻ്റെ പ്രോബബിലിറ്റിയും നമ്മുടെ പ്രവചനത്തിൻ്റെ സാധ്യതയും തമ്മിലുള്ള വ്യത്യാസമാണ് പിശക് നിർണ്ണയിക്കുന്നത്.

2.2 മൊമെൻ്റം നടപ്പിലാക്കൽ

ചലനത്തിൻ്റെ ഭൗതിക നിയമത്തിൻ്റെ തത്വത്തിൽ മൊമെൻ്റം പ്രവർത്തിക്കുന്നു, ഇത് പ്രാദേശിക ഒപ്റ്റിമയിലൂടെ (ചെറിയ കുന്നുകൾ) കടന്നുപോകുന്നു. ആക്കം കൂട്ടുന്നത് അൽഗോരിതം വേഗത്തിൽ ഒത്തുചേരുന്നതിന് കാരണമാകും, കാരണം വേഗത കുമിഞ്ഞുകൂടുകയും രീതി സ്റ്റെപ്പ് ഒരു പരമ്പരാഗത രീതിയിലെ സ്ഥിരമായ ഘട്ടത്തേക്കാൾ വലുതാകുകയും ചെയ്യും.

പ്രോഗ്രാം ടെംപ്ലേറ്റ് ഇതിനകം തയ്യാറാണെന്ന് കണക്കിലെടുക്കുമ്പോൾ, നിങ്ങൾ ഈ രീതിയുടെ പ്രധാന പ്രവർത്തനം മാത്രം നടപ്പിലാക്കേണ്ടതുണ്ട്. മൊമെൻ്റം ഫംഗ്ഷൻ ചുവടെ നൽകിയിരിക്കുന്നു:

def momentum(model, X_train, y_train, batch_size):

വേഗത = (k: np.zeros_like(v) for k, v in model.items())

ഗാമ =.9

X_mini, y_mini = ബാച്ചുകൾ

ഗ്രേഡിലെ ലെയറിനായി:

വേഗത = ഗാമ * വേഗത + ആൽഫ * ഗ്രേഡ്

മോഡൽ += വേഗത

ഓരോ പാരാമീറ്ററിനും ആക്കം കൂട്ടുന്ന ഒരു പുതിയ വേഗത വേരിയബിൾ പ്രവർത്തനക്ഷമമാക്കി. ഗ്രേഡിയൻ്റ് ഇറക്കത്തിൻ്റെ ഓരോ പുതിയ ഘട്ടത്തിലും ആൽഫ*ഗ്രേഡ് ടേം ഉപയോഗിച്ച് വേരിയബിൾ അപ്‌ഡേറ്റ് ചെയ്യും. ഗാമാ കോഫിഫിഷ്യൻ്റ് ഉപയോഗിച്ച് മുൻ ഘട്ടത്തിൽ കണക്കാക്കിയ വേഗത വേരിയബിളിൻ്റെ മൂല്യത്തിലും നേരിയ കുറവുണ്ട്.

2.3 അഡാഗ്രാഡിൻ്റെ നടപ്പാക്കൽ

ഇതുവരെ, ആൽഫ പഠനനിരക്ക് നിരസിക്കപ്പെട്ടു, കാരണം അത് സ്ഥിരമായിരുന്നു. പഠന നിരക്ക് എല്ലാ പാരാമീറ്ററുകളെയും ബാധിക്കുന്നു എന്നതും സ്ഥിരമായ പഠന നിരക്കിൽ അൽഗോരിതം എല്ലായ്പ്പോഴും കാര്യക്ഷമമായി പ്രവർത്തിക്കുന്നില്ല എന്നതും പ്രശ്നം ഉയർന്നുവരുന്നു. AdaGrad ഈ പ്രശ്നത്തിന് ഒരു പരിഹാരമാകും.

AdaGrad ഉപയോഗിക്കുമ്പോൾ, പാരാമീറ്റർ അപ്‌ഡേറ്റ് പോയിൻ്റ് വൈസായി സംഭവിക്കുന്നു, അതിനാൽ പഠന നിരക്ക് ഒരു അഡാപ്റ്റീവ് പാരാമീറ്ററാണ്.

ഈ രീതിയുടെ നടപ്പാക്കൽ പുരോഗമിക്കുകയാണ്. മുഴുവൻ പ്രോഗ്രാമും തയ്യാറാണ്, നിങ്ങൾ പ്രധാന പ്രവർത്തനം മാറ്റേണ്ടതുണ്ട്. അതിനെ അഡാഗ്രാഡ് എന്ന് വിളിക്കും. പ്രവർത്തനം താഴെ കാണിച്ചിരിക്കുന്നു:

def adagrad(മോഡൽ, X_ട്രെയിൻ, y_ട്രെയിൻ, ബാച്ച്_സൈസ്):

ബാച്ചുകൾ = get_batch(X_train, y_train, batch_size)

ശ്രേണിയിലുള്ള iter-ന് (1, n_iter + 1):

idx = np.random.randint(0, len(ബാച്ചുകൾ))

X_mini, y_mini = ബാച്ചുകൾ

ഗ്രേഡ് = get_batch_grad(മോഡൽ, X_mini, y_mini)

കാഷെ[കെ] += ഗ്രേഡ്[കെ]**2

മടക്ക മാതൃക

പഠന നിരക്ക് സാധാരണ നിലയിലാകുന്നത് കാണാം. ഏറ്റവും പുതിയ ഗ്രേഡിയൻ്റുകൾ എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നതിനെ ആശ്രയിച്ച് അത് ഇപ്പോൾ വലുതോ ചെറുതോ ആകാം.

2.4 RMSProp നടപ്പിലാക്കൽ

അഡാഗ്രാഡിൻ്റെ ക്യുമുലേറ്റീവ് ഭാഗത്ത്, തുകയുടെയും ചതുരത്തിൻ്റെയും അനന്തരഫലമായി കാഷെ[k] += grad[k]**2 ഏകതാനമായി വർദ്ധിക്കുന്നത് നിങ്ങൾക്ക് ശ്രദ്ധിക്കാം. പഠന നിരക്ക് വളരെ ചെറിയ പഠന നിരക്കിലേക്ക് ഏകതാനമായി കുറയുമെന്നതിനാൽ ഇത് പ്രശ്നമുണ്ടാക്കാം.

ഈ പ്രശ്‌നത്തെ ചെറുക്കുന്നതിന്, RMSProp കഴിഞ്ഞ സഞ്ചിത ഗ്രേഡിയൻ്റ് മൂല്യത്തെ വിഘടിപ്പിക്കുന്നു, അതിനാൽ ഏറ്റവും പുതിയ ഗ്രേഡിയൻ്റുകളുടെ ഒരു ഭാഗം മാത്രമേ പരിഗണിക്കൂ. ഇപ്പോൾ, ഏറ്റവും പുതിയ എല്ലാ ഗ്രേഡിയൻ്റുകളും പരിഗണിക്കുന്നതിനുപകരം, RMSProp ഒരു ചലിക്കുന്ന ശരാശരി പോലെയാണ് പ്രവർത്തിക്കുന്നത്.

ഈ രീതിയുടെ നടപ്പാക്കൽ പുരോഗമിക്കുകയാണ്. മുഴുവൻ പ്രോഗ്രാമും തയ്യാറാണ്, നിങ്ങൾ പ്രധാന പ്രവർത്തനം മാറ്റേണ്ടതുണ്ട്. അതിനെ rmsprop എന്ന് വിളിക്കും. പ്രവർത്തനം താഴെ കാണിച്ചിരിക്കുന്നു:

def rmsprop(model, X_train, y_train, batch_size):

കാഷെ = (k: np.zeros_like(v) for k, v in model.items())

ഗാമ =.9

ബാച്ചുകൾ = get_batch(X_train, y_train, batch_size)

ശ്രേണിയിലുള്ള iter-ന് (1, n_iter + 1):

idx = np.random.randint(0, len(ബാച്ചുകൾ))

X_mini, y_mini = ബാച്ചുകൾ

ഗ്രേഡ് = get_batch_grad(മോഡൽ, X_mini, y_mini)

കാഷെ[കെ] = ഗാമ * കാഷെ[കെ] + (1 - ഗാമ) * (ഗ്രേഡ്[കെ]**2)

മോഡൽ[k] += ആൽഫ * ഗ്രേഡ്[k] / (np.sqrt(കാഷെ[k]) + eps)

പ്രധാന വ്യത്യാസം കാഷെ[k] മൂല്യം കണക്കാക്കുന്നതിലാണ്, ഇപ്പോൾ സഞ്ചിത ഗ്രേഡിയൻ്റ് മൂല്യം ഏകതാനമായി വർദ്ധിക്കുകയില്ല.

3. ടെസ്റ്റിംഗും താരതമ്യവും

ഈ അധ്യായം നടപ്പിലാക്കൽ പരിശോധിക്കുകയും ലഭിച്ച ഫലങ്ങൾ വിശകലനം ചെയ്യുകയും ചെയ്യും.

3.1 സ്റ്റാൻഡേർഡ് സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് പരിശോധിക്കുന്നു

ഈ ഘട്ടത്തിൽ, സ്റ്റാൻഡേർഡ് സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് പരീക്ഷിക്കും. നടപടിക്രമം 100 തവണ നടത്തപ്പെടും, തുടർന്ന് ശരാശരി കൃത്യത കണക്കാക്കും.

n_experiment = 100

accs = np.zeros(n_experiment)

പരിധിയിലുള്ള k എന്നതിനായി (n_experiment):

മോഡൽ = make_network()

മോഡൽ = sgd(മോഡൽ, X_ട്രെയിൻ, y_ട്രെയിൻ, മിനിബാച്ച്_സൈസ്)

അന്വേഷണം = മുന്നോട്ട് (x, മോഡൽ)

y = np.argmax(പ്രോബ്)

ഈ കോഡ് പ്രവർത്തിപ്പിച്ചതിന് ശേഷം, എനിക്ക് ഇനിപ്പറയുന്ന മൂല്യങ്ങൾ ലഭിച്ചു:

ശരാശരി കൃത്യത: 0.8765040000000001

അതിനാൽ, ശരാശരി എക്സിക്യൂഷൻ കൃത്യത 87% ആണെന്ന് നമുക്ക് നിഗമനം ചെയ്യാം.

3.2 ടെസ്റ്റിംഗ് മൊമെൻ്റം

ഈ ഘട്ടത്തിൽ, മൊമെൻ്റം ഇംപ്ലിമെൻ്റേഷൻ അടിസ്ഥാനമാക്കി സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് പരീക്ഷിക്കും. നടപടിക്രമം 100 തവണ നടത്തപ്പെടും, തുടർന്ന് ശരാശരി കൃത്യത കണക്കാക്കും.

ടെസ്റ്റിംഗ് പ്രോഗ്രാം ചുവടെ നൽകിയിരിക്കുന്നു:

n_experiment = 100

accs = np.zeros(n_experiment)

പരിധിയിലുള്ള k എന്നതിനായി (n_experiment):

മോഡൽ = make_network()

മോഡൽ = ആക്കം(മോഡൽ, X_ട്രെയിൻ, y_ട്രെയിൻ, മിനിബാച്ച്_സൈസ്)

y_pred = np.zeros_like(y_test)

i, x in enumerate(X_test):

അന്വേഷണം = മുന്നോട്ട് (x, മോഡൽ)

y = np.argmax(പ്രോബ്)

accs[k] = (y_pred == y_test).sum() / y_test.size

പ്രിൻ്റ്("ശരാശരി കൃത്യത: (), ലഭിച്ച മൂല്യം: ()". ഫോർമാറ്റ്(accs.mean(), accs.std()))

ശരാശരി കൃത്യത:

1) 0.3152, ആൽഫ = 0.5

2) 0.8554666666666666, ആൽഫ = 1e-2

3) 0.8613333333333334, ആൽഫ = 1e-5

അതിനാൽ, പഠന നിരക്കിൻ്റെ താഴ്ന്ന മൂല്യങ്ങളിൽ, നിർവ്വഹണ കൃത്യത ശ്രദ്ധേയമായി ഉയർന്നതാണെന്ന് നമുക്ക് നിഗമനം ചെയ്യാം.

3.3 പരിശോധനഅഡാഗ്രാഡ്

ഈ ഘട്ടത്തിൽ, അഡാഗ്രാഡ് നടപ്പാക്കലിൻ്റെ അടിസ്ഥാനത്തിൽ ഞങ്ങൾ സ്‌റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് പരീക്ഷിക്കും. നടപടിക്രമം 100 തവണ നടത്തപ്പെടും, തുടർന്ന് ശരാശരി കൃത്യത കണക്കാക്കും.

ടെസ്റ്റിംഗ് പ്രോഗ്രാം ചുവടെ നൽകിയിരിക്കുന്നു:

n_experiment = 100

accs = np.zeros(n_experiment)

പരിധിയിലുള്ള k എന്നതിനായി (n_experiment):

മോഡൽ = make_network()

മോഡൽ = അഡാഗ്രാഡ് (മോഡൽ, X_ട്രെയിൻ, y_ട്രെയിൻ, മിനിബാച്ച്_സൈസ്)

y_pred = np.zeros_like(y_test)

i, x in enumerate(X_test):

അന്വേഷണം = മുന്നോട്ട് (x, മോഡൽ)

y = np.argmax(പ്രോബ്)

accs[k] = (y_pred == y_test).sum() / y_test.size

പ്രിൻ്റ്("ശരാശരി കൃത്യത: (), ലഭിച്ച മൂല്യം: ()". ഫോർമാറ്റ്(accs.mean(), accs.std()))

ഈ കോഡ് എക്സിക്യൂട്ട് ചെയ്യുന്നതിലൂടെ, ഇനിപ്പറയുന്ന മൂല്യങ്ങൾ ലഭിക്കും:

ശരാശരി കൃത്യത:

1) 0.8754666666666667, ആൽഫ = 0.5

2) 0.8786666666666667, ആൽഫ = 1e-2

3) 0.504, ആൽഫ = 1e-5

അതിനാൽ, പഠന നിരക്കിൻ്റെ വളരെ കുറഞ്ഞ മൂല്യങ്ങളിൽ, നിർവ്വഹണത്തിൻ്റെ കൃത്യത വളരെ കുറയുന്നുവെന്ന് നമുക്ക് നിഗമനം ചെയ്യാം.

3.4 RMSProp പരിശോധിക്കുന്നു

ഈ ഘട്ടത്തിൽ, RMSProp നടപ്പിലാക്കുന്നതിനെ അടിസ്ഥാനമാക്കി സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് പരീക്ഷിക്കും. നടപടിക്രമം 100 തവണ നടത്തപ്പെടും, തുടർന്ന് ശരാശരി കൃത്യത കണക്കാക്കും.

ടെസ്റ്റിംഗ് പ്രോഗ്രാം ചുവടെ നൽകിയിരിക്കുന്നു:

n_experiment = 100

accs = np.zeros(n_experiment)

പരിധിയിലുള്ള k എന്നതിനായി (n_experiment):

മോഡൽ = make_network()

മോഡൽ = rmsprop(model, X_train, y_train, minibatch_size)

y_pred = np.zeros_like(y_test)

i, x in enumerate(X_test):

അന്വേഷണം = മുന്നോട്ട് (x, മോഡൽ)

y = np.argmax(പ്രോബ്)

accs[k] = (y_pred == y_test).sum() / y_test.size

പ്രിൻ്റ്("ശരാശരി കൃത്യത: (), ലഭിച്ച മൂല്യം: ()". ഫോർമാറ്റ്(accs.mean(), accs.std()))

ഈ കോഡ് എക്സിക്യൂട്ട് ചെയ്യുന്നതിലൂടെ, ഇനിപ്പറയുന്ന മൂല്യങ്ങൾ ലഭിക്കും:

ശരാശരി കൃത്യത:

1) 0.8506666666666667, ആൽഫ = 0.5

2) 0.8727999999999999, ആൽഫ = 1e-2

3) 0.30693333333333334, ആൽഫ = 1e-5

അതിനാൽ, പഠന നിരക്കിൻ്റെ വളരെ കുറഞ്ഞ മൂല്യങ്ങളിൽ, അഡാഗ്രാഡിന് സമാനമായി അതിൻ്റെ നിർവ്വഹണത്തിൻ്റെ കൃത്യത വളരെ കുറയുന്നുവെന്ന് നമുക്ക് നിഗമനം ചെയ്യാം.

ഉപസംഹാരം

താരതമ്യ വിശകലനത്തിൽ നിന്ന്, ഒരു വലിയ പഠന നിരക്ക് ഉപയോഗിക്കുമ്പോൾ, അഡാപ്റ്റീവ് ലേണിംഗ് റേറ്റ് ഉള്ള രീതികൾ സ്ഥിരമായ പഠന നിരക്കുള്ള രീതികളെ മറികടക്കുന്നു.

എന്നിരുന്നാലും, 1e-5 പോലെയുള്ള ഒരു ചെറിയ പഠന നിരക്ക് മൂല്യം ഉപയോഗിക്കുമ്പോൾ വിപരീതമാണ് സംഭവിക്കുന്നത്. സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻറിൻ്റെ സ്റ്റാൻഡേർഡ് വേരിയൻ്റിനും മൊമെൻ്റം രീതിക്കും, മതിയായ ചെറിയ മൂല്യങ്ങൾ നന്നായി പ്രവർത്തിക്കാൻ അവരെ അനുവദിക്കുന്നു. മറുവശത്ത്, പഠന നിരക്ക് വളരെ ചെറുതാണെങ്കിൽ, അത് അഡാപ്റ്റീവ് ലേണിംഗ് റേറ്റ് രീതികളിൽ നോർമലൈസ് ചെയ്താൽ, അത് കൂടുതൽ ചെറുതായിത്തീരുന്നു, ഇത് ഒത്തുചേരൽ നിരക്കിനെ ബാധിക്കുന്നു. ഇത് പരിശീലനത്തെ വളരെ മന്ദഗതിയിലാക്കുന്നു, കൂടാതെ ഈ രീതികൾ ഒരേ എണ്ണം ആവർത്തനങ്ങളുള്ള സ്റ്റാൻഡേർഡ് സ്‌റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസെൻ്റിനേക്കാൾ മോശമായി പ്രവർത്തിക്കുന്നു.

ഉപയോഗിച്ച ഉറവിടങ്ങളുടെ പട്ടിക

1. മെഷീൻ ലേണിംഗ് - സ്റ്റോക്കാസ്റ്റിക് ഗ്രേഡിയൻ്റ് ഡിസൻ്റ്

2. റഷ്യൻ ഭാഷയിൽ ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് - ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ്സ്

3. വിക്കി ട്യൂട്ടോറിയൽ - അൽഗോരിതങ്ങൾ/ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് നടപ്പിലാക്കൽ

4. സ്റ്റാൻഫോർഡ് യൂണിവേഴ്സിറ്റി - അഡാപ്റ്റീവ് സബ്ഗ്രേഡിയൻ്റ് രീതികൾ

5. കേംബ്രിഡ്ജ് യൂണിവേഴ്‌സിറ്റി പ്രസ്സ് - ഓൺലൈൻ അൽഗോരിതങ്ങളും സ്റ്റോക്കാസ്റ്റിക് ഏകദേശങ്ങളും

6. സഞ്ജോയ് ദാസ്ഗുപ്തയും ഡേവിഡ് മക്കാലെസ്റ്ററും - ആഴത്തിലുള്ള പഠനത്തിൽ [ഇലക്‌ട്രോണിക് റിസോഴ്‌സ്] ആരംഭിക്കുന്നതിൻ്റെയും ആക്കം കൂട്ടുന്നതിൻ്റെയും പ്രാധാന്യത്തെക്കുറിച്ച്.

Allbest.ru-ൽ പോസ്‌റ്റുചെയ്‌തു

...

സമാനമായ രേഖകൾ

ഒരു തീവ്രതയ്ക്ക് ആവശ്യമായ വ്യവസ്ഥകൾ. ഏകീകൃത തിരയൽ രീതി ഉപയോഗിച്ച് ഗ്രേഡിയൻ്റ് രീതിക്കായി ഒരു മെഷീൻ അൽഗോരിതം, മൾട്ടിഡൈമൻഷണൽ ഒപ്റ്റിമൈസേഷൻ പ്രോഗ്രാമിൻ്റെ വികസനം. കണ്ടെത്തിയ ഏറ്റവും കുറഞ്ഞ പോയിൻ്റിന് ആവശ്യമായതും മതിയായതുമായ വ്യവസ്ഥകൾ പരിശോധിക്കുന്നു.

കോഴ്‌സ് വർക്ക്, 09/25/2013 ചേർത്തു

നിർദ്ദിഷ്ട ഫംഗ്ഷനുകൾ കണക്കാക്കുന്നതിനുള്ള ഒരു ആപ്ലിക്കേഷൻ്റെ സോഫ്റ്റ്വെയർ നടപ്പിലാക്കൽ. ഒരു ഫംഗ്‌ഷൻ്റെ ഏറ്റവും കുറഞ്ഞ തുക കണ്ടെത്തുന്നതിനുള്ള നടപടിക്രമം. പ്രശ്നം പരിഹരിക്കാൻ ഹുക്ക്-ജീവ്സിൻ്റെ പ്രയോഗവും ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് രീതികളും. ഒരു അടിസ്ഥാന പോയിൻ്റിന് സമീപമുള്ള ഒരു ഫംഗ്ഷനെക്കുറിച്ചുള്ള പഠനം, അതിൻ്റെ കോർഡിനേറ്റുകൾ നിർണ്ണയിക്കുന്നു.

ടെസ്റ്റ്, 02/02/2014 ചേർത്തു

അനീലിംഗ് അൽഗോരിതം ഉപയോഗിച്ച് പ്രശ്ന പരിഹാരത്തിൻ്റെ ഒപ്റ്റിമൈസേഷൻ. ഒപ്റ്റിമൈസേഷൻ സിദ്ധാന്തത്തിൻ്റെ ഒരു വസ്തുനിഷ്ഠമായ പ്രവർത്തനമായി വിശകലനം. ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് രീതി. അനീലിംഗ് അൽഗോരിതത്തിൻ്റെ വേരിയബിളുകളും വിവരണവും. ഒരു ഗ്രാഫിലൂടെ സഞ്ചരിക്കുന്ന സെയിൽസ്മാൻ പ്രശ്നത്തിൻ്റെ പ്രതിനിധാനം. പ്രശ്നം വേരിയബിളുകളിലേക്ക് ചുരുക്കുകയും അത് പരിഹരിക്കുകയും ചെയ്യുന്നു.

കോഴ്‌സ് വർക്ക്, 05/21/2015 ചേർത്തു

ഏറ്റവും ലളിതവും ബഹുതലവുമായ കൃത്രിമ ന്യൂറൽ നെറ്റ്‌വർക്കിൻ്റെ പരിശീലനം. പിശക് ഉപരിതലത്തിൽ ഗ്രേഡിയൻ്റ് ഡിസെൻ്റ് തത്വത്തെ അടിസ്ഥാനമാക്കിയുള്ള പെർസെപ്ട്രോൺ പരിശീലന രീതി. NeuroPro 0.25 സോഫ്റ്റ്‌വെയർ ഉൽപ്പന്നത്തിൽ നടപ്പിലാക്കൽ. ബാക്ക്‌പ്രൊപഗേഷൻ അൽഗോരിതം ഉപയോഗിക്കുന്നു.

കോഴ്‌സ് വർക്ക്, 05/05/2015 ചേർത്തു

നിരവധി വേരിയബിളുകളുടെ പ്രവർത്തനങ്ങൾ പരമാവധിയാക്കുന്നതിനുള്ള ഒരു പ്രശ്നം പരിഹരിക്കുന്നു. ഡൈക്കോട്ടമി രീതിയുടെ വിവരണം, രേഖീയമല്ലാത്ത സമവാക്യങ്ങൾ പരിഹരിക്കുന്നതിനുള്ള അതിൻ്റെ പ്രയോഗം. കോർഡിനേറ്റ് ഡിസെൻ്റ് രീതി ഉപയോഗിച്ച് ഈ പ്രശ്നം പരിഹരിക്കുന്നു. അൽഗോരിതങ്ങൾ വരയ്ക്കുന്നു, പ്രോഗ്രാമുകൾ പട്ടികപ്പെടുത്തുന്നു.

കോഴ്‌സ് വർക്ക്, 10/01/2009 ചേർത്തു

ഏറ്റവും കുറഞ്ഞ സ്ക്വയർ രീതി ഉപയോഗിച്ച് ഒബ്ജക്റ്റ് തിരിച്ചറിയൽ. ജോഡി, ഭാഗിക, ഒന്നിലധികം പരസ്പര ബന്ധ ഗുണകങ്ങളുടെ വിശകലനം. ഒരു ലീനിയർ മോഡലിൻ്റെയും വിതരണം ചെയ്ത പാരാമീറ്ററുകളുള്ള ഒരു മോഡലിൻ്റെയും നിർമ്മാണം. തന്നിരിക്കുന്ന ഫംഗ്‌ഷൻ്റെ റൂട്ട് (പൂജ്യം) കണ്ടെത്തുന്നതിനുള്ള ആവർത്തന സംഖ്യാ രീതി.

കോഴ്‌സ് വർക്ക്, 03/20/2014 ചേർത്തു

LabVIEW സോഫ്റ്റ്വെയർ പാക്കേജ് ഉപയോഗിക്കുന്നതിനുള്ള സാങ്കേതികവിദ്യയുടെ അടിസ്ഥാനം, സിസ്റ്റത്തിൻ്റെ പ്രയോജനങ്ങൾ. ഡാറ്റാ ഫ്ലോ ആർക്കിടെക്ചറിനെ അടിസ്ഥാനമാക്കിയുള്ള പ്രോഗ്രാമിംഗ്. തീവ്രത കണ്ടെത്തുന്നതിനുള്ള രീതികൾ. ഒരു ദ്വിമാന ഫംഗ്‌ഷൻ്റെ പരമാവധി കണ്ടെത്തുന്നതിന് Gauss-Seidel രീതി ഉപയോഗിക്കുന്നു.

ടെസ്റ്റ്, 03/18/2011 ചേർത്തു

സെർച്ച് എഞ്ചിൻ ഒപ്റ്റിമൈസേഷൻ രീതികളുടെ ഉദ്ദേശ്യവും വർഗ്ഗീകരണവും. തിരയൽ രീതിയുടെ കാര്യക്ഷമത. സീറോ-ഓർഡർ തിരയൽ രീതികൾ: ഇൻപുട്ടുകൾ, വ്യവസ്ഥകൾ, ദോഷങ്ങൾ, ആപ്ലിക്കേഷനുകൾ. ഗ്രേഡിയൻ്റ് തിരയൽ രീതിയുടെ ഘടന. കുത്തനെയുള്ള ഇറക്കം രീതിയുടെ പ്രധാന ആശയം.

പ്രഭാഷണം, 03/04/2009 ചേർത്തു

പ്രശ്നത്തിൻ്റെ പ്രസ്താവനയും അതിൻ്റെ ഔപചാരികതയും. x1, x2 പോയിൻ്റുകളിൽ ഇൻ്റർപോളേഷൻ പോളിനോമിയലിൻ്റെ മൂല്യങ്ങൾ കണ്ടെത്തുന്നു. സെഗ്‌മെൻ്റിൽ F(x) ഫംഗ്‌ഷൻ്റെ ഏറ്റവും കുറഞ്ഞ തുക കണ്ടെത്തുന്നു. രീതികളുടെ ഒത്തുചേരൽ വ്യവസ്ഥകൾ പരിശോധിക്കുന്നു. സോഫ്റ്റ്വെയർ മൊഡ്യൂളുകളുടെ പരിശോധന. അൽഗോരിതത്തിൻ്റെ വിശദമായ ഡയഗ്രം.

കോഴ്‌സ് വർക്ക്, 02/04/2011 ചേർത്തു

നിയന്ത്രണങ്ങളില്ലാത്ത പ്രശ്നങ്ങളിൽ സംഖ്യാ രീതികൾ. ഇറക്കൽ രീതികളുടെ സ്കീം. വിഷ്വൽ ബേസിക് എഡിറ്റർ എൻവയോൺമെൻ്റ്. ഫോമുകളിൽ ActiveX ഒബ്ജക്റ്റുകൾ ഉപയോഗിക്കുന്നു. സിമുലേഷൻ അൽഗോരിതത്തിൻ്റെ ഫ്ലോചാർട്ട്. ഒരൊറ്റ എക്സ്ട്രീം പോയിൻ്റുള്ള ഡിറ്റർമിനിസ്റ്റിക് ഫംഗ്ഷനുകൾക്കുള്ള ഒപ്റ്റിമൈസേഷൻ പ്രശ്നങ്ങൾ.