Mtandao wa kawaida wa neva hutatua tatizo la kudumisha usawa. Fungua Maktaba - maktaba ya wazi ya habari ya elimu

Mitandao ya neva ya mara kwa mara

Mitandao ya neva ya mara kwa mara- hii ni aina ngumu zaidi ya mitandao ya neural ambayo kuna maoni. Katika kesi hii, maoni yanamaanisha muunganisho kutoka kwa kipengele cha mbali kimantiki hadi kilicho mbali zaidi. Uwepo wa maoni hukuruhusu kukumbuka na kuzaliana mlolongo mzima wa athari kwa kichocheo kimoja. Kutoka kwa mtazamo wa programu, katika mitandao hiyo analog ya utekelezaji wa mzunguko inaonekana, na kutoka kwa mtazamo wa mifumo, mtandao huo ni sawa na mashine ya hali ya mwisho. Vipengele kama hivyo vinaweza kutoa fursa nyingi za kuunda mitandao ya neural ya kibaolojia. Lakini, kwa bahati mbaya, uwezekano mkubwa kwa sasa haujasomwa vibaya kutokana na uwezekano wa kujenga aina mbalimbali za usanifu na utata wa uchambuzi wao.

Rosenblatt perceptrons na maoni

Mawazo ya kwanza kuhusu mitandao ya neva na maoni yalielezewa na F. Rosenblatt katika hitimisho la kitabu chake juu ya perceptrons katika 1962. F. Rosenblatt alitoa maelezo ya ubora wa aina kadhaa za maoni ya maoni. Kundi la kwanza la maoni kama hayo lilikusudiwa kukuza umakini wa kuchagua, na kundi la pili la kujifunza mlolongo wa athari.

Mitandao ya safu moja yenye maoni

Baada ya kuchapishwa kwa kitabu cha Minsky kinachokosoa uwezo wa mtazamo wa kimsingi mnamo 1969, kazi ya uchunguzi wa mitandao ya neural ya bandia ilikoma kabisa. Vikundi vidogo tu ndivyo vilivyoendelea na utafiti katika mwelekeo huu. Moja ya vikundi hivi katika Taasisi ya Teknolojia ya Massachusetts ilianza kazi yake mnamo 1978. John Hopfield alialikwa kama mshauri kutoka idara ya biofizikia ya maabara ya Bel. Mawazo yake, kama ya Rosenblatt, yalitokana na matokeo ya utafiti wa neurophysiology. Mafanikio makuu ya Hopfield ni tafsiri ya nguvu ya uendeshaji wa mtandao wa neva bandia. Kuhusu mtandao wa neva wa Hopfield yenyewe, ina idadi ya hasara kutokana na ambayo haiwezi kutumika kivitendo. Baadaye Cosco ilikuza mawazo ya Hopfield na kuendeleza kielelezo cha kumbukumbu ya heteroassociative, mtandao wa neva wa Cosco. Hasara kuu ya mitandao hii ni ukosefu wa utulivu, na katika hali ambapo inafanikiwa, mtandao unakuwa sawa na mtandao wa neural wa safu moja, ndiyo sababu hauwezi kutatua matatizo yasiyoweza kutenganishwa kwa mstari. Matokeo yake, uwezo wa mitandao hiyo ni mdogo mno. Licha ya mapungufu haya ya vitendo katika uwanja wa utambuzi, mtandao huu ulitumiwa kwa mafanikio katika masomo ya machafuko ya nishati, kuibuka kwa vivutio, na tangu wakati huo imewezekana kuzungumza juu ya mitandao ya neural ya bandia kama kumbukumbu ya ushirika.

Mitandao ya mara kwa mara yenye kuchelewa kwa kitengo

Angalia pia

Fasihi

Rosenblatt, F. Kanuni za Neurodynamics: Perceptrons na Nadharia ya Taratibu za Ubongo. - M.: Mir, 1965. - 480 p.

J. J. Hopfield[PNAS Reprint (Kikemikali) PNAS Reprint (PDF) Mitandao ya neva na mifumo ya kimwili yenye uwezo unaoibuka wa hesabu.] // Kesi za Chuo cha Kitaifa cha Sayansi. - Aprili 1982. - S. vol. 79 nambari. 8 uk. 2554-2558.

Jordan, M.I. Utaratibu wa serial: Mbinu ya usindikaji iliyosambazwa sambamba. // Ripoti ya Taasisi ya Sayansi ya Utambuzi 8604. - Chuo Kikuu cha California, San Diego: 1986.

Elman, J.L. Kutafuta muundo kwa wakati. // Sayansi ya Utambuzi. - 1990. - P. 179-211.

Wikimedia Foundation. 2010.

Tazama "Mitandao ya kawaida ya neural" ni nini katika kamusi zingine:

Ombi la "Neural Network" limeelekezwa hapa. Tazama pia maana zingine. Mpango wa mtandao rahisi wa neva. Kijani huonyesha vipengee vya ingizo, kipengele cha pato la manjano Mitandao Bandia ya neural (ANN) miundo ya hisabati, pamoja na programu zao au... ... Wikipedia

Neno hili lina maana zingine, angalia Mtandao wa Neural (maana). Mpango wa mtandao rahisi wa neva. Kijani huonyesha niuroni za pembejeo, niuroni zilizofichwa za samawati, niuroni ya pato la manjano... Wikipedia

Ungependa kuboresha nini makala hii?: Ongeza vielelezo. Mitandao ya kawaida ya neva (Kiingereza... Wikipedia

Mtandao wa neva wa Hopfield ni mtandao wa neva uliounganishwa kikamilifu na matriki ya muunganisho linganifu. Wakati wa operesheni, mienendo ya mitandao kama hiyo huungana (kuunganisha) kwa moja ya nafasi za usawa. Nafasi hizi za usawa ni ndogo za ndani... ... Wikipedia

Nakala hii inapaswa kuwa Wikified. Tafadhali iumbize kulingana na sheria za uumbizaji wa makala. Kumbukumbu ya mwanadamu ni shirikishi, ikimaanisha kuwa kumbukumbu inaweza kutoa eneo kubwa linalohusishwa nayo. Kitu kimoja kinatukumbusha... Wikipedia

Usanifu wa Mtandao wa Mishipa wa Kosko wa Kosko Neural Network (Bidirectional Associative Memory DAP) ni mtandao wa neva uliotengenezwa na Bart Kosko. Huu ni mtandao wa neva wa safu moja na maoni, kulingana na mawazo mawili: adaptive... ... Wikipedia

Mzunguko wa mantiki wa perceptron yenye matokeo matatu Makala kuu: Perceptron Perceptron ni mojawapo ya mifano ya kwanza katika sanaa ... Wikipedia

Vitabu

Kujifunza kwa mashine kwa kutumia Scikit-Learn na TensorFlow. Dhana, Zana na Mbinu, Geron Aurélien. Kujifunza kwa mashine kwa kutumia Scikit-Learn na TensorFlow. Dhana, zana na mbinu za kuunda mifumo yenye akili. Toleo kamili la rangi. "Kitabu hiki ni cha ajabu ...

Mitandao ya neva inayojirudia ni ile mitandao ambayo matokeo ya vipengele vya neural vya tabaka zinazofuata vina miunganisho ya sinepsi na niuroni za tabaka zilizopita. Hii inasababisha uwezekano wa kuzingatia matokeo ya mabadiliko ya mtandao wa neural wa habari katika hatua ya awali ya usindikaji wa vector ya pembejeo katika hatua inayofuata ya uendeshaji wa mtandao. Mitandao ya mara kwa mara inaweza kutumika kutatua matatizo ya utabiri na udhibiti.

Usanifu wa kawaida wa mtandao

Kuna chaguo mbalimbali kwa usanifu wa kawaida wa mtandao wa neural.

Mtandao wa Yordani: Mnamo 1986, Jordan alipendekeza mtandao wa mara kwa mara (Mchoro 6), ambapo matokeo ya vipengele vya neural vya safu ya mwisho yanaunganishwa kupitia neurons maalum za pembejeo kwa neurons katika safu ya kati. Vipengele vile vya neural vya pembejeo huitwa kimazingira neurons (vitengo vya muktadha). Wanasambaza pato la mtandao wa neva kwa vipengele vya neural vya safu ya kati.

Mchele. 6Usanifu wa mtandao wa neva unaojirudia na maoni kutoka kwa niuroni za safu ya pato

Idadi ya niuroni za muktadha ni sawa na idadi ya vipengele vya neural pato vya mtandao unaojirudia. Vipengele vya neural vilivyo na kitendakazi cha kuwezesha mstari hutumika kama safu ya pato la mitandao kama hiyo. Kisha thamani ya pato j-th kipengele cha neuron cha safu ya mwisho imedhamiriwa na fomula

Wapi v ij- mgawo wa uzani kati ya i th neuron ya kati na j-th neuron ya tabaka za pato; P i(t) - thamani ya pato i th neuron ya safu ya kati; t j- thamani ya kizingiti j neuroni ya safu ya pato. Jumla iliyopimwa i Kipengele cha neural cha safu ya kati kinafafanuliwa kama ifuatavyo:

Wapi w ij- mgawo wa uzani kati ya j-th neuron ya pembejeo na i-th neuron ya tabaka za kati; R- idadi ya neurons katika safu ya pato; w ki- mgawo wa uzani kati ya k-th muktadha niuroni na i-th neuron ya safu ya kati; T- thamani ya kizingiti i th neuron ya safu ya kati; n- mwelekeo wa vector ya pembejeo.

Kisha thamani ya pato i Neuron ya safu iliyofichwa

Kama kitendakazi cha ubadilishaji kisicho na mstari F Kwa kawaida tanjenti ya hyperbolic au sigmoid hutumika.

Ili kutoa mafunzo kwa mitandao ya neva inayojirudia, kanuni ya uenezaji wa nyuma hutumiwa.

Algorithm ya kufunza mtandao wa kawaida wa neva katika hali ya jumla ina hatua zifuatazo:

1. Wakati wa mwanzo wa wakati t= 1 niuroni zote za muktadha zimewekwa kwa hali ya sifuri - maadili ya pato ni sawa na sifuri.

2. Picha ya pembejeo inalishwa kwa mtandao na inasambazwa moja kwa moja kwenye mtandao wa neva.

3. Kwa mujibu wa algorithm ya uenezi wa nyuma, coefficients ya uzani na maadili ya kizingiti cha vipengele vya neural hurekebishwa.

4. Imewekwa t = t+1 na uendelee hatua ya 2. Mtandao unaorudiwa umefunzwa hadi jumla ya makosa ya mraba ya wastani ya mtandao inakuwa chini ya ile iliyobainishwa.

mawasiliano yanaweza kutoka kwa pato au safu iliyofichwa ya nyuroni. Katika kila mzunguko wa muunganisho kama huo kuna kipengele cha kuchelewesha kwa kitengo, kwa sababu ambayo mtiririko wa ishara unaweza kuzingatiwa kuwa unidirectional (ishara ya pato la mzunguko wa wakati uliopita inachukuliwa kama kipaumbele kilichopewa, ambayo huongeza tu mwelekeo wa vekta ya pembejeo. mtandao). Imewasilishwa kwa njia hii mtandao wa kawaida, kwa kuzingatia njia ya kutoa ishara ya pato, inafanya kazi kama mtandao wa perceptron wa unidirectional. Walakini, algorithm ya mafunzo ya mtandao kama huo, ambayo hurekebisha maadili ya uzani wa synaptic, ni ngumu zaidi kwa sababu ya utegemezi wa ishara mara moja juu ya maadili yao wakati uliopita na, ipasavyo, kwa sababu ya shida zaidi. formula ya kuhesabu vekta ya gradient.

Wakati wa kujadili mitandao ya mara kwa mara, ambayo perceptron ya multilayer hutumiwa kama kipengele cha pato, hebu tuzingatie miundo inayojulikana zaidi ya mitandao ya RMLP, RTRN, Elman.

Mtandao wa Perceptron na maoni

Mojawapo ya njia rahisi zaidi za kujenga mtandao wa kawaida kulingana na HC ya unidirectional ni kuanzisha maoni kwenye mtandao wa perceptron. Katika zifuatazo, tutaita kwa ufupi mtandao kama huo RMLP (Kiingereza: Recurrent MultiLayer Perceptron - perceptron ya multilayer ya kawaida). Muundo wake wa jumla unaonyeshwa kwenye Mtini. 1 (- vipengele vya lag moja).

Huu ni mtandao wenye nguvu, unaojulikana na kuchelewa kwa ishara za pembejeo na za pato pamoja kwenye vector ya pembejeo ya mtandao. Hoja itahusu nodi moja tu ya pembejeo na neuroni moja ya pato, na safu moja iliyofichwa. Mfumo kama huo unatumia onyesho:

(1)

iko wapi idadi ya ucheleweshaji wa mawimbi ya pembejeo, na ni idadi ya ucheleweshaji wa mawimbi ya pato. Wacha tuonyeshe idadi ya neurons kwenye safu iliyofichwa. Katika kesi hii, mtandao wa RMLP unaweza kuwa na sifa ya nambari tatu. Vekta inayotolewa kwa pembejeo ya mtandao ina fomu:

Hebu tuchukue kwamba niuroni zote zina kazi ya kuwezesha sigmoidal. Wacha tuonyeshe jumla ya uzani wa ishara za niuroni ya safu iliyofichwa, a - jumla ya uzani wa ishara. neuron ya pato. Kwa nukuu iliyoanzishwa, ishara za pato za niuroni maalum zinaelezewa na tegemezi

Mtandao wa RMLP unatumika sana kuiga michakato inayobadilika mtandaoni. Mfano wa kawaida wa matumizi yake ni uigaji wa vitu visivyo na mstari vya nguvu ambavyo mtandao

Mtu haanzi mawazo yake kutoka mwanzo kila wakati. Unaposoma makala hii, unaona kila neno kulingana na uelewa wako wa maana ya maneno yaliyotangulia. Huwezi kusahau kila kitu na kuanza kuchambua kila neno mmoja mmoja. Kwa ujumla, mawazo yako yote yana matokeo (yamehifadhiwa kwenye kumbukumbu).

Mitandao ya kitamaduni ya neva haiwezi kukumbuka habari, na hii labda ndio shida yao kuu. Kwa mfano, fikiria kwamba unataka kuainisha matukio yanayotokea katika kila fremu ya filamu. Haijulikani wazi jinsi mtandao wa kawaida wa neva unaweza kutumia matokeo yake ya awali kufanya maamuzi zaidi.

Mitandao ya mara kwa mara inalenga kurekebisha kasoro hii: ina vitanzi vinavyoruhusu habari kuhifadhiwa.

Katika takwimu hapo juu, kipengele cha mtandao wa neural A inapokea pembejeo fulani x na inarudisha thamani h . Kitanzi kinaruhusu habari kupitishwa kwa hatua zinazofuata.

Mizunguko hufanya mitandao ya neural inayorudiwa kuwa ngumu kuelewa. Walakini, kila kitu sio ngumu sana: wana mengi sawa na mitandao ya kawaida. Mtandao unaotumika mara kwa mara unaweza kupanuliwa kuwa mfuatano wa mitandao ya neural inayofanana ambayo husambaza taarifa kwa zinazofuata, kwa mfano, kama inavyoonyeshwa kwenye mchoro ulio hapa chini.

Uzi huu unaonyesha kuwa asili ya mitandao ya neural inayojirudia inahusiana kwa karibu na mfuatano na orodha. Ni usanifu wa asili wa kutumia data kama hizo.

Na, kwa kawaida, hutumiwa. Katika miaka michache iliyopita, kumekuwa na mafanikio makubwa katika kutumia mitandao ya neural ya mara kwa mara kwa utambuzi wa usemi, muundo wa lugha, tafsiri, utambuzi wa picha na mambo mengine ya kuvutia. Hebu tuache mawazo kuhusu njia za kutumia mitandao ya mara kwa mara kwa Andrey Karpathy katika blogu yake: Ufanisi Usiofaa wa Mitandao ya Neural ya Kawaida.

Ushawishi mkubwa juu ya mafanikio ulikuwa kuibuka kwa mitandao ya LSTM - aina maalum sana ya mitandao ya neural ya kawaida ambayo hufanya kazi kwa idadi kubwa ya kazi bora zaidi kuliko mitandao ya kawaida. Takriban matokeo yote bora yaliyofikiwa na mitandao ya neural inayojirudia yanatokana nayo. Makala hii itazingatia hasa mitandao ya LSTM.

Tatizo la Utegemezi wa Muda Mrefu

Moja ya mawazo makuu ya mitandao ya mara kwa mara ni uwezo wa kutumia taarifa zilizopatikana hapo awali katika kazi ya sasa. Kwa mfano, tumia fremu za video zilizopita ili kuchanganua fremu ya sasa. Walakini, je, mitandao ya kawaida inaweza kufanya hivi? - Ndiyo na hapana.

Wakati mwingine unahitaji tu kuangalia data ya awali ili kutatua tatizo la sasa. Kwa mfano, mtindo wa kiisimu hujaribu kutabiri maneno yanayofuata kulingana na maneno yaliyotangulia. Ikiwa unataka kutabiri neno la mwisho katika kifungu "Clouds in anga", hauitaji muktadha mwingine wowote kwani ni dhahiri kuwa neno linalofuata litakuwa " anga". Katika matatizo kama haya, wakati pengo kati ya data inayohitajika na kazi ya sasa ni ndogo sana, mitandao ya neural ya kawaida inaweza kukabiliana na kazi hiyo.

Hata hivyo, wakati mwingine muktadha zaidi unahitajika ili kutatua tatizo. Kwa mfano, kutabiri neno la mwisho katika kifungu "Nilikulia Ufaransa. ...naongea kwa ufasaha Kifaransa"Maneno yanayotangulia neno la utafutaji yanaonyesha tu kwamba neno linalofuata lina uwezekano mkubwa kuwa lugha, lakini muktadha wa mapema unahitajika ili kubainisha. Kuna uwezekano kwamba pengo kati ya muktadha unaohitajika na neno la utafutaji litakuwa kubwa sana.

Kwa bahati mbaya, pengo hili linapokua, mtandao wa neva unaojirudia hupoteza uwezo wake wa kutumia taarifa hii.

Kinadharia, mitandao ya neural ya kawaida ina uwezo wa kushughulikia utegemezi wa muda mrefu (na mtu anaweza kuchagua kwa uangalifu vigezo vya mtandao). Walakini, katika mazoezi, mitandao ya neural ya kawaida haiwezi kujifunza katika kazi kama hizo. Tatizo lilichunguzwa na Hochreiter (1991) [Ujerumani] na Bengio et al.

Walakini, mitandao ya LSTM haina shida hii.

mitandao ya LSTM

Kumbukumbu ndefu ya muda mfupi, kwa kawaida huitwa mitandao ya LSTM, ni aina maalum ya mitandao ya neva inayojirudia yenye uwezo wa kukumbuka utegemezi wa muda mrefu. Zilianzishwa na Sepp Hochreiter na Jürgen Schmidhuber mwaka wa 1997 na zimetumiwa na kuendelezwa na watafiti wengi katika kazi zao. Mitandao hii hufanya kazi katika anuwai ya kazi na hutumiwa mara nyingi.

Mitandao ya LSTM ilitengenezwa ili kutatua tatizo la utegemezi wa muda mrefu. Kukariri habari kwa muda mrefu ni moja ya sifa kuu za mitandao hii, ambayo hauitaji mafunzo ya kina.

Mitandao yote ya mara kwa mara inaweza kuwakilishwa kwa namna ya mnyororo kurudia mitandao ya kawaida ya neva. Mtandao wa kawaida wa neural unaweza kuwakilishwa kwa njia rahisi sana, kama safu na tanh kazi ya uanzishaji.

Mitandao ya LSTM pia inaweza kuwakilishwa katika fomu hii, lakini moduli za kurudia zina muundo ngumu zaidi: badala ya mtandao wa neural wa safu moja, wana mtandao wa neural wa safu nne uliopangwa kwa njia maalum sana.

Kurudia moduli katika mtandao wa LSTM ulio na tabaka 4

Hata hivyo, usijali kuhusu hila hizi: tutaangalia hatua kwa hatua kile kinachotokea kwenye mtandao huu baadaye kidogo, lakini kwa sasa hebu tukubaliane juu ya mikataba ya kutumia.

Katika mchoro hapo juu, kila mstari unawakilisha vekta ya kuhamisha data kutoka kwa pato la nodi moja hadi ingizo la mwingine. Mduara wa waridi unawakilisha shughuli za busara kama vile kuongeza vekta. Mistatili ya manjano inawakilisha tabaka za mtandao wa neva zinazofunzwa. Mistari ya kuunganisha inaonyesha mshikamano, na mistari inayotenganisha inaonyesha kunakili.

Wazo la msingi la mitandao ya LSTM

Ufunguo wa kuelewa mtandao wa LSTM ni hali ya seli, mstari wa mlalo juu ya mchoro.

Hali ya seli ni kama mkanda wa kupitisha: inasogea kwenye mnyororo mzima na mwingiliano mdogo tu wa mstari. Kwa habari, hii inamaanisha kuwa inaweza kupita bila kubadilika.

Uwezo wa mtandao wa kuongeza au kuondoa taarifa katika seli unadhibitiwa kwa uangalifu na miundo inayoitwa malango.

Gates ni njia ya kuzuia mtiririko wa habari. Zinajumuisha safu ya neva na kazi ya kuwezesha sigmoid na hufanya operesheni ya kuzidisha kwa busara ya kipengele.

Matokeo ya sigmoid ni nambari kati ya 0 na 1 inayoonyesha ni kiasi gani cha kila kipengele cha vekta kitarukwa kinachofuata. Thamani ya 0 inaweza kueleweka kama "ruka chochote", wakati thamani ya 1 inamaanisha "ruka kabisa"

LSTM zina vipengele vitatu vya kulinda na kufuatilia hali ya seli.

Uchambuzi wa hatua kwa hatua wa uendeshaji wa mtandao wa LSTM

Hatua ya kwanza katika mtandao wa LSTM ni kuamua ni taarifa gani ya kutupa kutoka kwa hali ya seli. Suluhisho huundwa na safu ya sigmoid inayoitwa lango la pembejeo. Imebainishwa kama \(h_(t-1)\) na \(x_(t)\) na ina matokeo ya nambari yenye thamani kati ya 0 na 1 kwa kila kisanduku cha jimbo \(C_(t-1)\). 1 inamaanisha "weka kabisa", 0 inamaanisha "ondoa kabisa".

Wacha turudi kwenye mfano wa kielelezo cha lugha cha kutabiri neno kulingana na maneno yaliyotangulia. Katika kazi kama hii, seli zinaweza kuwa na jinsia ya kitu husika ili kutumia kiwakilishi sahihi. Walakini, tunapoona mada mpya, tunaweza kusahau jinsia ya kitu cha zamani.

Hatua inayofuata ni kuamua ni habari gani itahifadhiwa katika hali ya seli. Hatua hii ina sehemu mbili. Kwanza: lango la pembejeo lazima liamue ni maadili gani yatasasishwa, na tanh safu huunda vekta ya maadili mapya ya mgombea \(\tilde C_t\) ambayo inaweza kuongezwa kwa jimbo. Katika hatua inayofuata, tunachanganya vekta mbili zinazozalishwa ili kusasisha hali.

Katika mfano wa modeli ya lugha, tunataka kuongeza jinsia ya kitu kipya kwenye hali ya seli ili kuchukua nafasi ya kilichopitwa na wakati.

Ili kutekeleza hili, tunazidisha hali ya awali kwa \(f_(t)\) ili "kusahau" data inayoonekana kuwa isiyohitajika katika hatua ya awali. Kisha \(i_t * \tilde C_t\) imeongezwa. Hizi ndizo thamani mpya ambazo zilichaguliwa hapo awali kukumbukwa.

Kwa upande wa mfano wa lugha, tunasahau habari kuhusu somo la zamani na kukumbuka habari mpya iliyoamuliwa katika hatua ya awali.

Hatimaye, ni lazima tuamue matokeo ya seli yatakuwa nini. Toleo hili hutolewa kulingana na hali ya seli, lakini ni toleo lake lililochujwa. Kwanza, safu ya sigmoid imezinduliwa, ikiamua ni sehemu gani ya hali ya seli itahamishiwa kwenye pato. Baada ya hapo hali ya seli inalishwa kwa kazi tanh (maadili ya pato kati ya -1 na 1) na huzidishwa na pato la lango la sigmoid, ambalo huamua upendeleo wa pato la serikali.

Katika mfano wa kiisimu, hiki kinaweza kuwa kitu kinachoonekana na mtandao ambacho kinahitajika ili kutoa taarifa zinazohusiana na kitenzi. Kwa mfano, kubainisha wingi au umoja wa somo ili kubainisha umbo la kitenzi cha yafuatayo.

Tofauti za mitandao ya LSTM

Hapo juu tuliangalia mitandao ya LSTM ya kawaida, lakini kuna tofauti nyingi kati yao. Kwa kweli, katika karibu kila utafiti kwa kutumia mitandao ya LSTM, mtindo usio wa kawaida kabisa hutumiwa. Tofauti kawaida ni ndogo, lakini zile kuu zinafaa kuzingatia.

Mojawapo ya lahaja maarufu za mitandao ya LSTM, iliyoletwa na Gers & Schmidhuber (2000), inaongeza "Macho", ambayo huamua uwezo wa malango kuchunguza hali ya seli.

Katika mchoro hapo juu, macho huongezwa kwa milango yote, lakini katika vifungu vingi, macho hayatumiwi kwa wote, lakini kwa milango fulani tu.

Chaguo jingine ni kuchanganya milango ya kusahau na milango ya pembejeo. Kisha, badala ya kuamua tofauti ni habari gani ya kusahau na kukumbuka, shughuli hizi zinafanywa kwa pamoja, na kisha kusahau habari hufanywa tu na uingizwaji.

Mabadiliko makubwa zaidi kwa mitandao ya LSTM ni Kitengo cha Kawaida cha Gated, au GRU, iliyoletwa na Cho, na wenzake (2014). Njia hii inachanganya milango ya kusahau na milango ya kuingiza kwenye lango moja la sasisho. Kwa kuongeza, hali na hali iliyofichwa ya seli imeunganishwa na ina mabadiliko mengine yasiyo muhimu sana. Mfano unaotokana ni rahisi zaidi kuliko mfano wa LSTM wa kawaida na unazidi kuwa maarufu.

Hizi ni baadhi tu ya tofauti za mfano wa LSTM. Kuna zingine nyingi, kama vile mitandao ya neural iliyo na milango ya kina (Depth Gated RNNs) na Yao et al. Kwa kuongezea, mbinu tofauti kimsingi zinapendekezwa, kama vile mitandao ya neural ya saa (Clockwork RNNs) iliyopendekezwa na Koutnik et al.

Ni ipi kati ya chaguzi hizi ni bora? Je, kuna tofauti zozote? Greff et al (2015), akifanya ulinganisho mzuri wa chaguzi maarufu, anahitimisha kuwa ni sawa. Jozefowicz, et al. (2015) walijaribu usanifu zaidi ya elfu 10 wa mitandao ya kawaida ya neva, akisema kuwa baadhi yao walifanya vizuri zaidi kuliko LSTM katika kazi maalum.

Hitimisho

Hapo awali ilisemekana kuwa matokeo bora yamepatikana kwa mitandao ya kawaida ya neva. Sehemu muhimu ya kutumia mitandao ya LSTM. Mitandao hii kwa kweli hufanya vizuri zaidi kuliko mingine inayojulikana katika kazi nyingi.

Imeandikwa kama seti ya equations, mitandao ya LSTM inaonekana ya kutisha sana, hebu tumaini kwamba baada ya kusoma makala hiyo msomaji alianza kuelewa vyema vipengele vya usanifu huu.

Mitandao ya LSTM ilikuwa maendeleo makubwa katika mitandao ya kawaida ya neva. Na ni kawaida kujiuliza hatua inayofuata katika utafiti wa kawaida wa mtandao wa neural itakuwa nini.