Inhoudsanalyse online in het Russisch. Mayer R.V. Computerprogramma's die de beoordeling van objecten en de inhoudsanalyse van tekst automatiseren

COMPUTERPROGRAMMA'S DIE OBJECT-EVALUATIE EN INHOUDANALYSE VAN TEKST AUTOMATISEREN

Mayer Robert Valerievitsj
Glazov State Pedagogisch Instituut vernoemd naar. VG Korolenko
Doctor in de Pedagogische Wetenschappen, hoogleraar aan het Departement Natuurkunde en Didactiek van de Natuurkunde

Annotatie
De ontwikkeling van leertheorie vereist het gebruik ervan wiskundige methoden voor het evalueren van didactische objecten. Aangeboden eenvoudige manieren automatisering van objectbeoordeling met behulp van de methode van gepaarde vergelijkingen en bepaling verschillende soorten informatie in de tekst met behulp van een computer. De teksten van programma's geschreven in de Free Pascal-omgeving worden gepresenteerd, waarvan het gebruik u in staat stelt om: 1) de didactische complexiteit te evalueren van concepten die fysieke instrumenten, hoeveelheden en fysieke experimenten aanduiden; 2) een inhoudsanalyse uitvoeren van paragrafen in verschillende natuurkundeboeken.

DE COMPUTERPROGRAMMA’S DIE DE BEOORDELING VAN OBJECTEN EN DE INHOUDANALYSE VAN DE TEKST AUTOMATISEREN

Mayer Robert Valerievitsj
Glazov Korolenko Staats Pedagogisch Instituut
doctor in de pedagogische wetenschappen, universitair hoofddocent

Abstract
De ontwikkeling van de trainingstheorie vereist het gebruik van wiskundige methoden voor de beoordeling van didactische objecten. Er worden eenvoudige manieren aangeboden om de beoordeling van objecten te automatiseren door middel van paarvergelijkingen en definities van de hoeveelheid verschillende soorten informatie in de tekst door middel van de computer. Er worden teksten ingediend van de programma's die zijn geschreven in de omgeving van Free Pascal en die het mogelijk maken: 1) de didactische complexiteit te schatten van de begrippen die fysieke grootheden, apparaten en experimenten aanduiden; 2) het maken van een inhoudsanalyse van paragrafen uit verschillende natuurkundeboeken.

Invoering

IN de laatste tijd De belangstelling voor het gebruik van wiskundige methoden in de pedagogiek is toegenomen. Te gebruiken wiskundige modellen, het vaststellen van kwalitatieve en kwantitatieve patronen moet je kunnen evalueren verschillende kwaliteiten pedagogische objecten, het kennisniveau van de student over educatief materiaal, de complexiteit van het concept, formules, onderwerpen, taken, informatie-inhoud van de tekening, enz. Ook grote waarde heeft het probleem om de hoeveelheid van een of ander type informatie (bijvoorbeeld empirisch, theoretisch, wiskundig) in een educatieve tekst, lezing of studentantwoord te bepalen.

Het evalueren en rangschikken van enkele tientallen objecten is een nogal arbeidsintensief proces om handmatig uit te voeren. Om 30 objecten te evalueren met behulp van de methode van gepaarde vergelijkingen, is het dus noodzakelijk om ten minste 450 verschillende vergelijkingen uit te voeren, waarbij de deskundige de mate van aanwezigheid van de beoordeelde kwaliteit in de twee objecten die worden vergeleken, moet correleren. Daarom is het beter om dit proces te automatiseren met behulp van een computerprogramma dat de objecten die worden vergeleken willekeurig presenteert, de antwoorden van de expert waarneemt en de resultaten naar een bestand schrijft. Het is belangrijk dat de expert de mogelijkheid heeft om een pauze te nemen, de resultaten op te slaan en de volgende dag terug te komen en verder te werken.

Inhoudsanalyse van teksten van meerdere pagina's, waarbij verschillende markertermen door de expert zelf worden geteld, is een arbeidsintensieve taak en het resultaat is afhankelijk van verschillende willekeurige factoren. Het is mogelijk om de objectiviteit van de inhoudsanalyse van een educatieve tekst en de herhaalbaarheid van de resulterende resultaten te vergroten met behulp van een computerprogramma dat, met behulp van een thesauruswoordenboek, de frequentie van vermelding van verschillende termen in een tekstbestand telt en rekening houdt met hun complexiteit en tot een bepaalde klasse behoren. Het werk van de deskundige komt in dit geval op het volgende neer: 1) het samenstellen van een woordenboek-thesaurus; 2) classificatie en evaluatie van de daarin opgenomen termen; 3) het voorbereiden van een bestand met de geanalyseerde tekst; 4) het lanceren van een programma dat de tekst analyseert; 5) interpretatie van de resultaten.

1. Programma voor paarsgewijze vergelijking van objecten

Om objecten te evalueren met behulp van de methode van gepaarde vergelijkingen, wordt het PR-1-programma gebruikt dat is geschreven in de Free Pascal-omgeving (Fig. 1). Stel dat u de complexiteit van concepten uit een natuurkundecursus op school moet beoordelen. Maak met behulp van Far_manager een bestand vhod.txt met een lijst van N=25 te beoordelen concepten (Fig. 2.1), selecteer willekeurig een concept met nummer N0=8 en start het computerprogramma PR-1. Het concept N0=8 verschijnt op het scherm en een regel eronder - een willekeurig geselecteerd concept uit de lijst, bijvoorbeeld concept 12. De expert moet de beoordeelde eigenschappen van deze twee objecten vergelijken en de symbolen "+", "0" invoeren. ” of “–“ op het toetsenbord. Een plus betekent dat de beoordeelde kwaliteit in object 1 groter is dan in object 2, nul betekent ongeveer hetzelfde en min betekent minder dan in object 2.

Na het indrukken van de “Enter”-toets verschijnen opnieuw het concept met nummer N0=8 en een willekeurig geselecteerd concept 23. De expert maakt opnieuw een vergelijking en geeft een beoordeling van “+”, “–“ of “0”. Het programma is zo geschreven dat het concept met nummer N0 niet met zichzelf wordt vergeleken (het is bekend dat het resultaat “0” is) en niet tweemaal met enig ander concept wordt vergeleken. Na het voltooien van de procedure voor het vergelijken van concept 8 met alle andere concepten uit invoerbestand(Fig. 2.1), het programma maakt tekstbestand vihod.txt van één regel, met daarin het objectnummer N0=8 en de resultaten van de vergelijkingen met concept 1, concept 2, ...., concept N in de vorm “+ + + ... + 0 0 – + . .. – 0 + – –” (Afb. .2.2). Vervolgens herhaalt de expert dezelfde procedure met een ander object, bijvoorbeeld met het concept N0=10. Indien nodig kan de deskundige een pauze nemen of de vergelijkingsprocedure uitstellen tot de volgende dag. Door te gebruiken teksteditor uit de resulterende lijnen (Fig. 2.2) wordt een tweedimensionale NxN-matrix gevormd, vergelijkbaar met die getoond in Fig. 2.3. Als resultaat van een volledige doorzoeking van de volledige lijst met concepten, werd elk paar concepten twee keer vergeleken (eerst de i-de met de j-de, en dan vice versa), wat het mogelijk maakt om de invloed van willekeurige factoren te verminderen . De resultaten van het vergelijken van twee objecten worden vastgelegd op het snijpunt van de overeenkomstige rij en kolom. Vanaf links bovenste hoek een diagonaal van nullen gaat naar rechtsonder.

Om objectbeoordelingen te verkrijgen, wordt de resulterende tweedimensionale matrix van plussen, nullen en enen (Fig. 2.3) geanalyseerd door het PR-2-programma (Fig. 3), dat voor elke i-de rij de som van alle plussen en trekt de som van alle minnen ervan af. Het resulterende resultaat A_i voor elke rij wordt op het scherm afgedrukt. Als u in het PR-2-programma x activeert en x becommentarieert, worden de matrixkolommen op dezelfde manier verwerkt. De overeenkomstige resultaten B_i (i=1, 2, …, N) worden op het scherm weergegeven. De waarde K van de beoordeelde kwaliteit van het i-de object wordt evenredig geacht met het verschil A_i-B_i. Je kunt er een constante aan toevoegen en het resultaat vermenigvuldigen met een coëfficiënt, zodat je dat kunt doen maximale waarde kenmerken K was gelijk aan één, en het minimum was gelijk aan nul.

2. Programma voor inhoudsanalyse van tekst

De inhoudsanalysemethode bestaat uit het “vertalen van massale tekstinformatie in kwantitatieve indicatoren” en de daaropvolgende indicatoren statistische verwerking. Om de hoeveelheid empirische, theoretische en wiskundige kennis in de tekst te beoordelen, is het noodzakelijk om het aantal toepassingen van ‘empirische’ termen (die objecten en verschijnselen, instrumenten en apparaten aanduiden), ‘theoretische’ termen (namen fysieke hoeveelheden), wiskundige termen (wiskundige grootheden, bewerkingen, symbolen in formules) en algemeen wetenschappelijke termen (bijvoorbeeld “we zullen bewijzen”, “metingen”, “analyseren”, enz.). De maateenheid voor de hoeveelheid informatie is één vermelding van een term. Omdat in de Russische taal de gemiddelde lengte van een woord 6,3 letters is (inclusief spatie), is het voor het vinden van het totale aantal woorden N (de hoeveelheid informatie in tekst I) voldoende om het totale aantal letters te delen door 6,3.

De methodologie voor een dergelijke kwalitatief-kwantitatieve analyse van de inhoud van educatieve teksten omvat de selectie van uitputtende en elkaar uitsluitende criteria en het bepalen van regels voor het betrouwbaar vastleggen van de noodzakelijke kenmerken van de tekst, zodat de resulterende resultaten niet afhankelijk zijn van de expert, zijn zeer herhaalbaar en weerspiegelen de objectieve kenmerken van de tekst. De fysieke tekst omvat de feitelijke tekst tekst informatie, tekeningen ( grafische informatie) en formules. Om de hoeveelheid informatie in de cijfers en formules te schatten, zullen we ze vervangen door de kortst mogelijke zinnen die de inhoud ervan volledig weergeven. educatieve informatie. Het gaat over O nuttige informatie, noodzakelijk voor het beheersen van de overeenkomstige paragraaf van het leerboek ( onnodige informatie, vervat in de cijfers, wordt niet in aanmerking genomen).

Er kan bij benadering worden aangenomen dat de hoeveelheid ‘formele’ informatie evenredig is aan het aantal wiskundige symbolen, gevonden in de tekst en in formules. Elk symbool komt overeen met een bepaald concept. We zullen de complexiteit van symbolen evalueren op een vijfpuntsschaal: 1. Complexiteit S=1: enkele symbolen (geen vectoren), som, verschil, product en deling. 2. Complexiteit S=2: machtsverheffing, wortelextractie, optelling en aftrekking van vectoren. 3. Moeilijkheidsgraad S=3: de formule bevat trigonometrische functies, logaritmen, scalair product van vectoren. 4. Complexiteit S=4: limieten, verschillen, afgeleiden, vectorproduct. 5. Complexiteit S=5: integralen, operatoren, etc. Het aantal wiskundige symbolen in een paragraaf met complexiteit S=1, 2, 3, 4, 5 wordt geteld en de resultaten worden toegewezen aan de elementen van de matrix mat_sim[i] (Analizer-programma, Formuli-procedure).

In afb. 4 gepresenteerd speciaal programma Analyzer (Free Pascal-omgeving), die met behulp van een thesauruswoordenboek de frequentie telt waarmee verschillende fysieke en wiskundige termen in een tekstbestand worden genoemd. Inhoudsanalyse van de tekst wordt als volgt uitgevoerd: 1. Bepaal de complexiteit en hoeveelheid ‘formulaire’ informatie door het aantal wiskundige symbolen van verschillende complexiteit in de tekst en formules te tellen; de resultaten worden ingevoerd in mat_sim[i].2. Vervang tekeningen korte beschrijvingen, met informatie over de fysieke en wiskundige objecten die op de afbeeldingen zijn afgebeeld. 3. Maak een tekstbestand in het vhod1.txt-formaat met de geanalyseerde tekst met beschrijvingen van de afbeeldingen zonder formules (Fig. 5). 4. Maak een lijst van natuurkundige, wiskundige en algemeen wetenschappelijke termen die in deze tekst voorkomen. Gebruik hiervoor de programma's Word_stat, Word_count, Word_statistic, die op internet te vinden zijn. 5. Maak een woordenboek-thesaurus van de tekst met gemeenschappelijke delen van verwante termen (bijvoorbeeld de woorden diffractie, diffract, diffractie - het gemeenschappelijke deel van "diffractie"), die wordt opgeslagen in het bestand slovar.txt (Fig. 6.1 ). 6. Elke term wordt toegewezen aan een van de klassen “empirisch”, “theoretisch”, “wiskundig”, “algemeen wetenschappelijk”, en de complexiteit ervan wordt beoordeeld op een schaal van 1-2-3; de resultaten worden naar het bestand dictionary.txt geschreven. 7. Lanceren Analyseprogramma, dat bij toegang tot het bestand slovar.txt de tekst analyseert die is opgeslagen in het bestand vhod1.txt en de resultaten naar het bestand vihod1.txt schrijft. Ook wordt er een tekstprofiel gemaakt, bestaande uit een matrix van de meest voorkomende woorden en hun frequenties (Fig. 6.2). 8. Interpreteer de verkregen resultaten, maak tabellen, bouw histogrammen, enz.

Conclusie

Het artikel suggereert eenvoudige opties het oplossen van het probleem van het automatiseren van de evaluatie van objecten met behulp van de methode van gepaarde vergelijkingen en het bepalen van de hoeveelheid verschillende soorten informatie in de tekst. Objecten vergelijken, evalueren en rangschikken, en de hoeveelheid verschillende soorten informatie in de tekst bepalen - belangrijke procedures metingen die in de geesteswetenschappen worden gebruikt. Met behulp van de PR-1- en PR-2-programma's (Fig. 1 en 3), die helpen bij het implementeren van de methode van gepaarde vergelijkingen, was het mogelijk om de didactische complexiteit te beoordelen van de concepten die fysieke instrumenten, grootheden en fysieke experimenten aanduiden. Dit alles maakte het mogelijk om leerboeken en onderwerpen van de natuurkundecursus op school te classificeren op basis van een beoordeling van hun fysieke en wiskundige complexiteit, en om distributiepatronen van educatief materiaal vast te stellen. Het PR-3-programma (Fig. 4) werd gebruikt voor de inhoudsanalyse van paragrafen in verschillende natuurkundeboeken.

Mayer R.V. Methode voor het beoordelen van de fysieke complexiteit van onderwerpen in een natuurkundecursus op school // Concept. – 2014. – Nr. 08 (augustus). – ART 14199. – URL: http://e-koncept.ru/2014/14199.htm. - Dhr. reg. E-mail Geen FS 77–49965.

Mayer R.V. Beoordeling van de didactische complexiteit van fysieke concepten met behulp van de methode van gepaarde vergelijkingen // World of Science. Wetenschappelijk online tijdschrift [ Elektronische hulpbron]. – 2014, nummer 3. – 8 p. http://mir-nauki.com

Mayer R.V. Beoordeling van de didactische complexiteit van verschillende natuurkundeboeken // Modern wetenschappelijk onderzoek en innovatie. – Mei 2014. – Nr. 5 [Elektronische hulpbron]. URL: http://web.snauka.ru/issues/2014/05/34429

Mayer R.V. Effectieve methode beoordeling van de didactische complexiteit van fysieke concepten // Fundamenteel onderzoek. – N 11. – 2014. – blz. 904–909.

Psychosemantiek van het woord en taalstatistieken van de tekst: Methodologische aanbevelingen naar de speciale cursus / Comp. A.P. Varfolomeev. – Kaliningrad: Kaliningr. Universiteit, 2000. – 37 p.

Tolstova Yu.N. Basisprincipes van multidimensionaal schalen: trainingshandleiding. – M.: KDU, 2006. – 160 p.

Aantal views van de publicatie: Wacht alstublieft

Hier gepresenteerd korte kenmerken programma's voor inhoudsanalyse. Ik zal de lijst geleidelijk uitbreiden. Gedetailleerde beoordelingen zal op de blog staan in de sectie over programma's voor het uitvoeren van inhoudsanalyse.

LECTA— produceert multidimensionale inhoudsanalyse van tekstarrays. Op beginfase helpt bij het samenstellen van een woordenboek voor inhoudsanalyse, zowel op basis van frequentie als op basis van een vooraf gemaakt categoriesysteem. Hiermee kunt u teksten opsplitsen in fragmenten van gelijke grootte. Vervolgens kunt u teleenheden en tekstfragmenten in groepen combineren met behulp van factoranalyse. De onderzoeker beschikt dus over een duidelijke structuur van de kenmerken van het onderwerp dat wordt bestudeerd. informatie ruimte, gerechtvaardigd door het principe van de frequentie van lexemen die in het woordenboek zijn opgenomen. Dit wordt gevolgd door een kwalitatieve interpretatie van de resulterende thematische blokken. Gedetailleerde beschrijving werk in het LECTA-programma op de blog.

ATLAS.ti— Met het programma kunt u hoogwaardige inhoudsanalyses uitvoeren van tekst, audio, video, grafische documenten. Veel aandacht is gewijd aan het proces van het coderen van het materiaal. Een gedetailleerde beschrijving van hoe het programma werkt, staat op de blog.

TABARI(KEDS) is een programma voor het automatisch coderen van gegevens over politieke gebeurtenissen. Het maakt gebruik van een ingebouwde analysator om woorden te identificeren die worden gebruikt voor inhoudsanalyse. Wanneer het programma wordt uitgevoerd, heeft het programma toegang tot ingebouwde en downloadbare woordenboeken. De gegevens kunnen worden gebruikt om in andere te werken gespecialiseerde programma's, zoals SPSS en SAS.

JFreq creëert matrices van de frequentie van woordgebruik in een array, wordt gebruikt voor inhoudsanalyse en werkt met de meeste talen van de wereld. Het werkt niet met Japans, Chinees en Thais omdat het taalsysteem van deze talen fundamenteel verschilt van de meeste talen. Met het programma kunt u onleesbare tekens en tekens uitsluiten die niet in de alfabetische database zijn opgenomen. Werkt op elk besturingssysteem.

Concordantie programma dat wordt gebruikt om inhoudsanalyse uit te voeren elektronische documenten Daarin kunt u lijsten maken met gerelateerde rekeneenheden, indices en woorden wanneer u aan elektronische tekst werkt. Hiermee kunt u grote arrays verwerken. Maakt het mogelijk om correlaties te bekijken tussen woorden die zijn opgenomen in het woordenboek voor inhoudsanalyse. De resultaten van uw werk kunnen eenvoudig op internet worden geplaatst met behulp van de ingebouwde tools van het programma. Beschrijving op de blog -

HyperONDERZOEK Hiermee kunt u tekst-, audio- en videomateriaal coderen, vinden en decoderen. Maakt analyse van dergelijke gegevensformaten mogelijk.

LEXIMANCER– meertalig software, het uitvoeren van inhoudsanalyses grote volumes tekst, waardoor u teksten van verschillende genres en stijlen in een array kunt combineren, inclusief dialectische en andere niet-traditionele taalvormen.

PROTAAN– een set van 30 programma's geïntegreerd in één blok, waardoor inhoudsanalyse van tekstarrays mogelijk is met behulp van ingebouwde woordenboeken en verhaallijnen worden geïdentificeerd, waarbij correlaties tussen woorden in het woordenboek worden bepaald door middel van factoranalyse. Bezit een groot aantal andere functies.

// ]]>TEKSTPAKKET– codeert teksten op basis van door gebruikers gemaakte woordenboeken. Vergelijkt 2 documenten, vergelijkt hun woordenschatinhoud, detecteert vergelijkbare passages in documenten. Gegevens kunnen eenvoudig worden geïmporteerd in pakketten zoals SPSS of SAS.

QDA Mijnwerker is een hulpmiddel voor kwalitatieve analyse van tekstgegevens, annotatie, ophalen en beoordelen van gecodeerde gegevens. Met het programma kunt u werken een groot aantal documenten die zowel tekst als numerieke gegevens bevatten. QDA Miner biedt ook een breed scala aan zoekhulpmiddelen om correlaties in gecodeerde gegevens te identificeren. (QDA MINER LITE wordt beschreven op de blog)

WoordStat – een tekstanalysemodule die speciaal is ontworpen voor het verwerken van materialen zoals tijdschriftartikelen, literaire werken en interviews. Net als anderen soortgelijke programma's Hiermee kunt u een categorisch apparaat en een woordenboek voor inhoudsanalyse maken. Verdere analyse kan worden uitgevoerd met behulp van het maken en berekenen van kruistabellen, evenals met de KWIS-methode. Met het pakket kun je met meer werken complexe methoden statistische analyse, zoals clustering en multidimensionale schaling. De gemaakte categorische apparaten en schemawoordenboeken kunnen in de toekomst op andere tekstarrays worden toegepast.

ZOUT– software die de inhoud van een tekstarray analyseert. Ondersteunt het werken met alle talen. Bepaalt de gemiddelde lengte van een zin, het aantal gezochte woorden en het totale aantal woorden. Kan creëren alfabetische lijst woorden, codeer de tekstarray in overeenstemming met de codes die door de onderzoeker zijn bepaald. Werkt alleen met besturingssysteem Ramen.

MonoConc – zoekt naar eenheden tekst analyse, bepaalt de correlaties daartussen in de array.

TROPEN– voert een chronologische, op rollen gebaseerde kwalitatieve analyse van de tekst uit. Maakt het ook mogelijk om te ontvangen algemene informatie afhankelijk van de gebruiksfrequentie van bepaalde rekeneenheden.

Qualrus is een hulpmiddel voor het uitvoeren van kwalitatieve gegevensanalyse en het coderen van array-elementen voor verdere verwerking. Qualrus kan worden gebruikt om te dirigeren volledig spectrum kwalitatief onderzoek, inclusief culturele analyse, interpretatieve methoden, semiotiek, geschiedenis, tussen haakjes zetten, empirische analyse, analyse van verhalen en werken van andere genres.

KAMEE– een systeem gemaakt voor het coderen en analyseren van politieke communicatie. Bevat 20 hoofdevenementcategorieën en 200 subcategorieën, een uitgebreide database voor het coderen van de namen van politici in de tekst.

AnnoTape is software voor het opnemen en analyseren van audio-, video-, grafische en tekstgegevens bedoeld voor kwalitatief onderzoek, marketing, mediajournalistiek en archiefdiensten. Opname geluidsbestanden– interviews, gesprekken, radio-uitzendingen direct op harde schijf computer. Hiermee kunt u maximaal honderd uur audio en tekstgegevens opslaan in één geïntegreerde database. Voert data-analyse, annotatie en indexering van originele audio- en tekstbestanden uit. Splitst audiodata-arrays effectief in fragmenten

De inhoudsanalysemethode bestaat uit het “vertalen van massale tekstinformatie in kwantitatieve indicatoren” en de daaropvolgende statistische verwerking ervan. Om de hoeveelheid empirische, theoretische en wiskundige kennis in de tekst te beoordelen, is het noodzakelijk om het aantal toepassingen te bepalen van ‘empirische’ termen (die objecten en verschijnselen, instrumenten en apparaten aanduiden), ‘theoretische’ termen (namen van fysieke grootheden ), wiskundige termen (wiskundige grootheden, bewerkingen, symbolen in formules) en algemeen wetenschappelijke termen (bijvoorbeeld “we zullen bewijzen”, “metingen”, “we zullen analyseren”, enz.). De maateenheid voor de hoeveelheid informatie is één vermelding van een term. Omdat in de Russische taal de gemiddelde lengte van een woord 6,3 letters is (inclusief spatie), is het voor het vinden van het totale aantal woorden N (de hoeveelheid informatie in tekst I) voldoende om het totale aantal letters te delen door 6,3.

De methodologie voor een dergelijke kwalitatieve en kwantitatieve analyse van de inhoud van educatieve teksten omvat de selectie van uitputtende en elkaar uitsluitende criteria en de definitie van regels voor het betrouwbaar vastleggen van de noodzakelijke kenmerken van de tekst, zodat de resulterende resultaten niet afhankelijk zijn van de deskundige. zeer herhaalbaar en weerspiegelen de objectieve kenmerken van de tekst. Fysieke tekst omvat feitelijke tekstinformatie, tekeningen (grafische informatie) en formules. Om de hoeveelheid informatie in afbeeldingen en formules te beoordelen, zullen we ze vervangen door de kortst mogelijke zinnen die de educatieve informatie die ze bevatten volledig overbrengen. We hebben het over nuttige informatie die nodig is om de overeenkomstige paragraaf van het leerboek onder de knie te krijgen (er wordt geen rekening gehouden met onnodige informatie in de afbeeldingen).

Bij benadering kunnen we aannemen dat de hoeveelheid ‘formulaire’ informatie evenredig is aan het aantal wiskundige symbolen dat in de tekst en in formules wordt aangetroffen. Elk symbool komt overeen met een bepaald concept. We zullen de complexiteit van symbolen evalueren op een vijfpuntsschaal: 1. Complexiteit S=1: enkele symbolen (geen vectoren), som, verschil, product en deling. 2. Complexiteit S=2: machtsverheffing, wortelextractie, optelling en aftrekking van vectoren. 3. Complexiteit S=3: de formule bevat trigonometrische functies, logaritmen, scalair product van vectoren. 4. Complexiteit S=4: limieten, verschillen, afgeleiden, vectorproduct. 5. Complexiteit S=5: integralen, operatoren, etc. Het aantal wiskundige symbolen in een paragraaf met complexiteit S=1, 2, 3, 4, 5 wordt geteld en de resultaten worden toegewezen aan de elementen van de matrix mat_sim[i] (Analizer-programma, Formuli-procedure).

In afb. 4 presenteert een speciaal Analyzer-programma (Free Pascal-omgeving), dat, met behulp van een thesauruswoordenboek, de frequentie telt waarmee verschillende fysieke en wiskundige termen in een tekstbestand worden genoemd. Inhoudsanalyse van de tekst wordt als volgt uitgevoerd: 1. Bepaal de complexiteit en hoeveelheid ‘formulaire’ informatie door het aantal wiskundige symbolen van verschillende complexiteit in de tekst en formules te tellen; de resultaten worden ingevoerd in mat_sim[i]. 2. Vervang de tekeningen door korte beschrijvingen met informatie over de fysieke en wiskundige objecten die in de tekeningen worden afgebeeld. 3. Maak een tekstbestand in het vhod1.txt-formaat met de geanalyseerde tekst met beschrijvingen van de afbeeldingen zonder formules (Fig. 5). 4. Maak een lijst van natuurkundige, wiskundige en algemeen wetenschappelijke termen die in deze tekst voorkomen. Gebruik hiervoor de programma's Word_stat, Word_count, Word_statistic, die op internet te vinden zijn. 5. Maak een woordenboek-thesaurus van de tekst met gemeenschappelijke delen van verwante termen (bijvoorbeeld de woorden diffractie, diffract, diffractie - het gemeenschappelijke deel van "diffractie"), die wordt opgeslagen in het bestand slovar.txt (Fig. 6.1 ). 6. Elke term wordt toegewezen aan een van de klassen “empirisch”, “theoretisch”, “wiskundig”, “algemeen wetenschappelijk”, en de complexiteit ervan wordt beoordeeld op een schaal van 1-2-3; de resultaten worden naar het bestand dictionary.txt geschreven. 7. Start het Analyzer-programma, dat, door toegang te krijgen tot het bestand slovar.txt, de tekst analyseert die is opgeslagen in het bestand vhod1.txt, en de resultaten naar het bestand vihod1.txt schrijft. Ook wordt er een tekstprofiel gemaakt, bestaande uit een matrix van de meest voorkomende woorden en hun frequenties (Fig. 6.2). 8. Interpreteer de verkregen resultaten, maak tabellen, bouw histogrammen, enz.