Automatische detectie van de forum-engine. Les drie. We verzamelen zelf de beste databases. Problemen oplossen bij het installeren van mods die de Russische taal niet ondersteunen

Georganiseerd door Botmaster Labs, niet gepland. Ik heb geen tijd, de video is nodig voor een wedstrijd, als een nieuwerwetse trend, hoewel alles gemakkelijker kan worden uitgelegd met goede screenshots (mijn IMHO), en ik wil eigenlijk niets filmen. Er zijn nog maar heel weinig winstgevende onderwerpen over, domme spam regeert helemaal niet meer, je moet hier nadenken en niemand zal over onderwerpen schieten, tenzij je probeert de verouderde in een mooie verpakking te stoppen en ze een beetje af te poederen. :) Maar dit gaat niet over ons. Over het algemeen vormden deze drie ‘don’ts’, denk ik, feitelijk een barrière voor deelname aan de competitie voor de meerderheid van de potentiële deelnemers. Het is alsof je een auto op drie repareert: goedkoop, van hoge kwaliteit, snel - de service kan maar aan 2 voorwaarden tegelijk voldoen. ga zitten en kies wat het dichtst bij u is. :) Het is hetzelfde met de concurrentie: ik heb tijd, ik weet hoe ik een video moet maken, maar er is geen onderwerp, of ik weet hoe ik een video moet maken, er is een onderwerp, maar ik heb er geen tijd voor allemaal, of ik heb vrije tijd en er is een klein onderwerp, maar de video is eng. Maar dit is goed als er tegelijkertijd aan 2 voorwaarden wordt voldaan. Nou, oké, laten we de tekst weggooien. Ik ga door met mezelf. Ik had het niet gepland, wat betekent dat ik meedeed aan de wedstrijd, ik heb zelfs gekozen op welk artikel ik zou stemmen. Wat je ook zegt, Doz kent de software heel goed en weet deze heel intelligent te gebruiken. Maar vandaag hoorde ik dat er intriges in de competitie zijn verschenen. Het blijkt dat ik niet kan stemmen, en alleen nieuwkomers die de software in 2011 hebben gekocht, kunnen dit doen, en de competitie is voor hen bedoeld. Ik was een beetje verrast, maar de eigenaar is een heer. De wedstrijd is een reclamecampagne en Alexander weet beter hoe hij die moet uitvoeren. Over het algemeen besloot ik toen een artikel te plaatsen, het is iets gemakkelijker om te schrijven als het duidelijk is voor wie, voor de hele collectieve boerderij, het is eigenlijk onmogelijk om dit te doen.
De lange introductie is voorbij, nu to the point.
Wat heeft een beginner nodig als hij zo'n supercombinatie heeft aangeschaft, namelijk het Xrumer + Hrefer-complex? Dat klopt, leer hoe u eraan kunt werken en laat de illusie varen dat u geld kunt verdienen door te beginnen met spambladen. Als u dat denkt, kunt u uw geld beter meteen aan een goed doel doneren. Je moet leren hoe je de tools van het complex moet gebruiken, bij voorkeur door het zelf aan te scherpen. De tijd van ‘neem meer – gooi verder’ is voorbij. Kwantiteit maakt plaats voor kwaliteit. Dit houdt in dat wij zelf een basis in elkaar zetten; als je dit niet leert, raak je achter de trein. Uiteraard helpt Khrefer ons hierbij. Als u van plan bent uw bronnen op Google te promoten, moeten we ook via Google naar donorsites zoeken. Ik denk dat dit begrijpelijk en logisch is. Maar Google geeft, net als de minnares van de koperberg, zijn rijkdom niet aan iedereen weg. Je hebt er een aanpak voor nodig. Ik zou meteen willen zeggen dat je niet hoopt dat je op basis van de tekenen die je in het publiek aantreft iets kunt verzamelen. De reden dat ze openbaar beschikbaar zijn, is omdat ze waardeloos zijn. Ik zal het onderwerp niet verder uitwerken. Het is beter om je te vertellen hoe je het op de juiste manier in elkaar zet, zodat je het resultaat kunt zien, je kunt de rest zelf uitwerken, het belangrijkste is om het principe te begrijpen. We moeten de juiste verzamelen op basis van de kenmerken van de specifieke motoren die we nodig hebben, en niet op basis van de kenmerken van forums in het algemeen. Dit is de belangrijkste fout van beginners: zich niet concentreren op een specifiek ding, maar proberen alles in zijn geheel te behandelen. En als u een min of meer normale database wilt ontleden, stop dan met het gebruik van operators in query's. Geen "inurl:", "site:", "titel", enz. Google verbiedt zoekers zoals jij onmiddellijk. Daarom bestuderen we zorgvuldig de motoren waarmee Khrumer momenteel werkt:

Mogelijk gemaakt door php-Fusion

In versie Khroomer 7.07 is het programma getraind op verschillende nieuwe motoren:

forumi.biz, forumb.biz, 1forum.biz, 7forum.biz, enz.

phpBB-fr.com, Solaris phpBB-thema

En het proces van het leren van nieuwe dingen is continu.
Over het algemeen moeten we de juiste query's voorbereiden voor parsering door Hrefer. Laten we het forum dizhok als voorbeeld nemen. SMF-forums. En laten we beginnen met het demonteren ervan in reserveonderdelen om te parseren. Onze geliefde Google gaat ons hierbij helpen. Voer een zoekopdracht in Google in SMF-forums- er zit veel rommel in de zoekresultaten, we gaan terug naar een 13e pagina en selecteren een link. Ik kwam deze tegen: http://www.volcanohost.com/forum/index.php?topic=11.0. Laten we het openen en bestuderen. We moeten iets karakteristieks op de pagina vinden dat kan worden toegepast bij het zoeken naar andere pagina's op deze engine. In de voettekst zien we de volgende inscriptie Mogelijk gemaakt door SMF 1.1.14, citeer het en voer het in Google in, het laat ons zien dat het voor deze zoekopdracht ongeveer 59 miljoen opties kent. We bekijken snel de links en voegen nog een paar opties toe aan dit zoekwoord, bijvoorbeeld: "Aangedreven door SMF 1.1.14" populier of "Aangedreven door SMF 1.1.14" viagra. We zorgen ervoor dat het verzoek geweldig is, de resultaten zijn alleen forums en bijna geen afval.

Bovendien zijn wij niet geïnteresseerd in kwantiteit, maar in kwaliteit, zoals ik hierboven al zei. Doe Maar. Van hetzelfde forum nemen we nog een zin uit de voettekst: , we citeren het ook en sturen het naar Google. Als reactie hierop onthult hij dat hij meer dan 13 miljoen resultaten kent. Nogmaals, we bekijken snel de resultaten, voegen extra woorden toe en controleren de resultaten ermee. Wij zorgen ervoor dat de aanvraag uitstekend is en dat er bovendien vrijwel geen rommel achterblijft. Over het algemeen zijn er al 2 ijzerverzoeken. Ik stel voor om het eerste forum voorlopig met rust te laten en door te gaan met het verzamelen van verzoeken van andere forums. Gelukkig hebben we Google op verzoek geopend. 2006-2008, Eenvoudige Machines LLC. We halen uit de zoekresultaten bijvoorbeeld deze forums: http://www.snowlinks.ru/forum/index.php?topic=1062.0 en http://litputnik.ru/forum/index.php?action=printpage ;topic=380.0 in de voetteksten nemen we de volgende queries van hen over: “Powered by SMF 1.1.7” en “Powered by SMF 1.1.10” (Ik raad altijd aan om queries voor Hrefer tussen aanhalingstekens te plaatsen, omdat we eerst kwaliteit nodig hebben alle). Ik denk dat het duidelijk is wat we doen, uiteindelijk zullen we een bepaalde database met zoekopdrachten hebben voor het doorzoeken van forums op de SMF-engine (deze werd als voorbeeld gekozen, hetzelfde met andere zoekmachines).
Het zal er ongeveer zo uitzien:

"Aangedreven door SMF 1.1.2"

"Aangedreven door SMF 1.1.3"

"Aangedreven door SMF 1.1 RC2"

"Aangedreven door SMF 1.1.4"

"Aangedreven door SMF 1.1.8"

"Aangedreven door SMF 1.1.7"

"2006-2008, Eenvoudige Machines LLC"

En dat is niet alles. Bij het verzamelen van engineversies vinden we op sommige SMF-forums het onderschrift “2001-2006, Lewis Media” in de voettekst. Wij controleren dit verzoek, het voldoet ook volledig aan ons. We vinden een soortgelijk verzoek: "2001-2005, Lewis Media". Als we verder door de voetteksten kijken, vinden we het volgende verzoek: “SMFone design by A.M.A, ported to SMF 1.1”. Wij controleren - geweldig. Enzovoort. Een half uur werk en je hebt een prachtige database met zoekopdrachten voor de engine, en Google zal je veel minder vaak verbannen voor deze zoekopdrachten dan wanneer je er operators in gebruikt. En tegelijkertijd zal uw database veel schoner zijn dan wanneer u zoekopdrachten als “index.php?topic=” gebruikt, omdat Google hier niet alleen de forums zal geven die we nodig hebben, maar ook veel linkse bronnen waar dat mogelijk was. laat een link achter naar het forumonderwerp. Je zou kunnen tegenwerpen: wat is daar mis mee? Anderen hebben een link achtergelaten, dus wij ook. Maar! Links kunnen niet alleen door Khrumer worden achtergelaten, maar ook door andere programma's. Bovendien kunnen ze speciaal worden aangepast voor het achterlaten van commentaar op een bepaalde bron, zogenaamde zeer gespecialiseerde software, en dergelijke links kunnen ook met de hand worden achtergelaten. Nogmaals, ik herhaal: het is niet de hoeveelheid afval die voor ons belangrijk is, maar de kwaliteit; we zullen de database verzamelen met de juiste verzoeken. Het voordeel van deze methode is dat u praktisch niet hoeft te configureren zeef-filter , je kunt het eenvoudig uitschakelen, omdat Google je praktisch geen rommel zal geven.

Ik denk dat het erg belangrijk is om Hrumer in de beginfase correct te leren gebruiken, want als je dit eenmaal hebt geleerd, kun je altijd een toepassing voor Hrumer vinden, hoe de situatie ook verandert. Beschermingen worden steeds ingewikkelder, en als bij sommige typen motoren de bescherming is versterkt en Khrumer er op dit moment niet mee overweg kan, dan heeft het geen zin om middelen te besteden aan het verzamelen van deze links en er vervolgens met Khroomer aan te werken. Het is beter om de krachten te concentreren op wat resultaten oplevert. En tegelijkertijd, als het team van Botmaster Labs Khroomer iets nieuws heeft geleerd, kun je snel een nieuwe patiënt ontleden en de basis voor Khroomer voorbereiden terwijl de patiënt nog warm is. Tijd is geld; de hulpbron is mogelijk niet langer relevant als u de basis koopt. door iemand verzameld. Bovendien breidt de juiste verzameling bases voor uzelf het "witte" gebruik van Khrumer aanzienlijk uit. En dit is precies waar alles in beweging is, of we het nu leuk vinden of niet, en het proces van verbleken of vergrijzen gaat door. Zwarte lakens behoren op alle mogelijke manieren tot het verleden.
Alle andere technische aspecten van het werken met Hrefer kunnen in de help worden bekeken en het heeft geen zin om daar bij stil te staan; alle doelen, punten, seconden worden experimenteel voor elke auto afzonderlijk ingesteld.
Als bonus plaats ik hier een sjabloon voor het ontleden van de Chinese zoekmachine Baidu. Onlangs vroegen ze me ernaar, dus ik deed het terloops, excuseer de woordspeling. :)

Hostnaam=http://www.baidu.com
Query=s?wd=
LinksMasker=
TotaalPagina's=100
VolgendePagina=
VolgendePagina2=
CaptchaURL=
CaptchaAfbeelding=
Captchaveld=

Ik probeerde ze te testen, er was geen verbod, Khrefer verzamelde snel bronnen, alle vragen voor het parseren waren vergelijkbaar met die van Google, maar er waren veel Chinese bronnen, met een hoge PR, en bovendien waren er veel plaatsen waar geen Europeaan had ooit een voet gezet. Het is beter om Chinese zoekopdrachten te ontleden. Google Translate helpt hierbij, typ een lijst met trefwoorden in het Russisch en vertaal deze naar het Chinees. De waarheid op " Woorden"Hrefer-woorden kunnen niet in het Chinees worden toegevoegd, ze moeten opnieuw worden gecodeerd.
In plaats van Chinees:

伟哥-Viagra

吉他-gitaar

其他 - rust

保险公司 - verzekering

Plaats deze vervangende codes in het Words-bestand:

%E4%BC%9F%E5%93%A5

%E5%90%89%E4%BB%96

%E5%85%B6%E4%BB%96

%E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8

Als u een verzekeringswebsite promoot, plaats dan een link in uw profiel op een thematisch (!) zelfs Chinees forum dat op verzoek is gevonden " SMF-forum" 保险公司 het zal heel goed zijn.
Tot slot zou ik willen zeggen dat ik mensen nooit heb begrepen die klaagden dat Khrefers slecht of slecht gekookt waren; als antwoord hierop wilde ik altijd zeggen: je weet gewoon niet hoe je ze moet koken. Geen enkele parser kan beter resultaten verzamelen dan een verwijzer; de verzoeken moeten alleen correct zijn. Hrefer is een auto: goed, degelijk, gemaakt in het Duits, maar hij wordt bestuurd door een mens en het hangt allemaal af van hoe goed hij bestuurd wordt; je kunt de auto niet dwingen om tegelijkertijd rechts en links te rijden.
Een apart onderwerp is het opschonen van databases, dit heb ik 3 jaar geleden ooit gedaan voor een eerdere wedstrijd. Voor het grootste deel is alles daar nog steeds relevant, maar nu kun je weigeren om 200 te controleren. OK, ik vond dit proces echt niet zo leuk, er waren hele grote fouten, er werd veel onnodige dingen eruit gefilterd. Nu kan dit vrijwel automatisch worden gedaan tijdens de werking van Khrumer, hoewel dit proces niet volledig analoog is aan het controleren op “200 OK”. Hoe dan ook, to the point: niet zo lang geleden deed zich een prachtige kans voor in Khrumer: om informatie uit bronnen te beroven tijdens het uitvoeren van een project. Het ziet er zo uit. U voert een sjabloon in dat tijdens de werking wordt verwerkt, en de informatie die uit de sjabloon wordt verzameld, wordt ingevoerd in het xgrabbed.txt-bestand in de map Logboeken. Je kunt deze functie voor alles gebruiken, de fantasie is enorm. Ik gebruik deze functie één keer per week om links uit mijn werkende "verlopen" database te verwijderen. Het is geen geheim dat forums elke dag uitsterven om onze database van dergelijke bronnen te zuiveren, en de tool “Autograbbing” zal ons in dit geval helpen.
Je moet tenslotte toegeven dat wanneer we bijvoorbeeld vaak http://www.laptopace.com/index.php typen, we zien dat dit domein bijvoorbeeld al een goede kerel is die geld verkoopt, maar er is geen forum daar. Dus om deze slak uit de basis te gooien, zullen we beroven. :) Open de broncode van de pagina en zie daar dit bericht:

laptopace.com

Om te grijpen, transformeren we het in

[...]

Nu zullen alle ‘dode mannen’ uit Goudaddi bij naam bekend zijn.
Hier is een kleine selectie voor de Autograbbing-tool, als u de database met verschillende “verlopen” domeinen wilt wissen:

[...]

[...]
[...]
[...]

[...]

Dit domein is misschien te koop. [...]Koop dit domein

Mijn geheim