Korraldab Botmaster Labs, pole plaanis. Mul pole aega, videot on võistluseks vaja kui uudset trendi, kuigi heade ekraanipiltidega (minu IMHO) saab kõike lihtsamini seletada ja ma ei taha tegelikult midagi pildistada. Kasumlikke teemasid on jäänud väga vähe, loll rämpspost ei valitse enam üldse, siin tuleb mõelda ja keegi ei hakka teemasid tulistama, kui just aegunud teemasid ilusasse ümbrisesse ei proovi panna ja veidi puuderdada. :) Aga see ei puuduta meid. Üldiselt arvan, et need 3 "ei tohi" takistasid enamiku potentsiaalsete osalejate jaoks konkursil osalemist. See on nagu auto remont kolmest: odav, kvaliteetne, kiire – teenus suudab korraga täita vaid 2 tingimust. istuge ja valige, mis on teile lähemal. :) Konkursiga on samamoodi: mul on aega, ma tean, kuidas videot teha, aga pole teemat või ma tean, kuidas videot teha, on teema, aga mul pole aega kl. kõik, või mul on vaba aega ja on väike teema, aga video on hirmus. Aga see on hea, kui 2 tingimust on korraga täidetud. Noh, olgu, jätame laulusõnad kõrvale. Jätkan endale. Ma ei planeerinud, mis tähendab, et osalesin konkursil, valisin isegi, millise artikli poolt hääletan. Mida iganes sa ütled, Doz tunneb tarkvara väga hästi ja oskab seda väga arukalt kasutada. Aga täna sain teada, et konkursil on tekkinud intriig. Selgus, et ma ei saa hääletada ja seda saavad teha ainult uued tulijad, kes ostsid tarkvara 2011. aastal ja konkurss on mõeldud neile. Olin veidi üllatunud, aga omanik on härrasmees. Võistlus on reklaamikampaania ja Aleksander teab paremini, kuidas seda läbi viia. Üldiselt otsustasin siis artikli postitada, mõnevõrra lihtsam on kirjutada, kui on selge, kelle jaoks on kogu kolhoosi jaoks seda tegelikult võimatu teha.
Pikk sissejuhatus on läbi, nüüd asja juurde.
Mida vajab algaja, kui ta on ostnud sellise superkombaini, milleks on kompleks Xrumer + Hrefer? See on õige, õppige sellega töötama ja loobuge illusioonist, et saate rämpsposti saatmisega raha teenida. Kui arvate nii, annetage oma raha kohe heategevuseks. Peate õppima kasutama kompleksi tööriistu, eelistatavalt seda ise teritama. “Võta rohkem – viska kaugemale” aeg on möödas. Kvantiteet annab teed kvaliteedile. See tähendab, et paneme endale aluse kokku; kui sa seda tegema ei õpi, jääd rongist maha. Loomulikult aitab Khrefer meid selles. Kui kavatsete oma ressursse Google'is reklaamida, peame otsima ka Google'i kaudu doonori saite. Ma arvan, et see on arusaadav ja loogiline. Kuid Google, nagu vasemäe armuke, ei anna oma rikkust igaühele ära. Teil on vaja lähenemist sellele. Tahaksin kohe öelda, et ärge lootke, et avalikkuses leitud märkide põhjal saate midagi koguda. Põhjus, miks need on avalikult kättesaadavad, on see, et nad on väärtusetud. Ma ei hakka teemat edasi arendama. Parem on öelda, kuidas seda õigesti kokku panna, et saaksite tulemust näha, ülejäänu saate ise välja töötada, peamine on põhimõttest aru saada. Peame koguma õigeid konkreetsete meile vajalike mootorite omaduste, mitte foorumite omaduste põhjal üldiselt. See on algajate peamine viga – ei keskenduta konkreetsele asjale, vaid püütakse kõike tervikuna katta. Ja ka, kui soovite sõeluda enam-vähem tavalist andmebaasi, lõpetage operaatorite kasutamine päringutes. Ei mingeid "inurl:", "site:", "title" jne. Google keelab teiesugused otsijad koheselt. Seetõttu uurime hoolikalt mootoreid, millega Khrumer praegu töötab:
Toiteallikaks on php-Fusion
Versioonis Khroomer 7.07 on programmi koolitatud mitme uue mootoriga:
forumi.biz, forumb.biz, 1forum.biz, 7forum.biz jne.
phpBB-fr.com, Solarise phpBB teema
Ja uute asjade õppimise protsess on pidev.
Üldiselt peame Hreferi parsimiseks ette valmistama õiged päringud. Võtame näiteks foorum dizhok. SMF-foorumid. Ja alustame selle parsimiseks varuosadeks lahtivõtmist. Meie armastatud Google aitab meid selles. Sisestage Google'isse päring SMF-foorumid- otsingutulemustes on palju prügi, kerime tagasi mingile 13. lehele ja valime suvalise lingi. Leidsin selle: http://www.volcanohost.com/forum/index.php?topic=11.0. Avame selle ja uurime seda. Peame lehelt leidma midagi iseloomulikku, mida saaks kasutada selle mootori teiste lehtede otsimisel. Jaluses märkame järgmist kirja Toiteallikaks on SMF 1.1.14, tsiteerige seda ja sisestage see Google'isse, näitab see meile, et selle päringu jaoks on tal teada umbes 59 miljonit valikut. Vaatame kiiresti lingid läbi, lisame sellele märksõnale veel paar võimalust, näiteks "Toiteallikaks on SMF 1.1.14" pappel või "Toidab SMF 1.1.14" viagra. Veendume, et taotlus on suurepärane, tulemused on ainult foorumid ja peaaegu pole prügi.
Lisaks ei huvita meid mitte kvantiteet, vaid kvaliteet, nagu eespool ütlesin. Lase käia. Samast foorumist võtame jalusest teise fraasi: , tsiteerime seda ka ja edastame Google'ile. Vastuseks avaldab ta, et teab rohkem kui 13 miljonit tulemust. Jällegi vaatame tulemused kiiresti läbi, lisame lisasõnu ja kontrollime nendega tulemusi. Jälgime, et taotlus oleks suurepärane ja prügi pole peaaegu üldse. Üldiselt on juba 2 rauataotlust. Soovitan jätta esimene foorum esialgu rahule ja jätkata taotluste kogumist teistest foorumitest. Õnneks on meil Google soovi korral avatud. 2006-2008, Simple Machines LLC. Otsingutulemustest võtame näiteks need foorumid: http://www.snowlinks.ru/forum/index.php?topic=1062.0 ja http://litputnik.ru/forum/index.php?action=printpage ;topic=380.0 jalustes võtame neilt järgmised päringud: "Powered by SMF 1.1.7" ja "Powered by SMF 1.1.10" (soovitan alati sisestada päringud Hreferi jaoks jutumärkidesse, kuna vajame kõigepealt kvaliteeti kõik). Arvan, et on selge, mida me teeme, lõpuks on meil SMF-mootoris foorumite otsimiseks teatud päringute andmebaas (see valiti näiteks, sama ka teiste mootoritega).
See näeb välja umbes selline:
"Toidab SMF 1.1.2"
"Toidab SMF 1.1.3"
"Toidab SMF 1.1 RC2"
"Toidab SMF 1.1.4"
"Toidab SMF 1.1.8"
"Toidab SMF 1.1.7"
"2006-2008, Simple Machines LLC"
Ja see pole veel kõik. Mootoriversioone kogudes leiame mõne SMF-i foorumi jaluses pealkirja “2001-2006, Lewis Media”. Kontrollime seda taotlust, see rahuldab meid samuti täielikult. Leiame sarnase päringu: "2001-2005, Lewis Media". Jalusi lähemalt vaadates leiame järgmise päringu: "SMFone design by A.M.A, ported to SMF 1.1". Kontrollime – suurepärane. Ja nii edasi. Pool tundi tööd ja teil on mootori jaoks imeline päringute andmebaas ning Google keelab teid nende päringute puhul palju harvemini kui siis, kui kasutate neis operaatoreid. Ja samal ajal on teie andmebaas palju puhtam kui siis, kui kasutate päringuid nagu "index.php?topic=", sest siin ei anna Google mitte ainult meile vajalikke foorumeid, vaid ka palju vasakpoolseid ressursse, kus see oli võimalik jäta link foorumi teemale. Võite vastu vaielda, mis selles valesti on? Teised jätsid lingi, nii et ka meie saame. Aga! Lingid võivad jätta mitte ainult Khrumer, vaid ka muud programmid. Lisaks saab neid kohandada spetsiaalselt teatud ressursi, nn kõrgelt spetsialiseerunud tarkvara kohta kommentaaride jätmiseks, lisaks võib selliseid linke käsitsi jätta. Kordan veel kord, et meie jaoks pole oluline mitte prügi kogus, vaid kvaliteet, õigete päringutega kogume andmebaasi kokku. Selle meetodi eeliseks on see, et te ei pea praktiliselt konfigureerima sõel -filter
, saate selle lihtsalt välja lülitada, sest Google praktiliselt ei anna teile prügi.
Ma arvan, et Hrumeri õige kasutamise õppimine algfaasis on väga oluline, sest kui olete selle selgeks õppinud, leiate Hrumerile alati kasutuse, olenemata olukorra muutumisest. Kaitsed muutuvad keerulisemaks ja kui teatud tüüpi mootoritel on kaitset tugevdatud ja Khrumer ei saa sellega hetkel hakkama, siis pole mõtet kulutada ressursse nende linkide kogumisele ja seejärel Khroomeriga nende kallal töötamisele. parem on koondada jõud sellele, mis annab tulemusi. Ja samal ajal, kui Botmaster Labsi tiim õpetas Khroomerile midagi uut, saate uue patsiendi kiiresti lahata ja Khroomeri jaoks aluse valmistada, kui patsient on veel soe. Aeg on raha; ressurss ei pruugi baasi ostmisel enam asjakohane olla. kellegi poolt kogutud. Lisaks laiendab enda jaoks korrektne aluste kogumine oluliselt Khrumeri “valget” kasutamist. Ja see on just see koht, kus kõik liigub, tahame või mitte, ning valgenemise või halliks muutumise protsess käib. Mustad linad on igal võimalikul moel saamas minevikku.
Kõiki muid tehnilisi aspekte Hreferiga töötamisel saab vaadata spikrist ja nendel pole mõtet pikemalt peatuda, kõik eesmärgid, punktid, sekundid määratakse katseliselt igale autole eraldi.
Boonusena postitan siia malli Hiina otsingumootori Baidu sõelumiseks, teisel päeval nad küsisid minult selle kohta, nii et ma tegin seda juhuslikult, vabandage sõnamängu. :)
Hostinimi=http://www.baidu.com
Query=s?wd=
LinksMask=
Lehekülgi kokku = 100
Järgmine leht=
Järgmine leht2=
CaptchaURL=
CaptchaImage=
CaptchaField=
Proovisin neid testida parsimisega, keeldu ei olnud, Khrefer kogus ressursse kiiresti, kõik parsimise päringud olid sarnased Google'i päringutega, kuid seal oli palju Hiina ressursse, kõrge PR-ga ja pealegi oli palju kohti, kus ei Eurooplane oli kunagi oma jalga tõstnud. Parem on sõeluda hiina päringuid. Google'i tõlge aitab selles, tippige vene keeles märksõnade loend ja tõlgige see hiina keelde. Tõde raamatus Sõnad"Hiina keeles ei saa lisada sõnu, need tuleb ümber kodeerida.
Hiina keele asemel:
伟哥 - Viagra
吉他 - kitarr
其他 - puhka
保险公司 – kindlustus
Pange need asenduskoodid Wordsi faili:
%E4%BC%9F%E5%93%A5
%E5%90%89%E4%BB%96
%E5%85%B6%E4%BB%96
%E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8
Kui reklaamite kindlustuse veebisaiti, siis lisades oma profiilile lingi temaatilisele (!) isegi Hiina foorumile, mis leiti taotluse alusel " SMF foorum" 保险公司 see saab olema väga hea.
Kokkuvõtteks tahaksin öelda, et ma ei mõistnud kunagi inimesi, kes kurtsid, et Khreferid on halvasti või halvasti küpsetatud; vastuseks sellele tahtsin alati öelda, et te lihtsalt ei tea, kuidas neid süüa teha. Ükski parser ei saa koguda paremaid tulemusi kui referents; päringud peavad lihtsalt olema õiged. Hrefer on auto: korralik, soliidne, tehtud saksa keeles, aga juhib inimene ja kõik oleneb sellest, kui hästi see on juhitud, autot ei saa sundida korraga nii paremale kui vasakule sõitma.
Eraldi teema on andmebaaside puhastamine, kunagi tegin seda 3 aastat tagasi eelmise konkursi jaoks. Enamasti on seal kõik endiselt asjakohane, kuid nüüd võite keelduda 200 OK kontrollimisest, mulle see protsess väga ei meeldinud, esinesid väga suured vead, palju ebavajalikku kraami filtreeriti välja. Nüüd saab seda teha peaaegu automaatselt Khrumeri töötamise ajal, kuigi see protsess ei ole täielik analoog "200 OK" kontrollimiseks. Igatahes asja juurde: mitte kaua aega tagasi ilmus Khrumeris suurepärane võimalus – röövida projekti elluviimise ajal teavet ressurssidest. See näeb välja selline. Sisestate malli, mida töötamise ajal töödeldakse ja mallist kogutud teave sisestatakse kausta Logid faili xgrabbed.txt. Seda funktsiooni saab kasutada ükskõik mille jaoks, kujutlusvõime lend on tohutu. Kasutan seda funktsiooni kord nädalas linkide eemaldamiseks oma töötavast "aegunud" andmebaasist. Pole saladus, et foorumid surevad iga päev välja, et meie andmebaas sellistest ressurssidest puhastada, ja tööriist "Automaatne haaramine" aitab meid sel juhul.
Peate ju tunnistama, et kui me tihti kirjutame näiteks http://www.laptopace.com/index.php, siis näeme, et see domeen on juba näiteks hea mees, kes müüb raha, aga seda pole. foorum seal. Nii et selleks, et see räbu alusest välja visata, me röövime. :) Ava lehe lähtekood ja vaata seda kirjet seal:
Nüüd tunneme kõiki goudaddi "surnud mehi" nimepidi.
Siin on väike valik automaatse haaramise tööriista jaoks, kui soovite kustutada andmebaasi erinevatest "aegunud" domeenidest: