Организирано од Botmaster Labs, не планирано. Немам време, видеото е потребно за натпревар, како нов тренд, иако сè може полесно да се објасни со добри слики од екранот (мојот IMHO), а јас навистина не сакам да снимам ништо. Останаа многу малку профитабилни теми, веќе никако не владее глупавиот спам, тука треба да размислите и никој нема да пука теми, освен ако не се обидете да ги ставите застарените во убава обвивка и малку да ги испрушите. :) Но, ова не е за нас. Во принцип, овие 3 „не“, мислам, во основа станаа бариери за учество во натпреварот за повеќето потенцијални учесници. Тоа е како поправка на автомобил од три: евтина, висококвалитетна, брза - услугата може да исполни само 2 услови во исто време. седнете и одберете што е поблиску до вас. :) Исто е и со конкуренцијата: имам време, знам да снимам видео, ама нема тема, или знам да направам видео, има тема, но немам време на сите, или имам слободно време и има мала тема, но видеото е страшно. Но, ова е добро ако се исполнети 2 услови во исто време. Па, во ред, да ги отфрлиме стиховите. Ќе продолжам во себе. Не планирав, што значи дека учествував на натпреварот, дури избрав за која статија ќе гласам. Што и да кажете, Доз многу добро го познава софтверот и знае многу интелигентно да го користи. Но, денес дознав дека на натпреварот се појавила интрига. Излегува дека нема да можам да гласам, а само новодојденците кои го купиле софтверот во 2011 година ќе можат да го направат тоа, а конкуренцијата е наменета за нив. Бев малку изненаден, но сопственикот е господин. Конкурсот е рекламна кампања и Александар подобро знае како да го спроведе. Во принцип, тогаш решив да објавам статија; малку е полесно да се напише кога е јасно за кого, за целата колективна фарма, всушност, е невозможно да се направи ова.
Долгиот вовед заврши, сега на поентата.
Што му треба на почетник кога купил таков супер-комбинат, а тоа е комплексот Xrumer + Hrefer? Така е, научете како да работите на тоа и отфрлете ја илузијата дека можете да заработите пари со тоа што ќе почнете да спамирате листови. Ако мислите така, подобро донирајте ги вашите пари во добротворни цели веднаш. Треба да научите како да ги користите алатките на комплексот, по можност да го изострите за себе. Помина времето на „земи повеќе - фрли понатаму“. Квантитетот му отстапува место на квалитетот. Ова значи дека ќе собереме база за себе; ако не научите како да го направите ова, ќе западнете зад возот. Нормално дека во ова ќе ни помогне Крефер. Ако планирате да ги промовирате вашите ресурси на Google, тогаш треба да бараме и страници за донатори преку Google. Мислам дека ова е разбирливо и логично. Но Гугл, како љубовницата на бакарната планина, не го подарува своето богатство на сите. Потребен ви е пристап кон тоа. Веднаш би сакал да кажам дека не се надевајте дека врз основа на знаците што ќе ги најдете во јавноста ќе можете да соберете нешто. Причината поради која се достапни во јавноста е затоа што се безвредни. Нема да ја развивам темата понатаму. Подобро е да ви кажам како правилно да го составите за да го видите резултатот, да можете сами да го разработите остатокот, главната работа е да го разберете принципот. Треба да ги собереме вистинските врз основа на карактеристиките на специфичните мотори што ни се потребни, а не на карактеристиките на форумите воопшто. Ова е главната грешка на почетниците - не се концентрираат на одредена работа, туку се обидуваат да опфатат сè во целост. И, исто така, ако сакате да анализирате повеќе или помалку нормална база на податоци, престанете да користите оператори во барањата. Нема „inurl:“, „сајт:“, „наслов“ итн. Google веднаш ќе ги забрани пребарувачите како вас. Затоа, внимателно ги проучуваме моторите со кои во моментов работи Хрумер:
Овозможено од php-Fusion
Во верзијата Khroomer 7.07, програмата е обучена на неколку нови мотори:
forumi.biz, forumb.biz, 1forum.biz, 7forum.biz, итн.
phpBB-fr.com, Соларис phpBB тема
А процесот на учење нови работи е континуиран.
Во принцип, треба да ги подготвиме точните барања за парсирање од страна на Hrefer. Да го земеме за пример форумот дижок. SMF форуми. И да почнеме да го расклопуваме во резервни делови за парсирање. Во тоа ќе ни помогне нашиот сакан Google. Внесете барање во Google SMF форуми- има многу ѓубре во резултатите од пребарувањето, премотуваме на некоја 13-та страница и избираме која било врска. Налетав на овој: http://www.volcanost.com/forum/index.php?topic=11.0. Да го отвориме и да го проучиме. Треба да најдеме нешто карактеристично на страницата што може да се примени за пребарување на други страници на овој мотор. Во подножјето го забележуваме следниот натпис Овозможено од SMF 1.1.14, цитирај го и внеси го во Google, ни покажува дека за ова барање знае околу 59 милиони опции. Брзо ги разгледуваме врските, додаваме уште неколку опции на овој клучен збор, на пример, „Напојувано од SMF 1.1.14“ тополаили „Напојувано од SMF 1.1.14“ вијагра. Се грижиме дека барањето е одлично, резултатите се само форуми и речиси и да нема ѓубре.
Дополнително, нас не нè интересира квантитетот, туку квалитетот, како што кажав погоре. Само напред. Од истиот форум земаме уште една фраза од подножјето: , ние исто така го цитираме и го даваме на Google. Како одговор, тој открива дека знае повеќе од 13 милиони резултати. Повторно, брзо ги разгледуваме резултатите, додаваме дополнителни зборови и ги проверуваме резултатите со нив. Се грижиме дека барањето е одлично и исто така речиси и да нема ѓубре. Во принцип, веќе има 2 барања за железо. Предлагам да го оставиме првиот форум сам засега и да продолжиме да собираме барања од други форуми. За среќа, имаме отворен Google по барање. 2006-2008, Simple Machines LLC. Ги земаме од резултатите од пребарувањето, на пример, овие форуми: http://www.snowlinks.ru/forum/index.php?topic=1062.0 и http://litputnik.ru/forum/index.php?action=printpage ;topic=380.0 во подножјето ги земаме следните прашања од нив: „Powered by SMF 1.1.7“ и „Powered by SMF 1.1.10“ (Секогаш препорачувам да внесувате прашања за Hrefer во наводници, бидејќи ни треба квалитет прво од сите). Мислам дека е јасно што правиме, на крајот ќе имаме одредена база на прашања за пребарување на форуми на моторот SMF (тоа беше избрано како пример, истото со другите мотори).
Ќе изгледа отприлика вака:
„Напојувано од SMF 1.1.2“
„Напојувано од SMF 1.1.3“
„Напојувано од SMF 1.1 RC2“
„Напојувано од SMF 1.1.4“
„Напојувано од SMF 1.1.8“
„Напојувано од SMF 1.1.7“
"2006-2008, Simple Machines LLC"
И тоа не е се. Додека собираме верзии на мотори, на некои SMF форуми го наоѓаме натписот „2001-2006, Lewis Media“ во подножјето. Ние го проверуваме ова барање, исто така целосно не задоволува. Наоѓаме слично барање: „2001-2005, Луис медиа“. Гледајќи низ подножјето понатаму, го наоѓаме следното барање: „SMFone design by A.M.A, пренесен на SMF 1.1“. Проверуваме - одлично. И така натаму. Половина час работа и имате прекрасна база на барања за моторот, а Google ќе ве забрани за овие прашања многу поретко отколку ако користите оператори во нив. И во исто време, вашата база на податоци ќе биде многу почиста отколку ако користите прашања како „index.php?topic=", бидејќи овде Google ќе ги даде не само форумите што ни се потребни, туку и многу левичарски ресурси каде што тоа беше можно оставете линк до темата на форумот. Може да приговарате, што не е во ред со тоа? Други оставија линк, па можеме и ние. Но! Врските може да остават не само од Khrumer, туку и од други програми. Покрај тоа, тие можат да бидат специјално прилагодени за оставање коментари на одреден ресурс, таканаречениот високо специјализиран софтвер, плус таквите врски може да се остават на рака. Повторно, повторувам, не ни е важен количината на ѓубре, туку квалитетот, ќе ја собереме базата на податоци со вистинските барања. Предноста на овој метод е што практично нема да треба да конфигурирате сито - филтер
, можете едноставно да го исклучите, бидејќи Google практично нема да ви даде ѓубре.
Мислам дека учењето како правилно да се користи Хрумер во почетната фаза е многу важно, бидејќи штом ќе го научите ова, секогаш можете да најдете употреба за Хрумер, без разлика како се менува ситуацијата. Заштитите стануваат покомплицирани, и ако на некои типови мотори заштитата е зајакната и Хрумер не може да се справи со тоа во моментов, тогаш нема смисла да се трошат ресурси за собирање на овие врски, а потоа да се работи на нив со Khroomer, подобро е да се концентрираат силите на она што дава резултати. И во исто време, ако тимот на Botmaster Labs го научи Khroomer нешто ново, можете брзо да сецирате нов пациент и да ја подготвите основата за Khroomer додека пациентот е сè уште топол. Времето е пари; ресурсот можеби повеќе не е релевантен кога ја купувате основата. собран од некој. Покрај тоа, правилното собирање основи за себе значително ја проширува „белата“ употреба на Хрумер. И токму тука сè се движи, сакале ние или не, а процесот на белење или побелување е во тек. Црните чаршафи на секој можен начин стануваат минато.
Сите други технички аспекти на работата со Hrefer може да се видат во помошта и нема смисла да се задржуваме на нив; сите цели, поени, секунди се поставени експериментално за секој автомобил поединечно.
Како бонус, ќе објавам овде шаблон за парсирање на кинескиот пребарувач Baidu, пред некој ден ме прашаа за тоа, па го направив тоа лежерно, извинете за игра на зборови. :)
Име на домаќин=http://www.baidu.com
Прашање=s?wd=
LinksMask=
Вкупно страници=100
Следна страница=
Следна страна2=
CaptchaURL=
CaptchaImage=
CaptchaField=
Се обидов да ги анализирам, немаше забрана, Khrefer брзо собираше ресурси, сите прашања за парсирање беа слични на Google, но имаше многу кинески ресурси, со висок ПР, а освен тоа имаше многу места каде што не Европеец некогаш стапнал. Подобро е да се анализираат кинеските барања. Google translate ќе помогне во ова, напишете список со клучни зборови на руски и преведете го на кинески. Вистината во „ Зборови„Хрефер зборовите не можат да се додадат на кинески, тие треба да се прекодираат.
Наместо кинески:
伟哥 - Виагра
吉他 - гитара
其他 - одмор
保险公司 - осигурување
Ставете ги овие кодови за замена во датотеката Words:
%E4%BC%9F%E5%93%A5
%E5%90%89%E4%BB%96
%E5%85%B6%E4%BB%96
%E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8
Ако промовирате веб-локација за осигурување, тогаш со поставување врска во вашиот профил на тематски (!) дури и кинески форум пронајден по барање " SMF форум" 保险公司ќе биде многу добро.
Како заклучок, би сакал да кажам дека никогаш не ги разбрав луѓето кои се жалеа дека Креферите се зготвени лошо или лошо; како одговор на ова, секогаш сакав да кажам, едноставно не знаете како да ги готвите. Ниту еден парсер не може да собере резултати подобро од упатување; барањата само треба да бидат точни. Хрефер е кола: добра, цврста, направена на германски, но ја вози човек и се зависи од тоа колку добро се вози, не можеш да ја натераш колата да вози и десно и лево во исто време.
Посебна тема е чистење на бази на податоци, ова еднаш го направив пред 3 години на претходен натпревар. Во најголем дел, сè е сè уште релевантно таму, но сега можете да одбиете да проверите за 200 ОК, навистина не ми се допадна овој процес, имаше многу големи грешки, многу непотребни работи беа филтрирани. Сега ова може да се направи речиси автоматски за време на работата на Khrumer, иако овој процес не е целосен аналог на проверка на „200 OK“. Како и да е, до точка: не така одамна се појави прекрасна можност во Хрумер - да се ограбат информациите од ресурсите во времето на водење на проектот. Изгледа вака. Внесувате шаблон што ќе се обработи за време на работата, а информациите собрани од шаблонот ќе бидат внесени во датотеката xgrabbed.txt во папката Logs. Можете да ја користите оваа функција за сè, летот на имагинацијата е огромен. Ја користам оваа функција еднаш неделно за да ги отстранам врските од мојата работна „истечена“ база на податоци. Не е тајна дека форумите изумираат секој ден за да ја исчистат нашата база на податоци од такви ресурси, а алатката „Автоматско грабање“ ќе ни помогне во овој случај.
На крајот на краиштата, мора да признаете дека кога често пишуваме, на пример, http://www.laptopace.com/index.php, гледаме дека овој домен е веќе, на пример, добар човек кој продава пари, но нема форум таму. Значи, за да ја исфрлиме оваа згура од основата, ќе ограбиме. :) Отворете го изворниот код на страницата и видете го овој запис таму:
Сега сите „мртви луѓе“ од гудади ќе ни бидат познати по име.
Еве мал избор за алатката Автоматско грабање, доколку сакате да ја исчистите базата на податоци од различни „истечени“ домени: