Велосипед intitle всі публікації користувача попередній. Використовуємо маловідомі функції Google, щоб знайти приховане

Мова запитів - це штучно створена мова програмування, яка використовується для того, щоб робити запити у базах даних та інформаційних системах.

В цілому, такі способи запитів можна класифікувати залежно від того, служать вони для бази даних або для пошуку інформації. Різниця в тому, що запити до подібних сервісів здійснюються для отримання фактичних відповідей на поставлені питання, в той час як пошукова система намагається знайти документи, що містять відомості, що стосуються користувача області.

Бази даних

Мови запитів по базах даних включають такі приклади:

QL - об'єктно-орієнтований, відноситься до наступника Datalog.
Контекстний (CQL) - формальна моваподання запитів для інформаційно-пошукових систем (таких як веб-індекси або бібліографічні каталоги).
CQLF (CODYASYL) – для CODASYL-TYPE баз даних.
Концепт-орієнтована мова запитів (COQL) – використовується у відповідних моделях (com). Він заснований на принципах моделювання даних construpt і використовує такі операції, як проекція та де-проекція багатовимірного аналізу, аналітичні операції та висновки.
DMX – використовується до моделей
Datalog – це мова запитів до дедуктивних баз даних.
Gellish English - це мова, яка може використовуватися для запитів до баз даних Gellish English і дозволяє вести діалоги (запити та відповіді), а також служить для інформаційного моделювання знань.
HTSQL – перекладає http-запити на SQL.
ISBL - використовується для PRTV (однієї з перших реляційних систем управління базами даних).
LDAP - це протокол для запитів та служб каталогів, що працює за протоколом TCP/IP.
MDX – необхідний для баз даних OLAP.

Пошукові системи

Мова пошукових запитів, своєю чергою, спрямовано знаходження даних у пошукових системах. Він відрізняється тим, що запити часто містять звичайний текст або гіпертекст з додатковим синтаксисом (наприклад, «і»/«або»). Він значно відрізняється від стандартних мов, які регулюються строгими правилами синтаксису команд або містять позиційні параметри.

Як класифікуються пошукові запити?

Існує три широкі категорії, які охоплюють більшість пошукових запитів: інформаційна, навігаційна та транзакційна. Хоча ця класифікація була закріплена теоретично, емпірично вона підтверджена наявністю фактичних запитів у пошукових системах.

Інформаційні запити - це ті, які охоплюють широкі теми (наприклад, якесь певне місто або модель вантажівок), щодо яких може бути отримано тисячі релевантних результатів.

Навігаційні – це запити, які шукають один сайт або веб-сторінку на певну тему (наприклад, YouTube).

Транзакційні – відображають намір користувача виконати певну дію, наприклад, здійснити покупку автомобіля або забронювати квиток.

Пошукові системи часто підтримують четвертий тип запиту, який використовується набагато рідше. Це так звані запити підключення, що містять звіт про зв'язність проіндексованого веб-графіка (кількість посилань на певну URL-адресу, або скільки сторінок проіндексовано з певного домену).

Як відбувається пошук інформації?

Стали відомі цікаві характеристики, що стосуються веб-пошуку:

Середня довжина пошукового запиту становила 2,4 слова.

Близько половини користувачів надсилали один запит, а трохи менше третини користувачів робили три або більше унікальних запитів один за одним.
Майже половина користувачів переглядала лише перші одну-дві сторінки отриманих результатів.
Менше 5% користувачів використовують розширені можливості пошуку (наприклад, вибір будь-яких певних категорій чи пошуку пошуку).

Особливості дій користувача

Дослідження також показало, що 19% запитів містили географічний термін (наприклад, назви, поштові індекси, географічні об'єкти тощо). Ще варто відзначити, що крім коротких запитів(тобто з кількома умовами), часто були присутні й передбачувані схеми, за якими користувачі змінювали свої пошукові фрази.

Також було встановлено, що 33% запитів від одного користувача повторюються, і в 87% випадків користувач буде натискати на той же результат. Це говорить про те, що багато користувачів використовують повторні запити, щоб переглянути або знайти інформацію.

Частотні розподіл запитів

Крім того, фахівцями було підтверджено, що частотні розподіли запитів відповідають статечному закону. Тобто невелика частина ключових слівспостерігається у найбільшому списку запитів (наприклад, понад 100 млн), і вони найчастіше використовуються. Інші фрази у межах тих самих тематик застосовуються рідше і індивідуально. Це явище отримало назву принципу Парето (або «правило 80-20»), і воно дозволило пошуковим системам використовувати такі методи оптимізації, як індексування або розбиття бази даних, кешування та попереджувальне завантаження, а також дало можливість удосконалювати мову запитів пошукової системи.

У Останніми рокамибуло виявлено, що середня довжина запитів неухильно зростає з часом. Так, середньостатистичний запит англійською став довшим. У зв'язку з цим компанія Google запровадила оновлення під назвою «Колібрі» (у серпні 2013 року), яке здатне обробляти довгі пошукові фрази з непротокольною, «розмовною» мовою запиту (на зразок «де найближча кав'ярня?»).

Для більш довгих запитіввикористовується їхня обробка - вони розбиваються на фрази, сформульовані стандартною мовою, і виводяться відповіді різні частини окремо.

Структуровані запити

Пошукові системи, які підтримують та синтаксис, використовують більш розширені мови запиту. Користувач, який шукає документи, що охоплюють декілька тем або граней, може описувати кожну з них за логічною характеристикою слова. За своєю суттю, логічна мова запитів є сукупністю певних фраз і розділових знаків.

Що таке розширений пошук?

Мова запитів «Яндекса» та «Гугла» здатна здійснювати більш вузькоспрямований пошук за дотримання певних умов. Розширений пошук може шукати за назвою сторінки або префіксом заголовка, а також у певних категоріях і переліках імен. Він також може обмежити пошук сторінок, які містять певні слова в назві або знаходяться у певних тематичних групах. При правильному використаннімови запитів може обробляти параметри набагато складніші, ніж поверхневі результати видачі більшості пошукових систем, зокрема за заданим користувачем слів зі змінним закінченням і схожим написанием. Під час подання результатів розширеного пошуку буде відображено посилання на відповідні розділи сторінки.

Також це можливість пошуку всіх сторінок, що містять певну фразу, у той час як за стандартного запиту пошукові системи не можуть зупинитися на будь-якій сторінці обговорення. У багатьох випадках мова запитів може привести на будь-яку сторінку, розташовану в тегах noindex.

У деяких випадках правильно сформований запит дозволяє знайти інформацію, що містить ряд спеціальних символів та літер інших алфавітів ( китайські ієрогліфинаприклад).

Як читаються символи мови запитів?

Верхній та нижній регістр, а також деякі (умляути та акценти) не враховуються у пошуках. Наприклад, пошук за ключовим словом Citroen не знайде сторінки, що містять слово «Цітройон». Але деякі лігатури відповідають окремим буквам. Наприклад, пошук за словом "аероскобінг" легко знайде сторінки, що містять "Ерескебінг" (АЕ = Æ).

Багато не алфавітно-цифрових символів постійно ігноруються. Наприклад, неможливо знайти інформацію на запит, що містить рядок |L| (літера між двома вертикальними смугами), незважаючи на те, що цей символ використовується в деяких шаблонах конвертування. У результатах будуть лише дані з «ЛТ». Деякі символи та фрази обробляються по-різному: запит «кредит (Фінанси)» відобразить статті зі словами «кредит» та «фінанси», ігноруючи дужки, навіть якщо існує стаття з точною назвою «кредит (Фінанси)».

Існує безліч функцій, які можна використовувати із застосуванням мови запитів.

Синтаксис

Мова запитів «Яндекса» та «Гугла» може використовувати деякі розділові знаки для уточнення пошуку. Як приклад можна навести фігурні дужки- ((Пошук)). Фраза, що міститься в них, буде піддаватися пошуку цілком, без змін.

Фраза дозволяє визначитися з об'єктом пошуку. Наприклад, слово в лапках розпізнаватиметься як використовуване в переносному значенні або як вигаданий персонаж, без лапок - як інформація більш документального характеру.

Крім того, всі основні пошукові системи підтримують символ "-" для логічного "не", а також та/або. Виняток - терміни, які можуть бути розділені з допомогою префікса дефісом чи тире.

Неточна відповідність пошукової фрази відзначається символом ~. Наприклад, якщо ви не пам'ятаєте точне формулювання терміну або назви, ви можете вказати його в рядку пошуку з вказаним символом, і зможете отримати результати, що мають максимальну схожість.

Параметри спеціалізованого пошуку

Існують і такі параметри пошуку, як intitle, і incategory. Вони є фільтрами, що відображаються через двокрапку, у вигляді «фільтр: рядок запиту». Рядок запиту може містити шуканий термін або фразу, або частину або повну назву сторінки.

Функція «intitle: запит» надає пріоритет у пошуковій видачі за назвою, але також показує звичайні результати за змістом заголовка. Декілька таких фільтрів можуть бути використані одночасно. Як використовувати цю можливість?

Запит виду "intitle: назва аеропорту" видасть всі статті, що містять в заголовку назву аеропорту. Якщо ж сформулювати його як «парковка intitle: назва аеропорту», то ви отримаєте статті з назвою аеропорту в заголовку та згадкою паркування в тексті.

Пошук за фільтром «incategory: Категорія» працює за принципом початкової видачі статей, що належать до певній групіабо список сторінок. Наприклад, пошуковий запит на кшталт «Храми incategory: Історія» видаватиме результати на тему історії храмів. Цю функцію можна використовувати як розширену, задаючи різні параметри.

Отримання приватних даних не завжди означає зламування - іноді вони опубліковані в загальному доступі. Знання налаштувань Googleі трохи кмітливості дозволять знайти масу цікавого – від номерів кредиток до документів ФБР.

WARNING

Вся інформація надана виключно для ознайомлення. Ні редакція, ні автор не несуть відповідальності за будь-який можлива шкода, заподіяний матеріалами цієї статті

До інтернету сьогодні підключають все поспіль, мало піклуючись про обмеження доступу. Тому багато приватних даних стають видобутком пошукових систем. Роботи-павуки вже не обмежуються веб-сторінками, а індексують весь доступний в Мережі контент і постійно додають у свої бази не призначену для розголошення інформацію. Дізнатися про ці секрети просто - потрібно лише знати, як саме запитати про них.

Шукаємо файли

В умілих руках Google швидко знайде все, що погано лежить в Мережі, наприклад, особисту інформацію та файли для службового використання. Їх часто ховають, як ключ під половиком: реальних обмежень доступу немає, дані просто лежать на задвірках сайту, куди не ведуть посилання. Стандартний веб-інтерфейс Google надає лише базові налаштування розширеного пошуку, але навіть їх буде достатньо.

Обмежити пошук за файлами певного видуу Google можна за допомогою двох операторів: filetype та ext. Перший задає формат, який пошуковик визначив за заголовком файлу, другий - розширення файлу, незалежно від його внутрішнього вмісту. При пошуку в обох випадках слід зазначати лише розширення. Спочатку оператор ext було зручно використовувати в тих випадках, коли специфічні ознаки формату файлу були відсутні (наприклад, для пошуку конфігураційних файлів iniі cfg, усередині яких може бути все, що завгодно). Зараз алгоритми Googleзмінилися, і видимої різниці між операторами немає – результати здебільшого виходять однакові.

Фільтруємо видачу

За промовчанням слова і будь-які введені символи Google шукає по всіх файлах на проіндексованих сторінках. Обмежити область пошуку можна за доменом верхнього рівня, конкретному сайту або за місцем розташування шуканої послідовності у самих файлах. Для перших двох варіантів використовується оператор site, після якого вводиться ім'я домену або вибраного сайту. У третьому випадку цілий набір операторів дозволяє шукати інформацію у службових полях та метаданих. Наприклад, allinurl знайде задане в тілі самих посилань, allinanchor - у тексті, з тегом , allintitle - у заголовках сторінок, allintext - у тілі сторінок.

Для кожного оператора є полегшена версія з коротшою назвою (без приставки all). Різниця в тому, що allinurl знайде посилання з усіма словами, а inurl - тільки з першим з них. Друге та наступні слова із запиту можуть зустрічатися на веб-сторінках будь-де. Оператор inurl теж має відмінності від іншого схожого за змістом - site. Перший також дозволяє знаходити будь-яку послідовність символів у посиланні на потрібний документ (наприклад, /cgi-bin/), що широко використовується для пошуку компонентів з відомими вразливістю.

Спробуємо практично. Беремо фільтр allintext і робимо так, щоб запит видав список номерів та перевірочних кодів кредиток, термін дії яких закінчиться лише через два роки (або коли їх власникам набридне годувати всіх поспіль).

Allintext: card number expiration date /2017 cvv

Коли читаєш у новинах, що юний хакер «зламав сервери» Пентагону або NASA, вкравши секретні відомості, то здебільшого йдеться саме про таку елементарну техніку використання Google. Припустимо, нас цікавить список співробітників NASA та їх контактні дані. Напевно, такий перелік є в електронному вигляді. Для зручності або недогляду він може лежати і на самому сайті організації. Логічно, що в цьому випадку на нього не буде посилань, оскільки він призначений для внутрішнього використання. Які слова можуть бути у такому файлі? Як мінімум – поле «адреса». Перевірити всі ці припущення найпростіше.

Inurl:nasa.gov filetype:xlsx "address"

Користуємося бюрократією

Подібні знахідки – приємна дрібниця. По-справжньому ж солідний улов забезпечує більш детальне знання операторів Google для веб-майстрів, самої Мережі та особливостей шуканої структури. Знаючи деталі, можна легко відфільтрувати видачу та уточнити властивості потрібних файлів, щоб у залишку отримати справді цінні дані. Смішно, що тут на допомогу приходить бюрократія. Вона плодить типові формулювання, за якими зручно шукати секретні відомості, що випадково просочилися в Мережу.

Наприклад, обов'язковий у канцелярії міністерства оборони США штамп Distribution statement означає стандартизовані обмеження поширення документа. Літерою A відзначаються громадські релізи, у яких немає нічого секретного; B - призначені лише внутрішнього використання, C - суворо конфіденційні тощо до F. Окремо стоїть літера X, якої відзначені особливо цінні відомості, що становлять державну таємницю вищого рівня. Нехай такі документи шукають ті, кому це належить робити за обов'язком служби, а ми обмежимося файлами з літерою С. Згідно з директивою DoDI 5230.24, таке маркування присвоюється документам, що містять опис критично важливих технологій, які потрапляють під експортний контроль. Виявити таку ретельно охоронювану інформацію можна на сайтах у домені верхнього рівня.mil, виділеного для армії США.

"DISTRIBUTION STATEMENT C" inurl:navy.mil

Дуже зручно, що в домене.mil зібрані лише сайти з відомства МО США та його контрактних організацій. Пошукова видача з обмеженням по домену виходить виключно чистою, а заголовки - самі за себе. Шукати подібним чином російські секрети практично марно: в домене.

Уважно вивчивши будь-який документ із сайту в домене.mil, можна побачити інші маркери для уточнення пошуку. Наприклад, посилання на експортні обмеження «Sec 2751», за яким також зручно шукати цікаву технічну інформацію. Іноді її вилучають з офіційних сайтів, де вона одного разу засвітилася, тому, якщо в пошуковій видачі не вдається перейти за цікавим посиланням, скористайся кешем Гугла (оператор cache) або сайтом Internet Archive.

Забираємось у хмари

Окрім випадково розсекречених документів урядових відомств, у кеші Гугла часом спливають посилання на особисті файли з Dropbox та інших сервісів зберігання даних, які створюють «приватні» посилання на публічно опубліковані дані. З альтернативними та саморобними сервісами ще гірше. Наприклад, наступний запит знаходить дані всіх клієнтів Verizon, у яких на роутері встановлено та активно використовується FTP-сервер.

Allinurl:ftp://verizon.net

Таких розумників зараз знайшлося понад сорок тисяч, а навесні 2015-го їх було значно більше. Замість Verizon.net можна підставити ім'я будь-якого відомого провайдера, і чим він буде відомішим, тим більшим може бути улов. Через вбудований FTP-сервер видно файли на підключеному до маршрутизатора зовнішньому накопичувачі. Зазвичай це NAS для віддаленої роботи, персональна хмара або якась пірінгова гойдалка файлів. Весь вміст таких носіїв виявляється проіндексованим Google та іншими пошуковими системами, тому отримати доступ до файлів, що зберігаються на зовнішніх дисках, можна за прямим посиланням.

Підглядаємо конфіги

До повальної міграції до хмар як віддалених сховищ керували прості FTP-сервери, в яких теж вистачало вразливостей. Багато хто з них актуальний досі. Наприклад, у популярній програмі WS_FTP Professional дані про конфігурацію, облікові записи користувача та паролі зберігаються у файлі ws_ftp.ini . Його просто знайти та прочитати, оскільки всі записи зберігаються у текстовому форматі, а паролі шифруються алгоритмом Triple DES після мінімальної обфускації. Більшість версій досить просто відкинути перший байт.

Розшифрувати такі паролі легко за допомогою утиліти WS_FTP Password Decryptor або безкоштовного веб-сервісу.

Говорячи про зло довільного сайту, зазвичай мають на увазі отримання пароля з логів та бекапів конфігураційних файлів CMS або додатків для електронної комерції. Якщо знаєш їхню типову структуру, то легко зможеш вказати ключові слова. Рядки, подібні до ws_ftp.ini , вкрай поширені. Наприклад, Drupal і PrestaShop обов'язково є ідентифікатор користувача (UID) і відповідний йому пароль (pwd), а зберігається вся інформація у файлах з розширенням.inc. Шукати їх можна так:

"pwd=" "UID=" ext:inc

Розкриваємо паролі від СУБД

У конфігураційних файлах SQL-серверів імена та адреси електронної поштикористувачів зберігаються в відкритому вигляді, а замість паролів записані їхні хеші MD5. Розшифрувати їх, строго кажучи, неможливо, проте можна знайти відповідність серед відомих пар хеш-пароль.

Досі зустрічаються СУБД, у яких не використовується навіть хешування паролів. Конфігураційні файли будь-якої з них можна просто переглянути в браузері.

Intext:DB_PASSWORD filetype:env

З появою на серверах Windows місцеконфігураційних файлів частково зайняв реєстр. Шукати по його гілках можна таким же чином, використовуючи reg як тип файлу. Наприклад, ось так:

Filetype:reg HKEY_CURRENT_USER "Password"=

Не забуваємо про очевидне

Іноді дістатися до закритої інформації вдається за допомогою випадково відкритих даних, що потрапили в поле зору Google. Ідеальний варіант - знайти список паролів у якомусь поширеному форматі. Зберігати відомості облікових записів у текстовому файлі, документі Wordабо електронної таблиці Excelможуть тільки відчайдушні люди, але саме їх завжди вистачає.

Filetype:xls inurl:password

З одного боку, є маса коштів для запобігання подібним інцидентам. Необхідно вказувати адекватні права доступу до htaccess, патчити CMS, не використовувати ліві скрипти та закривати інші дірки. Існує також файл зі списком винятків robots.txt, що забороняє пошуковикам індексувати зазначені в ньому файли та каталоги. З іншого боку, якщо структура robots.txt на якомусь сервері відрізняється від стандартної, відразу стає видно, що на ньому намагаються приховати.

Список каталогів та файлів на будь-якому сайті випереджається стандартним написом index of. Оскільки для службових цілей вона повинна зустрічатися в заголовку, то є сенс обмежити її пошук оператором intitle . Цікаві речі знаходяться в каталогах /admin/, /personal/, /etc/ і навіть /secret/.

Слідкуємо за оновленнями

Актуальність тут дуже важлива: старі вразливості закривають дуже повільно, але Google та його пошукова видача змінюються постійно. Є різниця навіть між фільтром «за останню секунду» (&tbs=qdr:s наприкінці урла запиту) та «в реальному часі» (&tbs=qdr:1).

Часовий інтервал дати останнього оновлення файлу у Google також вказується неявно. Через графічний веб-інтерфейс можна вибрати один із типових періодів (годину, день, тиждень і так далі) або задати діапазон дат, але такий спосіб не підходить для автоматизації.

На вигляд адресного рядкаможна здогадатися лише про спосіб обмежити виведення результатів з допомогою конструкції &tbs=qdr: . Літера y після неї задає ліміт в один рік (&tbs=qdr:y), m показує результати за останній місяць, w – за тиждень, d – за минулий день, h – за остання година, n – за хвилину, а s – за секунду. Найсвіжіші результати, які щойно стали відомими Google, знаходиться за допомогою фільтра &tbs=qdr:1 .

Якщо потрібно написати хитрий скрипт, буде корисно знати, що діапазон дат задається в Google в юліанському форматі через оператор daterange. Наприклад, ось так можна знайти список PDF-файлів зі словом confidential, завантажених з 1 січня по 1 липня 2015 року.

Confidential filetype:pdf daterange:2457024-2457205

Діапазон вказується у форматі юліанських дат без урахування дрібної частини. Перекладати їх вручну з григоріанського календаря незручно. Простіше скористатися конвертером дат.

Таргетуємось і знову фільтруємо

Крім вказівки додаткових операторів, у пошуковому запиті їх можна надсилати прямо в тілі посилання. Наприклад, уточненню filetype:pdf відповідає конструкція as_filetype=pdf. Таким чином зручно задавати будь-які уточнення. Допустимо, видача результатів тільки з Республіки Гондурас задається додаванням до пошукової URL конструкції cr=countryHN , а тільки з міста Бобруйск - gcs=Bobruisk . У розділі розробників можна знайти повний список .

Засоби автоматизації Google мають полегшити життя, але часто додають проблем. Наприклад, IP користувача через WHOIS визначається його місто. На підставі цієї інформації в Google не тільки балансується навантаження між серверами, а й змінюються результати пошукової видачі. Залежно від регіону при тому самому запиті на першу сторінку потраплять різні результати, а частина з них може виявитися прихованою. Відчути себе космополітом та шукати інформацію з будь-якої країни допоможе її дволітерний код після директиви gl=country. Наприклад, код Нідерландів - NL, а Ватикану та Північній Кореї в Google свій код не покладено.

Часто пошукова видача виявляється засміченою навіть після використання кількох просунутих фільтрів. У такому разі легко уточнити запит, додавши до нього кілька слів-виключень (перед кожним з них ставиться мінус). Наприклад, зі словом Personal часто використовуються banking, names і tutorial. Тому чистіші пошукові результати покаже не хрестоматійний приклад запиту, а уточнений:

Intitle:"Index of /Personal/" -names -tutorial -banking

Приклад наостанок

Досвідчений хакер відрізняється тим, що забезпечує себе всім необхідним самостійно. Наприклад, VPN - штука зручна, але дорога, або тимчасова і з обмеженнями. Оформляти передплату для себе одного дуже невигідно. Добре, що є групові підписки, а за допомогою Google легко стати частиною якоїсь групи. Для цього достатньо знайти файл конфігурації Cisco VPN, У якого досить нестандартне розширення PCF і відомий шлях: Program Files Cisco Systems VPN Client Profiles . Один запит, і ти вливаєшся, наприклад, у дружній колектив Боннського університету.

Filetype:pcf vpn OR Group

INFO

Google знаходить конфігураційні файли з паролями, але багато з них записані в зашифрованому вигляді або замінені хешами. Якщо бачиш рядки фіксованої довжини, то одразу шукай сервіс розшифровки.

Паролі зберігаються в зашифрованому вигляді, але Моріс Массар вже написав програму для їх розшифровки і надає її безкоштовно через thecampusgeeks.com.

При допомоги Googleвиконуються сотні різних типіватак та тестів на проникнення. Є безліч варіантів, що торкаються популярні програми, основні формати баз даних, численні вразливості PHP, Хмари і так далі. Якщо точно уявляти те, що шукаєш, це спростить отримання потрібної інформації (особливо тієї, яку не планували робити загальним надбанням). Не Shodan єдиний живить цікавими ідеями, Але будь-яка база проіндексованих мережевих ресурсів!

Напевно ви неодноразово чули про такого чудового пошукача, як Google. Думаю, вам неодноразово доводилося його використовувати, коли ви хотів щось дізнатися. От тільки ви знаходили те, чого хотіли? Якщо ви так само часто, як і я шукаєте відповіді в Google, я думаю, вам буде корисна ця стаття, тому що вона розрахована зробити ваш пошук більш швидким і ефективним. Отже, для початку трохи історії.

Google - спотворене написання англійського слова "googol", придуманого Мілтоном Сіроттою, племінником американського математика Едварда Кайзера, для позначення числа, що складається з одиниці та ста нулів. Зараз ім'я Google носить лідер пошукових машин інтернету, розроблений Google Inc.

Google займає понад 70% світового ринку, а значить, сім з десяти людей, що знаходяться в мережі, звертаються до його сторінки в пошуках інформації в інтернеті. Зараз реєструє щодня близько 50 млн. пошукових запитів та індексує понад 8 мільярдів веб-сторінок. Google може знаходити інформацію 101 мовою. Google на кінець серпня 2004 року складалася зі 132 тис. машин, розташованих у різних точках планети.

Google використовує інтелектуальну техніку аналізу текстів, яка дозволяє шукати важливі та водночас релевантні сторінки на ваш запит. Для цього Google аналізує не тільки саму сторінку, яка відповідає запиту, але й сторінки, які на неї посилаються, щоб визначити цінність цієї сторінки для вашого запиту. Крім того, Google віддає перевагу сторінкам, на яких ключові слова, введені вами, розташовані недалеко один від одного.

Інтерфейс Google містить досить складна мовазапитів, що дозволяє обмежити область пошуку окремими доменами, мовами, типами файлів і т. д. Використання деяких операторів цієї мови дозволяє зробити процес пошуку необхідної інформації більш гнучким та точним. Розглянемо деякі з них.

Логічне «І» (AND):
За промовчанням при написанні слів запиту через пробіл Google шукає документи, що містять усі слова запиту. Це відповідає оператору AND. Тобто. пропуск рівносильний оператору AND.

Наприклад:
Кішки собаки папуги зебри
Кішки AND собачки AND папуги AND зебри
(обидва запити однакові)

Логічне «АБО» (OR):
Пишеться за допомогою оператора OR. Зверніть увагу, що оператор OR повинен бути написаний великими літерами. Відносно недавно з'явилася можливість написання логічного «АБО» у вигляді вертикальної риси (|), подібно до того, як це робиться в Яндексі. Використовується для пошуку кількома варіантами необхідної інформації.

Наприклад:
Такси довгошерсті OR гладкошерсті
Такси довгошерсті гладкошерсті
(обидва запити однакові)

Необхідно пам'ятати, що запити Google не чутливі до регістру! Тобто. запити Острів Гренландія та острів гренландія будуть абсолютно однакові.

Оператор "Плюс" (+):
Бувають ситуації, коли треба примусово включити до тексту якесь слово, яке може мати варіанти написання. Для цього використовується оператор "+" перед обов'язковим словом. Припустимо, якщо у нас запит Один вдома I, в результаті запиту у нас з'явиться непотрібна інформація про «Один вдома II», «Один вдома III» і зовсім небагато про «Один вдома I». Якщо ж у нас запит виду Один дома +I, в результаті буде інформація лише про фільм «Один дома I».

Наприклад:
Газета +Зоря
Рівняння Бернуллі + математика

Виняток слів із запиту. Логічне «НЕ» (-):
Як відомо, інформаційне сміття часто зустрічається при складанні запиту. Щоб його видалити, стандартно використовують оператори виключення – логічне «НЕ». У Google такий оператор представлений знаком "мінус". Використовуючи цей оператор, можна виключати з результатів пошуку сторінки, які містять у тексті певні слова. Використовується, як і оператор "+", перед словом, що виключається.

Наприклад:
Журавель криниця -птах
Мертві душі-роман

Пошук точної фрази (""):
Шукати точну фразу на практиці потрібно або для пошуку тексту певного твору, або для пошуку певних продуктів або компаній, в яких назва або частина опису являє собою словосполучення, що стабільно повторюється. Щоб впоратися з таким завданням за допомогою Гугла, потрібно укласти запит у лапки (маються на увазі подвійні лапки, які застосовуються, наприклад, для виділення прямого мовлення).

Наприклад:
Твір «Тихий дон»
«На дворі було холодно, хоч це й не заважало Борису здійснити заплановане»

До речі, Google дозволяє вводити до сторінки запиту не більше 32 слів!

Усічення слова (*):
Іноді потрібно шукати інформацію про словосполучення слів, у якому невідомо одне чи кілька слів. Для цих цілей замість невідомих слів використовується оператор "*". Тобто. "*" - будь-яке слово чи група слів.

Наприклад:
Майстер та *
Леонардо * Вінчі

Оператор cache:
Пошукова машина зберігає версію тексту, яка проіндексована пошуковим павуком, у спеціальному сховищі у форматі, який називається кешем. Кешовану версію сторінки можна отримати, якщо оригінальна сторінка недоступна (наприклад, сервер не працює, на якому вона зберігається). Кешована сторінка відображається в тому вигляді, в якому вона зберігається в базі даних пошукової машиниі супроводжується написом нагорі сторінки, що це сторінка з кеша. Там міститься інформація про час створення кешованої версії. На сторінці з кешу ключові слова запиту підсвічені, кожне слово для зручності користувача підсвічене своїм кольором. Можна створити запит, який одразу видаватиме кешовану версію сторінки з певною адресою: cache: адреса_сторінки, де замість «адреса_сторінки» - адреса збереженої в кеші сторінки. Якщо потрібно знайти в кешованій сторінці якусь інформацію, треба після адреси сторінки через пропуск написати запит цієї інформації.

Наприклад:
cache:www.bsd.com
cache:www.knights.ru турніри

Треба пам'ятати, що пробілу між ":" та адресою сторінки не повинно бути!

Опаратор файлуtype:
Як відомо, Google індексує не лише html сторінки. Якщо, наприклад, знадобилося знайти якусь інформацію на відміну від html типіфайлу, можна скористатися оператором filetype, який дозволяє шукати інформацію в певному типіфайлів (html, pdf, doc, rtf...).

Наприклад:
Специфікація html filetype: pdf
Твори filetype:rtf

Оператор info:
Оператор info дозволяє побачити інформацію, яка відома Google про цю сторінку.

Наприклад:
info:www.wiches.ru
info:www.food.healthy.com

Оператор site:
Цей оператор обмежує пошук конкретним доменом чи сайтом. Тобто, якщо зробити запит: маркетинг розвідка site:www.acfor-tc.ru, результати будуть отримані зі сторінок, що містять слова «маркетинг» і «розвідка» саме на сайті «acfor-tc.ru», а не в інших частинах Інтернету.

Наприклад:
Музика site:www.music.su
Книжки site:ru

Оператор link:
Цей оператор дозволяє побачити всі сторінки, які посилаються на сторінку, на яку зроблено запит. Так, запит link:www.google.com видасть сторінки, які мають посилання на google.com.

Наприклад:
link:www.ozone.com
Друзі link:www.happylife.ru

Оператор allintitle:
Якщо запит розпочати з оператора allintitle, що перекладається як «все в заголовку», то Google видасть тексти, в яких усі слова запиту містяться в заголовках (всередині тега TITLE у HTML).

Наприклад:
allintitle: Безкоштовний софт
allintitle: Завантажити музичні альбоми

Оператор intitle:
Показує сторінки, в яких тільки те слово, яке стоїть безпосередньо після оператора intitle, міститься в заголовку, а інші слова запиту можуть бути в будь-якому місці тексту. Якщо поставити оператор intitle перед кожним словом запиту, це буде еквівалентно використанню оператора allintitle.

Наприклад:
Програми intitle: Завантажити
intitle: Безкоштовно intitle: завантажити софт

Оператор allinurl:
Якщо запит починається з оператора allinurl, пошук обмежений тими документами, в яких всі слова запиту містяться тільки в адресі сторінки, тобто в url.

Наприклад:
allinurl:rus games
allinurl:books fantasy

Оператор inurl:
Слово, яке розташоване безпосередньо разом з оператором inurl, буде знайдено лише на адресі сторінки Інтернету, а решта слів – у будь-якому місці такої сторінки.

Наприклад:
inurl:books скачати
inurl:games кряк

Оператор related:
Цей оператор описує сторінки, які «схожі» на якусь конкретну сторінку. Так, запит related:www.google.com видасть сторінки зі схожою на Google тематикою.

Наприклад:
related:www.ozone.com
related:www.nnm.ru

Оператор define:
Цей оператор виконує роль свого роду тлумачного словникадозволяє швидко отримати визначення того слова, яке введено після оператора.

Наприклад:
define: Кенгуру
define: Материнська плата

Оператор пошуку синонімів (~):
Якщо ви хочете знайти тексти, що містять не тільки ваші ключові слова, а й їхні синоніми, можна скористатися оператором "~" перед словом, до якого необхідно знайти синоніми.

Наприклад:
Види ~метаморфоз
~Об'єктне орієнтування

Оператор діапозону (..):
Для тих, кому доводиться працювати з цифрами, Google дозволив шукати діапазони між числами. Для того, щоб знайти всі сторінки, що містять числа в певному діапазоні від - до, треба між цими крайніми значеннями поставити дві точки (..), тобто, оператор діапозону.

Наприклад:
Купити книгу $100..$150
Чисельність населення 1913..1935

Ось усі відомі мені оператори мови запитів у Google. Сподіваюся, вони хоч якось полегшать процес пошуку потрібної інформації. У всякому разі, я ними користуюся дуже часто і можу з упевненістю сказати, що при їх використанні я витрачаю на пошук значно менше часу, ніж без них.

Успіхів! І нехай перебуватиме з тобою Сила.

пошук,оператори,Google

А сьогодні я розповім ще про одну пошукову систему, яка використовується пентестерами / хакерами — Google, точніше про приховані можливості Google.

Що таке гугл доркі?

Google Dork або Google Dork Queries (GDQ) – це набір запитів для виявлення грубих дірок у безпеці. Усього, що належним чином не заховано від пошукових роботів.

Для стислості такі запити називають гугл доркі або просто дорками, як і тих адмінів, чиї ресурси вдалося зламати за допомогою GDQ.

Оператори Google

Для початку я хотів би навести невеликий список корисних команд Google. Серед усіх команд розширеного пошуку Google нас цікавлять головним чином ось ці чотири:

site – шукати по конкретному сайту;
inurl - вказати на те, що слова, що шукаються, повинні бути частиною адреси сторінки / сайту;
intitle - оператор пошуку в заголовку самої сторінки;
ext або filetype – пошук файлів конкретного типу з розширення.

Також під час створення Дорка треба знати кілька важливих операторів, які задаються спецсимволами.

| - оператор OR він вертикальний слєш (логічне або) вказує, що потрібно відобразити результати, що містять хоча б одне зі слів, перерахованих у запиті.
«» - оператор лапки вказує на пошук точної відповідності.
— оператор мінус використовується для виключення з видачі результатів із зазначеними після мінуса словами.
* - оператор зірочка, або астериск використовують як маску і означає «що завгодно».

Де знайти Google Дорки

Найцікавіші доріг - свіжі, а найсвіжіші - ті, які пентестер знайшов сам. Щоправда, якщо надто захопитеся експериментами, вас забанять у Google… до введення капчі.

Якщо не вистачає фантазії, можна спробувати знайти свіжі доріжки в мережі. Найкращий сайт для пошуку дорків - це Exploit-DB.

Онлайн-сервіс Exploit-DB – це некомерційний проект Offensive Security. Якщо хтось не в курсі, дана компаніязаймається навчанням в області інформаційної безпеки, а також надає послуги пентесту (тестування на проникнення).

База даних Exploit-DB налічує величезну кількість дорків та вразливостей. Для пошуку дорків зайдіть на сайт і перейдіть на вкладку Google Hacking Database.

База оновлюється щоденно. Нагорі ви можете знайти останні додавання. З лівого боку дата додавання дорка, назва та категорія.

Сайт Exploit-DB

У нижній частині ви знайдете доріжки відсортовані за категоріями.

Сайт Exploit-DB

Ще один непоганий сайт - це . Там часто можна знайти цікаві, нові доріг, які не завжди потрапляють на Exploit-DB.

Приклади використання Google Dorks

Ось приклади дорків. Експериментуючи з доріжками, не забудьте про дисклеймер!

Цей матеріалносить інформаційний характер. Він адресований фахівцям у галузі інформаційної безпеки та тим, хто збирається ними стати. Викладена у статті інформація надана виключно з ознайомлювальною метою. Ні редакція сайту www.сайт ні автор публікації не несуть жодної відповідальності за будь-яку шкоду, завдану матеріалом цієї статті.

Дорки для пошуку проблем сайтів

Іноді корисно вивчити структуру сайту, отримавши список файлів на ньому. Якщо сайт зроблений на движку WordPress, файл repair.php зберігає назви інших PHP-скриптів.

Тег inurl повідомляє Google, що шукати треба за першим словом у тілі посилання. Якби ми написали allinurl, то пошук відбувався б по всьому тілу посилання, а пошукова видача була б засміченою. Тому достатньо зробити запит такого виду:

inurl:/maint/repair.php?repair=1

В результаті ви отримаєте список сайтів на WP, у яких можна переглянути структуру через repair.php.

Вивчаємо структуру сайту на WP

Масу проблем адміністраторам доставляє WordPress із непоміченими помилками у конфігурації. З відкритого лога можна дізнатися як мінімум назви скриптів та завантажених файлів.

inurl:"wp-content/uploads/file-manager/log.txt"

У нашому експерименті найпростіший запитдозволив знайти в лозі пряме посилання на бекап і завантажити його.

Знаходимо цінну інфу у логах WP

Багато цінної інформаціїможна вивудити з логів. Достатньо знати, як вони виглядають і чим відрізняються від інших файлів. Наприклад, опенсорсний інтерфейс для бази даних під назвою pgAdmin створює службовий файл pgadmin.log. У ньому часто містяться імена користувачів, назви колонок бази даних, внутрішні адреси тощо.

Знаходиться лог елементарним запитом:

ext:log inurl:"/pgadmin"

Існує думка, що відкритий код- Це безпечний код. Проте сама собою відкритість вихідних означає лише можливість досліджувати їх, і цілі таких пошуків які завжди благі.

Наприклад, серед фреймворків для розробки веб-застосунків популярний Symfony Standard Edition. При розгортанні він автоматично створює в каталозі /app/config/ файл parameters.yml, де зберігає назву бази даних, а також логін та пароль.

Знайти цей файл можна наступним запитом:

inurl:app/config/ intext:parameters.yml intitle:index.of

ф Ще один файл із паролями

Звичайно, потім пароль могли змінити, але найчастіше він залишається таким, яким було задано ще на етапі розгортання.

Опенсорсна утиліта UniFi API browser tool все частіше використовується у корпоративному середовищі. Вона застосовується для керування сегментами бездротових мереж, створених за принципом безшовного Wi-Fi. Тобто у схемі розгортання мережі підприємства, де безліч точок доступу управляються з єдиного контролера.

Утиліта призначена для відображення даних, які вимагають через Ubiquiti's UniFi Controller API. З її допомогою легко переглядати статистику, інформацію про підключених клієнтів та інші відомості про роботу сервера через API UniFi.

Розробник чесно попереджає: «Please do keep in mind this tool exposes A LOT OF the information available in your controller, so you should somehow restrict access to it! Вони не мають безпеки управління в інструменті ...». Але здається, багато хто не сприймає ці попередження всерйоз.

Знаючи про цю особливість і поставивши ще один специфічний запит, ви побачите масу службових даних, у тому числі ключі додатків та парольні фрази.

inurl:"/api/index.php" intitle:UniFi

Загальне правило пошуку: спочатку визначаємо найбільш специфічні слова, що характеризують обрану мету. Якщо це лог-файл, що його відрізняє від інших логів? Якщо це файл із паролями, то де і в якому вигляді вони можуть зберігатися? Слова-маркери завжди знаходяться в певному місці - наприклад, в заголовку веб-сторінки або її адресі. Обмежуючи область пошуку та задаючи точні маркери, ви отримаєте сиру пошукову видачу. Потім очистіть її від сміття, уточнюючи запит.

Дорки для пошуку відкритих NAS

Домашні та офісні мережеві сховищанині популярні. Функцію NAS підтримують багато зовнішні дискита роутери. Більшість їх власників не морочаться із захистом і навіть не змінюють дефолтні паролі на кшталт admin/admin. Знайти популярні NAS можна за типовими заголовками їх веб-сторінок. Наприклад, запит:

intitle:"Welcome to QNAP Turbo NAS"

видасть список айпішників NAS виробництва QNAP Залишиться лише знайти серед них слабко захищений.

Хмарний сервіс QNAP (як і багато інших) має функцію надання загального доступу до файлів із закритим посиланням. Проблема в тому, що вона не така вже й закрита.

inurl:share.cgi?ssid=

Знаходимо розшаровані файли

Цей нехитрий запит показує файли розшаровані через хмару QNAP. Їх можна переглянути безпосередньо з браузера або завантажити для більш детального ознайомлення.

Дорки для пошуку IP-камер, медіасерверів та веб-адмінкок

Крім NAS, за допомогою просунутих запитів до Google можна знайти безліч інших мережевих пристроївз керуванням через веб-інтерфейс.

Найчастіше цього використовують сценарії CGI, тому файл main.cgi - перспективна мета. Однак зустрітися він може будь-де, тому запит краще уточнити.

Наприклад, додавши до нього типовий виклик? next_file. У результаті отримаємо дорк виду:

inurl:"img/main.cgi?next_file"

Крім камер, подібним чином знаходяться медіасервери, які відкриті для всіх і кожного. Особливо це стосується серверів Twonky виробництва Lynx Technology. У них дуже пізнаване ім'я та дефолтний порт 9000.

Для більш чистої пошукової видачі номер порту краще вказати URL і виключити його з текстової частини веб-сторінок. Запит набуває вигляду

intitle:"twonky server" inurl:"9000" -intext:"9000"

Відеотека за роками

Зазвичай Twonky-сервер – це величезна медіатека, що розшарує контент через UPnP. Авторизація на них часто відключена «для зручності».

Дорки для пошуку вразливостей

Великі дані зараз на слуху: вважається, що, якщо до чого завгодно додати Big Data, воно чарівним чином працюватиме краще. Насправді справжніх фахівців із цієї теми дуже мало, а при дефолтній конфігурації великі дані призводять до більших уразливостей.

Hadoop - один із найпростіших способів скомпрометувати тера-і навіть петабайти даних. Ця платформа з відкритим вихідним кодом містить відомі заголовки, номери портів і службових сторінок, якими легко знайти керовані їй ноди.

intitle:"Namenode information" AND inurl:":50070/dfshealth.html"

Big Data? Big vulnerabilities!

Таким запитом із конкатенацією ми отримуємо пошукову видачу зі списком уразливих систем на базі Hadoop. Можна прямо з браузера погуляти по файловій системі HDFS і завантажити будь-який файл.

Google Дорки - це потужний інструмент будь-якого пентестера, про який повинен знати не тільки фахівець в галузі інформаційної безпеки, але і звичайний користувач мережі.

Для будь-якої компанії важливо захищати конфіденційні дані. Витік клієнтських логінів та паролів або втрата системних файлів, розміщених на сервері, може не тільки спричинити фінансові збитки, але й знищити репутацію самої, здавалося б, надійної організації. Автор статті - Вадим Куліш.

Враховуючи все можливі ризики, компанії впроваджують новітні технології і витрачають величезні кошти, намагаючись запобігти несанкціонованому доступу до цінних даних.
Проте чи замислювалися ви, що крім складних і добре продуманих хакерських атак, існують прості способивиявити файли, які не були надійно захищені. Мова йдепро оператори пошуку — слова, які додаються до пошукових запитів для отримання більш точних результатів. Але все по порядку.

Серфінг в Інтернеті неможливо уявити без таких пошукових систем як Google, Yandex, Bing та інших подібних сервісів. Пошуковик індексують безліч сайтів у мережі. Роблять вони це за допомогою пошукових роботів, які обробляють велика кількістьданих та роблять їх доступними для пошуку.

Які конфіденційні дані можна знайти в мережі?

Слід мати на увазі, що інформація, яка може бути виявлена пошуковими системами і потенційно може бути цікава хакерам, включає:

* Домени третього рівня досліджуваного ресурсу

Домени третього рівня можна знайти за допомогою слова «site:». Наприклад, запит виду site:*.example.comвиведе усі домени 3-го рівня для example.com. Такі запити дозволяють виявити приховані ресурси адміністрування, системи контролю версій та складання, а також інші програми, що мають веб-інтерфейс.

* Приховані файли на сервері

У пошукову видачу можуть потрапити різні частини веб-програми. Для їх пошуку можна скористатися запитом filetype:php site:example.com. Це дозволяє виявити раніше недоступну функціональність у програмі, а також різну інформацію про роботу програми.

* Резервні копії

Для пошуку резервних копій використовується ключове слово filetype:. Для зберігання резервних копій використовуються різноманітні розширення файлів, але найчастіше використовуються розширення bak, tar.gz, sql. Приклад запиту: site:*.example.com filetype:sql. Резервні копії часто містять логіни та паролі від адміністративних інтерфейсів, а також дані користувачів та вихідний код веб-сайту.

* Помилки роботи веб-додатку

Текст помилки може включати різні дані про системних компонентахПрограми (веб-сервер, база даних, платформа веб-додатку). Така інформація завжди дуже цікава хакерам, оскільки дозволяє отримати більше інформації про систему, що атакується, і вдосконалити свою атаку на ресурс. Приклад запиту: site:example.com "warning" "error".

* Логіни та паролі

Внаслідок злому веб-програми в Інтернеті можуть з'явитися дані користувачів цього сервісу. Запит filetype:txt "login" "password"дозволяє знайти файли з логінами та паролями. Так само можна перевірити, чи не зламали вашу пошту або будь-який обліковий запис. Просто зробіть запит filetype:txtім'я_користувача_або_електронна_пошта».

Комбінації ключових слів та рядки пошуку, які використовуються для виявлення конфіденційної інформації, називаються Google Dorks.

Фахівці Google зібрали їх у своїй публічній базі даних Google Hacking Database. Це дає можливість представнику компанії, будь то CEO, розробник або вебмайстер, виконати запит у пошуковій системі і визначити, наскільки добре захищені цінні дані. Усі доркі розподілені за категоріями для полегшення пошуку.

Потрібна допомога? Замовте консультацію фахівців із тестування захищеності a1qa.

Як Google Dorks увійшли в історію хакерства

Насамкінець кілька прикладів того, як Google Dorks допомогли зловмисникам отримати важливу, але ненадійно захищену інформацію:

Приклад із практики №1. Витік конфіденційних документів на сайті банку

В рамках аналізу захищеності офіційного сайту банку було виявлено величезну кількість PDF-документів. Всі документи були виявлені за допомогою запиту "site:bank-site filetype:pdf". Цікавим виявився вміст документів, оскільки там були плани приміщень, у яких розташовувалися відділення банку по всій країні. Ця інформація була б дуже цікавою для грабіжників банків.

Приклад із практики №2. Пошук даних платіжних карток

Дуже часто при зламі інтернет-магазинів зловмисники отримують доступ до даних платіжних карток користувачів. Для спільного доступу до цих даних зловмисники використовують публічні сервіси, які індексуються Google. Приклад запиту: "Card Number" "Expiration Date" "Card Type" filetype:txt.

Проте не варто обмежуватись базовими перевірками. Довірте комплексну оцінку продукту a1qa. Адже розкрадання даних дешевше запобігти, ніж усувати наслідки.