Великі дані як інструмент. Що таке Big data: зібрали все найважливіше про великі дані. Методики аналізу великих даних

Зазвичай, коли говорять про серйозну аналітичну обробку, особливо якщо використовують термін Data Mining, мають на увазі, що даних величезна кількість. У загальному випадку це не так, тому що досить часто доводиться обробляти невеликі набори даних і знаходити в них закономірності анітрохи не простіше, ніж у сотнях мільйонів записів. Хоча немає сумнівів, необхідність пошуку закономірностей у великих базах даних ускладнює і так нетривіальну завдання аналізу.

Така ситуація особливо притаманна бізнесу, пов'язаного з роздрібною торгівлею, телекомунікаціями, банками, інтернетом. У базах даних акумулюється величезна кількість інформації, що з транзакціями: чеки, платежі, дзвінки, логи тощо.

Не існує універсальних способів аналізу або алгоритмів, придатних для будь-яких випадків та будь-яких обсягів інформації. Методи аналізу даних суттєво відрізняються один від одного за продуктивністю, якістю результатів, зручністю застосування та вимогами до даних. Оптимізація може здійснюватися різних рівнях: устаткування, бази даних, аналітична платформа, підготовка вихідних даних, спеціалізовані алгоритми. Аналіз великого обсягу даних потребує особливого підходу, т.к. технічно складно їх переробити з допомогою лише " грубої сили " , тобто. використання потужнішого устаткування.

Звичайно, можна збільшити швидкість обробки даних за рахунок більш продуктивного обладнання, тим більше, що сучасні сервери та робочі станції використовують багатоядерні процесори, оперативну пам'ять значних розмірів та потужні дискові масиви. Однак є безліч інших способів обробки великих обсягів даних, які дозволяють підвищити масштабованість і не вимагають нескінченного оновлення обладнання.

Можливості СУБД

Сучасні бази даних включають різні механізми, застосування яких дозволить значно збільшити швидкість аналітичної обробки:

Попередній облік даних. Відомості, які найчастіше використовуються для аналізу, можна заздалегідь обрахувати (наприклад, вночі) та у підготовленому для обробки вигляді зберігати на сервері БД у вигляді багатовимірних кубів, матеріалізованих уявлень, спеціальних таблиць.
Кешування таблиць на оперативну пам'ять. Дані, які займають небагато місця, але яких часто відбувається звернення у процесі аналізу, наприклад, довідники, можна засобами бази даних кешувати в оперативну пам'ять. Так у багато разів скорочуються звернення до повільнішої дискової підсистеми.
Розбиття таблиць на розділи та табличні простори. На окремих дисках можна розміщувати дані, індекси, допоміжні таблиці. Це дозволить СУБД паралельно зчитувати та записувати інформацію на диски. Крім того, таблиці можуть бути розбиті на розділи (partition) таким чином, щоб при зверненні до даних була мінімальна кількість операцій із дисками. Наприклад, якщо найчастіше ми аналізуємо дані за останній місяць, то можна логічно використовувати одну таблицю з історичними даними, але фізично розбити її на кілька розділів, щоб при зверненні до місячних даних зчитувався невеликий розділ і не було звернень до всіх історичних даних.

Це лише частина можливостей, які надають сучасні СУБД. Підвищити швидкість вилучення інформації з бази даних можна і десятком інших способів: раціональне індексування, побудова планів запитів, паралельна обробка SQL запитів, застосування кластерів, підготовка аналізованих даних за допомогою процедур, що зберігаються, і тригерів на стороні сервера БД і т.п. Причому багато хто з цих механізмів можна використовувати із застосуванням не тільки "важких" СУБД, але й безкоштовних баз даних.

Комбінування моделей

Можливості підвищення швидкості не зводяться лише до оптимізації роботи бази даних, багато що можна зробити з допомогою комбінування різних моделей. Відомо, що швидкість обробки суттєво пов'язана зі складністю використовуваного математичного апарату. Чим простіші механізми аналізу використовуються, тим швидше дані аналізуються.

Можлива побудова сценарію обробки даних таким чином, щоб дані проганялися через сито моделей. Тут використовується проста ідея: не витрачати час на обробку того, що можна не аналізувати.

Спочатку використовуються найпростіші алгоритми. Частина даних, які можна обробити за допомогою таких алгоритмів і які безглуздо обробляти з використанням складніших методів, аналізується та виключається з подальшої обробки. Дані, що залишилися, передаються на наступний етап обробки, де використовуються більш складні алгоритми, і так далі по ланцюжку. На останньому вузлі сценарію обробки застосовуються найскладніші алгоритми, але обсяг аналізованих даних набагато менше початкової вибірки. У результаті загальний час, необхідне обробки всіх даних, зменшується на порядки.

Наведемо практичний приклад використання цього підходу. При вирішенні завдання прогнозування попиту спочатку рекомендується провести XYZ-аналіз, який дозволяє визначити, наскільки стабільним є попит на різні товари. Товари групи X продаються досить стабільно, тому застосування алгоритмів прогнозування дозволяє отримати якісний прогноз. Товари групи Y продаються менш стабільно, можливо, для них варто будувати моделі не для кожного артикула, а для групи, це дозволяє згладити тимчасовий ряд і забезпечити роботу алгоритму прогнозування. Товари групи Z продаються хаотично, тому для них взагалі не варто будувати прогностичні моделі, потребу в них потрібно розраховувати на основі простих формул, наприклад середньомісячних продажів.

За статистикою близько 70 % асортименту становлять товари групи Z. Ще близько 25 % - товари групи Y і приблизно 5 % - товари групи X. Таким чином, побудова і застосування складних моделей актуально максимум для 30 % товарів. Тому застосування описаного вище підходу дозволить скоротити час на аналіз та прогнозування у 5-10 разів.

Паралельна обробка

Ще однією ефективною стратегією обробки великих обсягів даних є розбиття даних на сегменти та побудова моделей для кожного сегмента окремо, з подальшим поєднанням результатів. Найчастіше у великих обсягах даних можна виділити кілька підмножин, що відрізняються один від одного. Це можуть бути, наприклад, групи клієнтів, товарів, які поводяться схожим чином і для яких доцільно будувати одну модель.

І тут замість побудови однієї складної моделі всім можна будувати кілька простих кожному за сегмента. Подібний підхід дозволяє підвищити швидкість аналізу та знизити вимоги до пам'яті завдяки обробці менших обсягів даних в один прохід. Крім того, в цьому випадку аналітичну обробку можна розпаралелити, що теж позитивно позначається на витраченому часі. До того ж, моделі для кожного сегмента можуть будувати різні аналітики.

Крім підвищення швидкості, цей підхід має ще одну важливу перевагу – кілька відносно простих моделей окремо легше створювати і підтримувати, ніж одну велику. Можна запускати моделі поетапно, отримуючи таким чином перші результати у максимально стислий термін.

Репрезентативні вибірки

За наявності великих обсягів даних можна використовувати для побудови моделі не всю інформацію, а деяке підмножина – репрезентативну вибірку. Коректним чином підготовлена репрезентативна вибірка містить інформацію, необхідну для побудови якісної моделі.

Процес аналітичної обробки ділиться на 2 частини: побудова моделі та застосування побудованої моделі до нових даних. Побудова складної моделі – ресурсомісткий процес. Залежно від алгоритму дані кешуються, скануються тисячі разів, розраховується безліч допоміжних параметрів і т.п. Застосування вже побудованої моделі до нових даних вимагає ресурсів у десятки і сотні разів менше. Найчастіше це зводиться до обчислення кількох простих функцій.

Таким чином, якщо модель будуватиметься на відносно невеликих множинах і застосовуватиметься надалі до всього набору даних, то час отримання результату скоротиться на порядки порівняно зі спробою повністю переробити весь наявний набір даних.

Для отримання репрезентативних вибірок існують спеціальні методи, наприклад, семплінг. Їх застосування дозволяє підвищувати швидкість аналітичної обробки, не жертвуючи якістю аналізу.

Резюме

Описані підходи – це лише невелика частина методів, які дозволяють аналізувати величезні обсяги даних. Існують і інші способи, наприклад, застосування спеціальних масштабованих алгоритмів, ієрархічних моделей, навчання вікнами та інше.

Аналіз величезних баз даних – це нетривіальне завдання, яка у більшості випадків не вирішується "в лоб", проте сучасні бази даних та аналітичні платформи пропонують безліч методів вирішення цього завдання. При розумному застосуванні системи здатні переробляти терабайти даних із прийнятною швидкістю.

Термін «Біг-Дата», можливо, сьогодні вже впізнаваний, але навколо нього все ще досить багато плутанини щодо того, що він означає насправді. Правду кажучи, концепція постійно розвивається і переглядається, оскільки вона залишається рушійною силою багатьох хвиль цифрового перетворення, що продовжуються, включаючи штучний інтелект, науку про дані та Інтернет речей. Але що є технологія Big-Data і як вона змінює наш світ? Спробуймо розібратися пояснити суть технології Біг-Дати і що вона означає простими словами.

Все почалося зі «вибуху» в обсязі даних, які ми створили від початку цифрової епохи. Це багато в чому пов'язане з розвитком комп'ютерів, Інтернету та технологій, здатних «вихоплювати» дані з навколишнього світу. Дані власними силами є новим винаходом. Ще до епохи комп'ютерів та баз даних ми використовували паперові записи транзакцій, клієнтські записи та архівні файли, які є даними. Комп'ютери, особливо електронні таблиці та бази даних, дозволили нам легко і легко зберігати та впорядковувати дані у великих масштабах. Несподівано інформація стала доступною за допомогою одного клацання миші.

Тим не менш, ми пройшли довгий шлях від початкових таблиць та баз даних. Сьогодні через кожні два дні ми створюємо стільки даних, скільки ми отримали від початку до 2000 року. Правильно через кожні два дні. І обсяг даних, які ми створюємо, продовжує стрімко зростати; до 2020 обсяг доступної цифрової інформації зросте приблизно з 5 зеттабайтів до 20 зеттабайтів.

В даний час майже кожна дія, яку ми робимо, залишає свій слід. Ми генеруємо дані щоразу, коли виходимо в Інтернет, коли переносимо наші смартфони, обладнані пошуковим модулем, коли розмовляємо з нашими знайомими через соціальні мережі чи чати тощо. До того ж кількість даних, згенерованих машинним способом, також швидко зростає. Дані генеруються та поширюються, коли наші «розумні» домашні пристрої обмінюються даними один з одним або зі своїми домашніми серверами. Промислове обладнання на заводах та фабриках все частіше оснащується датчиками, які акумулюють та передають дані.

Термін «Big-Data» стосується збору всіх цих даних і нашої здатності використовувати їх у своїх інтересах у широкому спектрі областей, включаючи бізнес.

Як працює технологія Big Data?

Біг Дата працює за принципом: чим більше ви знаєте про той чи інший предмет чи явище, тим достовірніше ви зможете досягти нового розуміння та передбачити, що станеться у майбутньому. У ході порівняння більшої кількості точок даних виникають взаємозв'язки, які раніше були приховані, і ці взаємозв'язки дозволяють нам навчатися та приймати більш виважені рішення. Найчастіше це робиться за допомогою процесу, який включає побудову моделей на основі даних, які ми можемо зібрати, і подальший запуск імітації, в ході якої щоразу налаштовуються значення точок даних і відстежується те, як вони впливають на наші результати. Цей процес автоматизований — сучасні технології аналітики запускатимуть мільйони цих симуляцій, налаштовуючи всі можливі змінні доти, доки не знайдуть модель — чи ідею — які допоможуть вирішити проблему, над якою вони працюють.

Біл Гейтс висить над паперовим вмістом одного компакт-диска

Донедавна дані були обмежені електронними таблицями чи базами даних — і все було дуже впорядковане та акуратне. Все те, що не можна було легко організувати в рядки та стовпці, розцінювалося як надто складне для роботи та ігнорувалося. Однак прогрес у галузі зберігання та аналітики означає, що ми можемо фіксувати, зберігати та обробляти велику кількість даних різного типу. В результаті «дані» на сьогоднішній день можуть означати будь-що, починаючи базами даних, і закінчуючи фотографіями, відео, звукозаписами, письмовими текстами та даними датчиків.

Щоб зрозуміти всі ці безладні дані, проекти, що мають в основі Біг Дату, найчастіше використовують ультрасучасну аналітику із залученням штучного інтелекту та комп'ютерного навчання. Навчаючи обчислювальні машини визначати, що є конкретні дані — наприклад, у вигляді розпізнавання образів чи обробки природної мови – ми можемо навчити їх визначати моделі набагато швидше і достовірніше, ніж ми самі.

Як використовується Біг-Дата?

Цей потік інформації, що постійно збільшується, про дані датчиків, текстових, голосових, фото- і відеоданих означає, що тепер ми можемо використовувати дані тими способами, які неможливо було уявити ще кілька років тому. Це приносить революційні зміни у світ бізнесу чи не в кожній галузі. Сьогодні компанії можуть з неймовірною точністю передбачити, які конкретні категорії клієнтів захочуть зробити придбання і коли. Біг Дата також допомагає компаніям виконувати свою діяльність набагато ефективніше.

Навіть поза сферою бізнесу проекти, пов'язані з Big-Data, вже допомагають змінити наш світ різними шляхами:

Покраща здоров'я — медицина, керована даними, здатна аналізувати величезну кількість медичної інформації та зображень для моделей, які можуть допомогти виявити захворювання на ранній стадії та розробити нові ліки.
Прогнозуючи та реагуючи на природні та техногенні катастрофи. Дані датчиків можна проаналізувати, щоб передбачити, де можуть статися землетруси, а моделі поведінки людини підказують, які допомагають організаціям надавати допомогу тим, хто вижив. Технологія Біг Дати також використовується для відстеження та захисту потоку біженців із зон воєнних дій у всьому світі.
Запобігаючи злочинності. Поліцейські сили все частіше використовують стратегії, що базуються на даних, які включають їхню власну розвідувальну інформацію та інформацію з відкритого доступу для більш ефективного використання ресурсів та вжиття стримувальних заходів там, де це необхідно.

Кращі книги про технологію Big-Data

Всі брешуть. Пошуковики, Big Data та Інтернет знають про вас все.
BIG DATA. Вся технологія в одній книзі.
Промисловість щастя. Як Big Data та нові технології допомагають додати емоцію в товари та послуги.
Революція аналітики. Як у епоху Big Data покращити ваш бізнес за допомогою операційної аналітики.

Проблеми з Big-Data

Біг Дата дає нам безпрецедентні ідеї та можливості, але також порушує проблеми та питання, які необхідно вирішити:

Конфіденційність даних – Big-Data, яку ми сьогодні генеруємо, містить багато інформації про наше особисте життя, на конфіденційність якого ми маємо повне право. Дедалі частіше нас просять знайти баланс між кількістю персональних даних, які ми розкриваємо, та зручністю, яку пропонують додатки та послуги, засновані на використанні Біг Дати.
Захист даних — навіть якщо ми вирішуємо, що нас влаштовує те, що хтось має наші дані для певної мети, чи можемо ми довіряти йому збереження та безпеку наших даних?
Дискримінація даних — коли вся інформація буде відома, чи стане прийнятною дискримінація людей на основі даних із їхнього особистого життя? Ми вже використовуємо оцінки кредитоспроможності, щоб вирішити, хто може брати гроші, і страхування також значною мірою залежить від даних. Нам варто очікувати, що нас будуть аналізувати і оцінювати більш детально, проте слід подбати про те, щоб це не ускладнювало життя тих людей, які мають менші ресурси та обмежений доступ до інформації.

Виконання цих завдань є важливою складовою Біг Дати і їх необхідно вирішувати організаціям, які хочуть використовувати такі дані. Нездатність здійснити це може зробити бізнес вразливим, причому не лише з погляду його репутації, але й з юридичної та фінансової сторони.

Дивлячись у майбутнє

Дані змінюють наш світ та наше життя небувалими темпами. Якщо Big-Data здатна на все це сьогодні, просто уявіть, на що вона буде здатна завтра. Обсяг доступних нам даних лише збільшиться, а технологія аналітики стане ще більш сучасною.

Для бізнесу здатність застосовувати Біг Дату ставатиме все більш вирішальною у найближчі роки. Тільки ті компанії, які розглядають дані як стратегічний актив, виживуть і процвітатимуть. Ті, хто ігнорує цю революцію, ризикують залишитися позаду.

Великі дані (або Big Data) – це сукупність методів роботи з величезними обсягами структурованої чи неструктурованої інформації. Фахівці по роботі з великими даними займаються її обробкою та аналізом для отримання наочних, які сприймаються людиною результатів. Look At Me поговорив з професіоналами і з'ясував, якою є ситуація з обробкою великих даних у Росії, де і чому краще вчитися тим, хто хоче працювати в цій сфері.

Олексій Рівкін про основні напрямки у сфері великих даних, спілкування із замовниками та світ чисел

Я навчався у Московському інституті електронної техніки. Головне, що мені вдалося звідти винести - це фундаментальні знання з фізики та математики. Одночасно з навчанням я працював у R&D-центрі, де займався розробкою та впровадженням алгоритмів завадостійкого кодування для засобів захищеної передачі даних. Після закінчення бакалаврату я вступив до магістратури бізнес-інформатики Вищої школи економіки. Після цього я захотів працювати у IBS. Мені пощастило, що на той час у зв'язку з великою кількістю проектів йшов додатковий набір стажистів, і після кількох співбесід я почав працювати в IBS, одній з найбільших російських компаній цієї галузі. За три роки я пройшов шлях від стажера до архітектора корпоративних рішень. Зараз займаюся розвитком експертизи технологій Big Data для компаній-замовників із фінансового та телекомунікаційного сектору.

Є дві основні спеціалізації для людей, які хочуть працювати з великими даними: аналітики та ІТ-консультанти, які створюють технології роботи з великими даними. Крім того, можна також говорити про професію Big Data Analyst, тобто людей, які безпосередньо працюють із даними, з ІТ-платформою у замовника. Раніше це були звичайні аналітики-математики, які знали статистику та математику та за допомогою статистичного ПЗ вирішували завдання з аналізу даних. Сьогодні, крім знання статистики та математики, необхідне також розуміння технологій та життєвого циклу даних. У цьому, на мою думку, і полягає відмінність сучасних Data Analyst від тих аналітиків, які були раніше.

Моя спеціалізація – ІТ-консалтинг, тобто я вигадую та пропоную замовникам способи вирішення бізнес-завдань за допомогою ІТ-технологій. У консалтинг приходять люди з різним досвідом, але найважливіші якості для цієї професії – це вміння розуміти потреби клієнта, прагнення допомагати людям та організаціям, гарні комунікаційні та командні навички (оскільки це завжди робота з клієнтом та в команді), хороші аналітичні здібності. Дуже важлива внутрішня мотивація: ми працюємо в конкурентному середовищі, і замовник чекає на незвичайні рішення та зацікавленість у роботі.

Більшість часу у мене йде на спілкування із замовниками, формалізацію їхніх бізнес-потреб і допомогу в розробці найбільш підходящої технологічної архітектури. Критерії вибору тут мають свою особливість: крім функціональних можливостей та ТСО (Total cost of ownership – загальна вартість володіння) дуже важливі нефункціональні вимоги до системи, найчастіше цей час відгуку, час обробки інформації. Щоб переконати замовника, ми часто використовуємо підхід proof of concept – пропонуємо безкоштовно «протестувати» технологію на якомусь завданні на вузькому наборі даних, щоб переконатися, що технологія працює. Рішення має створювати для замовника конкурентну перевагу за рахунок отримання додаткових вигод (наприклад, x-sell, крос-продаж) або вирішувати якусь проблему в бізнесі, скажімо, знизити високий рівень шахрайства за кредитами.

Було б набагато простіше, якби клієнти приходили з готовим завданням,але поки що вони не розуміють, що з'явилася революційна технологія, яка може змінити ринок за кілька років

З якими проблемами доводиться стикатися? Ринок поки що не готовий використовувати технології «великих даних». Було б набагато простіше, якби клієнти приходили з готовим завданням, але поки що вони не розуміють, що з'явилася революційна технологія, яка може змінити ринок за кілька років. Саме тому ми, по суті, працюємо в режимі стартапу – не просто продаємо технології, а й щоразу переконуємо клієнтів, що потрібно в ці рішення інвестувати. Це така позиція візіонерів – ми показуємо замовникам, як можна поміняти свій бізнес із залученням даних та ІТ. Ми створюємо цей новий ринок – ринок комерційного ІТ-консалтингу в області Big Data.

Якщо людина хоче займатися дата-аналізом чи ІТ-консалтингом у сфері Big Data, то перше, що важливо, – це математична або технічна освіта з гарною математичною підготовкою. Також корисно освоїти конкретні технології, припустимо SAS, Hadoop, мову R або рішення IBM. Крім того, потрібно активно цікавитись прикладними завданнями для Big Data – наприклад, як їх можна використовувати для покращеного кредитного скорингу в банку або управління життєвим циклом клієнта. Ці та інші знання можна отримати з доступних джерел: наприклад, Coursera і Big Data University . Також є Customer Analytics Initiative у Wharton University of Pennsylvania, де опубліковано дуже багато цікавих матеріалів.

Серйозна проблема для тих, хто хоче працювати в нашій області, – це явна нестача інформації про Big Data. Ти не можеш піти до книгарні або на якийсь сайт і отримати, наприклад, вичерпну збірку кейсів за всіма застосуваннями технологій Big Data в банках. Таких довідників немає. Частина інформації знаходиться у книгах, ще частина збирається на конференціях, а до чогось доводиться доходити самим.

Ще одна проблема полягає в тому, що аналітики добре почуваються у світі чисел, але їм не завжди комфортно у бізнесі. Такі люди часто інтровертні, їм важко спілкуватися, і тому важко переконливо доносити до клієнтів інформацію про результати досліджень. Для розвитку цих навичок я рекомендував би такі книги, як «Принцип піраміди», «Говори мовою діаграм». Вони допомагають розвинути презентаційні навички, лаконічно та зрозуміло викладати свої думки.

Мені дуже допомогла участь у різних кейс-чемпіонатах під час навчання у НДУ ВШЕ. Кейс-чемпіонати – це інтелектуальні змагання для студентів, де потрібно вивчати бізнес-проблеми та пропонувати їх вирішення. Вони бувають двох видів: кейс-чемпіонати консалтингових фірм, наприклад McKinsey, BCG, Accenture, а також незалежні кейс-чемпіонати типу Changellenge. Під час участі в них я навчився бачити та вирішувати складні завдання – від ідентифікації проблеми та її структурування до захисту рекомендацій щодо її вирішення.

Олег Михальський про російський ринок та специфіку створення нового продукту у сфері великих даних

До приходу в Acronis я займався запуском нових продуктів на ринок в інших компаніях. Це завжди цікаво та складно одночасно, тому мене відразу зацікавила можливість роботи над хмарними сервісами та рішеннями для зберігання даних. У цій сфері став у нагоді весь мій попередній досвід роботи в ІТ-галузі, включаючи власний стартап-проект I-accelerator. Допомогло також і наявність бізнес-освіти (MBA) на додаток до базової інженерної.

У Росії у великих компаній - банків, мобільних операторів і т. д. - є потреба в аналізі великих даних, тому в нашій країні є перспективи для тих, хто хоче працювати в цій галузі. Щоправда, багато проектів зараз є інтеграційними, тобто зробленими на основі зарубіжних напрацювань чи open source-технологій. У таких проектах не створюються принципово нові підходи та технології, а швидше адаптуються вже наявні напрацювання. В Acronis ми пішли іншим шляхом і, проаналізувавши наявні альтернативи, вирішили вкластися у власну розробку, створивши в результаті систему надійного зберігання для великих даних, яка за собівартістю не поступається, наприклад, Amazon S3, але працює надійно та ефективно і на значно менших масштабах. Власні розробки за великими даними є і великі інтернет-компанії, але вони швидше орієнтовані на внутрішні потреби, ніж задоволення потреб зовнішніх клієнтів.

Важливо розуміти тренди та економічні сили, які впливають на сферу обробки великих даних. Для цього потрібно багато читати, слухати виступи авторитетних спеціалістів у ІТ-індустрії, відвідувати тематичні конференції. Зараз майже кожна конференція має секцію про Big Data, але всі вони розповідають про це під різним кутом: з погляду технологій, бізнесу чи маркетингу. Можна піти на проектну роботу або стажування до компанії, яка вже веде проекти на цю тематику. Якщо ви впевнені у своїх силах, ще не пізно організувати стартап у сфері Big Data.

Без постійного контакту із ринкомнова розробка ризикує виявитися незатребуваною

Щоправда, коли ви відповідаєте за новий продукт, багато часу йде на аналітику ринку та спілкування з потенційними клієнтами, партнерами, професійними аналітиками, які знають багато про клієнтів та їхні потреби. Без постійного контакту з ринком нова розробка ризикує виявитися незатребуваною. Завжди багато невизначеностей: ви повинні зрозуміти, хто стануть першими користувачами (early adopters), що у вас є для них цінного і як потім залучити масову аудиторію. Друге за важливістю завдання - це сформувати і донести до розробників чітке і цілісне бачення кінцевого продукту, щоб мотивувати їх на роботу в таких умовах, коли деякі вимоги можуть змінюватися, а пріоритети залежать від зворотного зв'язку, що надходить від перших клієнтів. Тому важливе завдання - це управління очікуваннями клієнтів з одного боку та розробників з іншого. Так щоб ні ті ні інші не втратили інтерес і довели проект до завершення. Після першого успішного проекту стає простіше і головним завданням буде знайти правильну модель зростання для нового бізнесу.

Колонка викладачів НДУ ВШЕ про міфи та кейси роботи з великими даними

В закладки

Викладачі Школи нових медіа НДУ ВШЕ Костянтин Романов та Олександр П'ятигорський, який також є директором із цифрової трансформації «Білайну», написали для сайт колонку про головні помилки з приводу великих даних – прикладів використання технології та інструментів. Автори припускають, що публікація допоможе керівникам компаній розібратися у цьому понятті.

Міфи та помилки про Big Data

Big Data – це не маркетинг

Термін Big Data став дуже модним - його використовують у мільйонах ситуацій і в сотнях різних інтерпретацій, які часто не мають відношення до того, чим він є. Часто в головах людей відбувається підміна понять, і Big Data плутають із маркетинговим продуктом. Більше того, у деяких компаніях Big Data є частиною маркетингового підрозділу. Результат аналізу великих даних дійсно може бути джерелом для маркетингової активності, але не більше. Подивимося, як це працює.

Якщо ми визначили список тих, хто купував у нашому магазині товари на суму понад три тисячі рублів два місяці тому, а потім надіслали цим користувачам якусь пропозицію, то це типовий маркетинг. Ми виводимо зрозумілу закономірність із структурних даних, і використовуємо її збільшення продажів.

Однак якщо ми з'єднаємо дані CRM з потоковою інформацією, наприклад, з Instagram і проаналізуємо їх, то знайдемо закономірність: людині, яка знизила свою активність у середу ввечері і на чиїй останній фотографії зображені кошенята, слід зробити певну пропозицію. Це вже буде Big Data. Ми знайшли тригер, передали його маркетологам, а вони його використовували у своїх цілях.

З цього випливає, що технологія зазвичай працює з неструктурованими даними, а якщо дані і структуровані, то система все одно продовжує шукати у них приховані закономірності, чого не робить маркетинг.

Big Data - це не ІТ

Друга крайність цієї історії: Big Data часто плутають із ІТ. Це з тим, що у російських компаніях, зазвичай, саме ІТ-фахівці є драйверами всіх технологій, зокрема і великих даних. Тому якщо все відбувається саме в цьому відділі, для компанії в цілому складається враження, що це якась діяльність ІТ.

Насправді, тут є докорінна відмінність: Big Data - це діяльність, спрямовану отримання певного продукту, що зовсім не відноситься до ІТ, хоча без них технологія і не може існувати.

Big Data - не завжди збирання та аналіз інформації

Є ще одна помилка щодо Big Data. Всі розуміють, що ця технологія пов'язана з великими обсягами даних, але які дані маються на увазі, не завжди ясно. Збирати та використовувати інформацію може кожен, зараз це можливо не тільки у фільмах про , але й у будь-якій, навіть зовсім маленькій компанії. Питання лише в тому, що саме збирати і як це використати для себе.

Але слід зрозуміти, що технологією Big Data не буде збір та аналіз абсолютно будь-якої інформації. Наприклад, якщо ви зберете в соціальних мережах дані про конкретну людину, це не буде Big Data.

Що таке Big Data насправді

Big Data складається з трьох елементів:

дані;
аналітика;
технології.

Big Data - не щось одне із цих складових, а зв'язка всіх трьох елементів. Часто люди підмінюють поняття: хтось вважає, що Big Data – це лише дані, хтось – що технології. Але за фактом скільки б даних ви не зібрали, ви нічого з ними не зробите без потрібних технологій та аналітики. Якщо є хороша аналітика, але немає даних – тим паче погано.

Якщо говорити про дані, то це не тільки тексти, а й усі фотографії, що розміщуються в Instagram, і взагалі все, що можна проаналізувати та використовувати для різних цілей та завдань. Іншими словами, під Data розуміються величезні обсяги внутрішніх та зовнішніх даних різних структур.

Також потрібна аналітика, тому що завдання Big Data – побудувати якісь закономірності. Тобто аналітика – це виявлення прихованих залежностей та пошук нових питань та відповідей на основі аналізу всього обсягу різнорідних даних. Причому Big Data ставить питання, які з цих даних безпосередньо не виводимо.

Якщо говорити про зображення, то факт розміщення вами свого фото в блакитній футболці нічого не говорить. Але якщо використовувати фотографію для Big Data-моделювання, то може з'ясуватися, що саме зараз вам слід запропонувати кредит, тому що у вашій соціальній групі така поведінка говорить про певний феномен у діях. Тому «голі» дані без аналітики, без виявлення прихованих та неочевидних залежностей Big Data не є.

Отже, ми маємо великі дані. Їх масив величезний. Також ми маємо аналітика. Але як зробити так, щоб із цих сирих даних у нас народилося конкретне рішення? Для цього нам потрібні технології, які дозволяють їх не просто складувати (а раніше це було неможливо), а й аналізувати.

Простіше кажучи, якщо у вас є багато даних, вам будуть потрібні технології, наприклад, Hadoop, які дають можливість зберегти всю інформацію в первозданному вигляді для подальшого аналізу. Такі технології виникли в інтернет-гігантах, оскільки саме вони першими зіткнулися з проблемою зберігання великого масиву даних та його аналізу для подальшої монетизації.

Крім інструментів для оптимізованого та дешевого зберігання даних, потрібні аналітичні інструменти, а також надбудови до використовуваної платформи. Наприклад, навколо Hadoop вже утворилася ціла екосистема із зв'язаних проектів та технологій. Ось деякі з них:

Pig – декларативна мова аналізу даних.
Hive – аналіз даних з використанням мови, близької до SQL.
Oozie - потік робіт у Hadoop.
Hbase – база даних (нереляційна), аналог Google Big Table.
Mahout – машинне навчання.
Sqoop - перенесення даних з РСЦБД до Hadoop і навпаки.
Flume - перенесення логів HDFS.
Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS і так далі.

Всі ці інструменти доступні для кожного безкоштовно, але є і набір платних надбудов.

Крім того, потрібні фахівці: це розробник та аналітик (так званий Data Scientist). Також потрібен менеджер, здатний зрозуміти, як цю аналітику застосувати для вирішення конкретного завдання, тому що сама по собі вона абсолютно безглузда, якщо її не вбудовувати у бізнес-процеси.

Усі три співробітники мають працювати у команді. Менеджер, який дає фахівцеві з Data Science завдання знайти певну закономірність, повинен розуміти, що далеко не завжди знайдеться саме те, що йому потрібно. У такому разі керівник повинен уважно слухати, що ж знайшов Data Scientist, оскільки найчастіше його знахідки виявляються більш цікавими та корисними для бізнесу. Ваше завдання – застосувати це до бізнесу та зробити з цього продукт.

Незважаючи на те, що зараз є безліч різноманітних машин і технологій, остаточне рішення завжди залишається за людиною. Для цього інформацію потрібно якось візуалізувати. Інструментів для цього досить багато.

Найпоказовіший приклад – це геоаналітичні звіти. Компанія «Білайн» багато працює з урядами різних міст та областей. Найчастіше ці організації замовляють звіти типу «Транспортна завантаженість у певному місці».

Зрозуміло, що подібний звіт має потрапити до урядових структур у простій та зрозумілій їм формі. Якщо ж ми надамо їм величезну та зовсім незрозумілу таблицю (тобто інформацію у тому вигляді, в якій її отримуємо ми), вони навряд чи куплять такий звіт – він буде абсолютно непотрібним, вони не винесуть з нього тих знань, які хотіли отримати.

Тому, хоч би якими були хорошими фахівці з Data Science і які б закономірності вони не знаходили, ви не зможете працювати з цими даними без якісних інструментів візуалізації.

Джерела даних

Масив даних дуже великий, тому його можна розділити на деякі групи.

Внутрішні дані компанії

Хоча до цієї групи належить 80% даних, що збираються, це джерело не завжди використовують. Часто це дані, які, начебто, взагалі нікому не потрібні, наприклад, логи. Але якщо подивитися на них під іншим кутом, іноді можна знайти у них несподівані закономірності.

Умовно безкоштовні джерела

Сюди відносяться дані соціальних мереж, інтернету та всього, куди можна безкоштовно проникнути. Чому умовно безплатно? З одного боку, ці дані доступні кожному, але якщо ви є великою компанією, то отримувати їх у розмірах абонентської бази в десятки тисяч, сотні чи мільйони клієнтів – це вже непросте завдання. Тому на ринку існують платні послуги з надання цих даних.

Платні джерела

Сюди належать компанії, які продають дані за гроші. Це можуть бути телекоми, DMP, інтернет-компанії, бюро кредитних історій та агрегатори. У Росії телеком не продають дані. По-перше, це економічно невигідно, а по-друге, заборонено законом. Тому вони продають результати їхньої обробки, наприклад, геоаналітичні звіти.

Відкриті дані

Держава йде назустріч бізнесу та дає можливість користуватися даними, які вони збирають. Здебільшого це розвинене на Заході, але Росія в цьому плані теж йде в ногу з часом. Наприклад, існує Портал відкритих даних Уряду Москви, де публікується інформація щодо різних об'єктів міської інфраструктури.

Для мешканців і гостей Москви дані представлені в табличному та картографічному вигляді, а для розробників - у спеціальних машиночитаних форматах. Поки що проект працює в обмеженому режимі, але розвивається, а значить, теж є джерелом даних, яке ви можете використовувати для своїх бізнес-завдань.

Дослідження

Як зазначалося, завдання Big Data - знайти закономірність. Часто дослідження, що проводяться у всьому світі, можуть стати точкою опори для знаходження тієї чи іншої закономірності - ви можете отримати конкретний результат і спробувати застосувати логіку у своїх цілях.

Big Data - це область, де працюють не всі закони математики. Наприклад, "1" + "1" - це не "2", а значно більше, тому що при змішуванні джерел даних можна значно посилити ефект.

Приклади продуктів

Багато хто знайомий з сервісом з підбору музики Spotify. Він прекрасний тим, що не запитує користувачів, який у них сьогодні настрій, а сам обчислює це на основі доступних йому джерел. Він завжди знає, що вам потрібно зараз – джаз або важкий рок. Це та ключова відмінність, яка забезпечує йому шанувальників та відрізняє від інших сервісів.

Подібні продукти прийнято називати sense-продуктами – такими, що відчувають свого клієнта.

Технологію Big Data використовують і в автомобілебудуванні. Наприклад, це робить Tesla – у їх останній моделі є автопілот. Компанія прагне створити машину, яка сама везтиме пасажира туди, куди йому потрібно. Без Big Data це неможливо, тому що якщо ми будемо використовувати лише ті дані, які отримуємо безпосередньо, як це робить людина, автомобіль не зможе вдосконалитися.

Коли ми ведемо автомобіль самі, то за допомогою наших нейронів приймаємо рішення, виходячи з багатьох факторів, яких ми навіть не помічаємо. Наприклад, ми можемо не усвідомити, чому вирішили не газувати відразу на зелене світло, а потім виявиться, що рішення було правильним - повз вас промайнула машина на шаленій швидкості, і ви уникнули аварії.

Також можна навести приклад використання Big Data у спорті. У 2002 році генеральний менеджер бейсбольної команди Oakland Athletics Біллі Бін вирішив зруйнувати парадигму того, як потрібно шукати собі спортсменів – він вибрав та навчив гравців «за цифрами».

Зазвичай менеджери дивляться успіхи гравців, але у разі все було інакше - щоб отримати результат, менеджер вивчав, які комбінації спортсменів йому потрібні, звертаючи увагу індивідуальні характеристики. Причому спортсменів він вибрав таких, які власними силами не уявляли великого потенціалу, натомість команда загалом вийшла настільки успішною, що виграла двадцять матчів поспіль.

Режисер Беннетт Міллер згодом зняв фільм, присвячений цій історії, - «Людина, яка змінила все» у головній ролі з Бредом Піттом.

Технологія Big Data корисна у фінансовому секторі. Жодна людина у світі не зможе самостійно і точно визначити, чи варто давати комусь кредит. Для того, щоб прийняти рішення, проводиться скоринг, тобто будується ймовірнісна модель, за якою можна зрозуміти, чи поверне ця людина гроші чи ні. Далі скоринг застосовується всіх етапах: можна, наприклад, прорахувати, що у певний момент людина перестане платити.

Великі дані дозволяють не лише заробити гроші, а й заощадити їх. Зокрема, ця технологія допомогла Міністерству праці Німеччини скоротити витрати на допомогу з безробіття на 10 млрд євро, оскільки після аналізу інформації стало зрозуміло, що 20% допомоги виплачували незаслужено.

Також технології застосовують у медицині (особливо це притаманно Ізраїлю). За допомогою Big Data можна поставити значно точніший аналіз, ніж це зробить лікар із тридцятирічним стажем.

Будь-який лікар, коли ставить діагноз, спирається лише на власний досвід. Коли це робить машина, вона виходить із досвіду тисяч таких лікарів та всіх існуючих історій хвороби. Вона враховує те, з якого матеріалу зроблено будинок пацієнта, в якому районі живе постраждалий, яка там задимленість і таке інше. Тобто вона враховує масу факторів, які лікарі не беруть до уваги.

Прикладом використання Big Data у охороні здоров'я можна назвати проект Project Artemis, який запровадила дитяча лікарня Торонто. Це інформаційна система, яка збирає та аналізує дані щодо немовлят у реальному часі. Машина дозволяє аналізувати 1260 показників здоров'я кожної дитини щомиті. Цей проект спрямований на прогноз нестабільного стану дитини та профілактику захворювань у дітей.

Великі дані починають використовувати і в Росії: наприклад, підрозділ великих даних має «Яндекс». Компанія спільно з «АстраЗенекою» та Російським товариством клінічної онкології RUSSCO запустили платформу RAY, призначену для генетиків та молекулярних біологів. Проект дозволяє покращити методи діагностики раку та виявлення схильності до онкологічних захворювань. Платформа розпочне роботу у грудні 2016 року.

Що таке Big Data(дослівно - великі дані)? Звернемося спочатку до оксфордського словника:

Дані— величини, знаки чи символи, якими оперує комп'ютер і які можуть зберігатися і передаватися у вигляді електричних сигналів, записуватися на магнітні, оптичні чи механічні носії.

Термін Big Dataвикористовується для опису великого та зростаючого експоненційно з часом набору даних. Для обробки такої кількості даних не обійтися без .

Переваги Big Data:

Збір даних із різних джерел.
Поліпшення бізнес-процесів через аналітику реального часу.
Зберігання величезного обсягу даних.
Інсайти. Big Data більш прониклива до прихованої інформації за допомогою структурованих та напівструктурованих даних.
Великі дані допомагають зменшувати ризик та приймати розумні рішення завдяки відповідній ризик-аналітиці

Приклади Big Data

Нью-Йоркська фондова біржащодня генерує 1 терабайтданих про торги за минулу сесію

Соціальні медіа: статистика показує, що в бази даних Facebook щодня завантажується. 500 терабайтнових даних, генеруються в основному через завантаження фото та відео на сервери соціальної мережі, обміну повідомленнями, коментарями під постами і так далі.

Реактивний двигунгенерує 10 терабайтданих кожні 30 хвилин під час польоту. Оскільки щодня відбуваються тисячі перельотів, обсяг даних досягає петабайти.

Класифікація Big Data

Форми великих даних:

Структурована
Неструктурована
Напівструктурована

Структурована форма

Дані, які можуть зберігатися, бути доступними та обробленими у формі з фіксованим форматом, називаються структурованими. За тривалий час комп'ютерні науки досягли великих успіхів у вдосконаленні техніки для роботи з цим типом даних (де формат відомий заздалегідь) і навчилися отримувати користь. Проте вже сьогодні спостерігаються проблеми, пов'язані із зростанням обсягів до розмірів, що вимірюються в діапазоні кількох зеттабайтів.

1 зеттабайт відповідає мільярду терабайт

Дивлячись на ці числа, неважко переконатися в правдивості терміну Big Data і труднощі, пов'язані з обробкою та зберіганням таких даних.

Дані, що зберігаються в реляційній базі — структуровані та мають вигляд, наприклад, таблиці співробітників компанії

Неструктурована форма

Дані невідомої структури класифікуються як неструктуровані. На додаток до великих розмірів, така форма характеризується рядом складнощів для обробки та вилучення корисної інформації. Типовий приклад неструктурованих даних - гетерогенне джерело, що містить комбінацію простих текстових файлів, картинок та відео. Сьогодні організації мають доступ до великого обсягу сирих або неструктурованих даних, але не знають, як отримати з них користь.

Напівструктурована форма

Ця категорія містить обидві описані вище, тому напівструктуровані дані мають деяку форму, але насправді не визначаються за допомогою таблиць в реляційних базах. Приклад цієї категорії – персональні дані, представлені у XML файлі.

Prashant RaoMale35 Seema R.Female41 Satish ManeMale29 Subrato RoyMale26 Jeremiah J.Male35

Характеристики Big Data

Зростання Big Data з часом:

Синім кольором представлені структуровані дані (Enterprise data), які зберігаються у реляційних базах. Іншими кольорами – неструктуровані дані з різних джерел (IP-телефонія, девайси та сенсори, соціальні мережі та веб-додатки).

Відповідно до Gartner, великі дані розрізняються за обсягом, швидкістю генерації, різноманітністю та мінливістю. Розглянемо ці показники докладніше.

Об `єм. Сам собою термін Big Data пов'язані з великим розміром. Розмір даних — найважливіший показник щодо можливої видобутої цінності. Щодня 6 мільйонів людей використовують цифрові медіа, що, за попередніми оцінками, генерує 2.5 квінтильйона байт даних. Тому обсяг – перша для розгляду характеристика.
Різноманітність- Наступний аспект. Він посилається на гетерогенні джерела та природу даних, які можуть бути як структурованими, так і неструктурованими. Раніше електронні таблиці та бази даних були єдиними джерелами інформації, що розглядаються в більшості програм. Сьогодні ж дані у формі електронних листів, фото, відео, PDF-файлів, аудіо теж розглядаються в аналітичних додатках. Така різноманітність неструктурованих даних призводить до проблем у зберіганні, видобутку та аналізі: 27% компаній не впевнені, що працюють із відповідними даними.
Швидкість генерації. Те, наскільки швидко дані накопичуються та обробляються задоволення вимог, визначає потенціал. Швидкість визначає швидкість надходження інформації з джерел — бізнес процесів, логів додатків, сайтів соціальних мереж та медіа, сенсорів, мобільних пристроїв. Потік даних величезний та безперервний у часі.
Мінливістьописує мінливість даних у деякі моменти часу, що ускладнює обробку та управління. Так, наприклад, більша частина даних неструктурована за своєю природою.

Big Data аналітика: у чому користь великих даних

Просування товарів та послуг: доступ до даних з пошукових систем та сайтів, таких як Facebook та Twitter, дозволяє підприємствам точніше розробляти маркетингові стратегії.

Поліпшення сервісу для покупців: традиційні системи зворотного зв'язку з покупцями замінюються на нові, у яких Big Data та обробка природної мови застосовується для читання та оцінки відкликання покупця.

Розрахунок ризику, пов'язаного з випуском нового продукту чи послуги.

Операційна ефективність: великі дані структурують, щоб швидше отримувати потрібну інформацію та оперативно видавати точний результат. Таке об'єднання технологій Big Data і сховищ допомагає організаціям оптимізувати роботу з інформацією, що рідко використовується.