Термин "большие данные" появился сравнительно недавно, 3 сентября 2008 г. Его появление относят к Клиффорду Линчу, который впервые ввёл термин "большие данные" в академическую среду, появился термин в журнале "Nature" в статье "Как могут повлиять на будущее науки технологии, которые открывают возможности работы с большими объёмами данных. Термин был предложен по аналогии с терминами "большая нефть" или "большая руда". Данные в любой области стали обладать большим объёмом, стали разнообразными, неструктурированными либо малоструктурированными. В 2009 г. термин "большие данные" распространяется в бизнес-среде. В 2010 г. на рынке появляются первые программные продукты и первые решения, которые относятся непосредственно к проблеме обработки больших данных. В 2011 г. крупнейшие поставщики информационных технологий (Microsoft, IBM, Oracle, Hewlett-Packard) начинают предлагать решения и программные продукты для обработки больших данных. В 2011 г. исследовательская и консалтинговая группа Gartner отметила "большие данные" как тренд №22 в информационно-технологической инфраструктуре (после виртуализации) и сделала прогноз, что внедрение технологии "больших данных" наибольшее влияние окажет в производстве. здравоохранении, торговле, государственном управлении, а также в тех сферах, где регистрируются индивидуальные перемещения ресурсов. В 2013 г. появились дисциплины в передовых высших учебных заведениях. Типы данных: 1) структурированные данные; 2) неструктурированные данные; 3) полуструктурированные данные. 1) Внешние данные; 2) внутренние данные. Работая с Big Data, приходится объединять существующие наборы данных с неструктурированными или полуструктурированными данными, как из внутренних источников, так и из внешних источников. Структурированные данные -- это данные, расположенные в фиксированной области в пределах определённой записи или файла. Они включают в себя данные. которые содержатся в реляционных базах данных и электронных таблицах. В структурированных данных данные или информация имеют заданную модель данных или модель, организованную заданным образом. Структурированные данные находятся в реляционных базах данных и управляются с помощью языка SQL (разработан в 1970 г. компанией IBM. Сейчас, по данным исследований компании Gartner, 80% бизнес-информации является либо неструктурированной, либо полуструктурированной. Неструктурированные данные представляют собой данные, которые не могут быть так строго определены в колонки, строки, поля: фотографии и графические изображения, документы (электронная почта, PDF-файлы, социальные сети), PowerPoint-презентации, видео. Полуструктурированные данные --- это данные, которые могут иметь некоторую структуру, которую, в принципе, можно использовать для некоторого анализа, но не хватает строгой модели данных этой структуры. Примером может быть: программное обеспечение для обработки текстов, которое включает данные с подробным именем автора, датой создания, датой изменения, но содержимое документа по-прежнему остаётся полуструктурированным. Внутренние данные: отзывы о клиентах, данные о трудовых ресурсах, записи данных о клиенте, данные о продажах, данные о транзакциях, видеоданные. Внешние данные: 1) данные социального профиля; 2) данные Twitter; 3) данные о погоде; 4) Google Maps или Google Trends. Ни один вид данных не является более ценным для проведения анализа. Новые формы данных 1) данные о деятельности -- такая аналитика позволяет разрабатывать содержимое сайта, чтобы посетитель дольше оставался на сайте; 2) разговорные данные; 3) фото- и видеоданные. Анатомия больших данных (4-V) Volume, Velocity, Variety, Veracity. Нам не нужны большие объёмы данных, нам нужны Smart Data, которые можно получить путём анализа больших данных: 1) Модель вычислений Map Reduce; 2) Стек технологий Hadoop: --- Файловая система HDFS --- Инструменты из стека --- Hive и Pig --- Устройство YARN --- Планировщик Oozie 3) Устройство нереляционных баз данных: HBase, Cassandra; 4) Другие инструменты для анализа и вычислений на больших данных: Apache Spark. 5) Real-Time-инструменты для анализа "больших данных": Apache Storm, Apache Spark Streaming.