Разработчикам
На страницах http://mediametrics.ru/data/archive/ размещены ежедневные архивы со "слепками" рейтинга новостей в течение дня.
На первом уровне идет разделение по тому, показатели за какой период находятся в слепках:
- day - посещаемость за 24 часа;
- hour - посещаемость за 1 час;
- online - посещаемость за 10 минут.
Слепки с разными показателями делаются с разной частотой: с суточными показателями - раз в 5 минут, с часовыми - раз в минуту, с 10-минутными - раз в 10 секунд, поэтому самые большие архивы в каталоге online, в каждом архиве 8640 файлов-слепков.
Архивы создаются в течение нескольких минут после полуночи по московскому времени.
Внутри каталогов размещены ежедневные архивы по трем странам: России, Украине и Беларуси.
Например, рассмотрим архив
http://mediametrics.ru/data/archive/day/ru-2014-04-01.zip
внутри него списки новостей с суточными показателями (day), по России (ru)
за 1 апреля (2014-04-01).
В данном архиве 288 файлов (раз в 5 минут за день):
day/ru-2014-04-01_00:00:00.tsv
day/ru-2014-04-01_00:05:00.tsv
day/ru-2014-04-01_00:10:00.tsv
и так далее. Каждый файл содержит список новостей на тот момент, который
обозначен в имени файла (время московское), в списки записывается не более
500 новостей.
TSV - это текстовый формат данных, в котором колонки данных разделены символом табуляции.
В первой строчке находится обозначение колонок и служебные данные:
URL Title Visitors Delta Shift ID 68201 1396296000
- URL - адрес страницы новости;
- Title - заголовок новости;
- Visitors - количество посетителей за выбранный период;
- Delta - разница в количестве посетителей с момента предыдущей генерации рейтинга (это частота отличается от частоты слепков за час и сутки, часовой и суточный рейтинг создаются раз в 10 и 30 секунд)
- Shift - условный показатель движения новости по позициям рейтинга вверх (меньше нуля) или вниз (больше нуля);
- ID - внутренний идентификатор новости, целое число (один идентификатор может быть присвоен разным новостям, появившихся с разницей более 3 месяцев);
- 68201 - общее количество новостей в списке, но в слепок попадают только первые 500;
- 1396296000 - время обновления рейтинга в виде так называемого unix timestamp (количество секунд с 1 января 1970 года)