Школа открытых данных 12. 11. 2013 Лекция №6 - shikardos.ru o_O
Главная
Поиск по ключевым словам:
страница 1страница 2
Похожие работы
Название работы Кол-во страниц Размер
Использование спутниковых данных (включая гиперспектральные) 1 42.31kb.
Результаты посещения открытых уроков и мероприятий орксэ преподавателями-тренерами. 1 171.25kb.
Анализ статистических данных о состоянии преступности среди несовершеннолетних... 1 158.76kb.
Постановление «12» август 2013 й. №1168 «12» августа 2013 г 1 114.47kb.
Образовательная программа «Каракулинская специальная (коррекционная) 13 4674.14kb.
База данных по выпускникам Казахского юридического колледжа 2013... 1 29.02kb.
Банк данных Поликлиническая терапия 266590 616. 1/. 4 К592 Козловский... 1 210.46kb.
Лекция 3 42 физический взгляд на мир 42 Лекция 1 6 1771.77kb.
Постановление №307 от 03. 10. 2013 года с. Большая Черниговка «Об... 1 100.58kb.
Банк данных педагогов мбоу оош №33 2012-2013 учебный год 1 62.46kb.
Анализ статистических данных о состоянии преступности, связанной... 1 119.32kb.
Компания «Централ Партнершип» иParamount Pictures представляют 1 186.07kb.
- 4 1234.94kb.
Школа открытых данных 12. 11. 2013 Лекция №6 - страница №2/2

(в) А возможен тот случай, когда мы представляем один какой-то запрос, нам выдается выборка, и мы конкретизируем предыдущие (нрзб)?
00:44:43

- В языке такая возможность не предусмотрена ,язык- это просто язык. Но можно сделать такой инструмент, который бы это уточнял. И такие делаются. Например, в какое-то время телефонный немецкий гигант, они сделали фасетный поиск по википедии. Собственно, там можно было вводить имя, не знаю, «Адам Смит», мне выдавалось сто Адамов Смитов, и у меня можно было с помощью дополнительных фильтриков говорить «А, да это тот, который футболист!» и у меня оставалось всего 20 адамов смитов, которые футболисты.


00:45:31

Понятен этот пример? Давайте тогда.. ой, страшно-то как. Дальше усложняем. Мне интересно не только, кстати, сейчас попробуем его ввести, запрос. Посмотреть, что выдастся. Кстати, для тех, кому лень сочинять запросы и лень списывать их с экрана, можете зайти на сайт linkeddata.ru и оттуда их копипастить. Который почему-то перенаправляется на сайт компании. Вот здесь есть пример последовательного построения спаркл-запроса. Если кто не успевает, вот может отсюда это копипастить. Значит, теперь вопрос был, как сделать «или». Ну действительно, мне интересны компании, основанные не только художниками, но еще скульпторами и каратистами. Казалось бы, если мы добавим, значит.. Ну опять-таки, как узнать, как обозначаются скульпторы, как обозначаются каратисты.


00:47:02

Ну вот мы заходим на какого-то известного скульптора, смотрим на его тип. И используем этот термин. Все так и устроено. Почему это все так грустно и сурово – потому что Sparql это вообще такая не-пользовательская вещь. Пользователи не должны им пользоваться. В смысле, нет. Рядовые пользователи не должны с ним общаться. А вот если вы программируете какое-то приложение, то вам достаточно один раз создать этот sparql-запрос, и потом выгружать эти данные потихонечку к себе, по мере того, как они будут обновляться.

(в) Все время будут выгружаться одни и те же данные, повторяющиеся.

-Да.


(в) Нам нужны как бы новые.

-Для этого есть livedbpedia.org, которая обновляется в режиме, близком к реальному времени.


00:47:56

Это мы сейчас делаем запросы к дбпедии, которая обновляется редко. Там чего-то раз в 3 недели, кажется. А есть живая точка, которая обновляется раз в час ,по-моему, или в минуту. Продолжаем. Вот, вот эта прекрасная конструкция, которая обозначает «или». Union. Я хочу узнать, увидеть фаундера, у которго тайп был или артист, или мастер боевых искусств, или … кто там еще? Актор. Актер. И вве это «Или».


00:48:57

Что мы делаем. Мы берем, и вот эту торойку, которая обозначала у нас отношение нашего фаундера к какому-то классу, мы заключаем в фигурные скобочки и объединяем с помощью конструкции «Юнион» со всеми остальными. То есть, эта часть осталась неизменной, юнионы сязывают наш запрос. Так.


00:49:41

Вот у нас . кстати, и названия компаний появились. Валиант Комикс была основана URL под названием Боб Лейтон. Мы можем, конечно, вывести рост этого Боба Лейтона, вес и среднюю порцию овсянки, которую он съедает с утра, если эта информация была в википедии. Если она была распарсена из инфобокса. Значит, и м попробуем сейчас еще немножечко поиграться с этими всеми друзьями.


00:50:25

Мы попробуем наложить на них какие-нибудь ограничения. Например, не просто какими-то актерами основана, а молодыми актерами. Молодыми – ну, например, вот у нних есть свойство Age, мы еще узнаем, как оно называется, и мы хотим, чтобы это было меньше 75 лет. Даже не так. У них вряд ли есть свойство Age, у них есть свойство Birth Date, которое содержит дату ,и она должна быть меньше, чем.. ужасно с математикой, 35 год, например. Занчит, больше 1935 год. Прием этот 1935 год будет в виде корректного xsd-date, сейчас посмотрим, как он представляется.


00:51:23

Ну вот у нас есть запрос классный, который ведет на какого-то Боба Лейтона. Посмотрим, как у этого Боба Лейтона бирф дейт устроен. Устроен он вот так.. ну теперь нам нужно что? Нам нужно знак больше- меньше. Как это узнать? Для этого в спаркле есть конструкция «фильтр», которая позволяет фильтровать по разным критериям, в том числе там есть больше-меньше. И выглядеть это будет вот таким образом. Вот таким.


00:52:18

Мы берем , обълем, что у фаундера есть своство фаундер бирф, founder dbpedia.org /date founder birth, и потом мы накладываем на эту переменную ограничения, что она должна быть больше, чм 40 год. Почему-то 03.10. ну просто 40-го года просто не бывает. То есть, бывает 31 декабря 40 года, бывает 1 января 40 года. Ну это проблема с точностью дат. Часто, кстати, возникает. Значит, кто-нибудь там чего-нибудь пытается кликать одновременно со мной, в смысле вводить?


00:53:22

(в) Формат дат – 1940 03..

-это исошный, да.

-(в) А если не ISO-шный? Российский формат?

- то не будет работать.

-(в) Где-нибудь указана метаинформация, что это именно ISO-шный?

-Нет, у нас есть вот ж.. по-моему в xsd:date всегда должен быть исошный. Кто знает, что такое XSD? XML Scheme? Значит, есть такой стандарт, называется ML Scheme, он определяет как раз вот эти типы литералов. Он определяет, что такое строка, что такое дата, что такое integer, то есть запят4ю нам ставить или точечку, вне зависимости от наших региональных различий.
00:54:27

Понятно, что мы можем по вот этому графу идти и дальше, в принципе. Мы можем сказать, что у этого фаундера была жена, которая была киноактрисой и ей было столько-то лет. Мы можем создавать сколь угодно сложные запросы и накладывать ограничения на любые кусочки этого графа. В этом вот как раз прелесть Sparql. Помимо этого ,есть очень много разных модификаторов запросов. Фактически мы использовали только Limit сейчас здесь. Лимит. Каки кто еще знает модификаторы с SQL? Order by – правильно. Да. Есть у нас тако. По-моему, order by и потом по какой из перменных мы ордербаим. Сейчас попробуем.. надеюсь, я не опозорюсь.


00:55:33

Вот мы введем наш запрос, и кроме лимита добавим сюда еще порядок сортировки. Order by по-моему прямо так все и должно быть. Company URL или founder url. Какие еще?

-(в) Group by

- Да, group by. Ну в общем извините.. я забыл, какой там синтаксис. Может, скобочки..

-(в) А вы не написали- по возрастанию, по убыванию.

-А, да!! Order by desc.. asc… Скобочки уберем. Поверьте, Order by есть. И еще есть Offset. Offset 100.


00:56:36

Офсет- ага, их наверное там столько нет. Офсет 10. да. Офсет- это смещение. Значит, мы хотим выдать не 100 сначала, а 100, начиная с 11 элемента.. такой же смысл, как в SQL. В общем довольно многие концепты из sql тоже применимы. Есть группировка, есть простейшие арифметические операции, есть вычисление среднего, есть вычисление даже по-моему какиех-то вещей типа sko. То есть расширения, которые добавляют статистические функции сюда.


00:57:29

Я рассказал вам про dbpedia. Помимо этого есть другая классная база, называется free base, сейчас под патронажем гугла, до этого была разрабатывалась долгое время компанией Метавеб, которую поглотили. Freebase.com, очень похожая вещь, они тоже используют много энциклопедической информации, они тоже активно парсят википедию. И, что интересно с прагматической точки зрения может быть, это то, что они редактируются чуть более просто. То есть у них действительно семантическое вики. Я могу зайти на кого-нибудь, вот давайте мы найдем, например, Чака Норриса, Чкк норрис. Маршал Артист кстати. Кстати, вот в этом запросе один из результатов был компания Чака Норриса, которая продвигает его стиль борьбы.


00:58:50

И он как раз является ее фаундером. Подходит под этот запрос. Он достаточно молод, ему меньше 75 лет. Ему 73, по-моему.

(в – простят повторить запрос)

Сейчас я бегаю на freebase, это уже не dpedia, чего у них классно – у них есть приличный поиск, человекочитаемая форма, тут вот картиночки действительно отражаются как картиночки, дбпедия немножечко поаскетичнее. В этом плане. И к ним есть тоже доступ тоже с помощью запросов, но там не Спаркл, там другой язык, называется MQL, и он похож очень сильно Jason, фактически был вдохновлен Джейсоном. Там много данных, которых нет в дбпедии, в дбпедии есть данные, которых нет во фрибейз.


01:00:10

Freebase, кроме википедических джанных, использует много чего еще. И Freebase используется как один из основных источников данных для google knowledge graph. А гугл нолидж граф- это ну вот такая большая база знаний, которая исползуется гуглом для улучшения поиска и для выдачи красивых сниппетов. Например, сейчас введем Санкт-Петербург, и я надеюсь, что гугл нолидж граф покажется. Вы его наверняка тыщу раз видели. Вот он красивый справа, только у нас тут почему-то только геоданные. Ну давайте Леонардо да Винчи. Ну вот можем бегать по этому нолидж графу. И что действительно классно –мы можем часть информации из этого нолидж графа использовать в наших приложениях. Вот про это статья готовится, будет там же, где и статьи Ивана – на Хабрахабре.


01:01:23

- (в) А насколько там актуальны анные.

-Как … У них есть где-то график того, как они запускают свои скрапперы и парсеры. Довольно актуально.. Фактически эта технология используется в продакшне у них. Действительно влияет на нолидж граф. Не уверен, что прямо впрямую, потому что сеошники их бы замучали. Я думаю, еще замучают. Но действительно какие-то данные мы проверили, они брались из фрибейз. Ну и собственно официальнее представители гугл это тоже говорят.
01:02:17

Наверное, мы не успеем здесь совсем коснуться фрибейз более подробно, но пробуйте использовать ее тоже. По ней есть очень внтные руководства. По MQL. Кроме MQL у них есть для недалеких умов более простые API. У них есть API, который позволяет нам просто задать какое-то объект и получить о нем самую главную информацию. То есть картиночку, имя, типа, что-то еще. Это топик API. Еще у них есть Search API. Я постараюсь именно MQL-ную часть в статье описать достаточно подробно.


01:03:10

Мы попробовали сегодня разобраться с тем, как работают открытые базы знаний. Фрибейз иногда называется тематической вики, так что я оправдался в плане названия лекции.. те, кто пришли исключительно за семантическими вики типа онтовики или семантик медиа вики, можете у меня потом спросить лично, могу рассказать именно про это. На деюсь, вам понравилось, вы будете использовать линкед дата в своих приложениях и всячески продвигать эту тему дальше..


01:03:43

-(в) Получили эти данные. Хочется их выгрузить, например, и уже гонять в другой программе.

- Да. Сейчас мы работали просто с каким-то фронтендом для того, чтобы удобно было выводить запросы. Понятно, что обычно работают с aPI и выгружают это не в виде таблички html, а в виде либо rdf, либо csv, либо джейсона.. то есть, для dbpedia есть API. Который нам позволяет получить файлы. С ответами.

-(в) Ручками как это делается?

- Ну как. Ручками надо навреное поставить CURL программку, которая выдает http-запросы. И бомбардировать. Да. Внутри get- параметра будет передаваться этот sparql-запрос.
01:04:42

И вот там с помощью того же CURL можно..

-(в) а без спецпрограммы..

-Это не спецпрограммы.

-(в) Ну, я имею в виду, просто без дополнительной программы взять из дбпедии, скачать.. ну то есть я вот сделал запрос..

-Да, можно скачать.. Ну можно просто этот запрос засунуть в гет-параметр в браузере, немножечко по-другому его сформулировать, не dbpedia.org/sparql, а там чего-то еще како-йто параметр добавить, формат, еще чего-то в этом духе.. И загрузить себе файлик. Но специальной кнопочки нет, ну можно сделать, да.


01:05:28

(в) А вот в самом начале вы сказали, что есть много данных по поводу музыки, фильмов, группю. Где подобные базы?

-Кстати, да, не перестаю пиарить Хабрахабр, я недавно как раз описал как бы то, какие данные есть вообще в linked data, ну вот с прагматической точки зрения. Просто сообщество очень сильно состоит из каких-то научников, они как-то не очень заботятся о том, чтобы до рядовых джумла-программистов доходили их гениальные теории и не менее гениальные данные.. вот там есть описание того, где в какой базе это можно найти.
01:06:14

Сходу могу вспомнить MusicBrains доступен в RDF/. Это по музыке. По фильмам – кстати, и по музыке, и по фильмам до какой-то степени и в дбпедии и во фрибейз тоже есть. Особенно во фрибейз. Во фрибейз для каждого исполнителя могу загрузить список его треков, для каждого трека – его длительность, для каждого альбома- к какому он относился жанру, там транс, классика, прогрессив металл. По медийной информации все очень хорошо покрыто, и вот не зная Sparql, даже я бы сказал что трудновато. То есть, пользуяся традиционными API, получать эти данные. Помню, был там по географии вопрос.. какие геоданные в каких форматах доступны.


01:07:18

Но тут как бы линкдейта не в авангарде. Далеко. Но есть достаточно хоро

шие базы geonames, которые тоже доступна в RDF. Ну а так, в принципе, есть традиционные API, которые позволяют геоданные выгружать гораздо более приятно.

-(в) Почему?



-Да я думаю, просто руки не дошли ни у кого. Ну и сложности вообще тоже. То есть, многие данные представлены в виде полигонов.. а полигоны изображать тройками сложновато. То есть либо мы этот полигон. Вот я хочу допустим показать, что Москва имеет какие-то координаты. Я хочу не просто ткнуть в Кремль и показать, что это Москва. Я хочу нарисовать какой-то кружочек и сказать, что вот это вот Москва. Для этого мне нужно использовать собственно представление о полигонах. То ли в строку его засовывать, то ли точки как-то отдельно отображать..
01:08:30

А если это не Москва, которая кружочком, а Московская область, которая не включает в себя Москву, то есть кружочек с дырочкой. Это любимая тема у всех геоинформационщиков – кружочки с дырочками. Тогда все еще сложнее. Вопросы еще? Ну все, тогда спасибо.
<< предыдущая страница