[ネタ]細かすぎるSchema.orgの仕様にツッコミを入れていくよ
この記事は約9分ぐらいで読めます
というわけでHTML5 Advent Calendar 2013の記事です。忙しいので昔書きかけた記事を完成させただけなのは内緒です★
本題はよく読んでツッコミを入れようからです。
Schema.orgがやっている「分類すること」のスゴさ
Microdataという仕様で主に使われるSchema.orgというものがあります。これのWebサイトを見てるとそんなことまで考えてるのか…と思うことが書いてあるので紹介しようと思います!
このSchema.orgという取り組み、なにげにすっごい面白いです。細かい説明は置いておいて、私の考えというか着目しているところを書きますね★
要はこのSchema.orgというものは私の解釈した限り、全てのWebページそれぞれが扱っている内容がなんというジャンルに分類されているのかを決め、更にその内容の情報一つ一つも何らかのルールに当てはめていこうというものです。分類さえされてしまえば、あとはそれを読み出すアプリケーションがあれば、同じレベルの情報を平行して抜き出して比較したり、データベースとして管理したり出来るようになるわけですね。もちろん、その活用法の筆頭は検索エンジンです。
分類っていうのはホント面白くてですね。あ、私は対して学もないので専門的なツッコミを入れられると困るんですけどねw 私のイメージです。
例えば食べ物を分類しろと言われた場合、パッと「動物と植物かな?」と考えたとします。で、そこから更に動物由来のモノとして哺乳類と魚類、鳥類、植物は穀物、野菜、根菜なんかが出てきます。でもよく考えたら後から貝類、菌類とか出てきて、ここから更に「哺乳類はどこまで分類すべきか?」とか「卵はどうなの?」とか「あれ?金箔って鉱物だよな?じゃあ大分類に動物、植物の他に鉱物?」とかいう風になってきてどんどんカオスになっていくわけです。
これをやるには当然その分野にどんなものがあるのか、最小単位までを知っていないとまず大分類が作れません。それを、全てのWeb(つまりこの世の全て、人間の発想し得るものから知らないものまで)について行おうというわけです。ヤバい。
東京ディズニーランドをSchema.orgで
さて、それじゃあこのSchema.orgの考えるこの世の全てのWebページの大分類ってなんなんでしょう。それはSchema.orgのサイトの型の階層構造のページに書かれています。ここを見れば一目瞭然です。以下に日本語訳ページのリンクを。といっても一部分しか訳されてませんが。
ここによると、全てのWebページはまず、
CreativeWork
(クリエイティブな作品)Event
(イベント)Intangible
(無形のもの)Organization
(組織)Person
(人)Place
(場所)Product
(製品)
に分かれるそうです。
このページ、本当にこの世の全てのものが分類されているんでしょうか。されてなかったら、それについてのページを作るとき、そのページの構造化データが作れないわけです。そんなことはあってはならない!w
じゃあなんか具体的にどう分類されているのかを考えてみましょうか。そうですねー、東京ディズニーランドはどうでしょう。これは遊園地なので、表によると、Thing
(全ての分類の大もと)のOrganization
のLocalBusiness
のEntertainmentBusiness
のAmusementPark
に分類されます。おおーすごい。つまり、東京ディズニーランドは組織の地域ビジネスのエンターテイメントビジネスの遊園地ということになります。
うーん、でもぱっと見、「遊園地って場所のことなんだからPlace
に分類されるべきでは?博物館とか水族館があるんだから」なんて思ったりもしますよね。で、Place
をたどっていくと、Localbusiness
があったりします。これはOrganization
の下にあるものと同じなので、Place
のなかの項目だとすることも出来るようです。こうして考えると、そのページが東京ディズニーランドを企業として紹介しているのか、場所として紹介しているのかでどちらの親カテゴリを用意するかが変わってくるということになりますね。
よく読んでツッコミを入れよう
では本題です。今度はこのSchema.orgを作った人たちがいったいどういうものを重視したのかちょっとだーっと眺めていきます。皆さんもさっきのリンクからちょっと見に行ってみるといいと思います。
CreativeWork
Article
(記事)Blog
(ブログ)Book
(本)ItemList
(アイテム一覧)Map
(地図)MediaObject
(埋め込みメディア)Movie
(映画)MusicRecording
(曲)Painting
(絵画)Photograph
(写真)Recipe
(レシピ)Sculpture
(彫刻)TVEpisode
(番組のエピソード)TVSeries
(テレビの連続番組)WebPage
(ウェブページ)WebPageElement
(ウェブページの要素)
なんと、ゲームという項目がない…。ゲームは何に含まれるのでしょうか。プラモデルやラジコンは??Sculptureになるんですかね?わりと無視できない程度にWebに存在する要素だと思うんですが…!
このへんもしかして全てProductに含まれてしまうのだろうか。だとするとProductのItempropはちょっと少なすぎやしませんかね…?
Organization
で、面白そうなのはやはりPlace
やOrganization
あたり。
Corporation
(企業)EducationalOrganization
(教育組織)GovernmentOrganization
(政府組織)LocalBusiness
(地域ビジネス)NGO
(非政府組織)PerformingGroup
(パフォーマンスグループ)SportsTeam
(スポーツチーム)
とあります。気になるやつを見ていきましょう。特に果てしないのはLocalBusiness
。細分化され過ぎですね…。
FoodEstablishment
例えばFoodEstablishment
、パン屋、バー、醸造所、カフェ、ファーストフード、アイスクリーム屋、レストラン、ワイン醸造所…??
_人人人人人人人人人人_
> アイスクリーム屋 <
 ̄Y^Y^Y^Y^Y^Y^Y^Y^Y ̄
なんだろう、このラインナップでアイスクリーム屋というのは…エディターにキラキラ女子でもいるんですかね。多分日本びいきな人がいたら寿司屋とか入ってたに違いないですね!w あと、お酒関係が充実し過ぎ。
LodgingBusiness
ホテル等の宿泊ビジネスだそうです。
BedAndBreakfast
(ベッド・アンド・ブレックファスト)Hostel
(ホステル)Hotel
(ホテル)Motel
(モーテル)
_人人人人人人人人人人_
> 違いがわからねえ <
 ̄Y^Y^Y^Y^Y^Y^Y^Y^Y ̄
EntertainmentBusiness
_人人人人人人人人人人人人人人人人人人人人_
> AdultEntertainment(成人向けビジネス) <
 ̄Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y ̄
世の中のもの全てを網羅しなきゃいけないわけですから、避けては通れませんねw
しかし、粒度にどう見ても差が大きいですよね…w この調子で色々ツッコんでいってもいいんですけどキリがないのでやめますね。なんか、見てるとシム・シティーやりたくなってきます。
まだまだ、全てを網羅するには足りない
いかがでしたでしょうか。モノによってはこんなことを議論してるのかなーとおかしくなってしまうようなものもありますし、ここまで細かく考えているのかーと感心します。こうした定義が何かの形で役に立つといいですよね。
でも考えてみた感じ、例えば阿波踊りの様な無形文化というか、そういう行為自体のページを作った場合はどうするのでしょうか。Intangible
カテゴリにはCultureのような項目もありませんでしたし、イベントでも曲でもないこうした文化をどう分類するんでしょうねー。まあ、現時点でこうした構造化データを使うシステムが検索エンジンくらいしかないこと、その検索エンジンもそこまでたくさんのカテゴリの実装をしていないことを考えると当然と言えば当然で、この辺はこれからゆっくり成熟していくんでしょうか。
他のジャンルの細分化と比較すれば、本にはもうちょっと分類があってもいい気がします。というわけで細かすぎると言いながら、たぶんまだ全然足りていません。PlaceOfWorship
にはShrineとか必要なんじゃないか、とかとか。
このSchema.orgは主にMicrodataを使った構造化マークアップの為に使われていましたが、Microdataは妥当なエディターが現れなかったため、HTML5の仕様からは外れてしまいました。悲しい。一番Microdataがしっくり来てたんですけど…。構造化データの中だと今年8月に勧告になったRDFaが主流になっていくのかなー、あんまり好きじゃないなーと思いつつ、Schema.orgはRDFaでも使うことが出来るようなのでこっちを勉強しようかなと思案中であったりします。Googleは対応してるんでどれでもいいんですけどね!
というわけでどうでもいいSchema.orgの話でした★
明日の担当は前川さんです!