« POLGA (HOLGA with Polaroid) | メイン | 「てっぺん」終了 »
2007年04月24日
形態素解析って面白い!
最近は、昨年度までやっていたプロダクト開発から一線をおいて、新しいプロジェクトの立上げに携わってます。
何をやっているか??そりゃあ、「ひ・み・つ♪」です。
大切な人だけに教えちゃいます。
というのは冗談として、今日は一日、形態素解析にはまってました。
形態素解析というのは、日本語の文を品詞ごとにぶつぶつ切ってくれる便利な仕組みで、たとえば、はてなのように文章を書くとキーワードがリンクになって表示されたりするのは、形態素解析のおかげです。(だと思います。汗)
形態素解析の存在自体は昔から知ってたんですが、フリーで使えるものがあるということを知って、一日中、どうやって遊んでやろうということに思いを巡らせてました。
「本当に仕事をしているのか?」というつっこみは甘んじて受けるとして、この仕組みをつかえば、たとえば、この数年の積み重ねである「ざっきーのつれづれなるままに」の中で、一番多く使われた名詞を抽出するなんてことが簡単にできちゃいます。
なんだろう。「みゆき」かな。
今日本当はそれをやりたかったんですが、某基金OB会の打ち合わせで23時帰りだった(もろもろの状況を考えると、われながらよくがんばってると思う。。。なんでわざわざ。。こりゃ精神修養だな。。)んで、遊べなかった。残念です。
ちなみに、英語の場合、日本語に比べてずっと簡単。日本語の形態素解析が難しいのは、「わかち書き」をしていないから。わかち書きというのは、「ぼくは きょう がっこうに いきました」というように、意味ごとに区切る書き方。(小学校教科書とか、わかち書きしてあるとWikipediaか何かで見たんですが、そうだったけ??記憶にございません。)英語の場合、半角スペースで単語と単語の区切りがわかりやすいんで、非常に扱いが楽なんです。なんで、たとえば、英弁のスクリプトが数十年分電子化されていたら、数十年の中で一番口にされた単語なんてのも、たぶん、ものの数分もかからず出せると思いますよ。少なくとも、コードは非常に簡単です。(らしいです。)
今日は、MeCabという形態素解析エンジンで、「山田君と太郎君が遊んでいます」という文章を解析した結果を表示させることで我慢したいと思います。
「山田君と太郎君が遊んでいます」という部分を入力してリターンキーを押すと、自動的に品詞に分解してくれた結果を返却してくれます。頭いいですね。
のびさんの式にご参加の皆様、mixiのフォトアルバムに写真を上げておきましたので、ご覧ください~。
【(カメラマンとしての)教訓】
・望遠ズームでの、ポートレートはやっぱり面白い!早く、これ(↓)を超える一枚を撮りに行きたいです。
※友達です。
・外部フラッシュを炊くときには、やっぱり、デフューザー必須!結婚式のように、主役が壁を背にして座っているような場合、デフューザーつけないと、壁にもろに影が映る。面倒くさがらずに、つけること。
・逆に、一枚目の写真ように、影がどこにも映らないシチュエーションはねらい目。次は、こういった構図を積極的に狙っていきたい。
投稿者 zackie : 2007年04月24日 02:00
このエントリーのトラックバックURL:
http://www.zackie.biz/blog/mt-tb.cgi/1352
