以前の日記 (Flagyx/H)
/ tag : flagyxh
[mypagerank]入ってくる URL に対し、どういう指針をつけられるのだろう
「注目フィルタ」がかかったRSSの配信
http://d.hatena.ne.jp/naoya/20050711/1121070592
とりあえず手元で実装テストするなら、注目ブックマークのような「これいいかもよ」と入ってくる url に対し、
自分向けに「url (サイト毎)」と「内容」の Bayes 値で、二つの
指針を提供することかなあ。
-url の指針というのは、「サイト」に対するフィルタみたいなもの。「このサイトの情報は無条件に見る・見ない」フィルタですね。
ある程度注目ブックマークを見てると、「人気がある動向にいつも言及してるんだけど中身があんまりないサイト」(ウチか!?)とか「あんまり自分に合わない」サイトとがが分かってくると思いますので、そういうのに目印。
url で分けちゃうのは、はてなならユーザーを id 部分で振り分けられますし、サブドメインでユーザー名をわけてる blog もありますし。「はてな発の情報全部知りたい!」例とかを考えると、アンテナみたいに url に正規表現使えるようにした方がいいのかな。
-内容に対する指針は、対象 url のデータを kakashi か chasen か何かで構文解析、単語を分割させてデータベースに放り込んでしまいます(できれば エントリ 毎がいいんだけど、ややこしそう)。
で、取得した情報に対し、『自分にとって』その情報が「必要」あるいは「必要ない」Bayes 集計してしまうという。
こうすることで入ってくる情報に対し、ある程度の指針を経験から予測することができるようになります。
で、未来からどんな良い情報が転がり込んでくるのか分からないことを考えると、「どの情報が不必要か」の方がわりと有用に働くような気がします。要は自分にとってのサイトスパムフィルタみたいなもの。
ただ、これは「負」のオーラを放つデータ であるので(^^;、それがどんなに有用な効果を望めるデータであっても、ちょっと共有化がしにくいような気がします。たとえば、とある個人サイトやある種の思想の内容が不必要値が高いとして、それを不特定多数で公開・共有してしまうのは社会的動議がどうなのかっていう。閉じた空間でやるならいいかなって思うんですけどね。
あとはまあ過度なフィルタへの懸念も一応。要するに多少むかついたからってそれをどんどん排除してしまうと、最終的には温室で育てられたような偏った状態になってしまう気がします。それは人としてどうかと(^^;;
まあ、こんなこと個人にまかせるべきで、心配してもしょうがないかもしれないですが。
こういうときに情報の共有による多数決が効果を生むんですが、前述の通り負のデータですし。うーむむ。
それかいっそのこと、フィルタの値は「True」か「False」のみ。フィルタの実質的な意味づけはユーザにまかせちゃうのもありかなあ。これもブックマークのカテゴリみたいに、共有化がややこしいという問題が出てくるんですが、まあ、「役にたった」「役に立たない」ほかに「情動を感じた」や「欲しいもの」とかいろいろ意味づけができそうなので、これはこれで楽しそうではあります。
以前、ここら辺の処理を手元の hoturl hist 使って実験しようと思ったんですが、使ってるのがレンタルサーバゆえ (いいわけ) 構文解析の部分がよくわかんなくてほっといてたりします。
あと、今、僕の興味がある 脳 関係の情報は、そもそも絶対数が少ないから選別する必要がないというのもあるのか(^^;
いずれやる気がでたらやってみたいなあ。