全文検索(S)

やっかいナリnamazu

このサイトで使用している namazuという全文検索システム は、kakasi という外部プログラムを補助的に使用している。だが、こいつはなかなかの曲者である。そもそもの kakasi の目的と、namazu での使われ方がちょっと違うかららしい。

全文検索システムというものは、漫然と全てのテキストを頭から順番に眺めていくのではない。ものすごく大雑把に言えば、どこにどういう言葉があるかを記した“地図”のようなものを眺めて、ユーザの入力と一致する言葉を探し出すという作業をこなしている。で、このシステムの一番の問題は、“地図”に載せる言葉をどうやって選ぶかという点にある。全文検索システムは、延々と続く文章を適当にぶった切って、地図に載せる言葉を決めなければならない。単語と単語が空白で切れている英語だと、このぶった切るという作業は考えるまでもないくらい簡単なのだが、そういうルールが無い日本語では、単純に切れ目を入れるだけでもかなり厄介だ。namazu の補助をしている kakasi は、この「どこで切ったらよいのか分からない日本語に切れ目を入れて、“地図”に載せるべき言葉を切り出す」、分かち書きと呼ばれる作業を担っているのだが、さっきも言ったように、それは kakasi の本業ではないようだ。kakasi はもともと、漢字とかなの混じった文章を、ひらがなやローマ字に変換するためのプログラムなのだ。

namazu + kakasi の有名なトラブルに、「お知らせ問題」というのがある。例えば、「学校からのお知らせ」を kakasi にかけると、「学校」「からのお」「知らせ」と分割してしまうので、namazu から「お知らせ」を検索してもヒットしないという事態が起きてしまう。なぜそんな奇怪な分割をするかというと、辞書に載ってない連続するひらがなを認識出来ないからである。では、「お知らせ」を 1 単語として辞書登録してしまえばいいじゃないかと誰でも考えるわけだが、なんと kakasi には、ひらがなから始まる単語や英数字を含む語は登録出来ないという、身の毛もよだつ恐ろしい仕様があるのである。ユーザに「『知らせ』で検索しろ」というのはかなりムリがある。つまり、この問題は、製作者自身も早い内から気付いていたにも関わらず、未だ根本的に解決不能なのだ。同様の原因による「『プロ野球チームをつくろう』問題」というのもあった。「をつくろう」が 1 単語と扱われるわけだ。

ただ、kakasi は補助的な外部プログラムだから、他にも選択肢はある。それが chasen というプログラムである。高度な日本語処理なら chasen だなどという煽りをどこかで読んだ記憶があったので、一応試してみることにした。で、いじってみたわけなのだが、しかし、こいつはこいつで kakasi よりもっと癖があった。というか辛い。「お知らせ問題」だけは解決してるけど。

例えば「もじうめ」という固有名詞は、「もじ」と「うめ」に分割できてしまうので、「もじうめ」は複合語扱いになり、そのまま検索してもヒットしない。「もじうめ」のページをヒットさせるには、「もじ うめ」とスペースを挟んだり、「"もじ うめ"」と囲ったり、「*うめ」などで検索することになる。アヒャヒャ。固有名詞の検索のために、AND 検索ならまだしもフレーズ検索や前方・後方一致などを使いこなしてもらうなんてミジンコも考えられない。そんなもん、普通の人は「何それ?」状態だし、ワイルドカードもクオテーションも縁遠い人たちは、教えても恐らく一瞬で使い方を忘れる。それに、デフォルトだと口語を扱うのはほとんどムリなようだ。試しているうちに、どうやら、辞書に載ってるメジャーな単語で切る他は、かなや記号と漢字との切れ目で判断するらしい kakasi の単純なアプローチの方が、意外に汎用性がありそうだ、と思い至った。

kakasi で分かち書きをする場合には、上記のようにひらがなで始まる単語の認識に失敗しまくるという難点はあるが、それは文章の中でいきなり使用した場合のことで、どうしても認識させたいひらがなで始まる単語は、前後を句読点で切ったりカッコでくくるなどして明確に切れ目を与えておけば、kakasi は辞書に載って無くてもそこで分割し、インデックスできるのだ。例えば、「分かりやすいもじうめの使い方」と書いてしまうと、「りやすいもじうめの」が1単語扱いになるが、「分かりやすい『もじうめ』の使い方」と書けば、「もじうめ」を固有名詞とは判断できなくとも1単語として扱われるため、検索ができる。しかし、chasen は日本語の形態素解析がその目的なので、カギカッコの中の平仮名でも、さらに頑張って細かく切ってしまう。つまり、「もじうめ」のような未登録のひらがな固有名詞(特に人名)は全滅する可能性が高い。

すなわち、namazu を使うのなら「お知らせ問題」の解決は諦めて kakasi で行くか、辞書をチューンしまくって chasen で行くか、の二択である。正直、chasen 辛すぎ。禿しくムリ。デフォルトだとひらがな固有名詞や複合語が本当に見事なくらい全滅する以上、使う前には考えられる限りのキーワードを叩き込んでおかなきゃならない。ムリ。もしかしたら解決法があるのかもしれないけど、ぐぐってる限りではなさげ。なんでみんなが kakasi ばかり使って chasen はあまり使われないのかという理由の 1 つが見えた気がする。

(51)

著作者 : 未識 魚
最終更新日 : 2006-09-27 00:18:42

aquaジャケット

aquaジャケット
初出コミックマーケット62。水着モノ。イベント時より微妙にエロくなりました。

(52)

著作者 : 未識 魚
最終更新日 : 2010-05-22 03:09:25

みにこちゃん

みにこちゃん
魔法少女連作第2段。ミニな魔法使い。珠はドラゴンボールではありません。ひざにバンソウコを貼りたくなる子であることに今気付いた。

(47)

著作者 : 未識 魚
最終更新日 : 2010-05-22 03:09:25

眼鏡時空パンフ表紙

眼鏡時空パンフ表紙
2003年3月23日開催された眼鏡時空のイベントパンフの表紙イラスト。

(42)

著作者 : 未識 魚
最終更新日 : 2010-05-22 03:09:25

ウマー

上手い絵ってなんだろう。上手いといわれる人の絵には何かの特質があるが、それを表立って記号化してる人はあまりいない。まあ、その手の解説書などを紐解いてみれば、デッサン、デフォルメ、構図、彩色、デザイン、描き込みなど幾つかのポイントがあることは誰でも知ることが出来る。ただし、そのうちのどれか、あるいは多くが欠けていても上手いと思われる絵はある。多分、最も重要なのはある種の驚きだろうと思う。驚きとは、自分が気付いていなかったことを気付かせることだ。驚けない絵は上手いと感じられない。まとまってるな、とは思うけど。

(76)

著作者 : 未識 魚
最終更新日 : 2006-10-14 18:20:03

中年のウェブへ

初めてウェブページを見た時のことを覚えているだろうか。この場合、Mosaic 以前以後や Netscape 以前以後での分類では、あまり意味を成さない気がする。Windows95C 以前以後辺りの分類の方が適切なのではないかなぁ。Windows95 以前のユーザは、サーバと共にウェブと接していたが、Windows95 以後の人間は、クライアントとして接しだしたからである。かつて、ウェブはフロンティアだった。未知の領域だった。誰もがそのメディアに参加すること、それ自体を楽しんだ。しかし、ある臨界点を超えた時から、ウェブは通常のメディアとなった。ウェブに参加すること自体を楽しむ人はほとんどいなくなった。現在新しくウェブに触れた人は、他のメディアに触れた時と全く同じように、メディアへの興奮は覚えず、コンテンツに対する感想しか持たないだろう。ウェブは老けたのだ。

ウェブというインターネットアプリケーションには多くの利点と欠点があるが、利用者側から見た大きな欠点を1つ上げるとすれば、コンテンツの永続性が異常に低いという性質がある。これは10年前から全く変わっていない。ウェブは非常に容易に改変されたり消されたり移動されたりする。比較的永続性があるかと思われた大学のサーバ上のコンテンツも、学生が卒業すると次々と消えた。コンテンツが、その作者の実生活(又は企業の経営状況など)と密接に連携しているというのも、ウェブの特長の1つだろう。他のメディアではコンテンツと作者との距離が大きく、生み出されたコンテンツは、作者の生活環境などとは切り離されて、それ自身が勝手に存在するようになる。過去の多くの有益な情報は、製作者の生活環境の変化によって、ウェブ上からほぼ永遠に失われた。

ウェブのフラット性は発明者が意図した通りだから好いとしても、こんなにコンテンツの永続性に欠けるものだとティム・リーは予想していただろうか。もともとは学術論文などの共有を狙ったシステムなのだが、一般人の情報の永続性に対する意識を甘く見ていたと思う。だが、自分のコンテンツを編集してまとめあげてくれる他のコンテンツディストリビュータとでもいうべき存在がいれば、コンテンツは長く生き残っていくことができるだろう。例えば GNU のソフトウェア群には、もはやネット上に存在しない人間からの過去の貢献が幾つもあろう。

ウェブは、誕生当初から常に誰か / 何かの編纂と保存を必要としてきた。手動登録によるウェブの階層化を行った Yahoo! は1つの解だったが、ウェブ上の情報量が爆発的に増加して変化のスピードが処理能力を上回ったため、すぐ破綻した。Windows ユーザなら、窓の杜の編集方針変更を覚えているかもしれない。あれと同じである。多少オープン性を打ち出した Open Directory も、根本的には何も変わっちゃいない。こういうアプローチではウェブに追いつけない。Google ランキングという、動的な仕組みをに任せるアプローチは非常に面白いと思うし、成功したとも思う。ただ、あれは編纂をされているとは言えないし、キャッシュではコンテンツの永続性を支えきれない。archive.org には編集能力が無いし、収集が恣意的だし、何しろ一元管理というのはインターネットの在りようとしては望ましくない。何か、コンテンツの永続性を支える技術、というか仕組みか、あるいは社会制度が必要だろうなぁ。

ただ、繰り返しになるが、図書館型のアプローチは確実に失敗する。以前某大学でそういうアプローチの研究している人がいたが、バカな人だなぁという印象を持ったのを思い出した。まあ結論としては P2P を使うしかあるまい。なんか考えてた割りに結論がつまらない。ブログが P2P の URI を指示できれば、やや俺の理想に近い気がする。セマンティックウェブがもう少しまとまってくれれば、何か変わるだろうか。

(43)

著作者 : 未識 魚
最終更新日 : 2006-09-27 00:23:26

熱意の功罪

「法で禁じられてないから何をしてもいいってワケじゃないし……」という常識論を、「ハァ? 法で禁じられてないことは何してもいいに決まってんじゃん」と猿にでもわかりやすい言葉でステキに一刀両断しやがったのは、我らが切込隊長だったと思います。より遠まわしな表現でなら教養の法学なんかでも教えられますが。

ナイーブ(これは「バカ」の婉曲表現であり、褒め言葉ではありません)な人は、「法律的には問題ないけど、常識で考えたらあんなことは許されないんだから、そのことを禁じる法律があってもいいよね」などと平気で考えます。もちろんこういう直感的な解釈が社会的に適当なことがあるのも事実ですが、国民の権利や義務に関わる場合、こういうナイーブ(=バカでDQN)な癖に声のでかい人間が多いとロクなことにならんケースも多々あるのです。せっかく手にした表現の自由などの権利を、気前好く放り投げてしまい兼ねません。

例えば、「他人の作品パクるのはよくないよね」、というナイーブ(=バカでアホでDQNでクズ)かつ直感的理解だけに留まっていると、気が付いたら作者が死んでも延々著作権が残り続け、ミッキーマウスが嬉しいだけで他の創作者の身動きが大変取りにくい状態になっていたりします。また、「子どものはだかで欲情するヤツってキモいね」とかいうナイーブ(=バカでアホでマヌケで無知でDQNでクズ)な解釈だけをしてると、マンガ業界が自主規制の嵐になって出版不況に拍車がかかったり、別件逮捕の口実を存分にばらまいたりするような事態を引き起こし兼ねないのです。「他人を悪く言うのはよくないでしょ」などというお上品な人もおります。確かにあまり褒められることでもないのですが、まっとうな批判や批評であっても、文章如何では限りなく悪口に近似することがあります。恐ろしいことに、「他人の悪口をネットで言えないようにしたい」などと考えている、とめどもなく頭の悪い人たちは存在します。こういう人たちは、「あのメーカーの製品は質が悪くて……」とウェブ日記で愚痴っただけで刑事責任を追及された上にメーカーから損害賠償を請求されたりするような事態(悪徳企業批判が出来なくなるわけだが)などは一切想像できず、単に「過激な表現から我が子を遠ざけたい」といった歪んだ正義感に燃えているだけだったりするので、大変にタチが悪い。

繰り返しますが、ナイーブ(=バカでアホでマヌケで単純で無知蒙昧全開でDQNでクズ)な直感的理解は、その社会において比較的普遍的でかつ適当な解釈ではあるのです。パクるのもよくないし、ハァハァしてるのを気持ち悪がるのも妥当でしょう。ただ、それを拡大解釈可能な権威あるルールとして明文化してしまった時に何が起こるのかを想像できないナイーブさというのは、大変よろしくない。そしてもっとも罪深いのは、こういったことは全て他人事だと考えているナイーブ(=バカでアホで以下略)さでしょう。無知は罪なり。

(49)

著作者 : 未識 魚
最終更新日 : 2006-09-27 00:29:38

オタクの飽食

物語というものは、出来事と出来事をつないでいく過程を楽しむものであって、シーンの一部だけを取り出して前後を鑑みずどうのこうの言っても詮無きものです。過程を無視してしまえば、例えば戦隊モノとか、シュワルツェネガーやセガールのアクションものなんて、「今日も苦労したけど主人公が勝ちました」で要約できてしまいます。

しかし、過程を作るためにつないで行くべき出来事というのにもそんなにバリエーションがあるのかというと、実はネタ切れしきってます。「普通の少年少女がある日ヘンな生き物と出会って正義の味方になって、友達を増やしたり修行したり裏切られたりしたけどラスボスに勝つ」なんて構造の物語は、一体この世に何万・何十万あるやら。こんな風に物語の要素を分解してみたウラジミール・プロップというロシア人は、ストーリー展開というのはどれもこれも似たようなもんだ、というようなことをまとめ上げました。例えば、スターウォーズとハリーポッターをそれぞれ要約して比べてみてください。養父母の下で育てられ、ある日「実はお前は……」と告げられ、旅に出て、仲間を作って……。ね?

で、そういう大して複雑な構造を持ちようも無い物語というものに、実際にバリエーションを与えてるのが、設定や演出という部分になってきます。物語の場所、時代、背景を変えたり、話し方を変えてみたりして、受け手をひきつけていくわけです。

さて。我々オタクが「オタク」と後ろ指を差されるようになるまでには、莫大な量の物語を消費してきています。当然、物語の展開に大してパターンが無いことくらいは、経験的に了解しています。次どうなるのかとドキドキワクワクしながら物語を眺めるなんてことは、できなくなっています。「どうせ次はこうなって、それからこうなって、最後はああなるな」くらいの予想は立ってしまいますから。そうなると、オタク的に楽しむべきポイントは、設定(キャラクターやメカや舞台など)や、演出(画面作り、構図、細かい台詞回し、演技、音楽など)の部分へ移ってくるのです。これは、映画という形で物語を消費しまくってる映画ファンなども同じはずです。

そもそもの萌えという概念は、キャラクターとかメカとか、あるいはカメラワークとか、そういうオタク的に楽しむ細かいポイントが強く自分の興味をかきたてている様を表す言葉ではなかったか、と今の私は考えています。現在の「萌え」は、単に性的好奇心をかきたてる様くらいの意味しかありません。性的な好奇心というものは、広く皆が共有できるオタク的な視点だからでしょう。

我々の世代は、かつて無い量の物語を消費しまくっている層です。映画は100年、マンガは50年くらいしか歴史がありません。いわゆる「テレビゲーム」に至ってはせいぜい20年です。たったそれだけの期間にもかかわらず、テレビ、ビデオ、コミックス、文庫本、CD、ゲーム、ネットなどなど、色々なメディアで莫大な数の物語が作り出され、その洪水の中で生きています。大塚英志氏が以前、若者が物語を作りたがらないというようなことをおっしゃってて(その時同意を求められて実は微妙に困ったのですが)、それは恐らくメディアへの暴露量が違うからなんではないかと。逆に言うとジュニアノベルとかを量産してそういう世代を作ったのは大塚氏たちなんですが。

多分、東 浩紀が本来検討すべきだったのはこういうことであって、自分の消費的傾向を動物的だとか何とか言い訳してゴニョゴニョするべきではなかったんだと思いますよ。ニンニン。

(50)

著作者 : 未識 魚
最終更新日 : 2006-09-27 00:34:42

技術のススメ

1 万円程度と目されていた絵が実はゴッホ作で 6000 万の値がついた、というネタっぽいニュースが記憶に新しいところだ。我々素人には、1 万円なのか 6000 万円なのかなんて区別は付かない。だから、6000万円で売れるわけだが。

絵や音楽の「技術的」な評価を正しく下せる人がほとんどいないというのは紛れもない事実である。これは、多少絵の上手くなった人などが気付いて愕然とするポイントの 1 つであろう。恐らくもっとも適切な評価を下せるのは、作者と同程度かやや下の技術力を持った人間である。技量のレベルは、上下どちらであっても乖離しすぎるとなかなかに評価は難しい。

どんなに絵を大量の眺めている人間でも、実際に描いてる人との間には致命的な技術的理解のギャップがあるのだが、これは絵を描くなり楽器を弾くなり作曲するなりという、その技術のプロトコルを介さない人へは中々伝達が難しい。というか、まず伝わらない。アプリケーションの操作感覚だけで、そのソースコードのデキを評価しろというようなものである。また、もう 1 つのよくある問題点として、程々描けたり作れたりする人間や現状の自作品に満足している人間は、すぐ自分の技術に調子づいて絵や音楽の深いところまで分かったつもりになりがちだというところも、他者への伝達や的確な評価を妨げる。一般的に、女性より男性がこの罠に陥り易い。

で、多くの人は技術的な面を良く分かってくれないし、その評価基準の伝達や一般化はほぼ不可能なのだから、そういう評価を広く期待すること自体が間違っているし、そういう評価をしてくれないからといって作品の受け手を馬鹿にするのはもっと間違っている。先の喩えを使えば、「コンピュータを使う人間は全員が高度なプログラマでなければならないし、プログラマじゃないやつらはゴミ」という、アラン・ケイも真っ青なくらいの無茶苦茶な要求を暗にしていることになる。極マレに、技術力への共感と卓越した文章力で作品の技術的なところを噛み砕いて説明してくれる評論家という人種がエヴァンジェリストをやってくれることがあるが、まあそんなもんを当てにする方がおかしかろう。

アプリケーションとソースコードの比喩をもう少し引きずると、プログラミングの場合は、ソースを読む人はほぼイコールソースを書く人であり、すなわち受け手も書き手もほぼ同レベルの技術を持つケースが多いので、特にどうということもないのだが、絵や音楽や小説などは、同レベルの技術を持つ人間も見るには見るが、それ以前に一般の人に広く見せて、理解なり共感なり萌えなりをしてもらわないと作品として成立しないという点が大きく違う。そのため、何故か技術面までが広く理解されるものだという誤解をしてしまう作り手は少なくない。技術面(や精神面)だけを取り上げて評価して欲しい場合は、よりニッチな純粋芸術寄りの道を歩むことになる。卓越した技術があれば、その手の人だけが相手をしてくれるようになるだろうし、そのうち評論家が現れて、誰もが分かる言葉で素晴らしさを説くだろう。

非純粋芸術である我々ヲタの場合は、当然の結論として、多くの人が下す感覚的な評価基準で作品を判断するのが最も普遍的で妥当だということになる。つまり、普通の人の「パッと見」というのが、多くの場合最も的確な評価なわけだ。もし過去に美術や音楽の先生から「第一印象が肝心だ」というようなことを言われていたら、こういう意味合いもあったのかもしれない。というわけで、これを読んでいるあなたの審美眼は、何も間違ってませんし、その判断は多くの作り手から期待されています。別に無理に何かを学ぼうとする必要もありません。ただし、技術を知ると全く異なる見方が手に入ります。少し、その辺に興味を持ってみませんか。

(47)

著作者 : 未識 魚
最終更新日 : 2007-01-24 22:55:01

ちゃいな

ちゃいな
初出コミティア62。偽チャイナドレス。

(44)

著作者 : 未識 魚
最終更新日 : 2010-05-22 03:09:25
  1. < PREV
  2. [1]
  3. [2]
  4. [3]
  5. .
  6. .
  7. .
  8. .
  9. .
  10. .
  11. .
  12. .
  13. .
  14. .
  15. .
  16. .
  17. .
  18. .
  19. .
  20. [19]
  21. [20]
  22. [21]
  23. [22]
  24. NEXT >


<TOP>

[ Copyright 1996-2018 Mishiki Sakana. Some Rights Reserved. ]