日記のデータを、腐れ独自テキスト形式から、やや真っ当な XML にしてみようと決心してみた。単に、日記に見出しを付けてみたかっただけなような気もする。
XMLで日本語扱うとなると UTF-8 しか選択肢ないノカー。格納ファイルサイズ 3/2 倍になるやんけー、って、どうでもいいかそんなのは。普段使ってるエディタやビューワがまともに UTF-8 に対応してないってのが最大の問題だな。さらりと変えてみるつもりで、幾つか弱めの障害にぶち当たる。
- この腐れ emacs(暴言)めっ! set-buffer-file-coding-system で UTF-8 に変えられてるのに、何故保存すると勝手に iso-2022-jp になるのじゃ!
- lv って行スクロールがむっちゃくちゃ遅ぇっ!
- xml parser って、当たり前ながら文法にキビシー!
- 最近の秀丸って BOM 付けるようになったんだなぁ。
- オブジェクトバリバリで書いたら当社比 1.5倍くらい重くなったぞ!
- 昔の日記内の HTML かなりヒデェよ! 内容もな!
無事 emacs で UTF-8 の読み書きが出来るようになったり、lv やめて lesspipe 書き直して nkf と less を組み合わせることにしたり、過去のデータを一括変換するスクリプト書いたらかなり HTML の間違いを見つけて鬱になったりしたわけですが、emacs 21 の UTF-8 対応で一番役立ったのは Linux JF。しかし emacs コミュニティってかなり停滞 & 荒廃してきてるような……。クワバラクワバラ。
で、無事XML化してみる。あー、イベントドリブンでツリー型のデータ形式を読みほぐしていくというのがちょっと新鮮。そして面白い。でも当たり前ながらやっぱりパーサ使った後は泥臭く書くしかなくて、とっても「半構造化」だなぁ、と思う今日この頃。
しかし、XML に関連するキーワードで検索すると、「純粋なバカを誑かして金をむしろうとするちょっと利口なバカ」な商売人ばかり引っかかるような気がするようなしないようなごにょごにょ。
ついでに各テキストにジャンルという要素も隠し持たせてみてザッと分類してみたら、ほとんどヲタネタ書いてないなぁ俺。これじゃまるで、俺がヲタクじゃなくて デムパな 情報社会学系の人間みたいじゃないか。
著作者 : 未識 魚
最終更新日 : 2006-09-26 17:58:49