MTサルベージ

| トラックバック(0)
MTから過去のブログ記事をサルベージする。
とはいってもSQLiteは死んでいるのでSQLでの作業は無理。。
ので、構築されたhtmlファイルから該当部分を取り出すという地味な作業。
手動でやってもいいけど、せっかくなのでPythonでやることに。

Python用のhtml purseモジュールのBeautifulSoapで喰らうとパースエラー。
下記のようなエラーが出る。
HTMLParser.HTMLParseError: malformed start tag, at line 13, column 78
ぐぐってみると、html5libがあるよということ。

html5lib - Google Code

ダウンロードしてC:\Python25\Libにhtml5libを突っ込む(めんどくさいから。。)。

すると今度は日本語の処理で詰まる。
いろいろと調べていると、unicodeはuft-8とはイコールではないと言うことですね。
unicodeはあくまで単なるバイトであって、それを表現するときにutf-8でエンコードするということですな。

参考にしたサイト:
PythonのUnicodeEncodeErrorを知る - HDEラボ

Universal Encoding Detector
これはいい!!

トラックバック(0)

トラックバックURL: http://www.flotsam-fareast.com/mt425/mt-tb.cgi/2