NET/www
の編集
https://over.6pb.info/wiki/?NET/www
[
トップ
] [
編集
|
差分
|
履歴
|
添付
|
リロード
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
-- 雛形とするページ --
(no template pages)
**問題の所在 [#gc917e97] NHKのウェブページをWeb::Scraperで取得して加工することがよくある。一つ難があり,文字化けすることがある。原因は,NHKはページの文字コードを「Shift_JIS」と名乗っているのに,実際には,Shift_JISから外れた「Windows機種依存文字」を偶に(必要に応じて?)使っているため。例えば「山﨑努」。固有名詞という理由(大義名分)だろうか。 -気付いたのは,明日(執筆は2010年7月25日)の衛星映画劇場「地の涯に生きるもの」。昨日の朝日新聞土曜版「サザエさんをさがして 知床旅情」にこの映画のことが出ている。 こうした文字はShift_JISではなく「cp932」等と呼ばれる文字コードなら(一応)許される。しかし,ページが名乗っている文字コード名をそのまま受け入れるソフトウェア(Web::Scraperもその一つ)は,Shift_JISにない機種依存文字であり,未定義文字だと理解して,1バイト目を「置換文字」(U+FFFD)に変換してしまう。(2バイト目は半角カナなどに変換される。)そのため,人間にとっては文字化けする。 -U+FFFDが画面上どのように見えるかは状況次第。?と表示されることもあれば,\x{fffd}と表示されることもある。
タイムスタンプを変更しない
___paraedit_taxtarea___
テキスト整形のルールを表示する