NET/www
の編集
https://over.6pb.info/wiki/?NET/www
[
トップ
] [
編集
|
差分
|
履歴
|
添付
|
リロード
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
-- 雛形とするページ --
(no template pages)
***補足 [#a4f96ba7] \x{fffd}という文字列に変換されるのは,画面等への出力時(encode時)。Web::Scraperは「﨑」をU+FFFDとU+FF71の2文字へ成功裏に変換する。その後,Encode:encodeやbinmodeなどがShift_JISまたはcp932に変換する際に\x{fffd}に変換する。 -Web::ScraperやLWP::Simpleなどのお任せツールは,自動的に内部表現(Unicode)にdecodeしてくれる。 Web::Scraperの挙動は正しい仕様であり,おかしなことをしているのはあくまでもNHKである。しかし現実問題として情報が失われている。世の多くのブラウザーは「Shift_JIS」と「cp932」を厳密に区別しない((正確には,波ダッシュ問題に見るように,首尾一貫しない解釈をする。))。善し悪しはいわゆる波ダッシュ問題としても議論されている。さて,波ダッシュ問題は意味的に別の文字になってしまう,だが一定の法則があるので元の文字を推測できる((この限りでは首尾一貫している。))。これに対し,今回の問題は元の文字が何だか分からなくなってしまう。より深刻と言えば深刻。
タイムスタンプを変更しない
___paraedit_taxtarea___
テキスト整形のルールを表示する