NET/日経新聞電子版
の編集
https://over.6pb.info/wiki/?&e1d93f247e
[
トップ
] [
編集
|
差分
|
履歴
|
添付
|
リロード
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
-- 雛形とするページ --
(no template pages)
***「ワードロボ」 [#wordrobo] -前提整理。記事には幾つかキーワードが付いている(「関連キーワード」)。「関連キーワード」を通じて関連記事を見ることができる。キーワードによるリンクであるから,記事から記事へと直接移動する「関連記事」類とは違い,「ワードロボ」という名の専用のシステムを経由する。 -「ワードロボ」で開いた記事からさらに「関連記事」のリンクをたどって次から次へと芋づる式に記事を移動していく,ことはできない。「ワードロボ」で開いた記事には関連記事が全く付いていないのである。これは意外と不便だし,前述の芋づるの理想にも反する。(なお,「ワードロボ」で開いた記事にも「関連キーワード」は付いているので,それを引いて再びワードロボに出ることはできる。しかし依然としてワードロボの中に閉じ込められている。)「ワードロボ」プログラムの独立性が強く,他のリンク生成プログラムが入り込めないのだと推測する。 ワードロボは,キーワードによって,その場で全文検索する仕掛けのようだ。最初はもっと賢いものかと思ったが……。各記事にはエディターによって事前にキーワードが付与されているが,そのキーワード同士の一致を見ているのではない。エディターは記事に付けるキーワードを決めているが,その先は全文検索プログラムに委ねられている,と思われる。そして((「しかも」と書きたいのをぼかした。本当は,二重に馬鹿ということである。)),字句の一部分にマッチして,不適切な記事が一覧に出てくることもしばしばある。「ローランド」で引いて本文に「トゥモローランド」を含む(だがキーワードには「ローランド」を部分的にも含まない)記事が出てくる,「PER」で引いて本文に「Super Charger」を含む(だがキーワードには含まない)記事が出てくる,の類。基本的にはかなり平凡な部分一致検索。その上で,不適切なヒットを抑制する仕組みも入っているのかもしれないが,逆にそれが不適切な取りこぼしも生んでいる気配がある。 -記事検索と同じ制約を受ける。[[後述>#zuhyotext]]するように,図表(特に表)の中の文字は検索対象になっていない。「%%%ウチの会社の名前は日経に出てない%%%」は早合点のことが多い。 -どういうキーワードを付けておけば,将来,その記事に対して読者を過不足なく誘導できるか(インバウンド),ではなく,その記事を見た人がどういう言葉で関連記事をたぐりたい(検索したい)と思うかを,エディターが察する(手助けする)仕組み(アウトバウンド)。実は,記事検索で検索範囲をキーワードに限定して検索することができる。(実際,額面通りに動いているようだ。本文の同じ記事でもキーワードに違いがあれば,検索の結果が的確に異なる。)おそらくキーワードはインバウンド用に付けているのだろう。それをワードロボ(アウトバウンド)に転用するのは悪いアイデアではない。問題はインバウンドまたはアウトバウンドに合った方針で安定してキーワードが付与されているかだ。なお,図表の中のテキストはそもそも全文検索でも引けない(前述)。検索して「ウチの社名は日経に出ていない」は早合点になる。 -インバウンドのキーワードはどのようなものでなければならないか。例えば,「社長」というキーワードが付いている記事がしばしばある。全文検索で機械的に「社長」を引いた結果を,エディターが内容を踏まえ個別に付けた「社長」で絞り込む意味がある。エディターが事前審査してくれているのである。つまり,全文に「社長」を含む記事の内,特にキーワードに「社長」を付けるに相応しい記事,例えば社長の個性に着目した記事等にのみ,統一的・継続的・安定的に熟練のエディターが「社長」を付けているのでなければ,「社長」というキーワードを敢えて付ける意味はない。――若干話が抽象的だな。そこでまず固有名詞を例に考えてみる。~ 前述の「ローランド」で考えると,「トゥモローランド」等から「ローランド」が確実に区別されていると言えるためには,単に「トゥモローランド」等に間違って「ローランド」が付与されて''いない''だけでは足りず,正しい「ローランド」の全てに一つも漏れもなく「ローランド」が付与されている必要がある。漏れのおそれがあればあるほど,結局全文検索せざるを得ず,キーワード「ローランド」の意味がなくなるからである。これを全ての固有名詞に確実に行うのは気が遠くなる。しかし「社長」はさらに困難である。抽象語だから。正しい「社長」の全てに一つも漏れもなく「社長」を付与することは単に不可能である。ここではっきりしたことは,インバウンド型ではエディターに非常に高い能力が求められる(人件費がかかる)ということである。その裏返しだが,アウトバウンド用途で付けたキーワードをインバウンドに転用することはできない。性格が違うからである。この後,少し実例を挙げるが,現場は迷走しているようだ。 --直近1年で見ると,本文に「社長」を含む記事は24,116件,キーワードに「社長」を含む記事は3,783件。数的には16%に絞り込まれている。では質が伴っているか。 -でもアウトバウンド型なら適当でよいわけではない。例えば,組み込みOSで高い世界シェアを持つ「T―カーネル」が8年ぶりに刷新されたという記事(2010年12月 8日朝刊)に付いているキーワードは「デジタル家電」だけだった(「朝刊・夕刊」)。ワードロボのキーワードは,この記事を見た人がどういう言葉で関連記事をたぐりたいと思うかを,エディターが察する(手助けする)ものである。この記事の「朝刊・夕刊」と電子版に付けられたキーワードを比べてみよう。 |「朝刊・夕刊」|デジタル家電| |2010/12/7 22:43電子版|坂村健、OS、デジタル家電、組み込みOS、エンジンフォーラム、搭載OS、ダウンロード、トロン、組み込み基本、フォーラム、自動車エンジン| 足りないのも,過剰なのも,エディターがワードロボの仕組み・特徴を適切に把握していないことを示唆する。この記事の「フォーラム」は固有名詞の一部であり,「○×フォーラムを開催した」のような文脈ではないので,この記事から一般名詞「フォーラム」をたぐって他の記事に行きたい人がいるとは思えないし(アウトバウンド),全文検索「フォーラム」から特に「フォーラム」で絞り込む対象(「フォーラム」一語が著名な固有名詞ならそういう場面が考えられる)でもない(インバウンド)。また,「エンジンフォーラム」は記事冒頭の自動車エンジンに引きずられたのだろう。T―エンジンフォーラムは固有名詞(会社名の類)であり,「エンジンフォーラム」では全く意味をなさない。知識が全然なくても文章を読めば十分分かる。「フォーラム」を一般名詞や著名な固有名詞と誤解する等のこれらの間違いは,文章から固有名詞を的確に抜き出す能力がエディターに欠けているためである。また,「組み込み基本」は分かち書きの時事用語辞書((エディターの頭の中にあるそれ))が「Google日本語入力」以下であることを示唆する。もっと言えば,T―カーネルという商品名が抜けているのはアウトバウンドとして失格だろう。たとえその語が紙面に出たのが8年ぶりであっても。そもそもエディターは各分野の専門家ではないから8年ぶりかどうか分からないのが普通だ。エディターの専門性は内容ではなく日本語処理である。もっと言えば,固有名詞の形態素解析である。商品名をずばり取出す能力はその最右翼だろう。日経新聞の記事の文章は日本語として質が高いので,そこから商品名を取り出す能力は,内容が専門外であっても,それほど高くなくてよいはず。……この記事の例から言えることは,インバウンドとしてはエディターの能力が不足しており(人事ミス),アウトバウンドとしても的を外している。方針が定まっていないのである。 --「日本経済新聞社とテレビ愛知は13日、日本経済新聞の名古屋印刷30周年を記念し、……」という記事(2010/12/13 21:26)に「名古屋印刷」というキーワードが付いていた。エディターは会社名と思ったのだろう。 -「優秀で信頼できる記者を育てるには時間もコストもかかる」と岡田直敏氏(日本経済新聞社常務取締役)は言う((シンポジウム「デジタル時代の文字・活字文化」2010/12/27付日本経済新聞 朝刊))。だが,電子版の現状を見ると,今後顕在化していく問題はエディターの力量不足とのアンバランスではないか。 --安定してキーワードが付与されているかは怪しい。例えば,経済教室 やさしい経済学 金融契約の歴史に学ぶ(名古屋市立大学准教授 横山和輝)の実績は以下の通り。 |回|キーワード|h |1|横山和輝、金融システム| |2|横山和輝、金融契約、やさしい経済学| |3|横山和輝、明石茂生、服部恵、武士の家計簿、札差| |4|横山和輝、金融契約、やさしい経済学| |5|台湾銀行、田中義一、日銀、金融恐慌| |6|日銀、金融契約、やさしい経済学| |7|金融契約、やさしい経済学| なお,横山先生のこの論考は非常に面白い。 --同じく,経済教室 やさしい経済学 空間経済学への招待(大阪大学准教授 佐藤泰裕) |1|佐藤泰裕、空間経済学、大阪大学、EU| |2|佐藤泰裕、生産要素、空間経済学、貿易理論| |3|佐藤泰裕、大阪大学、空間経済学| |4|空間経済学、産業集積、アウトソーシング| |5|佐藤泰裕、空間経済学、大阪大学、集積| |6|なし| |7|佐藤泰裕、OECD| |8|佐藤泰裕、空間経済学、横山和輝、大阪大学| --同じく,経済教室 やさしい経済学 企業の生産性と国際化戦略(京都大学准教授 神事直人) |1|なし| |2|神事直人、若杉隆平、京都大学| |3|神事直人、ハーバード大学、京都大学、経済学| |4|神事直人、メリッツモデル、輸出、直接投資| |5|神事直人、京都大学| |6|アウトソーシング、メリッツモデル| |7|輸出企業、アウトソーシング、直接投資、多国籍企業、やさしい経済学| |8|メリッツモデル、TPP、多国籍企業| -悪口ばかりでは悪いので,広めのマッチがうまく機能した例を紹介しておく。「テロ捜査情報、人気アニメ装い拡散」という記事(2010年11月27日朝刊)のキーワードは, |「朝刊・夕刊」|捜査情報流出、ファイル共有ソフト、警視庁、ウィニー、シェア、パーフェクトダーク| |2010/11/27 2:00電子版|インターネット、ファイル共有、杉浦隆幸、パーフェクトダーク、捜査情報、人気アニメ、けいおん!!、警視庁、ファイル、テロ捜査、内部資料、ITセキュリティー、国際テロ、DVD、テレビアニメ、再公開| となっており,キーワード「けいおん!!」は電子版にしか付いていない。では,電子版からキーワード「けいおん!!」を引くと,紙面は出てこないのだろうか?否。出てくる。ちなみに,「けいおん!」が日経本紙に載ったのは今回が4回目。 --記事検索「けいおん!」は「けいおん!!」にもマッチするが,逆はマッチしない。ワードロボは不明。
タイムスタンプを変更しない
___paraedit_taxtarea___
テキスト整形のルールを表示する