« 「成果で評価される働き方」「目標達成度に応じた報酬」とはなにか | トップページ | サッカーW杯とNHKとカネと »

2014/06/14

原発関連文書に「検索対策疑惑」持ち上がる

リンク: 原発関連文書に「検索対策疑惑」持ち上がる 「ロ」を「口」、「力」を「カ」に細工したのか : J-CASTニュース.

私自身もこの手の“事務作業”をすることがあるのでコメントしておく。
どこに問題があるのだろうか、ということである。

そもそもWeb(情報)公開をしたくない?

この記事によれば「東電」が画像ファイルで資料を配付したという。
私にはこの点が気になった。

後々、Webに載せるのが前提であれば、この行為自体が作為不作為はともかくとして「検索文字改竄の誘発」である。
東電の言い訳を先回りして予想するのであれば、「ハンコを押して認証した資料を配付する以上、画像(ハンコを押された文書面)としてスキャンし配布するしかない」というあたりであろう。

このような対策としては、1ページ目(表示含む)にしかハンコが押されないということを鑑みて、1ページ目のみをスキャンし、2ページ目からは書いたテキスト文書をPDF変換した書類とを合成することである。
またテキスト文章をあとから「流し込む」ことも可能である。
PCリテラシーの低い人だと、Wordなりで作った文書を全文印字して、上長に回覧を行い、それの全文書をスキャンしてマスコミ配布に回す、というのが精一杯なのだろう。
もちろん東電はなるべく公開されたくないし、ツールでのやや面倒な操作も必要になるわけで、手間も当然かかるからやらないのだろう。
アップする方も渡された書類をそのままアップするのが一番手間がかからない。

できるはずの技術的に可能な対策

しかしここで「一手間」かければ対策はできる。

一番良いのは情報提出側でテキストデータを含めて(PDF変換したデータ)提供することである。
そのテキストデータを流し込めば最低限のことにはなる。
しかし「黒塗りしたい」ぐらいの気持ちだろう提出側がそうしてくれるとは到底思えない。
そもそもそこの姿勢が問題なのだが。

それができないのならAcrobatにはOCR機能があり、テキスト埋め込みが可能なので、それでテキスト変換をして確認、修正をすることも技術的には可能である。
しかしロと口はともかくとして、力とカの区別を目で見てできるかといえば、それを強く意識していればともかくとして、私も自信がない。
最低限もう一度全文を見直す時間は必要だからとんでもない作業になる。

そこまでしなくても、最低でもそのページの「キーワード」(技術的にはMetaタグのKeyword)にキーワードとして頻出単語を含めることは可能であろう。
これは「ホームページにヒット数向上!」の類のテクニックとしては初歩の初歩として紹介されていることであり、本文にその単語がないのになぜか検索で引っ掛かる、というのはこれのおかげでもある。

検索エンジンでのOCRについて

画像ファイルをそのままアップロードされると、加えて検索エンジン側でOCRされた結果としてご認識されるという問題も指摘されているようだ、
この対策としては検索エンジン側での「辞書登録」という手法があるはずだ。
「原子力」という単語を辞書登録することによって「原子」のあとに続く言葉が「カ(カタカナのか)」ではなくて「力(ちから)」である確率が高いと判断させるのだ。
これは「ストロンチウム」のような言葉ではより適切に働く。
「スト」+「口(漢字の口」+「ンチウム」と判断するかどうかだが、「スト」の部分だけでは難しいが、「ンチウム」という単語は(当然辞書には)ないので辞書にある「ストロンチウム」にマッチングする方が適切であると言う判断だ。(辞書との最大一致、という昔からよく知られている考えだ)

もっとも例えば米国生まれのgoogleにそこまでのインテリジェンスがあるのかは不明だが、OCRの世界では辞書マッチングによる識別精度の向上は当然レベルである。
英語でも単語の辞書での判断は当然の様にやっているはずだ。
英文字は記号や大文字小文字を誤認識する確率は日本語よりも面倒で、その回避は辞書にあるかどうか、接頭語や接尾語なども含めて判断するのは当然だ。
OCRに限らない話で、いわゆる「スペルコレクト」であり、読み取れなかった脱字の可能性含めて修正されることすらある。

google日本語変換などで日本語辞書も溜め込んでいるはずのgoogleにおいてできないことではない。
検索結果で「もしかして」が出るのは辞書との照合である。

システム的な話をここまで並べたが、別に彼らを擁護しているつもりはない。

原子力ムラ自体がそもそも“遅れている”

原子力ムラ関連に多いというのは、それだけ原子力ムラ関連が「ひどく遅れている」ということの証左の一つであろう。
ハンコ主義、現物書類主義、ITリテラシーの遅れ(不足)、情報公開意識の低さ、これらが世間一般の常識からからどんどん離されていっているのである。
(もっとも原子力ムラだけではない。おそらく多くの日本企業、日本の行政機関、特殊法人、マスコミなどは大差ないのかもしれない)

例えば、一般人にとっては、公開されたある書類(文章)がどれだけ確からしいか、は、もはやその文章に責任者や担当のハンコが押されているかどうかなんかどうでもいいレベルまで落ちている。
そのURLがどこのものか、のほうがよっぽど重要なことである。
HTMLで直接打ち込まれている数字や文字であっても、その数値や文章へ責任はそれを作成した会社や団体、役所などにある。
その認証はどこにあるのか、といえば、公開するという操作をした人が認証したということになる筈である。
著作権も生じている一方で、文責も当然生じているのである。

法的にどうであるか、はまた別の問題ではある。
しかし法的問題と一般人の意識のかい離もまた、時代が変わると起きるのは当然のことでもある。

情報公開とはなんだろうか

一般サービスでは「アップロード=公開」という仕組みではあるが、別に担当がアップロードした時点ではまだ公開とはならず、上長の認証手続きで公開とするこ仕組みを作ることは容易である。

ブログなどでも「下書き」はアップロードはするが非公開であり、「公開する」で初めて公開状態になるのも似たようなものである。

そういう意識が拡がっている一方で、ハンコを押された文書を限定的(マスコミ等)に紙ベースで配布し(情報公開も紙だけ)、それを各記者が原稿に転記して一般国民に公開をする。
それを当然と思っているのでは、ということが問題の本質だと思う。

原発が始まった40年前ならそういう時代だったかもしれないが、今は違う。

生の情報(資料)を広く一般に広め、広く国民に了解して貰い、ものごとを進めることが必要なのだ。
現実として昔は無理だったが、今はそれができる環境がどんどん一般化していっている。
どんなにカネがなくても(新聞はとらず、テレビがなくても)、スマホは買っている(ネット環境は持っている)人が増えているのが現実なのだから。

Webでの情報公開はそもそも難しいのも事実

文書というのは検索エンジンで探すものでは無くて、玄関(トップページ)から入って見ていくべきである、という意識を持つサイトの管理者も少なくないだろう。
検索エンジンでかからないからといって問題視するのも私には100%は肯定できない。

少し前だが、“直リン”でURL(URI)が拡がったある文書が、サイトのアドレス(フォルダ)の移動によって見れなくなった=隠しではないか、という騒動があった。
拡がったから動かしてしまえ、だったのか、本当にたまたまサイトの改造を行っていたのかは分からない。
“直リン”は示すべきではないというのはインターネットでのある程度のマナーである、ということも言われている(いた?)のも事実である。

データをデータベースで持っておき、番号などのタグによってプログラムでページを生成して表示させているタイプのサイトも少なくない。
というかむしろホームページに力を入れている、ショッピング系などではむしろ普通である。
そういうところではプログラムのちょっとした変更で“直リン”が無効化するのは不思議なことでも何でも無い。
故意に変えようとは別にしないだろうが、もともとそのタグに意味づけは浅いので担当も気づかないで変えてしまっていることもあろう。

検索エンジンにあるが、サイトがない、という問題もこれが関係していることもある。

アクセシビリティ

話を進めればアクセシビリティの問題でもある。
Wikipediaの言葉では「高齢者・障害者を含む誰もが、さまざまな製品や建物やサービスなどを支障なく利用できるかどうか、あるいはその度合いをいう。」
ここの話では、そういうWebサイトなどのモノを作るべき、という考え方である。

元々の話で言えば「原子力やストロンチウムに関する情報」を欲した時に、そこに辿り着けるかということである。
基本的にはトップページからの深さや見やすさ、分類の妥当さ等も考慮されるのは当然であり、検索エンジンも含めた対応も求められる。
例えば結果として誤った検索キーワードになっていてそれが意図していないとしたらそれは論外である。
最近は「不作為」も問題になるが、それに類する問題であるとも言える。

一般にはそもそもPDFでWeb公開するという時点でレベルが低いと見なされる。
画像はさらにレベルが低くなる。
なぜかといえば障碍者には弱視や視力のない方も含まれ、対応としてブラウザ等による“読み上げ”がなされるからである。

もちろん多くの人にとっては画像の方が“一目で分かる”という利点もある。
読み上げのためには画像は単なる補助的な意味合いにして本文で説明しているとか、それをHTMLタグに埋め込んでいれば良いとされている。
画像タグには、その説明のための属性が用意されている。

PDFではそれが画像であっても、対応するテキストを埋め込む機能がある。
そもそもPDFはテキスト(docでもxlsでも普通に変換すれば、そのテキスト自体も含まれている。

編集不可にしているから、ということも記事では言及されていたが、それも変な話である。
改竄防止は別の話だし、そもそもPDFにもアクセシビリティという考えが存在する。
この顛末で問題となった「紙の書面を単にスキャンして掲載した」という一連の“作業”は、これらの配慮からは程遠いものである、ということである。

これらはなかなか評価されないし、評価が難しいこともある。
「どこまでやってもキリが無い」のも事実だし、これで遅れれば遅れたで文句を言われる。
しかしこれらは「(いわゆる)社会的弱者への配慮」であり、そういう人達を日頃からどこまで意識しているのか、という問題でもある。

これらは多かれ少なかれ、普通の企業・会社でもあることだし、一概に原発ムラだからとか隠蔽体質とかそういう言葉だけで括ってはいけないという面もある。
だからこそ「単なるミス」とかで括って欲しくはないのだ。

|

« 「成果で評価される働き方」「目標達成度に応じた報酬」とはなにか | トップページ | サッカーW杯とNHKとカネと »

「パソコン・インターネット」カテゴリの記事

「原発問題」カテゴリの記事

コメント

残念ながら、的外れなエントリーとなってしまっていますね。
遥かに単純ですよ、この件は。

http://onodekita.sblo.jp/article/99462431.html
http://saigaijyouhou.com/blog-entry-2774.html

投稿: | 2014/06/17 06:00

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/47063/59812610

この記事へのトラックバック一覧です: 原発関連文書に「検索対策疑惑」持ち上がる:

« 「成果で評価される働き方」「目標達成度に応じた報酬」とはなにか | トップページ | サッカーW杯とNHKとカネと »