takumi296's diary

技術士・匠習作の考へるヒント

文章診断-2

おはようございます。

今朝、3人分の添削を終了させました。

試験対策が遅れ気味の方はこのGWが挽回の時です。GWくらいのんびりしたいと考えているかもしれませんが、今年は諦めて下さい。

さて、あまり深く考えずに投稿した文章診断ですが、好評でした。

logoon.org

 そこで、今回は実験をしてみたいと思います。ただし、そのまえにこの文章診断はいかなるものであるのか、ロゴーンのサイトにその説明がありましたので、要約します。

1:文体診断ロゴーンについて
 診断では、文章の区切りは句読点だけで判断しています。また、文章が短かすぎる場合や、極度にくだけている場合は診断の信頼性が低い場合があります。目安として、適切な診断には、文体の一致指数の最大値が50以上であることが必要だと考えています。
 
2:使用したテキストについて
 テキストは64名の著者から各1作品を選びました。こちらにテキストの一覧をまとめてあります。著者の先生には、テキストを使用させていただいたこと、深く感謝いたします。

3:診断の方法について
 文体診断ロゴーンは、まず、入力された文章を形態素解析し、そこから得られた形態素数の情報と、文の長さに関する情報を10項目の得点にまとめます。そして、それらの得点を使って、文体の一致指数や文章評価を導き出すという流れで診断を行っています。
 10項目の得点についてですが、平均文長と平均句読点間隔は、文章の総字数をそれぞれ句点数と句読点数で割ったものです。

4:文体の一致指数について
 文体診断ロゴーンは、得点詳細に記された10項目の偏差値(ss)を用いて一致指数の計算を行います。
 ある著者(a)とあなた(b)との一致指数(CI)の計算式は次の通りです。CI=100-10*Σ(|ss[a,i]-ss[b,i]|/40) for i=1 to 10. これによると、一致指数は100点満点からの減点法で計算されています。今回の計算では各項目の重みを1としましたが、今後は、同一著者のテキスト同士の一致指数ができるだけ高くなるように、重みを最適化していく予定です。
 なお偏差値は、64著者のテキストを標本に、平均50、標準偏差10となるようにして計算しています。

5:文章評価について
 文章の読みやすさは、平均文長と平均句読点間隔を用いて評価しました。一文が短いほど評価が高くなっています。
 また、文章の硬さは、ひらがな出現率をもとに評価しました。平均に近いほど評価が高くなっています。
 文章の表現力は、異なり形態素比率により評価しました。比率が高いほど評価が高くなっています。
 文章の個性は、ss[a,i]=50としたときのCIを基準に評価しました。CIが低い、つまり平均から離れているほど個性的であると評価しています。
 評価は、AからEまでの5段階評価、評価分布は各20%ずつとなっています。
 

 

 ここから、実験です。

 夏目漱石は「それから」、森鴎外は「ヰタ・セクスアリス」がサンプリングされています。今回は、漱石の「草枕」冒頭部分と、森鴎外阿部一族」の一部を診断してみました。

 まずは、漱石です。難しい漢字はひらがなに変更しました。しかし、それが評価に影響したようです。

 山路を登りながら、こう考えた。
 智に働けば角が立つ。情に棹させば流される。意地を通せば窮屈だ。とかくに人の世は住みにくい。
 住みにくさが高じると、安い所へ引き越したくなる。どこへ越しても住みにくいと悟った時、詩が生れて、画が出来る。
 人の世を作ったものは神でもなければ鬼でもない。やはり向う三軒両隣りにちらちらするただの人である。ただの人が作った人の世が住みにくいからとて、越す国はあるまい。あれば人でなしの国へ行くばかりだ。人でなしの国は人の世よりもなお住みにくかろう。
 越す事のならぬ世が住みにくければ、住みにくい所をどれほどか、寛容て、束の間の命を、束の間でも住みよくせねばならぬ。ここに詩人という天職が出来て、ここに画家という使命が降る。あらゆる芸術の士は人の世を長閑にし、人の心を豊かにするが故に尊とい。
 住みにくき世から、住みにくき煩いを引き抜いて、ありがたい世界をまのあたりに写すのが詩である、画《え》である。あるは音楽と彫刻である。こまかに云えば写さないでもよい。ただまのあたりに見れば、そこに詩も生き、歌も湧《わ》く。着想を紙に落さぬともきゅうそうの音は胸裏に起る。丹青は画架に向って塗抹せんでも五彩の絢爛は自から心眼に映る。ただおのが住む世を、かく観じ得て、れいだいほうすんのカメラにぎょうきこんだくの俗界を清くうららかに収め得うれば足る。この故に無声の詩人には一句なく、無色の画家にはせっけんなきも、かく人世を観じ得るの点において、かく煩悩を解脱するの点において、かく清浄界に出入し得るの点において、またこの不同不二の乾坤を建立し得るの点において、我利私慾のきはんをそうとうするの点において、――千金の子よりも、万乗の君よりも、あらゆる俗界の寵児よりも幸福である。

青空文庫・新字新かなより

 

 有名な書き出し部分ですが、ロゴーンの評価は以下です。

f:id:takumi296:20150503041008j:plain

 

 サンプルの中に漱石も入っているのですから、漱石が出てきてもよいと思うのですが、なぜか鴎外でした。「草枕」は特殊な文章だからでしょうか。

 次は、鴎外です。「阿部一族」の一部分、主君の後を追って追い腹を切る長十郎が家族と最後の食事を過ごすシーンです。以前、このブログでも紹介しましたが、私は名文だと思っています。

 四月十七日の朝、長十郎は衣服を改めて母の前に出て、はじめて殉死のことを明かして暇乞いをした。母は少しも驚かなかった。それは互いに口に出しては言わぬが、きょうは倅が切腹する日だと、母もとうから思っていたからである。もし切腹しないとでも言ったら、母はさぞ驚いたことであろう。
 母はまだもらったばかりのよめが勝手にいたのをその席へ呼んでただ支度が出来たかと問うた。よめはすぐに起って、勝手からかねて用意してあった杯盤を自身に運んで出た。よめも母と同じように、夫がきょう切腹するということをとうから知っていた。髪を綺麗に撫でつけて、よい分のふだん着に着換えている。母もよめも改まった、真面目な顔をしているのは同じことであるが、ただよめの目の縁が赤くなっているので、勝手にいたとき泣いたことがわかる。杯盤が出ると、長十郎は弟左平次を呼んだ。
 四人は黙って杯を取り交わした。杯が一順したとき母が言った。
「長十郎や。お前の好きな酒じゃ。少し過してはどうじゃな」
「ほんにそうでござりまするな」と言って、長十郎は微笑を含んで、心地よげに杯を重ねた。
 しばらくして長十郎が母に言った。「よい心持ちに酔いました。先日からかれこれと心づかいをいたしましたせいか、いつもより酒が利いたようでござります。ご免をこうむってちょっと一休みいたしましょう」
 こう言って長十郎は起って居間にはいったが、すぐに部屋の真ん中に転がって、鼾《いびき》をかきだした。女房があとからそっとはいって枕を出して当てさせたとき、長十郎は「ううん」とうなって寝返りをしただけで、また鼾をかき続けている。女房はじっと夫の顔を見ていたが、たちまちあわてたように起って部屋へ往った。泣いてはならぬと思ったのである。
 家はひっそりとしている。ちょうど主人の決心を母と妻とが言わずに知っていたように、家来も女中も知っていたので、勝手からも厩の方からも笑い声なぞは聞こえない。
 母は母の部屋に、よめはよめの部屋に、弟は弟の部屋に、じっと物を思っている。主人は居間で鼾をかいて寝ている。あけ放ってある居間の窓には、下に風鈴をつけたつりしのぶが吊ってある。その風鈴が折り折り思い出したようにかすかに鳴る。その下には丈の高い石の頂を掘りくぼめた手水鉢がある。その上に伏せてある捲物の柄杓に、やんまが一疋止まって、羽を山形に垂れて動かずにいる。

結果は、以下のとおり。

f:id:takumi296:20150503041437j:plain

 

 鴎外との一致指数が高いのは当然ですが、文章が軟らかすぎるようです。ちなみに、こちらは難しい漢字をひらがなに変更していません。

 確かに、ざっと眺めても漱石の方が漢字は多いようです。というより、一部を平かなに変更してもまだ多い訳ですが、これくらい漢字を入れないと高評価にはならないと言うことに少し驚きました。

 私は、以前漢字を多く使う方だったのですが、技術士になってから文部科学省の指針や、テクニカルライティング協会のガイドラインに従うようになったので、漢字の使用量は減っています。

 文章の評価は難しいものですが、このような素晴らしいプログロムの今後の進化に期待したいと思います。ですから、今回の実験は、冷やかしではありません、そこは誤解しないで下さい。おそらく、今後も色々試すと思いますが、あくまで「これはどうなるのだろう」と言う好奇心からです。