圧縮効率で著者推定を行うという方法論

| コメント(0)


パッと見で「お前は何を言ってるんだ」的状況が脳内を駆け巡ったけれど、一瞬後に「その発想は無かったわ」的にコロンブスが卵を1ダースまとめてテーブル上に割り倒す状況が頭に思い浮かばれた。該当する論文自身も見つかって、ネタやフェイクの類でないことも確認。

で、これって仕組みとしては、同じ筆者の場合、言い回しの癖や表現方法、定型文的な単語の並びとか、どうしても近似的な部分が出て来るので、それらがまとまるために、法則性の無い別々の論文を圧縮するよりも効率が高くなるというもの。

まったく同じ方法論では無いけれど、実はこの考え、SEO(サーチエンジン対策)の一環のウェブサービスなどですでに実現している。数年前から展開されているロジックの一つ、いわゆる「パンダアップデート」におけるペナルティのひとつに「重複コンテンツ」ってのがある。要はコピペやそれに類するものは「お前、コピーしてインチキしてるだろ、だからペナ」って判定をしてしまうもの。まぁ実際には海外はともかく日本では、ネイバーまとめやまとめ系サイトをはじめとしたまとめサイトが優遇されている状況を見るに、少なくとも日本語ではうまく判定がなされていないか、あるいは以下略。

で、その対策......というかペナルティを受けないようにするための方法論の一つとして、任意のページを指定すると、どの程度文面が似通っているかを判断してくれるツールやウェブサービスが存在する。結局、文面が似ていれば同一の書き手によるコピペと判断されうるってあたり、この「圧縮効率が高ければ同じ書き手のものっぽい」ってのと、考え方はほぼ一致している感があるのだよね。

また先日、某大学で「提出されたレポートの多くがコピペだったのでアウト」ってのも多分にコピーを精査するツールが使われているっぽい(【東大発事案・あるレポートの約3/4がネット上からのコピペと発覚、不正判定で単位無効に】)。

まぁ、世の中得てしてこんなもの。人の考えていることに大きな違いは無い。

関連記事             

コメントする

            
Powered by Movable Type 4.27-ja
Garbagenews.com

この記事について

このページは、不破雷蔵が2015年7月26日 06:17に書いた記事です。

ひとつ前の記事は「自分の趣味趣向がいつの間にかコレクションになってしまう、そして靴箱と本棚の話」です。

次の記事は「仕事で2回しくじった=2敗、でも勝利のカウントは何に対してもできるヨ」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

* * * * * * * * * * * * * *


2021年6月

    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30