圧縮新聞というコンテンツ

インターネット

新聞

 圧縮新聞というコンテンツがはてなブックマークの人気コンテンツに入っていました。こちらのサイト(圧縮新聞)で公開されています。

 読んでみると、1ページにいくつかの段落があります。最初はこの段落ごとに一つの新聞記事なのかと思いましたが、実際に目を通していくと、段落の中にもいくつかの記事が圧縮されているようです。


 さすがに一つの文章は一つの新聞記事の一部なのかと思い、もう一度丁寧に読んでみると、一つの文章ですら、いくつかの新聞記事が圧縮されてしまっているようです。従って、文章を理解しようとしてもダメです。文章の中に入っているキーワードから元の記事を想像してみる努力が必要になります。

 また、記事はリロードすると、また新しい文書が出てきます。もちろん、新しく出てきた文書もまたいくつかの記事が圧縮された文書になっています。

 このサイト、どんな仕組みで作られているのかを調べてみました。すると、このコンテンツを作った方の紹介記事を見つけました。こちら(「圧縮新聞」を作った – phaのニート日記)で公開されています。

 形態素解析、マルコフ連鎖といった難しい言葉が出てきます。下記の本を参考にしてこの圧縮新聞というコンテンツを作られたそうです。

 何となくおもしろそうです。インターネット上には色々な文書情報が公開されているので、これらの文書を集め加工していくことで、何かおもしろそうなことができそうな気がします。

コメント