読者です 読者をやめる 読者になる 読者になる

大学アドミニストレーターを目指す大学職員のブログ

高等教育関連の話題が中心。最近は補助金やIR、SDの話題が中心です

中規模小規模大学にビッグデータはあるのか

 このブログでは何回もIRを主題とした記事を出しており、職員・分析・ツール等について触れてきました。今回もIRを論じるうえで必要なデータについて考えてみます。

 

 近年、様々な企業からIRシステムの売り込みが多いように思います。まあIRシステムですと学内予算やら補助金等申請を見据えてという事があるのかもしれません。しかしIRシステムといっても、名称を変えただけの従来の教学システムである例もあるようですが、ビジネスインテリジェンスツールサーベイシステムが多いのではないでしょうか。

 売り込み文句に「これからはビッグデータ時代です!」というのもあるのですが、これを聞くと所属規模が所持するデータはビッグデータなのだろうかと疑問が生じています。(以前に参加したある小規模大学のIR担当者の方も同じような疑問を持っていらっしゃいました)確かに世間ではビッグデータという言葉やよく聞きますし、TEDでもビッグデータについて面白い発表があります。

www.ted.com

 

 そこでまずはビッグデータとは何かの定義を整理してみましょう。

例えば総務省の定義です。平成24年度の情報通信白書には量的側面と質的側面があるとし、次のように述べられています。

総務省|平成24年版 情報通信白書

量的側面については(略)「ビッグデータは、典型的なデータベースソフトウェアが把握し、蓄積し、運用し、分析できる能力を超えたサイズのデータを指す。この定義は、意図的に主観的な定義であり、ビッグデータとされるためにどの程度大きいデータベースである必要があるかについて流動的な定義に立脚している。…中略…ビッグデータは、多くの部門において、数十テラバイトから数ペタバイト(a few dozen terabytes to multiple petabytes)の範囲に及ぶだろう。」との見方がある。(略)次に、その質的側面についてみると、第一に、ビッグデータを構成するデータの出所が多様である点を特徴として挙げることができる。

また、HITACHIは次のようにまとめています。

ビッグデータへの道 第1回「ビッグデータとは」:ビッグデータ:日立

ビッグデータとはインターネットの普及とIT技術の進化によって生まれた、これまで企業が扱ってきた以上に、より大容量かつ多様なデータを扱う新たな仕組みを表すもので、その特性は量、頻度(更新速度)、多様性(データの種類)によって表される。」

  量だけではなく、更新速度やデータの多様性もあるのがビッグデータの特性としているのは非常に興味深い説明です。

 

 さてまずはデータの大きさについておさらいをします。ビッグデータは数十テラバイトから数ペタバイトと定義にありましたが、単位は次のようになります。

Byte(バイト)→KB(キロバイト)→MB(メガバイト)→GB(ギガバイト)→TB(テラバイト)→PB(ペタバイト)(この上にもありますが、今回は割愛します)

 国際基準では1KBは1000バイト、1MBは1000KB、1GBは1000MB、1TBは1000GB、1TBは1000TBとして考えてみましょう。(慣用では、例えば1MBを1024KBとしている事もあります)GBやTBまでは皆さんがパソコンを購入する際によく目にする単位ではないでしょうか。また外付けHDDやNAS(Network Attached Storage)は2~3TBは普通かもしれません。また1PBは、どのぐらいの文字情報なのでしょうか。上記を計算すると1,000,000,000,000,000 Byte(1,000兆)となります。1Byteは半角1文字、2Byteは全角1字ですので、全角500兆字となります。A4で文字サイズ10.5のワードの文章にすると約3,472,222ページですね。現実としてワードではファイルの大きさの上限が決まっているので、このようなデータはありえませんが、とんでもない大きさという事です。

 それでは大学ではどうでしょうか。まず大学にはどのようなデータがあるかという事ですが、学籍データや教学データなど様々な種類のデータがあります。しかし例えば6000人規模の中規模の大学であっても、諸所のデータを集約しても1TBまであるのかは甚だ疑問です(皆さんの大学では、どれぐらいのサーバーでシステムを運用しているかを調べてみるといいかもしれません)また例えばエクセルやアクセス等で管理できないデータ量でしょうか?私の所属機関を考えてみると、答えは「No」です。もしかすると全卒業生の全てのデータ、今後動画等を活用した反転授業などが全学で行うのであれば状況は変わるかもしませんが、現時点では社会の潮流にのって大学のデータは中規模小規模大学ではビッグデータであると主張はできないと思います。(日本大学東海大学のような超マンモス大学は状況は違うでしょうし、アメリカのように(コンソーシアム等で)データ共有化をするのであればビッグデータになるかもしれません。)

 

なお、ビッグデータの対義語を調べてみると、「スモールデータ」という定義もあるようです。いくつか検索すると出てきますが、小さいデータという意ではないですね。

スモールデータや外部データから始める | NTTデータ先端技術株式会社

 

広告を非表示にする