様々な業界でビッグ・データが数年前からキーワードとなっていますが、医療においても例外ではなく、国の施策でも各所で開かれるセミナーでもまた企業の取組でも頻繁に聞かれるようになっています。
日本で医療ビッグ・データというと、ほぼその代名詞的に使われるのが医療保険加入者のデータ、すなわち病歴・診療歴です。既に日立製作所(英国NHSと協働)、富士通(グループ社員10万人の健康保険組合データ活用で糖尿病予防)などが取組始めています。
しかし、このようなスタティック(静的)な文字・数値情報だけでは、それが何十万人あるいは何千万人分の数十年分のものであっても、テラでもペタでもなくエクサバイトのオーダーになってきているビッグ・データの世界ではスモールデータです。
画像診断データを加えてもオーダー的には大して増えません。ただしゲノム情報が入ってくるとスタティックでもかなりオーダーは上がります。
私見ではありますが、医療ビッグ・データがもちろんアナリティクスと相俟って威力を発揮するのは、時刻歴的により高頻度で連続計測されたタイムヒストリーデータ、しかも複数のバイタル(生体情報)を対象として扱うことでしょう。
ある案件で長期(年単位)で複数のバイタル(血圧など)を連続計測(たとえば1秒間隔)で計測したデータセットを分析したところ、従来考えられなかった「傾向」(因果関係ではない)が浮かび上がってきたとある大学教授からうかがいました。
このような帰納的なアプローチができるのもビッグ・データの威力ですが、仮に10億人の100種類のバイタルを1秒間隔で50年間記録すると、仮に1データポイントを1バイトとすると1,577,880,000,000,000,000,000バイト、すなわち約1.6ゼタバイト(ゼタは10の21乗でエクサの1,000倍、エクサはペタの1,000倍、ペタはテラの1,000倍)となります。
なぜ複数のバイタルを同時計測することが必要かというと、多くの疾病は複数のバイタルの変化に現れるからです。
これらのことは理論的には正しくとも、昨今顕在化してきたセンシング技術の進歩(ウェアラブル等も含む)とアナリティクスの高度化、それにデータ伝送およびストレージの日進月歩の性能向上によって初めて現実味を帯びてきたものですが、問題はつまるところどう活かすかですね。
日本でも米国でも現実には診療データの「サイロ化」が言われています。
個々の病院には電子カルテやDPCデータなど、個人の診療記録の膨大なデータがあるのですが、技術的な問題や個人情報の問題もあり、それを病院をまたいで用いることができない状態です。
なので、まだまだ医療の世界には「ビッグデータ」と呼ぶに値するものが存在しないのが現状でしょう。