Column内視鏡AI「食道癌診断AIの開発と動画を用いた検証」から見えてきたAIの利用シーンと実用化への展望・課題2022/09/05

「食道癌診断AIの開発と動画を用いた検証」から見えてきたAIの利用シーンと実用化への展望・課題

目次

今回は、2021年11月に行われたJDDW 2021 KOBE(第29回 日本消化器関連学会週間)において「食道癌診断AIの開発と動画を用いた検証」を発表された、大阪国際がんセンター 田尻絢香先生(現在は大阪大学医学部附属病院勤務)にお話しを伺いました。田尻先生は、当該研究を行った経緯や研究成果とともに、将来的な実臨床での「食道がん診断AI」の利用に対する展望についてお話しいただきました。尚、当演題は、JDDW 2021 KOBEにおいて、優秀演題賞及び若手奨励賞に選出されています。

拾い上げAIと鑑別AIの2つを用いて、内視鏡医のスキルと比較する研究デザイン

大阪国際がんセンターに勤務中、私は同じ病院の医師と共同で、「食道がんのAI」についての開発・研究を行っていました。医療分野でも特化型のAIが次々と開発される中で、「実際の腫瘍を鑑別する」ことを想定し、AIによる判定がどこまで可能であるのか、それが実臨床にどう活かしていけるのか、さまざまな検証が必要とされる時だったのだと思います。現在、大阪国際がんセンターでは、「食道がん」のAIを開発し、特定臨床研究まで進んでいます。

消化管がんの判定をAIがサポートする――これに対する研究は、数年前からいくつかの施設にて行われています。食道がんの診断時には、内視鏡画像上の色相から病変部を指摘するという特徴があります。食道がんが進行して内視鏡治療適応外となった場合、手術は胃や大腸といった他の消化管と比較しても患者への侵襲がより大きいため、より早期発見が求められるがんと考えます。私たちはこれまで、食道扁平上皮がんに対するAI診断システムを開発し、内視鏡医の診断スキルに劣らない診断精度があることを報告してきました。
今回はさらに一歩進め、拾い上げAI鑑別AIの2つのシステムについて、実臨床での使用を想定し、内視鏡医の診断と正診率などを比較を行うことで、その性能に対する検証を行いました。

拾い上げAIに期待されることは、非拡大内視鏡下にて色調と肉眼的な異変をキャッチし、「がんが疑われる部位」を指摘することにあります。一方の鑑別AIに対しては、拡大内視鏡下にてがん・非がんを鑑別することが期待されます。実臨床ではこの2つのシステムを使用して、まずは癌を疑う部位を拾い上げ、さらにその質的診断を行うことで、食道がんの診断を行うことを想定しています。

拾い上げAIにおいて感度が高く特異度が低い結果は想定内

私たちはまず、拾い上げAIにてがん63症例、非がん50症例の判定を行い、内視鏡医21名(内視鏡経験年数中央値5年)による判定結果との比較を行いました(図1)。

図1 拾い上げAIと内視鏡医との判定結果の比較 図1 拾い上げAIと内視鏡医との判定結果の比較

その結果、内視鏡医21名の平均よりも、拾い上げAIの方が感度は高くなりましたが、特異度は低いという結果になりました。特異度が低いことについては想定の範囲内でした。まずは拾い上げAIの感度を高めることで、「疑わしい病変」を取りこぼすことなく拾い上げることを目指していたためです。

鑑別ではより正確な判断が求められる病変について特に正診率が高かった

次に私たちは鑑別AIを使用し、がん83病変および非がん64病変の判定を行い、内視鏡医19名(内視鏡経験年数中央値12年)との比較を行いました(図2)。

図2 鑑別AIと内視鏡医との判定結果の比較 図2 鑑別AIと内視鏡医との判定結果の比較

その結果、内視鏡医の平均よりも、正診率・感度・特異度ともに、鑑別AIの方が優れていたという結果になりました。
さらに、鑑別AIの症例の特徴による正診率を比較すると、pMM以深(21例)では100%(内視鏡医平均89.0%)、病変径(≥20㎜)では96.8%(内視鏡医平均82.9%)と、より見逃してはならない、正確な鑑別診断が必要とされる症例において、かなり高い正診率を示しました(図3)。

図3 鑑別AIと内視鏡医 症例の特徴による正診率の比較 図3 鑑別AIと内視鏡医 症例の特徴による正診率の比較

研究によって見えてきたAIの利用シーンと更なる改善点

今回の研究結果は、ほぼすべてが予測通りの結果となりました。
私たちは、拾い上げAIで適切なスクリーニングを行い、その結果に対して鑑別AIで診断を行うという流れが重要だと考えます。そのため拾い上げAIでは感度を上げることが、鑑別AIでは正診率・感度・特異度ともにバランスよく精度を上げて行く必要がありました。特に、正診率が内視鏡医よりも高くなることは、AIの存在意義が高まるといえるでしょう。

利用シーンとして、スクリーニングを行うときには特に拾い上げAIが、検診結果などで要精査となり鑑別診断が必要な場合は特に鑑別AIが必要ですが、これらは合わせて1つのシステムにすることを考えています。一般に、病変の診断には、両方の過程が必要だからです。
改善点として、拾い上げAIは感度を上げるためとはいえ、特異度ももう少しよくなればよりよいということがあるかと思われます。ただ、これについては、先ほども述べた通り感度を高く保つことが優先されるべきと考えています。また、現在の鑑別AIについては、拡大観察で病変部の血管がはっきり観察できる写真を撮影できるときのみ、判定ができるものになっています。実際、今回の結果としてお示ししている正診率は、病変部に泡がなく、写真のピントがきれいいにあっている、精度の高い画像を使用して得た結果です。逆に、泡がついていたりピントが少しずれていたりすると、正診率は下がってしまいます。ただ、本AIで判定するにたえるような、きれいな写真をとるということ自体にも、ある程度技術が必要ですので、内視鏡経験のまだ浅い医師では十分にできないこともあります。AIが補助すべき内視鏡医として、このような内視鏡初学者もおおいに含まれることを考えると、少し質の悪い写真でも判定ができれば、より望ましいと思います。また、施設によっては非拡大内視鏡しかないこともあると思いますので、非拡大画像でも癌・非癌の判断ができれば、より望ましいでしょう。

多くの医療機関に普及することで、早期診断・早期治療を可能に

そう遠くない将来の実用化に向けて、費用面などの現実的な部分での課題はありますが、市中のクリニックや健診センター等、多くの施設の内視鏡検査で内視鏡医の診断補助としてAIが利用できることが望ましいと考えています。現在、多くの大学病院やハイボリュームセンターで、医療×AIの研究開発が行われていますが、これらの施設ではそもそも診断能のある程度高い医師が多く、また一症例にかけられる時間もある程度とれる状態が多いかと思います。なので、その補助による上乗せの効果は、短時間で多数の症例に対応する検診やクリニックなどと比べると、限定的である可能性も考えます。全体で見て、より見落としの件数を減らすには、市中のクリニックや検診センターなどへ向けても、さらに内視鏡先進国の日本だけでなく、後進国についても普及していってくれれば、と思います。

もちろん、AIを使用しても、最終判断は医師自身で行います。しかし、実際のところ、実臨床にいるすべての内視鏡医が、自分の判断に絶対的な自信があるわけではありません。私たちが開発したAIが「これは本当に大丈夫?」と問いかけてくれることで、医師が判断するときのヒントやきっかけとなり、初期の食道がんの見落としが減り、早期発見・早期治療につながっていくことを願っています。