RESEARCH ARTICLE
Computational Pathology to Discriminate Benign from Malignant Intraductal Proliferations of the Breast
Fei Dong1,2., Humayun Irshad3., Eun-Yeong Oh3, Melinda F. Lerwill1, Elena F. Brachtel1, Nicholas C. Jones1, Nicholas W. Knoblauch3, Laleh Montaser- Kouhsari3, Nicole B. Johnson3, Luigi K. F. Rao1, Beverly Faulkner-Jones3, David
C. Wilbur1, Stuart J. Schnitt3, Andrew H. Beck3*
1. Department of Pathology, Massachusetts General Hospital, Harvard Medical School, Boston, Massachusetts, United States of America, 2. Department of Pathology, Brigham and Womenrsquo;s Hospital, Harvard Medical School, Boston, Massachusetts, United States of America, 3. Department of Pathology, Beth Israel Deaconess Medical Center, Harvard Medical School, Boston, Massachusetts, United States of America
. These authors contributed equally to this work.
OPEN ACCESS
Citation: Dong F, Irshad H, Oh E-Y, Lerwill MF, Brachtel EF, et al. (2014) Computational Pathology to Discriminate Benign from Malignant Intraductal Proliferations of the Breast. PLoS ONE 9(12): e114885. doi:10.1371/journal.pone.0114885
Editor: Anna Sapino, University of Torino, Italy
Received: May 20, 2014
Accepted: November 13, 2014
Copyright: @ 2014 Dong et al. This is an open- access article distributed under the terms of the
Creative Commons Attribution License , which permits unrestricted use, distribution, and repro- duction in any medium, provided the original author and source are credited.
Data Availability: The authors confirm that all data underlying the findings are fully available without restriction. All data are available at the Dryad database (http://dx.doi.org/10.5061/dryad.pv85m) as well as http://earlybreast.becklab.org .
Funding: The research reported in this publication was supported in part by the National Library of Medicine of the National Institutes of Health under Award Number K22LM011931. No additional external funding was received for this study. The funders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript.
Competing Interests: Andrew H. Beck currently serves as an Academic Editor at PLOS ONE. This does not alter the authorsrsquo; adherence to PLOS ONE Editorial policies and criteria.
Abstract
The categorization of intraductal proliferative lesions of the breast based on routine light microscopic examination of histopathologic sections is in many cases challenging, even for experienced pathologists. The development of computational tools to aid pathologists in the characterization of these lesions would have great diagnostic and clinical value. As a first step to address this issue, we evaluated the ability of computational image analysis to accurately classify DCIS and UDH and to stratify nuclear grade within DCIS. Using 116 breast biopsies diagnosed as DCIS or UDH from the Massachusetts General Hospital (MGH), we developed a computational method to extract 392 features corresponding to the mean and standard deviation in nuclear size and shape, intensity, and texture across 8 color channels. We used L1-regularized logistic regression to build classification models to discriminate DCIS from UDH. The top-performing model contained 22 active features and achieved an AUC of 0.95 in cross-validation on the MGH data-set. We applied this model to an external validation set of 51 breast biopsies diagnosed as DCIS or UDH from the Beth Israel Deaconess Medical Center, and the model achieved an AUC of 0.86. The top-performing model contained active features from all color-spaces and from the three classes of features (morphology, intensity, and texture), suggesting the value of each for prediction. We built models to stratify grade within DCIS and obtained strong performance for stratifying low nuclear grade vs. high nuclear grade DCIS (AUC50.98 in cross-validation) with only moderate performance for discriminating low nuclear grade vs. intermediate
nuclear grade and intermediate nuclear grade vs. high nuclear grade DCIS (AUC50.83 and 0.69, respectively). These data show that computational pathology models can robustly discriminate benign from malignant intraductal proliferative lesions of the breast and may aid pathologists in the diagnosis and classification of these lesions.
Introduction
The pathological classification of ductal carcinoma in situ (DCIS) versus usual ductal hyperplasia (UDH) on core biopsy of has major implications for patient management. UDH is considered a benign proliferation, and patients with UDH carry only a small increased risk of developing subsequent breast cancer compared with patients without proliferative breast disease [1]. No treatment is necessary, and clinical management includes the continuation of routine breast cancer screening. In contrast, DCIS is a preinvasive malignant proliferation, and approximately 25% of patients diagnosed with DCIS on core biopsy are found to have invasive carcinoma upon surgical excision [2]. Primary treatment recommendations for DCIS include lumpectomy with or without whole breast radiation therapy and/or postoperative tamoxifen or total mastectomy with or without sentinel lymph node biopsy [3]. Thus, DCIS patients receive aggressive treatment, while UDH patients receive no treatment.
The pathological distinction of DCIS and UDH is based on multiple architectural and cytologic features, with nuclear atypia being particularly important in distinguishing the benign (UDH) from the malignant (DCIS) lesions. Although the defining features of DCIS and UDH are well established, the accurate and reproducible catego
剩余内容已隐藏,支付完成后下载完整资料
用计算病理学来区分良恶性乳腺导管内乳腺的增生
摘要:基于常规病理切片光镜检查乳腺导管内增生性病变的分类在许多情况下是具有挑战性的,即使对于有经验的病理学家。计算工具的发展帮助病理学家在描述这些病变的性质方面有很大的诊断及其临床价值。作为解决这个问题的第一步,我们评估计算图像分析进行准确分类和分层的DCIS和UDH核级在DCIS的能力。使用116乳腺活检诊断为DCIS或来自马萨诸塞州总医院(MGH)的DCIS方法,我们开发了一种计算方法,提取392个特征对应的平均值和核尺寸和形状的标准偏差,和在8个颜色通道的纹理。我们使用L1正则回归分析,建立分类模型从而通过UDH来鉴别DCIS。表现最好的模型包含22个活跃的特点,在研究数据集的交叉验证取得了0.95的AUC。我们应用该模型外部验证集51乳腺活检诊断为DCIS或UDH并且该模型实现了0.86的AUC。顶部执行模型包含所有的颜色空间的积极功能,从三类的功能(形态,强度和纹理),来证明每个预测值。我们建立模型来在DCIS中建立分层,并且获得的强劲表现为低核级与高核分级DCIS(auc50.98交叉验证)的分层且鉴别低核级与中间核级和中间核级与高核分级DCIS只有适度的性能(分别为auc50.83和0.69)。这些数据表明,计算病理模型能够有效地鉴别良恶性乳腺导管内增生性病变,可以帮助病理学家在这些病变的诊断和分类。
简介:乳腺导管原位癌(DCIS)的病理分型与普通型增生(UDH)对活检病人的管理具有重大意义。UDH被认为是一种良性增生并且有UHD的患者与没有乳腺增生性疾病的患者相比,只有很少的增加患乳腺癌的风险[1]. 没有哪一种治疗是必要的,临床管理包括常规乳腺癌筛查的延续。DCIS是一种原发恶性增殖,大约25%的患者在活检DCIS的时候被发现有浸润性癌经手术切除[2]. 主要建议包括DCIS治疗乳房肿瘤切除术加或不加全乳腺放疗和/或术后三苯氧胺或全乳切除加或不加前哨淋巴结活检[3]. 因此,DCIS患者接受积极的治疗,而UDH患者没有接受任何治疗。DCIS和UDH的病理区别是基于多个建筑和细胞学特征,因此核异型性在从恶性病变(DCIS)中区分良性病变(UDH)起特别重要的作用。尽管DCIS和UDH定义特征是众所周知的,但是把准确和可重复的乳腺导管内增生性病变归入这些类别的分类即使是对有经验的病理学家来说仍然是一个挑战 [4–10]. 由于缺乏可重复性和客观的对乳腺导管内增生性病变的分类的方法,因此可能导致在临床实践中和使用病理诊断指导这方面的研究这两个方面有着明显的负面效果。准确的病理诊断对指导临床护理和研究有很大的重要性,计算工具的发展对于描述乳腺导管内增生性病变的形态特征很有价值。核异型的描述性形态特征可以通过先h的数字化和E染色切片,随后通过图像处理和分析建模来描述。该过程通过手动或自动的方法通过数字摄影或整个幻灯片扫描[11], 图像分割涉及图像捕获[12], 提取的特征的测量和统计方法的应用程序确定的功能和基于特征的预测模型与病理诊断或临床结果的关联[13, 14]. 定量核功能已被证明在有丝分裂活动 [15, 16] 和乳腺癌[17–21]. 上皮增生的以前的研究病理结果相关。事实上,核位置的测量已经被证明诊断和预后在恶性和癌前病变的价值 [22–27].
虽然目前的文献表明数量特征和增生乳腺病变之间的相关性,这种方法论还没有被广泛的病理社区内通过。一个原因是由于施加先前公布的定量方法的不便,那个历史上需要显著人工干预(例如,用于核跟踪)之前的测量和细胞形态之一到几个细胞形态的定量特征。第二个原因是一些以前的研究已经使用外部验证数据集,限制了我们的研究结果的普遍性和稳健性的知识。第三大挑战是,很少有病理实验室已具备实现计算算法病理必需的硬件和软件,并且因此已经具有挑战性翻译研究进展到临床实践。然而,数量不断上升的实验室正在获得整个幻灯片成像(WSI)平台和数字化病理学的工具,这应该显著便于计算病理算法的传播和最终的临床翻译[11, 14, 28, 29].
为了巩固现有的优势,并解决了一些以前的工作的限制,在这方面,我们设计并实施了核的识别和从乳腺导管内增生性病变组织学图像核功能的定量的计算方法病理。 在这个研究中,我们证明了这个能力:该方法能通过建立分类模型从UDH区分DCIS和辨别高档DCIS低等级。这些研究性工具提供了新的生物见解通过最终的关键细胞表型差异来区分ADH和DCIS,有进一步的发展,可以提供在乳腺增生性病变的解释来援助病理学家实时决策支持。
所有图像处理代码,图象及统计代码在所附网站提供。
网址:earlybreast.becklab.org
材料与方法
病例样本
麻省总医院(MGH)病例数据库
该研究通过了合伙人研究委员会(IRB的合作伙伴)和合作伙伴IRB免除同意声明,病例也通过DCIS或UDH在麻省总医院诊断搜索乳腺活检证实。 该研究内容收纳了80例DCIS的UDH患者及36例麻省总医院的UDH患者。
核心活检组织经过标准化实验室协议所述方式处理,将用福尔马林固定和石蜡包埋(FFPE)的组织切成5mm切片,并用苏木精和伊红染色。DCIS病例的病理分级和DCIS病例的详细情况我们将从诊断病理报告中获得。同时,基于核异型程度进行的分级分别为低,中和高三个等级。如果病例被检测出为两个等级的中间程度,那么对于本分析的目的,我们将以较低等级来划分以确定这种情况。
贝斯以色列女执事医疗中心(BIDMC)病例数据库
这项研究通过了贝斯以色列女执事医疗中心IRB和IRB免除同意声明。病例也通过了与DCIS或UDH在BIDMC诊断搜索乳腺活检证实。研究收纳了 20例DCIS的患者与31例来自BIDMC的UDH患者。到MGH数据 - 组类似,FFPE组织切成5mm切片并用苏木精和伊红染色。相关病例数据和分级从诊断病理报告中获得。基于核异型程度进行分级为低,中或高。如果病例被检测出为两个等级的中间程度,那么对于本分析的目的,我们将以较低等级来划分以确定这种情况。
图像采集
通过406放大倍率的显微镜,我们能得到每像素0.25mm的分辨率的图片;一位代表诊断伊红每箱染色载玻片用飞利浦超快速扫描数字化1.6(最佳,荷兰飞利浦数字病理科)。整个幻灯片图像进行回顾和诊断感兴趣区(1至4%的情况下)进行手动选择用于图像分析。对于具有大于4诊断灶,多达4个区域具有最高细胞结构例被选定。使用在麻省总医院设施飞利浦扫描仪麻省总医院的情况下被扫描,而BIDMC例利用在BIDMC飞利浦扫描仪扫描。
图像处理和特征提取
拟议的图像处理和分析框架包括三个主要步骤:核分割,核特征计算和统计分析和电脑功能的机器学习。
核分割
使用斐济(来自ImageJ,国家卫生研究院)【30】进行核分割,将核分割应用于每一个图像的分割算法。最初,RGB彩色图像被改造成HSV颜色色块,其中,图像强度(亮度)由颜色信息(色度)被分离开来,这使得HSV更好地与人类感知匹配。先进行色彩的阈值处理以便后续获得获得形态学运算处理,补孔和合并分散的核区域,连结和重叠的细胞核用分界隔开。利用200-4000像素大小滤波器处理核分割结果以排除体积过大或过小的提取物,从而做到改善核检测的特异性。标识对象后从原始图像进行分析,以测量每个核(图1)的形态和颜色的量化特性。
核特征计算
细胞核分割后,我们计算从选定的核区域的形态和统计功能。计算的形态特征包括形状和几何特征,它们是:面积,周长,等效球周长,外接矩形(宽度和高度),配合椭圆形(长轴和短轴),形状描述(圆度,长宽比,圆度和坚固)和费雷特的直径。
统计功能是基于强度(第一序)和纹理(第二序)来进行的,为此我们还探讨了不同颜色的机型的统计功能的影响。为了研究由苏木染色对突出不同的细胞结构中的组织中携带的特定信息的作用,我们分别使用彩色去卷积[31]苏木精和曙红染色。彩色去卷积苏木精减少在组织外观在颜色上不稳定变化的难题??,由于在组织制备,染色反应这些阶段上是由不同批次样品提取的,协议和扫描仪也有变化。此外,不同的颜色模型,也可能因为分离出一种颜色带来新的信息,提供给系统更加有用的资源。在此设定下,我们的目标是调查不同的色谱和颜色通道,并选择那些对实验结果表现最出色的分类模型。我们将RGB图像转换为其它两种颜色模式,分别是单纯疱疹病毒(人类感知更直观)和Lab和LUV的分色(统一分色)。在H&E染色图像,细胞核和细胞质的区域显示为蓝色和紫色的色调,而细胞外物质有粉红色的色调。为了降低细胞外区的亮度的影响,RGB图像被转换成为蓝比(BR)图像作为新图像以增强核染料[32]的区别性,利用的知识为:
其中R,G和B分别是RGB图像中的红色,绿色和蓝色通道。在一个BR图像中,每个像素都具有具有很高的蓝色色谱亮度,相对于它的红色和绿色分量的象素蓝色像素被赋予一个较高的值,而它的红色和绿色分量的亮度像素我们将赋予它较低的值。由于我们的实验重点是原子核,它将在图中显示为蓝紫色的区域,蓝色比强度显示的图像中核含量空间分布。对于统计特征的计算,我们选择了8个颜色通道;红,绿和从HSV色模型,明亮度从Lab和LUV的颜色模型中选择,BR灰度图像和(苏木信道)?从H&E彩色去卷积RGB颜色模型中,设定为更好接受的亮度(值)的蓝色。
第一阶统计特性确定的灰度等级值的细胞核区域内的分布。使用所选择的颜色通道的灰度级信息,我们计算均值,中位数,标准偏差,偏斜度和峰度。这五个特征被计算为了再在每个通道选择8个颜色通道,导致总共40个一阶统计特征。
我们使用灰度Haralick共生[33]和运行长度矩阵[34]计算两种类型的二阶统计特征。同时出现的矩阵灰度共生矩阵(I,J; D,Q)是与尺寸伍正方形NG为图像中的灰度级的总数。在该矩阵第i和第j列中的值是通过在距离d和角度q上的总的场合与值i的像素相邻计数与数值j的像素产生。那么用已经作出这样的比较的总数除整个矩阵。可替代地,我们可以说,灰度共生矩阵它的每个元素被认为是与灰度级的像素i与灰度级j的像素中发现的概率是要在一个距离d和角度q。我们在4个方向(垂直,水平,左和右对角线)与一个位移矢量定义,该产生了四个GLCMs矩阵邻接。在本例中,纹理信息是旋转不变的。所以,我们采取在所有四个方向的平均生产一GLCM矩阵。后来,我们计算以更简洁的纹理识别从GLCM提出Haralick8功能。这八个功能分别具有相关性,集群灯罩,集群突出,能源,熵,剖腹相关性,均匀性和惯性。这八个功能是在选定的八色通道每个细胞核计算,导致总共64共同出现的功能。
该组连续像素的,具有相同的灰度级,在共线处给定方向,构成一个灰度级的游程长度矩阵GLRLM(I,J,Q)。GLRLM的尺寸是Ng6R,其中N是灰度电平的数目,R为最大游程长度。类似于GLCM,我们计算了四个方向GLRLMs之后它们平均。 10游程的特点,从GLRLM衍生,是短期内的重点(SRE),从长远看重点(LRE),灰度不均匀性(GLN),运行长度不均匀(RLN),低灰度运行重点(LGLRE),高灰度运行重点(HGLRE),短期内低灰度级重点(SRLGLE),短期内高灰度级重点(SRHGLE),长远来看,低灰度级重点(LRLGLE)和长期高灰度重点( LRHGLE)。在选定的八色通道每个细胞核上计算这些特征,导致总共80运行长度的功能。总共,我们在每个核上计算196纹理特征。
在此之前,基于统计学习和机器分析,功能测试是在病人的水平通过状态下计算平均值和每个患者每个功能的标准差,每位患者一共概括产生392汇总功能。
统计分析和机器学习:我们进行回归与套索正规化[35]建立多元图像特征为基础的模型来为DCIS与ADH和低年级与高品位的DCIS分类。该分析是在R(http://www.r-project.org/)来实现,用到了glmnet[36]包。
套索正规化用于创建简单的模型,比那些从标准逻辑回归来获得更不易发生过拟合。套索过程包括与L1正规化点球,具有收缩最低预测特征的回归权重为0[35]的效果。罚的量(和非零特征模型中的数目)由正则化参数L确定。这种方法已被证明在共线[37]的设定表现良好,并已被广泛用于从在平移癌症研究[38-40]高维数据建立预测模型。特点是在模型施工前麻省总医院和BIDMC数据集分别标准化,使用glmnet的默认设置。我们由9折交叉验证评估MGH数据集中模型的性能。有关BIDMC例外部验证,我们选择了实现了最大AUC的交叉验证的MGH数据集和应用这个固定模式到BIDMC例的L的值。型号性能通过计算AUC评估。
陪同网站
所有图像,图像处理代码,统计代码,和结果列在所附的网站提供: http://earlybreast.becklab.org 并且数据在数据库Dryad中 (http://dx.doi.org/10.5061/dryad.pv85m).
结果
构建一个病理计算模型来从UDH区分DCIS。
通过马萨诸塞州总医院的数据集分析DCIS和ADH
我们进行了L1-正规化回归,构建分类模型从UDH(
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[32215],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。