數據科學家很危險

數據科學家的優先事項和工作流程如何可能對您的組織構成最大的數據安全威脅

source : https://medium.com/towards-artificial-intelligence/data-scientists-are-dangerous-31279f2d1d0c written by Dan Lester

在現代企業中,數據爭執不休:為了製定出良好的進攻策略,員工需要訪問盡可能多的數據。 但是,防禦方面卻朝相反的方向發展-謹慎地限制數據訪問,以避免代價高昂的數據洩露並遵守法規¹。

數據科學家是釋放組織數據潛力的英雄,但是如果沒有流程來幫助他們巧妙地保護自己使用的數據,則存在著隱藏在數據科學團隊中的技能,壓力和工具集的隱患 數據安全夢night以求的火山。

在整個數據準備階段都存在著擔憂,但是在基於項目的數據科學中,當真正需要與客戶或同事共享原型時,問題確實浮出水面。

數據洩露的平均成本為800萬美元。 如果您要處理大客戶的數據而遭受數據洩露,則可能要花費他們超過1億美元…²

相信我,我是科學家

當被問及他們正在開展哪些項目以在其公司中應用機器學習或數據科學時,今天沒有CEO不能拒絕。數據科學項目通常是(部分)作為對趨勢的回應而開始的,並且也寄希望於它們能夠給公司帶來某種神奇的結果。出於這些原因,當與數據科學團隊共享信息和文件時,員工可能會降低安全限制。畢竟他們是數據科學家!

對於離散的一次性項目,數據科學家努力獲取其調查簡介所需的數據。到達後,它並不完整。

“您如何期望我在沒有客戶支出數據和郵政編碼的情況下進行任何分析?”

經過一番猶豫之後,答复並沒有讓數據科學家再受挫兩週,而是得到了答复:“哦,我只是將您擁有的所有數據發送給您。”

通過電子郵件發送之後,也許現在可以在數據科學家的筆記本電腦上安全使用它了。

直到分析完成。

雷達下的Web部署

大多數開源數據科學框架都有一個通過Web瀏覽器工作的用戶界面。通常,網絡對於項目而言並不是天生就很重要,但是網絡瀏覽器提供了通用且功能強大的前端。有時,網絡是共享最終結果的合適機制。

因此,也許數據科學家已經在Jupyter筆記本中(或作為Streamlit,Dash或Flask應用)生成了一個交互式模型。委託該項目的客戶或決策者會喜歡移動滑塊以查看預測的變化!

如果您是CISO或IT經理,請立即移開視線。

斷開連接的筆記本電腦

數據科學家不一定是計算機科學家(但是知道的足夠多,只要他們有時間嘗試一下)。

我將在筆記本電腦上建立一條安全的隧道,這樣我就可以通過電子郵件將鏈接發送給客戶! (IT部門對此沒有政策嗎?哦,沒關係-無論如何,我會在一天結束時將其刪除。)

讓我們花幾分鐘(幾小時?)在銷售人員的筆記本電腦上安裝Python,以便他可以在客戶的站點上演示儀表板! (完成操作後,請務必記住至少要刪除ALL_CONFIDENTIAL_DATA.CSV文件。)

當然,謹慎地控制這些情況並確保符合組織的IT安全要求並不是數據科學家的職責。但這不是他們的真正優先事項,在他們的高壓工作中,這也不應該得到他們的智慧。

不安全且未經批准的雲託管

嗯,這是一個網絡應用程序,因此我們的原型儀表板肯定屬於網絡託管。對於該客戶的數據,雲託管甚至可能符合公司數據政策。

問題在於,在允許您託管新應用程序之前,IT需要先完成表單。您的代碼和部署配置需要進行檢查並進行正式測試以檢查漏洞。

嗯,它並不是真正的網絡應用程序,當然也不是需要在長期維護計劃中找到路途的應用程序。所以它掉進了裂縫。

數據科學家使用他的個人AWS賬戶;或僅在現有VM上將此小型Jupyter Web服務器作為單獨的進程運行。或聽起來聽起來很無辜的其他事情,但最終對於長期部署標準Web應用程序,IT絕對不會批准它。

等到客戶看到完成的鏈接時,要么說它不安全,要么數據科學家已經浪費了半天的時間再次猜測如何配置雲提供商的VM。聽起來都不適合您的業務。 (不用擔心,該服務器具有SSL。由於“加密”的難度較大,因此是自簽名的,但客戶端知道它是來自我們的,因為他們希望獲得該鏈接。)

(哦,必須提醒您,服務器必須在早上停下來,然後才能忘記託管位置。)

根據IBM³的一項研究,配置錯誤的雲服務器導致所有公開記錄的43%。

這在現實世界中發生嗎?

當然,這個故事是捏造出來的,故意將數據科學家描繪成粗心大意只是為了指出這一點-我充分意識到,大多數數據科學家都有控制這些情況的技能和意識。在數據科學平台ContainDS研究期間,數據科學家自己在與他們的交談中提出了本文所強調的所有危險。

但是事實仍然是,在許多情況下,IT策略和過程都無法適應基於離散項目的數據科學。

人工智能初創公司可能有動力採用批發數據科學平台來管理從實驗到最終部署其核心產品的一切。但是,基於項目的數據科學仍然最好在小型團隊中執行,而小型團隊應該可以隨意使用理想的環境進行簡要介紹。在一個部門中,您可能有不同的數據科學家與Jupyter,Streamlit,Dash和R Studio合作-全部獨立,但最終對部署到需要結果的決策者的要求範圍相同。

誰需要推動這一發展?

數據科學團隊的負責人需要最大程度地關注以下事實:儘管他們的輸出是軟件,但其工作流程和要求與其他軟件團隊的工作流程和要求不同。數據工程師可能最有能力提出技術建議並維護所需的基礎架構。

由首席信息安全官授權的IT部門需要推動變革並準備政策和基礎架構,以幫助消除重複的系統管理員對數據科學家的猜測。通過閱讀本文,您已經知道組織中的新安全漏洞。您現在有工作要做。

特別是對於那些希望通過開源數據科學框架為他們帶來靈活性的組織,在ContainDS,我正在幫助開發一套產品,以與決策者共享數據科學可視化效果,無論是在本地還是通過經過身份驗證的網絡託管。我們認為,發布基礎結構需要準備就緒,等待新項目原型和儀表板在共享時盡快插入。完成項目不應觸發爭奪找到部署解決方案的麻煩。

References

[1]: Harvard Business Review (May 2017). The 2 Types of Data Strategies https://hbr.org/2017/05/whats-your-data-strategy

[2]: CSO Online. What is the cost of a data breach? https://www.csoonline.com/article/3434601/what-is-the-cost-of-a-data-breach.html

[3]: Computer Weekly. Data breach costs on the rise, IBM study shows https://www.computerweekly.com/news/252467190/Data-breach-costs-on-the-rise-IBM-study-shows

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store