伊人99re_av日韩成人_91高潮精品免费porn_色狠狠色婷婷丁香五月_免费看的av_91亚色网站

中培偉業IT資訊頻道
您現在的位置:首頁 > IT資訊 > 大數據 > 數據處理工具有哪些?如何做好數據清洗和轉換?

數據處理工具有哪些?如何做好數據清洗和轉換?

2021-04-16 11:07:14 | 來源:中培企業IT培訓網

現在各行各業都離不開數據庫的使用,對于數據庫的管理更是不能懈怠。那么如何做好數據清洗和轉換呢?當然離不開數據處理工具,數據處理工具在能夠使用數據集前可以用于清洗,處理和了解數據集。一般一組因為太大而無法由人工手動讀取,檢查還有編輯每個值的數據,仍然需要驗證其質量和適用性,然后我們才可以將其委托給一個值得花費時間和計算的模型,下面我們就來具體看看數據處理工具有哪些?如何做好數據清洗和轉換?

數據處理工具有哪些?如何做好數據清洗和轉換?

與將大型數據集的樣本轉儲到電子表格程序中的方法一樣簡單,只需查看每列中出現的值的類型或范圍,即可識別諸如不負責任的默認值之類的錯誤(例如,在沒有測量值的情況下,使用零而不是NULL)或不可能的范圍或不兼容的合并(數據似乎來自多個來源,每個來源中使用了不同的單位。例如,華氏度與攝氏度)。

數據分析工具非常豐富。當數據集太大而無法在電子表格程序中打開時,Python腳本或像RStudio這樣的應用程序具有可視化、匯總或報告數據的強大功能。使用你熟悉的任何方法,至少要確定不同屬性值的格式和一般分布。

數據處理工具,在能夠使用數據集之前,有許多工具可以用于清洗、處理和了解數據集。Python是這方面的事實標準,它有很多工具來理解和處理數據。Matplotlib之類的包,通??梢苑浅H菀椎厣捎糜诳梢暬瘷z查的數據圖表。

Pillow提供各種處理、轉換和操作圖像的功能。Python有一個用于執行統計的內置程序包,如果需要更多功能的話,NumPy也有。Python還具有廣泛的內置和第三方支持內容,可處理你將要遇到的幾乎所有文件格式,包括CSV、JSON、YAML、XML和HTML,以及更深奧的格式(如TOML或INI文件)。

如果這些都不起作用,則有一個值得搜索的軟件包索引器,可以查看是否有解決你的問題的方法?;蛘?,只需搜索“我想用Python做事情”,大多數情況下,你會發現某人遇到了相同的問題,并為此提供了解決方案,或者至少提供了一些可以查看的指引。

如果你不喜歡Python,那么幾乎所有選擇的編程語言都具有類似的工具和功能。我們之所以喜歡Python,是因為這些工作已經為你完成了,而且有很多例子可以作為起點。Python在這方面沒有什么神奇之處,但它是最受歡迎的選擇,所以我們提倡堅持使用主流工具。

另一個不錯的選擇是電子表格程序,例如Excel、Numbers或Google Sheets。它們經常受到指責,因為在這些程序中進行數據準備可能很麻煩,但在需要使用Python(或你選擇的其他工具)之前,你可以使用它們非??焖俚孬@得大量有用的洞見和準備。作為系統附贈的工具,你基本上肯定已經安裝了其中一個,并且可以在你的機器上運行。

最后,我們不要害怕跳出框架思考像壓縮數據集這樣簡單的東西,甚至不需要看數據集內部就能大致了解數據集的熵大小。如果一個數據集壓縮得非常好,而來自相同來源的另一個數據集壓縮得不那么好,那么第二個數據集的數據的熵可能比第一個數據集的大。驗證數據集的適應性,到了這一步,你應該花更多的時間仔細地看看你試圖解決的問題和打算用于任務的數據集。在AI應用程序之前的數據分析世界中,可能沒有你想要的那么嚴格的規則,但你通常會知道一個解決方案是否可行,一個數據集是否能講述你想要的故事。相信這個小小的聲音,因為如果你回頭看,會發現浪費的工作是有價值的。再次探索你的數據。瀏覽并可視化它,用少量的數據子集測試你的解決方案—做你需要做的任何事情。如果感覺還是正確的,那就繼續前進。

通過Turi Create了解你的數據,在了解數據集的過程中,你可能會遇到一些錯誤。記錄數據可能會產生錯誤。一致值錯誤包括可能導致整列或一組值不準確的情況,例如,使用儀器記錄某個被統一量校準錯誤的數據,從產生額外熱量的物體旁邊測量溫度,使用未提前歸零的天平稱重,等等。這還包括來自不同來源的數據未經轉換就被不當合并的情況:簡單壓縮一組來自美國和一組來自英國的數據,現在系統認為100攝氏度完全合理。單值錯誤用于描述離群值或不一致的錯誤校準,僅在少數情況下導致不準確或完全不合邏輯的值??赡艹霈F的情況,如傳感器超載一天,產生的值比理論可能的高1000%(應該是相當明顯的)。當用于記錄數據的方法出現問題,或者數據集在其生命周期的某個時刻經歷了某種畸形的轉換時,可能會出現缺失值。這些可能是簡單的nil或NULL值,或者一些不太有用的值,例如字符串"NONE"或默認值0.有些甚至可能只是無意義的字符,什么都有可能出現。如果可以識別出一致誤差,那么這通??梢酝ㄟ^按一致誤差值縮放或轉換整個值集來糾正。單值錯誤和缺失值要求你要么猜測需要使用某種可行方法替換的值,要么完全刪除行或者觀察值以防止出現誤差。你可以通過以下方法來猜測該值:獲取該列中所有其他值的平均值;使用該列中與缺失值最接近的觀察值;使用一些使用其他屬性知識的特定于應用程序的方法。

轉換數據,在使用數據之前進行轉換有兩個主要原因:為了滿足要使用的算法的格式要求;使用新的推斷屬性改進或擴展當前數據。對于這兩種目的,通常有三種數據轉換:

歸一化(normalization)一種用于數值數據的方法,它將上界和下界綁定到一個數值范圍上,使它們更容易處理。這方面的一個例子是對數值數據的觀察值需要與不同的度量進行比較。如果你試圖根據魚的長度、體重、年齡和失去眼睛的數量來評估不同魚的健康狀況,大概每個人都會同意用不同的標準來比較兩條魚(例如,一只眼睛與一年的魚,或者一厘米長度的相比較)。如果用同樣的標準來比較,則會得出不同的結果。

歸一為正數值很簡單:泛化(generalization)一種將特定值替換為更高級別的概念,以更好地進行群體觀察的方法。當記錄某些屬性的方法比需要的更精確時,通常會發生這種情況。例如,如果你具有某人運動的GPS統計信息,則可以將緯度和經度歸納為一個地址,從而防止系統將每一個小運動都視為位置變化。或者,將數值測量值轉換為人類群體,這意味著相關因素可能不是將個人的身高測量值以毫米為單位,而是將其分為低于、接近或高于平均的身高。

聚合(aggregation)對某些復雜屬性進行總結以使分析更有效的一種方法??梢詮奈谋局刑崛£P鍵字(甚至是單詞頻率),而不是分析文本的段落(Attribute: Text,Classification: Class),只顯示與所給出的分類最相關或最獨特的方面。在這些步驟之前、之間或之后,可能會出現不同類型的數據轉換,數據可能被更改、擴展或縮減:特征構建(feature construction)一種創建新屬性的方法,通常通過推理或組合已有的其他值來實現。這方面的一個例子是泛化或聚合,其中原始值也被保留,或者更常見的是,當存在兩個或多個值時(或允許發現第三個值)。例如,如果你有一家公司的名稱和經營所在國,可以查一下它的商業登記號;如果你有某人的身高和體重,可以構建他們的BMI。數據規約(data reduction)一種刪除某些屬性的方法,這些屬性可能與另一個屬性相關,也可能與你試圖解決的問題無關。例如,如果你有某人的地址、郵編和區號,這些信息中至少有一條是多余的。也許—就像在特征構建的例子中那樣—你由于一些算法的原因想要同時分析兩者,但這是不可能的。兩個或多個屬性之間的高度相關性表明,它們可能在分析中導致錯誤,并可能被刪除。

以上我們介紹了關于數據處理工具和它的清洗和轉換,其實圖像數據集不是那么容易觀察到的,但絕對值得花時間瀏覽一下圖像的總體質量,以及圖像使用了哪些裁剪方法。如果您想了解更多相關信息,請您繼續關注中培偉業。

主站蜘蛛池模板: 亚洲三级中文字幕 | 无码AV天天AV天天爽 | 三级毛毛片 | 国产精品第一国产精品 | 狠狠做五月深爱婷婷伊人 | 久精品视频在线 | swag破解版 | 91香蕉麻豆 | 久久不雅视频 | 亚洲欧美久久 | 中文字幕丰满孑伦无码专区 | 国产中文字字幕乱码无限 | 亚洲最大免费网站 | wwww.9免费看片 | 欧美交受高潮1 | 亚洲黄色小说视频 | 欧美三级三级三级爽爽爽 | 国产高清黄色在线观看 | 人人妻人人澡人人爽欧美一在内谢 | 欧美猛少妇色XXXXX猛交 | 精品欧美久久 | 国产精品国产三级国产AV剧情 | 91国偷自产一区二区三区女王 | 国产成人av在线 | 亚洲综合色视频在线观看 | blacked欧美黑人极品影院 | 91九色国产ts另类人妖 | 久久久久免费看 | 国产激爽大片高清在线观看 | 美女视频黄免费的 | 国产一级特黄特色毛片 | 在线观看av国产一区二区 | 色婷婷综合中文久久一本 | 黑人又大又粗弄得我好爽 | fun国产乱来视频在线观看 | 亚洲综合网在线观看 | 麻豆秋葵绿巨人无限观看 | 日本教师奶水四溅观看 | 亚洲人成色777777精品音频 | 免费观看裸体美女网站 | 亚洲不卡在线视频 |