資料分析師尋常的一日:分析IMDB 資料
資料分析師的尋常一日的簡短分析:IMDB dataset¶
今天要使用 python pandas 函式讀取的是 IMDB 提供的 dataset。 在這個 dataset 中,總共有七個檔案,都用 gzip 壓縮,而分別是:
檔案名稱 | 簡短中文註解 | 是否使用 |
---|---|---|
title.akas.tsv.gz | 影片的語言和地區等較為國際性的資料 | No |
title.basics.tsv.gz | 影片的基本資料,如時間和發行年代 | Yes |
title.crew.tsv.gz | 包括電影與人員有關,主要是導演和編劇的資料 | Yes |
title.episode.tsv.gz | 和電視影集相關的資訊 | No |
title.principals.tsv.gz | 包括影片較為詳細的主要工作人員資料 | Mo |
title.ratings.tsv.gz | 包括觀眾對於影片的評價資料 | No |
name.basics.tsv.gz | 包括電影工作人員包括導演等的相關資料 | Yes |
如表格所示,今天我們只會用到三個檔案:title.basics.tsv, title.crew.tsv 和 name.basics.tsv。
今天的分析,是想知道《從前,有個好萊塢 ..》的導演昆丁塔倫提諾,是否有拍片長度變長的趨勢。這個問題來自於光與影的臉書貼文,其中提到一個關鍵是,昆丁塔倫提諾在 2010 年失去了長期合作的剪輯師後,導演的電影皆呈現冗長的傾向。
分析的流程是:先讀入檔案,找出昆丁塔倫提諾的名字代碼(name.basics.tsv),對應到角色為導演的電影(title.crew.tsv),取出電影的官方公佈時間長(title.basics.tsv),繪製昆丁塔倫提諾導演在執導期間的所有片長時間。