資料分析師尋常的一日：分析IMDB 資料

資料分析師的尋常一日的簡短分析：IMDB dataset¶

今天要使用 python pandas 函式讀取的是 IMDB 提供的 dataset。在這個 dataset 中，總共有七個檔案，都用 gzip 壓縮，而分別是：

檔案名稱	簡短中文註解	是否使用
title.akas.tsv.gz	影片的語言和地區等較為國際性的資料	No
title.basics.tsv.gz	影片的基本資料，如時間和發行年代	Yes
title.crew.tsv.gz	包括電影與人員有關，主要是導演和編劇的資料	Yes
title.episode.tsv.gz	和電視影集相關的資訊	No
title.principals.tsv.gz	包括影片較為詳細的主要工作人員資料	Mo
title.ratings.tsv.gz	包括觀眾對於影片的評價資料	No
name.basics.tsv.gz	包括電影工作人員包括導演等的相關資料	Yes

如表格所示，今天我們只會用到三個檔案：title.basics.tsv, title.crew.tsv 和 name.basics.tsv。

今天的分析，是想知道《從前，有個好萊塢 ..》的導演昆丁塔倫提諾，是否有拍片長度變長的趨勢。這個問題來自於光與影的臉書貼文，其中提到一個關鍵是，昆丁塔倫提諾在 2010 年失去了長期合作的剪輯師後，導演的電影皆呈現冗長的傾向。

分析的流程是：先讀入檔案，找出昆丁塔倫提諾的名字代碼（name.basics.tsv），對應到角色為導演的電影（title.crew.tsv），取出電影的官方公佈時間長（title.basics.tsv），繪製昆丁塔倫提諾導演在執導期間的所有片長時間。

[PyCon 2017] 歡樂學 Python 位元組碼(byte code)

誰適合閱讀這篇文章：初階到中階 python 基礎的程式設計師，想深入淺出的了解 python 的位元組碼（bytecode）

PyCon 2016 有一場很有趣的演講，內容是關於介紹 Python 位元組碼（Python Bytecode），演講名稱就稱為 "Playing Bytecode with Python"。這場演講有趣的地方，在於它完全表達了 Python 社群的精神，也就是以 “Monty Python” 的方式來表達一個抽象複雜的概念。在有如勞萊與哈台兩人一搭一唱的方式，傳遞了如論語般藉由孔子和弟子們的對話傳遞了儒道的精神，或柏拉圖和色諾芬以與蘇格拉底對話錄的方式來闡述知識的進程。

[Women in TED] Reshma Saujani：請教導女孩們勇敢而不是完美

圖片來源：延伸閱讀（Life Hack）

2015 年一月，Pew Research 發表了一項研究結果[1]。在此研究中，研究者想要回答一個問題，大多數的美國人對於女性的領導能力不加懷疑，認為女性與男性有相等的能力擔任公司以及政府機關的重要職位。甚而，有些人認為女性有些特質，擔任領導職位，更勝男性。在這樣的前提下，女性在公司或政府機關擔負領導責任的職位比例，卻大幅少於男性。研究者們想知道，在大眾認知的層面上，是什麼樣的原因，造成這樣的差異。於是隨機選取將近兩千名的美國成人做了一項有關女性與領導能力的網路問卷調查。他們的研究中發現：領導相關的職務上失衡的性別比例，主要原因是來自公司和環境上對女性持有較高標準。

[Women in TED] Hannah Fry: 愛情數學方程式

“遇見自己的靈魂伴侶似乎比中樂透還難．”看著娛樂新聞裡分分合合的螢幕情侶，一度如膠似漆的恩愛夫妻，轉眼間成為話不投機的公眾怨偶，王子和公主的童話婚姻在許多平常人的眼裡可以說是撲朔迷離，霧裡看花．然而，平常人的婚姻感情生活似乎也沒有簡單許多．看著逐年陡峭攀升的離婚率，許多人不禁時時刻刻的感嘆著：“我的真命天子 / 真命天女倒底在何方呢？” 然而與其無語問著蒼天，或求助於霞海城隍廟的月老婚姻仲介服務（可惜，月老並不包括售後及保固服務）．不如讓數學家們以扎實的理論和可量化的分析，來為曠男怨女們指點一條雙人同行的幸福之路吧！

[Level 3] Shingling, MinHashing and Common distance measure I

誰適合閱讀這篇文章：熟悉 Hash, Set, Tries (Prefix and Suffix Tree) 等資料結構和有志從事大量資料分析的電腦工程師

主要解決問題：給定一份文件，如何在網際網路的無盡文件大海中，找到相似的文件？主要應用：偵測剽竊 (Plagiarism)，搜尋引擎欲尋找鏡像網頁，網路購物或電影推薦系統中的協同過濾

綱要：

如何快速比較兩文件集合並提供量化結果:
a. 如何定義相似度？
b. 如何重新定義相似度比較問題為集合問題。
如何實現快速比較高相似度文件（第二篇)
應用相似搜尋於巨量資料: minHash and Locality-Sensitive Hashing （第三篇）
更多關於 Locality-Sensitive Hashing （末篇）

在閱讀這篇教學後，妳將會學到：

現行的文獻技術中，如何定義兩文件的相似度？
如何使用 Shingle 來轉換原問題為集合比較問題？
如何使用 Jaccard similarity 來比較文件的相似度？

[Women in TED] Fei Fei Li - 我們如何教導電腦瞭解影像

Fei Fei Li 的 TED Talk （圖片來源： TED Talk ）

二次大戰期間，於布萊切利莊園祕密從事破解德軍密碼的艾倫圖靈（Alan Turing），在戰後醉心於發展有限狀態自動機械的抽象數學模型。同時能將數學符號與繁瑣的計算驟在腦中呈現的他，反覆思索自動機械的潛能，多少白晝和深夜的冥想思索，他將思考的結晶發表成計算機制和智慧（Computing Machinery and Intelligence）一文，在文中更提出了著名的圖靈測試，作為判斷計算機械是否能擁有智慧的準繩。這個問題，對於當時，需要以將近一個空房來放置一臺電腦，經常要動員好幾十位程序員進行穿孔和裝換紙帶的工作，方能編寫數行程式碼。機械能夠思考，似乎難以想像。但是對於圖靈，以及他所執筆一系列關於自動有限狀態機械的理論論文，文中獨特的視野和無邊的想像，再以抽象數學表達和理性邏輯論述，對未來的智慧機械勾勒出了遠景和藍圖。甚而，為了避免全面定義智慧這樣複雜而又模糊的概念，他提議以一種”模仿遊戲”（imitating game）來回答”機械是否擁有智慧”這個大哉問。

[Chickenosaurus] 格蘭博士的侏羅"雞"公園

圖片左方身穿橘色襯衫的就是電影侏羅紀公園中的顧問也是故事中格蘭博士的原型。和 Smithsonian’s 自然歷史博物館的館長開懷大笑，難道是活生生的恐龍即將誕生了嗎？（圖片來源：華盛頓郵報）

當電影侏羅紀公園剛推出的時候，我和許多的恐龍迷一般對於電影中利用琥珀內的古蚊子所保存恐龍的 DNA （去氧核醣核酸），並進而讓恐龍重生一樣的興奮。試著幻想這樣的場景，有著長脖子的雷龍，優雅的漫步在原始的草原上，三角龍為了一得美女的芳心，而相互卯足全力較勁，翼手龍在空中盤旋，警告著粗魯的不速之客暴龍，正準備闖入大家平靜的生活。這些在現在看來似乎是神話般的場景，似乎得以藉由在琥珀中封存的基因物質，而有了重現的機會。然而，我和許多恐龍迷一樣，當得知就算在現實生活中能找到剛對恐龍飽餐一頓後，卻不幸跌入琥珀中，成為將恐龍遺傳物質完整不缺的保存，蚊子歷史傳說中的木乃伊，也因為數量過於微小，無法讓恐龍的基因充分表現，而讓恐龍生龍活虎，而感到失落。

[Islamophobia] 給查理，逝去的還有仍然活著的

我相信你，你相信我嗎？請給我一個擁抱（圖片來源）

一個人在家時，或許是喜歡電視裡熱絡的氣氛，讓我跟世界又有了連結，莫名養成了電視新聞配午飯的習慣。今日一如往常，打開電視，先是總吵吵鬧鬧，靠評論政治人物維生的名嘴們，仍是喋喋不休，臆測和總統大選有緋聞的一干政治人物的真正居心。我對這種信口拈來毫無根據的說詞，不感興趣，便轉到新聞台，赫然發現伊斯蘭國又公佈最新一批斬首囚犯的錄影帶。

[Science] 後宮甄環傳和海獅之間的關係

Zalophus californianus at Moss Landing 3.jpg

成群的海獅圖片出處：“Zalophus californianus at Moss Landing 3” by Brocken Inaglory - Own work. Licensed under CC BY-SA 3.0 via Wikimedia Commons

海獅其實是這樣進入後宮甄環傳裡的。一天晚上，我和母親大人在電視前面觀看公視的生態節目。生態節目裡正好介紹年輕的公海獅，覬覦岸上成群的母海獅，伺機想找機會交配。無奈這群龐大的母海獅們，數量可能超過數十隻，都屬於一隻（沒錯！是一隻！）成年的公海獅。為了不想被成年公海獅海扁一頓，沒實力的年輕海獅，只好在海灘外的淺海域徘徊，希望逮到成年公海獅失神的時刻，偷偷和其中一隻母海獅交配成功。

我看著生態節目的介紹，突然幽幽的跟母親大人交換心得：“怎麼覺得成年公海獅有點像甄環傳裡清朝的皇帝？”坐擁佳麗三千人的中國皇帝，多像海獅社會裡的成年海獅，為了保證自己的優勢基因能夠傳遞到下一代去，而佔據了成群的母海獅。

[Taiwan] 不一樣的蘭陽風情 - 烏石港和倒下的博物館

烏石港的漁港風情

在
充滿盆地和小山丘的臺灣北部，位於宜蘭的蘭陽平原，就像乳娘一般，以它豐沛的雨水和富碩的農產資源，蘊育著臺灣北部的城市們。不像國家首要行政區，充滿著舊蔣家政權遺留下來許多信義，博愛等官腔的名字。宜蘭的地名，保留了移民墾荒時期的特色，如頭城，蘇澳。

Menu

ReneWangritte

Travel, Photos, Gourmet, Living And Beyond ...

資料分析師尋常的一日：分析IMDB 資料

資料分析師的尋常一日的簡短分析：IMDB dataset¶

[PyCon 2017] 歡樂學 Python 位元組碼(byte code)

[Women in TED] Reshma Saujani：請教導女孩們勇敢而不是完美

[Women in TED] Hannah Fry: 愛情數學方程式

[Level 3] Shingling, MinHashing and Common distance measure I

[Women in TED] Fei Fei Li - 我們如何教導電腦瞭解影像

[Chickenosaurus] 格蘭博士的侏羅"雞"公園

[Islamophobia] 給查理，逝去的還有仍然活著的

[Science] 後宮甄環傳和海獅之間的關係

[Taiwan] 不一樣的蘭陽風情 - 烏石港和倒下的博物館