Final project option 1: database system for Big data management

(1)

Final project option 1:

database system for Big data management

(2)

Manufacturers of DNA sequencers

• Roche

• Illumina

• Life Technologies

• Beckman Coulter

• Pacific Biosciences

• Oxford Nanopore

(3)

(4)

FASTQ

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +

!''((((+))%%%++)(%%%%).1-+''))**55CCF>>>>>>CCCCCCC65

@ 開頭，描述資訊 : + 開頭，描述資訊 : 序列 : Quality:

Quality value 有不同的定義，常使用的 Sanger 分數：

p 代表的是每個 base 對應的錯誤機率

例如 : p=0.01 代表錯誤率為百分之一，換算成 quality value 則為 20

-10 * log

₁₀

0.01 = -10 * (-2) = 20

(5)

FASTQ

Sanger/Illumina 1.8 format can encode a

Phred quality score from 0 to 93 using ASCII 33 to 126

01 23 4

20

(6)

(7)

FastQC - quality visualization tool

平均值中位數

( 小到大排列後第 50%) Q1

(25%)

Q3 (75%)

10%

90%

2 0 表示 1 % 的錯誤率， 3 0 表示 0 .1 %

(8)

# X 軸 Position in read (bp)

# Y 軸 Q = -10*log10 （ error P ）即 20 表示 1% 的錯誤率， 30 表示 0 .1%

# 每一個 boxplot ，都是該位置的所有序列的測序品質的一個統計，

上面的 bar 是 90% 分位數，下面的 bar 是 10% 分位數，箱子的中間的橫線是 50% 分位數，箱子的上邊是 75% 分位數，下邊是 25% 分位數

# 圖中藍色的細線是各個位置的平均值的連線

https://zhuanlan.zhihu.com/p/20731723

(9)

Q20 過濾 (final project 要求 )

根據 quality score 篩選，把包含

Phred quality score 小於 20 (reads 包含 ASCII code “DEC 33~52”) 的所有 reads 刪除，重新產出一份 fast q 檔案

注意：序列為成對的二個檔案 (R1 與 R2) ，若是 R1 符合刪除條件

， R2 不符合，則二個都要刪除。

註 : 本例為簡化版，真實情形， Q20 過濾是指序列的剪取；由右讀至左，把 DEC 33~52 的序列剪掉，保留符合的其他序列

(10)

補充 : 真實的 Q20 過濾

註 : 本例為簡化版，真實情形， Q20 過濾是指序列的剪取；由右讀至左，把 DEC 33~52 的序列剪掉，保留符合的其他序列。

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAG

TTT

+

BCDBCABCDBACACBBaBBBBBBBBBBBBmcdaBBAACDA54321123121111111

111

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCA +

BCDBCABCDBACACBBaBBBBBBBBBBBBmcdaBBAACDA5

(11)

http://pipe-tuxedo.readthedocs.io/en/latest/explain_qc.html

(12)

Final project option 1:

database system for Big data management

A database system offers sequence retrieving, quality displaying, and vis ualization abilities.

◦ A web-interface.

◦ Data retrieving (key in one ID, return R1 and R2 sequences)

◦ 以長條圖畫出四種 Phred quality score (Q10, Q20, Q30, or Q40) 過濾之後

的平均 Q

(13)

Hint.



If your system cannot handle such big-size file, you can use a smaller su bset to fit the specification. However, the score will be limited as well.



Database systems (MySQL, SQLite, File-based, …), programming langua ges (SQL, Python, R, …), and data management strategies are welcome.



A pre-processing procedure is allowed.

(14)

下載檔案 (20G)

http://120.126.17.187/class_Database/sequence_R1_001.fastq http://120.126.17.187/class_Database/sequence_R2_001.fastq

測試用小檔案

http://120.126.17.187/class_Database/sequence_R1_001_small.fastq http://120.126.17.187/class_Database/sequence_R2_001_small.fastq

(15)

Final project option 2:

PTT 鄉民活躍度



需收錄至少 100,000 筆資料 ( 文章數 ) ，排除文章過少的看版



選擇看版、時間 ( 年或月 )



畫出版面的鄉民活躍 ( 發文、回文 ) 分布圖



各版的活躍帳號 ( 活躍發文、活躍回文 )



輸入帳號、時間區間，查詢歷史動態 ( 發文、回文摘要 )

偵測疑似轉手的帳號

(16)

(17)

Final project option 3:

新聞事件分析器



需收錄至少 100,000 筆新聞資料



選擇時間 ( 年或月 )

畫出新聞關鍵詞活躍分布圖

各類新聞的活躍記者署名

輸入記者署名、時間區間，查詢歷史新聞

根據記者署名分類出記者屬性

(18)

Final project option 4:

班級資訊顯示看板 ( 至少製作 100 個班級 )

(19)

老師簽名畫面，

簽名之後就不能更改資料

簽名之前可以更改

(20)

缺課前三名班級 :

1.

資訊科三年級忠班 (10 人 )

2.

花卉科一年級愛班 (3 人 )

3.

資訊科一年級孝班 (2 人 )

公假人數前三名 :

1.

商管科二年級仁班 (5 人 )

2.

汽修科一年級孝班 (3 人 )

3.

資訊科一年級孝班 (1 病假人數前三名 : 人 )

1.

資訊科二年級仁班 (2 人 )

2. OO

科一年級孝班 (1 人 )

3. OO

科一年級孝班 (1 人 )

全校病假理由前三名 :

1.

感冒 (185 位 )

2.

拉肚子 (56 位 )

3.

頭痛 (41 位 )

本周缺課情形趨勢 :

1 8 3 2 0

6 2

今日班級活動統計 : 一年級

上課小考段考

1 0

2 6 7

3 6

今日班級活動統計 : 二年級

上課小考段考

10 0

10 15 0

今日班級活動統計 : 三年級

上課小考段考

2020/12/4 (

五 ) 9:35 第一堂課

全校課程內容排名 :

1.

國文 (258 班 )

2.

自習 (206 班 )

3.

段考複習 (141 班 )

(21)

2 人一組

口頭報告 ( 投影片 )

◦

結果介紹、完成度

◦

遇到的問題與如何克服

◦

小組分工情況

書面文件 ( 投影片、程式碼、其他相關檔案 ) Demo

Final project option 1: database system for Big data management

Final project option 1:

database system for Big data management

Manufacturers of DNA sequencers

• Roche

• Illumina

• Life Technologies

• Beckman Coulter

• Pacific Biosciences

• Oxford Nanopore

FASTQ

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

Quality value 有不同的定義，常使用的 Sanger 分數：

p 代表的是每個 base 對應的錯誤機率

例如 : p=0.01 代表錯誤率為百分之一，換算成 quality value 則為 20

-10 * log

0.01 = -10 * (-2) = 20

FASTQ

Sanger/Illumina 1.8 format can encode a

Phred quality score from 0 to 93 using ASCII 33 to 126

FastQC - quality visualization tool

2 0 表 示 1 % 的 錯 誤 率 ， 3 0 表 示 0 .1 %

https://zhuanlan.zhihu.com/p/20731723

Q20 過濾 (final project 要求 )

Phred quality score 小於 20 (reads 包含 ASCII code “DEC 33~52”) 的所有 reads 刪除，重新產出一份 fast q 檔案

補充 : 真實的 Q20 過濾

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAG

+

BCDBCABCDBACACBBaBBBBBBBBBBBBmcdaBBAACDA54321123121111111

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCA +

BCDBCABCDBACACBBaBBBBBBBBBBBBmcdaBBAACDA5

Final project option 1:

database system for Big data management

◦ A web-interface.

◦ Data retrieving (key in one ID, return R1 and R2 sequences)

◦ 以長條圖畫出四種 Phred quality score (Q10, Q20, Q30, or Q40) 過濾之後

的平均 Q

Hint.







下載檔案 (20G)

Final project option 2:

PTT 鄉民活躍度











偵測疑似轉手的帳號

Final project option 3:

新聞事件分析器





畫出新聞關鍵詞活躍分布圖

各類新聞的活躍記者署名

輸入記者署名、時間區間，查詢歷史新聞

根據記者署名分類出記者屬性

Final project option 4:

班級資訊顯示看板 ( 至少製作 100 個班級 )

老師簽名畫面，

簽名之後就不能更改資料

簽名之前可以更改

1.

2.

3.

1.

2.

3.

1.

2. OO

3. OO

1.

2.

3.

1 8 3 2 0

!''((((+))%%%++)(%%%%).1-+''))**55CCF>>>>>>CCCCCCC65

2 0 表示 1 % 的錯誤率， 3 0 表示 0 .1 %