• 沒有找到結果。

Final project option 1: database system for Big data management

N/A
N/A
Protected

Academic year: 2021

Share "Final project option 1: database system for Big data management"

Copied!
21
0
0

加載中.... (立即查看全文)

全文

(1)

Final project option 1:

database system for Big data management

(2)

Manufacturers of DNA sequencers

• Roche

• Illumina

• Life Technologies

• Beckman Coulter

• Pacific Biosciences

• Oxford Nanopore

(3)
(4)

FASTQ

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

@ 開頭,描述資訊 : + 開頭,描述資訊 : 序列 : Quality:

Quality value  有不同的定義,常使用的 Sanger 分數:

p 代表的是每個 base 對應的錯誤機率

例如 : p=0.01 代表錯誤率為百分之一,換算成 quality value 則為 20

-10 * log

10

0.01 = -10 * (-2) = 20

(5)

FASTQ

Sanger/Illumina 1.8 format can encode a

Phred quality score from 0 to 93 using ASCII 33 to 126

01 23 4

20

(6)
(7)

FastQC - quality visualization tool

平均值 中位數

( 小到大排列後第 50%) Q1

(25%)

Q3 (75%)

10%

90%

2 0 表 示 1 % 的 錯 誤 率 , 3 0 表 示 0 .1 %

(8)

# X 軸 Position in read (bp)

# Y 軸 Q = -10*log10 ( error P )即 20 表示 1% 的錯誤率, 30 表示 0 .1%

# 每一個 boxplot ,都是該位置的所有序列的測序品質的一個統計,

上面的 bar 是 90% 分位數,下面的 bar 是 10% 分位數,箱子的中間的橫 線是 50% 分位數,箱子的上邊是 75% 分位數,下邊是 25% 分位數

# 圖中藍色的細線是各個位置的平均值的連線

https://zhuanlan.zhihu.com/p/20731723

(9)

Q20 過濾 (final project 要求 )

根據 quality score 篩選,把包含

Phred quality score 小於 20 (reads 包含 ASCII code “DEC 33~52”) 的所有 reads 刪除,重新產出一份 fast q 檔案

注意:序列為成對的二個檔案 (R1 與 R2) ,若是 R1 符合刪除條件

, R2 不符合,則 二個都要刪除。

註 : 本例為簡化版,真實情形, Q20 過濾是指序列的剪取;由右讀至左,把 DEC 33~52 的序列剪掉,保留符合的其他序列

(10)

補充 : 真實的 Q20 過濾

註 : 本例為簡化版,真實情形, Q20 過濾是指序列的剪取;由右讀 至左,把 DEC 33~52 的序列剪掉,保留符合的其他序列。

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAG

TTT

+

BCDBCABCDBACACBBaBBBBBBBBBBBBmcdaBBAACDA54321123121111111

111

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCA +

BCDBCABCDBACACBBaBBBBBBBBBBBBmcdaBBAACDA5

(11)

http://pipe-tuxedo.readthedocs.io/en/latest/explain_qc.html

(12)

Final project option 1:

database system for Big data management

A database system offers sequence retrieving, quality displaying, and vis ualization abilities.

◦ A web-interface.

◦ Data retrieving (key in one ID, return R1 and R2 sequences)

◦ 以長條圖畫出四種 Phred quality score (Q10, Q20, Q30, or Q40) 過濾之後

的平均 Q

(13)

Hint.

If your system cannot handle such big-size file, you can use a smaller su bset to fit the specification. However, the score will be limited as well.

Database systems (MySQL, SQLite, File-based, …), programming langua ges (SQL, Python, R, …), and data management strategies are welcome.

A pre-processing procedure is allowed.

(14)

下載檔案 (20G)

http://120.126.17.187/class_Database/sequence_R1_001.fastq http://120.126.17.187/class_Database/sequence_R2_001.fastq

測試用小檔案

http://120.126.17.187/class_Database/sequence_R1_001_small.fastq http://120.126.17.187/class_Database/sequence_R2_001_small.fastq

(15)

Final project option 2:

PTT 鄉民活躍度

需收錄至少 100,000 筆資料 ( 文章數 ) ,排除文章過少的看版

選擇看版、時間 ( 年 或 月 )

畫出版面的鄉民活躍 ( 發文、回文 ) 分布圖

各版的活躍帳號 ( 活躍發文、活躍回文 )

輸入帳號、時間區間,查詢歷史動態 ( 發文、回文摘要 )

偵測疑似轉手的帳號

(16)
(17)

Final project option 3:

新聞事件分析器

需收錄至少 100,000 筆新聞資料

選擇 時間 ( 年 或 月 )

畫出新聞關鍵詞活躍分布圖

各類新聞的活躍記者署名

輸入記者署名、時間區間,查詢歷史新聞

根據記者署名分類出記者屬性

(18)

Final project option 4:

班級資訊顯示看板 ( 至少製作 100 個班級 )

(19)

老師簽名畫面,

簽名之後就不能更改資料

簽名之前可以更改

(20)

缺課前三名班級 :

1.

資訊科三年級忠班 (10 人 )

2.

花卉科一年級愛班 (3 人 )

3.

資訊科一年級孝班 (2 人 )

公假人數前三名 :

1.

商管科二年級仁班 (5 人 )

2.

汽修科一年級孝班 (3 人 )

3.

資訊科一年級孝班 (1 病假人數前三名 : 人 )

1.

資訊科二年級仁班 (2 人 )

2. OO

科一年級孝班 (1 人 )

3. OO

科一年級孝班 (1 人 )

全校病假理由前三名 :

1.

感冒 (185 位 )

2.

拉肚子 (56 位 )

3.

頭痛 (41 位 )

本周缺課情形趨勢 :

1 8 3 2 0

6 2

今日班級活動統計 : 一年級

上課 小考 段考

1 0

2 6 7

3 6

今日班級活動統計 : 二年級

上課 小考 段考

10 0

10 15 0

今日班級活動統計 : 三年級

上課 小考 段考

2020/12/4 (

五 ) 9:35 第一堂課

全校課程內容排名 :

1.

國文 (258 班 )

2.

自習 (206 班 )

3.

段考複習 (141 班 )

(21)

2 人一組

口頭報告 ( 投影片 )

結果介紹、完成度

遇到的問題與如何克服

小組分工情況

書面文件 ( 投影片、程式碼、其他相關檔案 ) Demo

參考文獻

相關文件

This kind of algorithm has also been a powerful tool for solving many other optimization problems, including symmetric cone complementarity problems [15, 16, 20–22], symmetric

存放檔案的 inode 資訊, inode 一旦滿了也一樣會 無法儲存新檔案, inode 會告知檔案所使用的 data block 位置。. Q :如何知道那些 inode 和

what is the most sophisticated machine learning model for (my precious big) data. • myth: my big data work best with most

“Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced?. insight and

For terminating simulations, the initial conditions can affect the output performance measure, so the simulations should be initialized appropriately. Example: Want to

The aims of this study are: (1) to provide a repository for collecting ECG files, (2) to decode SCP-ECG files and store the results in a database for data management and further

“A Comprehensive Model for Assessing the Quality and Productivity of the Information System Function Toward a Theory for Information System Assessment.”,

This research is focused on the integration of test theory, item response theory (IRT), network technology, and database management into an online adaptive test system developed