Final project option 1:
database system for Big data management
Manufacturers of DNA sequencers
• Roche
• Illumina
• Life Technologies
• Beckman Coulter
• Pacific Biosciences
• Oxford Nanopore
FASTQ
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
@ 開頭,描述資訊 : + 開頭,描述資訊 : 序列 : Quality:
Quality value 有不同的定義,常使用的 Sanger 分數:
p 代表的是每個 base 對應的錯誤機率
例如 : p=0.01 代表錯誤率為百分之一,換算成 quality value 則為 20
-10 * log
100.01 = -10 * (-2) = 20
FASTQ
Sanger/Illumina 1.8 format can encode a
Phred quality score from 0 to 93 using ASCII 33 to 126
01 23 4
20
FastQC - quality visualization tool
平均值 中位數
( 小到大排列後第 50%) Q1
(25%)
Q3 (75%)
10%
90%
2 0 表 示 1 % 的 錯 誤 率 , 3 0 表 示 0 .1 %
# X 軸 Position in read (bp)
# Y 軸 Q = -10*log10 ( error P )即 20 表示 1% 的錯誤率, 30 表示 0 .1%
# 每一個 boxplot ,都是該位置的所有序列的測序品質的一個統計,
上面的 bar 是 90% 分位數,下面的 bar 是 10% 分位數,箱子的中間的橫 線是 50% 分位數,箱子的上邊是 75% 分位數,下邊是 25% 分位數
# 圖中藍色的細線是各個位置的平均值的連線
https://zhuanlan.zhihu.com/p/20731723
Q20 過濾 (final project 要求 )
根據 quality score 篩選,把包含
Phred quality score 小於 20 (reads 包含 ASCII code “DEC 33~52”) 的所有 reads 刪除,重新產出一份 fast q 檔案
注意:序列為成對的二個檔案 (R1 與 R2) ,若是 R1 符合刪除條件
, R2 不符合,則 二個都要刪除。
註 : 本例為簡化版,真實情形, Q20 過濾是指序列的剪取;由右讀至左,把 DEC 33~52 的序列剪掉,保留符合的其他序列
補充 : 真實的 Q20 過濾
註 : 本例為簡化版,真實情形, Q20 過濾是指序列的剪取;由右讀 至左,把 DEC 33~52 的序列剪掉,保留符合的其他序列。
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAG
TTT+
BCDBCABCDBACACBBaBBBBBBBBBBBBmcdaBBAACDA54321123121111111
111@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCA +
BCDBCABCDBACACBBaBBBBBBBBBBBBmcdaBBAACDA5
http://pipe-tuxedo.readthedocs.io/en/latest/explain_qc.html
Final project option 1:
database system for Big data management
A database system offers sequence retrieving, quality displaying, and vis ualization abilities.
◦ A web-interface.
◦ Data retrieving (key in one ID, return R1 and R2 sequences)
◦ 以長條圖畫出四種 Phred quality score (Q10, Q20, Q30, or Q40) 過濾之後
的平均 Q
Hint.
If your system cannot handle such big-size file, you can use a smaller su bset to fit the specification. However, the score will be limited as well.
Database systems (MySQL, SQLite, File-based, …), programming langua ges (SQL, Python, R, …), and data management strategies are welcome.
A pre-processing procedure is allowed.下載檔案 (20G)
http://120.126.17.187/class_Database/sequence_R1_001.fastq http://120.126.17.187/class_Database/sequence_R2_001.fastq
測試用小檔案
http://120.126.17.187/class_Database/sequence_R1_001_small.fastq http://120.126.17.187/class_Database/sequence_R2_001_small.fastq
Final project option 2:
PTT 鄉民活躍度
需收錄至少 100,000 筆資料 ( 文章數 ) ,排除文章過少的看版
選擇看版、時間 ( 年 或 月 )
畫出版面的鄉民活躍 ( 發文、回文 ) 分布圖
各版的活躍帳號 ( 活躍發文、活躍回文 )
輸入帳號、時間區間,查詢歷史動態 ( 發文、回文摘要 )偵測疑似轉手的帳號
Final project option 3:
新聞事件分析器
需收錄至少 100,000 筆新聞資料
選擇 時間 ( 年 或 月 )畫出新聞關鍵詞活躍分布圖
各類新聞的活躍記者署名
輸入記者署名、時間區間,查詢歷史新聞
根據記者署名分類出記者屬性
Final project option 4:
班級資訊顯示看板 ( 至少製作 100 個班級 )
老師簽名畫面,
簽名之後就不能更改資料
簽名之前可以更改
缺課前三名班級 :
1.
資訊科三年級忠班 (10 人 )2.
花卉科一年級愛班 (3 人 )3.
資訊科一年級孝班 (2 人 )公假人數前三名 :
1.
商管科二年級仁班 (5 人 )2.
汽修科一年級孝班 (3 人 )3.
資訊科一年級孝班 (1 病假人數前三名 : 人 )1.
資訊科二年級仁班 (2 人 )2. OO
科一年級孝班 (1 人 )3. OO
科一年級孝班 (1 人 )全校病假理由前三名 :
1.
感冒 (185 位 )2.
拉肚子 (56 位 )3.
頭痛 (41 位 )本周缺課情形趨勢 :
1 8 3 2 0
6 2
今日班級活動統計 : 一年級
上課 小考 段考
1 0
2 6 7
3 6
今日班級活動統計 : 二年級
上課 小考 段考
10 0
10 15 0
今日班級活動統計 : 三年級
上課 小考 段考
2020/12/4 (
五 ) 9:35 第一堂課全校課程內容排名 :
1.
國文 (258 班 )2.
自習 (206 班 )3.
段考複習 (141 班 )2 人一組
口頭報告 ( 投影片 )
◦
結果介紹、完成度◦
遇到的問題與如何克服◦
小組分工情況書面文件 ( 投影片、程式碼、其他相關檔案 ) Demo