[生信]利用seqkit对双端测序文件成对的进行down sampling_seqkit sample-程序员宅基地

技术标签: linux  生物信息软件  

问题描述:在用seqkit的sample函数取指定数目或者比例的序列的时候,总是提示r1和r2的操作的序列不匹配。于是组合使用几个seqkit的工具实现提取。

安装可以使用conda:

conda install -c bioconda seqkit

两个即将进行downsampling 的原始文件均为100行

wc r*.gz
  100   125  8663 r1.test.fastq.gz
  100   125  8799 r2.test.fastq.gz
  200   250 17462 total

#对其中的一个文件进行down sampling 随机取5条序列id
seqkit sample -n 5 r1.test.fastq.gz     | seqkit seq --name --only-id > id.txt
# 这里的id就是从“@”开始,到遇到的第一个空格前的所有的内容

seqkit sample -n 5 r1.test.fastq.gz     | seqkit seq --name --only-id > id.txt
[INFO] sample by number
[INFO] loading all sequences into memory...
[INFO] 4 sequences outputted

# 如果要选取所有的名字
# seqkit sample -n 5 r1.test.fastq.gz     | seqkit seq --name > name.txt


# 查看id list,这里没有展开id具体信息,可以自行用cat查看提取是否正确
wc id.txt
  4   4 155 id.txt

# 根据list对r1/2进行对应的提取
cat r1.test.fastq.gz | seqkit grep -f id.txt > r1.sub.fq.gz
cat r2.test.fastq.gz | seqkit grep -f id.txt > r2.sub.fq.gz
#注意这里使用cat/或者zcat。我这里在提取r1.test.fastq.gz 100行子集的时候不小心将其转换成fq格式了,不是fastq.gz 所以如果你待提取的序列是gz格式的话,这里要换成zcat

wc r*.fq.gz
  16   20 1377 r1.sub.fq.gz
  16   20 1435 r2.sub.fq.gz
  32   40 2812 total

按比例提取可以自行查阅手册

参考:

FAQ - SeqKit - Ultrafast FASTA/Q kit

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/prublue/article/details/121893063

智能推荐

【Kubernetes】Pod调度到指定Node_双实例pod 调度到不同node-程序员宅基地

文章浏览阅读2.4w次。问题描述   Kubernetes有着自己特定的调度算法与策略,有Master中的Scheduler组件来实现,根据Node资源使用情况自动调度Pod的创建,通常可以满足我们大部分的需求。但是有时我们希望可以将某些Pod调度到特定硬件节点上,这里采用目前最为简单的nodeName和nodeSelector来实现Pod调度。  假设以下场景:有三个Node,分别为107、108、109,创建De_双实例pod 调度到不同node

angular6使用ngx-bootstrap/modal_ngx-bootstrap modal-程序员宅基地

文章浏览阅读6.4k次。首先下载ngx-bootstrap:npm install ngx-bootstrap --save下载后,在module.ts中导入ngx-bootstrap/modal类:import { ModalModule } from 'ngx-bootstrap'; imports: [ ... ModelModule, ModalModule.forRoot(..._ngx-bootstrap modal

Centos7利用rpm升级OpenSSH到openssh-8.1p1版本_openssh8.1升级使用rpm-程序员宅基地

文章浏览阅读3.4k次。参考:https://www.cnblogs.com/fsckzy/p/10834550.html Centos 升级至 OpenSSH 8 rpm包制作RPM打包使用的是rpmbuild命令,这个命令来自rpm-build软件包,这个是必装的。yum install rpm-build -y #安装rpm-build软件,以提供rpmbuild命令 69 ssh -V 70 rpm -qa openssh 71 yum install rpm-..._openssh8.1升级使用rpm

基于51单片机的门禁系统RFID_c51 指纹rfid门禁-程序员宅基地

文章浏览阅读1.4w次,点赞13次,收藏26次。代码量:542行代码开发与仿真周期:七天硬件开发周期:一天整机调试周期:一天简介:简单的门禁系统,包含RFID,时间,温度,1602液晶,按键。收获:①多个文件的keil工程的组织方法:Main函数包含各个头文件(.h);各个头文件中包含#ifndef,#define,#endif、声明函数、位定义、extern申明变量但不赋值;在各个C文件中对变量的进行赋值,包含头文件;在工_c51 指纹rfid门禁

ImportError: No module named torch-程序员宅基地

文章浏览阅读996次。ImportError: No module named torchimage and video datasets and models for torch deep learningThe torchvision package consists of popular datasets, model architectures, and common image transformations for computer vision.pip install torchvision_importerror: no module named torch

Mac安装虚拟机Parallels Desktop,以及Windows10系统详细教程_parallel win10镜像-程序员宅基地

文章浏览阅读4.1k次。Mac的老用户想必对Parallels Desktop已经非常熟悉,一款运行快速、操作简单、功能强大的应用程序,无需重启即可在您的Intel 或 Apple M 系列Mac 上运行Windows。包含 40 多种一键式工具,可简化 Mac 和Windows上的日常任务。无需重启,即可在 Mac 上运行 Windows。_parallel win10镜像

随便推点

一看就会(废)的最小二乘法推导_最小二乘拟合流程图-程序员宅基地

文章浏览阅读1.2k次,点赞2次,收藏9次。一、预备知识:方程组解的存在性及引入  最小二乘法可以用来做函数的拟合或者求函数极值。在机器学习的回归模型中,我们经常使用最小二乘法。我们先举一个小例子来走进最小二乘法。  某次实验得到了四个数据点(x,y):(1,6)、(2,5)、(3,7)、(4,10)(x,y):(1,6)、(2,5)、(3,7)、(4,10)(x,y):(1,6)、(2,5)、(3,7)、(4,10) (下图中红色的点)。我们希望找出一条与这四个点最匹配的直线 y=θ1+θ2xy = \theta_{1} + \theta_{_最小二乘拟合流程图

nodejs 控制台美化 console-color-mr_node控制台打印美化-程序员宅基地

文章浏览阅读4.1k次。console-color-mr插件可以让node控制台输出带有颜色,是一个不错的插件,通过颜色可以更直观的分析程序bug一、使用npm install -D console-color-mr// 方法一import 'console-color-mr'console.log(`.....`.red);// 方法二import _console from 'consol..._node控制台打印美化

WIN10删除微软拼音输入法,设置默认输入法为英文_微软拼音输入法删除后没有纯英文输入怎么办-程序员宅基地

文章浏览阅读1k次。WIN10删除微软拼音输入法,设置默认输入法为英文删除微软拼音输入法设置英文为默认输入方式删除微软拼音输入法在安装好自己熟悉的输入法后,我通常会将系统自带的微软拼音输入法删除,但系统又总是会自动重装上去。解决的办法很简单,删除以后,再手动添加一次微软拼音输入法,然后再一次删除,以后系统就不会再次自动重装了。设置英文为默认输入方式然后点高级键盘设置,选择默认输入法..._微软拼音输入法删除后没有纯英文输入怎么办

java打印一个三角形_java使用float函数打印三角形-程序员宅基地

文章浏览阅读192次。java打印一个三角形public class Day1 { //打印一个5行三角形 public static void main(String[] args) { for (int i = 1; i <= 5; i++) { //设置好需要打印的行数 for (int i1 = 5; i1 >=i; i1--) { //嵌套的第一个for循环,作用从5到1打印空格,打印5个空格后, _java使用float函数打印三角形

搞定“超超超难”剑桥面试数学题番外篇:ARM64汇编_a+b+c+d=63, find max(ab+bc+cd)-程序员宅基地

文章浏览阅读1.1k次,点赞7次,收藏6次。在本篇博文中,我们用 ARM64 汇编实现了之前题目的算法,并用 SIMD 指令重写了其中对应的乘法(mul)运算操作。_a+b+c+d=63, find max(ab+bc+cd)

锤子android 7,锤子正式加入安卓7.1.1阵容 一加3/3T尝鲜氢OS公测版-程序员宅基地

文章浏览阅读213次。标签:氢OS(2)一加3T(153)前些日子nubia为旗下旗舰手机Z11推送了首个安卓7.1开发版更新,这也让nubia成了国内少数率先适配安卓7.1的手机厂商,拥有刷机小王子之称号的一加也不甘落后,今日,一加正式为旗下的一加3和3T推送了基于安卓7.1.1的氢OS系统更新(公测)。此次更新这两款手机迎来了众多新功能,包括支持便签同步、支持显示拍摄时的地理位置、支持图集隐藏等等。不过经网友反馈,..._smartisan os v7.1.0基于android