本文在搭载了两片TegraXI处理器的巧件平台上,利用GPU并行处理故术,研发了4K分辨率电子巧窥镜系统中的图像处理算法。算法的主要部分为实时的图像前端处埋,用于处埋内镜采集到的原始数据W供显示设备使用;另一部分为非实时的吐264视频编码,利用处理器GPU的剰余性能对部分重要数据进行编码及存储。本文首先根据CUDA编程模型W及TegraXl的具体硬件配置,为毎个模块单独设计了线程分配方案W提高程序的并行效率。其次,本文在优化方面使用共享内存减少了对全局内存数据的读写;通过调整各线程处理顺序减少了程序条件分支;使用零拷贝减少了CPU-GPU数据通信的时间。在算法协同运行方面,本文使用流处理消除了不同进程使用同一个GPU资源时互相的干扰问题,并通过将编码算法中的各个模块进一步划分,缩短了单个任务对GPU的连续占用时间,从而保证了困像前端处理的实时性与低延迟。