使用ffmpeg处理YCbCr422(YUV422-10bit)格式的视频信号

最近搞的项目跟视频采集卡有关。客户的要求是采集的时候视频卡信号要设成YCbCr42210bit格式,从板卡上采集到的图像要将这个原始格式不压缩直接保存成mov文件。另外要能读取自己保存的mov文件,在板卡上播放。
然后我的猪队友同事们给我甩来两个课题:
一是没用明白windows的SinkWriter,非说人家巨硬不支持这种yuv42210bit的保存。
二是视频的连续播放,只能把mov文件拆成一帧一帧,把原始数据喂给板卡。但是之前抄的例子是8bityuv,10bit的不会弄,而先转成bmp再转yuv422的话误差太大。

这一看就不是我能手搓出来的事儿,跟客户申请之后,客户表示可以用ffmpeg的命令行(因为GPL,不能用库的方式使用)。
于是我要处理的两个问题如下:
(一)将YUV422-10bit的原始数据(raw)保存成mov
(二)从自己保存的mov中抽取每一帧的原始数据。

一番搜索之下终于给对付上了。这个格式就挺恶心,ffmpeg的官网更恶心。官网上洋洋洒洒50章,每个参数都说到了,例子却寥寥无几,专有名词一大堆,给人一种生人勿进的的错觉。

将yuv422-10bit的原始数据转成非压缩mov

  • 命令行:
  • ffmpeg -f image2pipe \
           -frame_size 5529600 \
           -vcodec v210 \
           -pix_fmt yuv422p10le \
           -s 1920x1080 \
           -r 60000/1001 \
           -i fromcard.raw \
           -c:v v210 \
           -an -sn \
           result.mov
    

    逐个解释一下各参数的设置

  • -f image2pipe
  • 输入文件的format。这里的format是ffmpeg的demuxer的格式,可以通过ffmpeg -demuxers进行查看。输入原始数据的时候本来应该用rawvideo。但是ffmpeg在处理yuv42210p的原始数据的时候有一个非常奇怪的bug:在计算每一帧数据空间的时候,ffmpeg认为一帧数据的大小是宽*高*4。但是yuv42210p系列的格式,每16个byte里包括6个像素点的信息而不是4个,这就造成了用rawvideo生成的图像会丢失1/4的帧的奇怪现象。ffmpge的官网上曾经记录过这个issue,貌似他们没改好啊。我的这个解决办法实际是在issue的回复里找到的。image2pipe是一种通用的流格式,这里利用了它必须指定帧宽的特性。

  • -frame_size 5529600
  • 与image2pipe配合使用,指定每一帧的大小。5529600=1920x1080x16/6,其余分辨率自己算。注意如果raw不能被这个size整除,会报成信道不足的奇怪错误。

  • -vcodec v210
  • 输入使用的解码器。可以大致理解为YCbCr42210bit≈yuv422p10≈v210。v210就是这种格式的FCC码。

  • -pix_fmt yuv422p10le
  • 输入文件的图形格式,yuv422p10le使用16个字节(128bit)描述相邻的6个像素点,并且每32bit按照小字节序反转。反正就是搞清板卡设置的格式,按是否是小端字节序来觉得是否加最后面的“le”

  • -s 1920×1080
  • 输入图像的分辨率

  • -r 60000/1001
  • 相当于帧率(fps)。如果生成的帧率是整数,可以直接写。但如果帧率是小数,比如59.94,就要写成timescale/duration的形式。

  • -i fromcard.raw
  • 输入文件。我这里是把所有的帧存到了一起,放在同一文件里。

  • -c:v v210
  • 输出文件的视频编码器。因为这个参是要设输出文件,所以一定要放在-i的后面。

  • -an
  • 无音频流。

  • -sn
  • 无字幕流。

  • result.mov
  • 输出文件。

    如果需要存成隔行信号的文件,要在-i后面加一组参

    -vf tinterlace=interleave_top,fieldorder=tff
    

    顶场底场/奇数先偶数先其实有4种排列组合。但是自己编自己解,FFMPEG都能搞定,就不具体说明区别了。

    从mov中抽取每一帧的原始数据

  • 命令行:
  • ffmpeg -i input.mov -c:v v210 frame_%04d.raw
    

    同样逐个参数解释:

  • -i input.mov
  • 输入的mov文件。

  • -c:v v210
  • 输出文件的图像编码格式。与之前相同。其实这个参数是无视输入格式本身的。如果是本篇中的例子,输入与输出的图像相同,那就没有产生转换;如果不同,则ffmpeg会自动将原始格式转为这个参指定的图像编码格式,非常智能。

  • frame_%04d.raw
  • 输出文件。ffmpeg是根据输出文件的扩展名来自动识别输出格式的。想要原始数据,就必须指定成.raw为扩展名。如果不加%d,ffmpeg就会把所有帧存成一大坨文件保存;加了%d,就是逐帧分开保存。

    如果上面生成了隔行文件,那么这里也要增加一组参数

    -filter:v yadif=1

    否则解出来的帧数就会少一半。

    搞定!

    已有6条评论

    1. 日企和国企总是搞这些莫名其妙的格式和编码器。422采样到底有什么优势也没人说得清楚,大家基本都还是在用420。能上422-10bit,这摄像头/采集卡是有这么强力吗?然后还有对应的10bit显示器?
      FFMPEG那官网不知道怎么回事,两个教程网站,而且两个网站参数都很齐全,都包含对应版本不存在的过期参数,然后例子不是没有就是例子瘸,不然stackoverflow上也不会有那么多超基础的FFMPEG问答了。

      1. 因果关系应该是客户被忽悠买了某厂商的视频卡,然后对方推荐用yuv42210bit的格式。做医疗器械的嘛,新一代的产品总要搞些噱头才好卖啊。

        1. 搞噱头直接AV1就好了,不会用1999年的这种25年前的玩意。
          这种不像搞噱头,这种像商业套路之绑架。你产业链上用上这种奇葩玩意了,日子久了,出(非技术方面)问题,再想换就得重新开发,那坑就不知道埋了多少了,很难办,到时候就得玩商业上的套路。
          我当时用某个关键字搜,谷歌竟然都只有3条结果,一个是官方文档,一个是stackoverflow,最后一个就是你的这篇文章,也就是说如果后人有踩坑,你这篇文章还是唯一的中文资料。
          事实上我刚才又搜了一下,v210是TMD苹果的专属编码格式(苹果的所有私有格式都有无数大坑),而且很有可能撞到授权问题。(埋坑是商业手段的一种,我也是习惯了)

    2. 虽然 ffmpeg 参数很难记忆,但是利用 ChatGPT 应该可以直接给你正确的答案吧?

      1. 不能。因为正常的方法ffmpeg自己有bug。

    3. 早年的时候一顿玩开源的x264编码器,现在流行的应该是x265了。
      什么422 420的 官方文档也很全。
      视频和音频的合并再用ffmpeg。

      1. 我这部使用的时候没有音频的事。4228bit很成熟,10bit不行。x264和x264视频方面用的都是压缩的,我们客户的要求是不压缩。

    4. K

      -frame_size 5529600这个没啥用吧,ffmpeg自动计算帧

      1. 精华就是这个参。我不是说了吗,ffmpeg有bug,不给这个参的话,这种格式的帧就算错了。让它自动算会算成8,294,400,多取了1/4。

        1. K

          奇怪的知识又增加了,果然还得是专业人士

    你好,新朋友。留言前请先填写昵称邮箱