gharchive-traps

过去的一个半月花了很多时间在gharchive(GitHub Archive)这个数据到clickhouse的同步上。最后就在记录一些gharchive数据问题。

数据文件的下载方式就在这里不具体说明了,源网站都有。另外建议分开做下载和解析导入,因为下面坑真的很多一步没做好程序就寄了。

先简单说明,gharchive:

  • 活动档案自 2011 年 2 月 12 日起提供。
  • 2011 年 2 月 12 日至 2014 年 12 月 31 日之间的活动档案是通过(现已弃用)时间线 API 记录的。
  • 从 2015 年 1 月 1 日开始的活动档案是通过事件 API 记录的。

因此这里的坑也分成Timeline和Event两部分(数据库也是

Timeline

2012-2014

因为表结构为数据定制,因此皆无异常

Events

2015

无异常

2016

无文件

2017

无异常

2018

无文件

2019

无文件

2020

无文件

内容错乱

  • https://data.gharchive.org/2020-10-30-17.json.gz md5sum 71d21fc7d9feed6c479d817360c2327d
    文件最后缺失 "site_admin":false},"repo":nul 这个null都没打完,修改为,"repo":null}}},"public":true,"created_at":"2020-10-30T18:00:20Z"}完全闭合并补充时间信息(根据comment的updated时间),另外查的这个人当时没org信息因此不补充

2021

无文件非常多:

内容错乱

2022

无问题

2023

内容错乱

77743 行,一堆空字符,空字符后面又是一个json,把这些空字符换成一个换行符