934926.jpg

韶华の

GF  2020-08-09 13:48
(仓鼠症重度患者;代下115磁力,50sp/G;更多看简介)

[全年龄正常向]python相关,soup的使用中时间的问题

我需要提取投稿时间,但是网页源代码经过soup处理过之后有一些变化

希望能指点下

(点击图片可查看大图)

网页源代码:


soup之后的代码:


个人程序运行的代码:


遇到的问题:
原本的时间变成了一串数字,不知道怎么处理

第二个是我希望将topic  reply和postdate的信息拼合到一起,有什么比较简单的做法吗?(我上面注释掉的for循环后面两个是错误的)
此帖悬赏结束
最佳答案: 200 SP币
最佳答案获得者: fe2ce5bb

none.gif

fe2ce5bb

B1F  2020-08-09 19:52

回 7楼(韶华の) 的帖子

原来你是要存成一个n行3列的数据格式,还要能以不同的列作为排序的key啊,那么pandas再合适不过了,分析数据很常用,建议简单学习一下,不太难的。pandas还能导出成csv格式,直接用excel打开岂不美哉
最佳答案奖励: (+200) SP币

none.gif

fe2ce5bb

B2F  2020-08-09 16:32
我没写过爬虫,但是时间变成那串数字我知道,你可以去查一下unix时间戳
热心助人奖励: (+1) SP币

none.gif

fe2ce5bb

B3F  2020-08-09 16:40
如果是要把数据组织成表格那这类型的,不妨去看看pandas包

none.gif

fe2ce5bb

B4F  2020-08-09 16:41
因为我主要是用Python做机器学习,对网页什么的了解不深,不太清楚你这个具体是在做什么,给不出更好的办法了

none.gif

fe2ce5bb

B5F  2020-08-09 19:57
想要简单一点就用list存,list里面的每个元素是包含你需要的三个元素一个list或者tuple,排序时给sort函数传入一个key参数来确定根据tuple中第几个元素进行排序