@TeamSH-IT
讨论中提出的一些问题及解决方法:
问题:Hu Renjun要先实现了一个简单的问答去重,但是没有数据来测试呀!而且我们在开发的过程中,爬虫组并不会提供他们爬取的结果,那我们的测试数据怎么搞定?
小组讨论结果:HRJ如果需要可以自己手动去搜集几个数据,在Lian Zhaopeng 和 Li Bin开发的功能实现后,我们应当收集一些数据并存入数据库中,方便系统整体的调试和以后的功能演示。
问题:譬如百度知道等问答网站,一个问题可能拥有很多回答,需要保存多种回答么?
小组讨论结果:暂时只保存一种,在信息抽取部分要尽量抽最佳的回答。
详细的完成情况:
组员 | 今天任务 | 明天任务 |
Hu Renjun | 任务84 数据处理——整合 搜集几个Key Data 实现去重功能 | 任务84 数据处理——整合 收集 整理一些Key Data 调试去重功能,并完善 |
Peng Xiaodong | 任务68 前期UI设计 完成界面小样 逐步完善 | 任务68 前期UI设计 完善UI 自己做测试数据 |
Lian Zhaopeng | 任务82 数据处理——去噪 在明确要求的基础上开始构思算法如果时间还很多的话可以开始初步的写代码 |
明确算法之后查询关于用c#解析htm的资料 |
Li bin | 任务83 数据处理——抽取有用信息 上网查有关抽取信息的资料 | 任务83 数据处理——抽取有用信息 考虑算法 |
Sui Yuhao | 任务67 定义数据格式 阅读有关Content schema definition & Content Pipeline的内容 熟悉数据库操作 | 任务67 定义数据格式 在My SQL里建立所需的表,了解Crawler原理 |
Born Down 图:
感觉和昨天的没啥区别!!