LoginPanel

预览模式: 普通 | 列表

psp3.71 m33-4升级和主题更换

在一段相对较长的时间后,M33小组终于发布了最新的自制系统3.71 M33,一时间又掀起了一阵刷机狂潮,什么?你还没有刷?那好,先跟着我们来一步步地把机器刷好。

  新的自制系统同时针对新版和旧版PSP,两种机型的拥有者都可以安装。

准备步骤:
已经刷机成3.52 M33(对应旧版PSP)或是3.60M33(对应新版PSP)PSP一台,如果符合要求的话需要将PSP升级到相应的版本
点此查看3.52 M33升级教程(对应旧版PSP) 点此查看3.60 M33升级教程(对应新版PSP)

查看更多...

分类:Diary | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 3016

知己知彼,百战不殆!

知己,则在于对自我的审慎与认识。要明白自己的长处和短处,明白自己到底想做什么?知彼,则在于对自己的对手应该有个系统的认识,以主动的、预见性的方针来指导自己的行动,进而战胜对手!要想战胜对手,首先应该去了解他!

Powered by Zoundry

分类:Diary | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 312

教您如何开网店

教您如何开网店(一)


随着网络时代的飞速发展,越来越多的传统媒介已被网络取代。如今,中国的网民量已经突破了一亿,不论是否从事IT行业,每天到网上浏览新闻、查阅资料、收发信息已经成了一部分网民的习惯,并且有将近8000万的用户体验过网络交易,有300万家商户在网络上每天乐此不疲地进行营销和采购。
如果您是一位网络爱好者,并有充足的在网时间,我建议您首选网上开店!究其原因,从下面几个方面来聊聊:

查看更多...

分类:Diary | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 414

网页自动分类引擎

对于搜索引擎来说,能够自动的识别网页的类别还不够,因为一个网页的类别往往不是单独的,而是在不同的分类基础上有不同的分类结果,本文在这里再次给出信噪比这个概念:

信噪比是一个用来衡量网页里关键词的信息是否超过一定的阈值的关键:


网页信噪比(Significant)

查看更多...

分类:文档 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 304

博客搜索引擎逐渐成为一个趋势

博客(Blog)搜索引擎相对与以往的搜索引擎相比有几个明显的优势:

1] 博客的分类机制比较稳定,这是因为一般的blogger都将自己的blog分成了几个类别,那么这样基本上在用户进行发文章的同时已经进行了最基本的筛选,相对类别就比较容易计算。

2] 博客的世界里常常关心的是最新的最具有有意思的一些新闻的突发的时间,而这些又是大家进入搜索引擎寻找乐趣的目的之一。

3] blog的维护者经常更新网页,这样就会使得一个网站的死网页的个数少,有利于爬虫的效率。

Powered by Zoundry

分类:文档 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 331

新闻搜索引擎不过搜索引擎的一类,预期说开发新闻搜索引擎,如果更准确的说不如说是开发一个"能够识别新闻"的"新闻爬虫"。

既然没有"新闻爬虫"这个概念,我就将其定义为"News Crawl",这个News Crawl与以往的爬虫和蜘蛛有什么不同?难度何在?有和意义?

1] 新闻爬虫是机器爬虫,仍然是按照以往的爬虫程序进行运行,但是不同之处如下:
只爬固定的新闻站点,或者某个站点的某一个 directory 下。这样确保新闻的来源

查看更多...

分类:文档 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 300

平移算法简介

在开发新闻搜索引擎的时候,出现一个问题就是有很多的新闻属于转载的形式,要判断新闻是否转载,经过实验,我发现可以用"平移"算法来实现。

"平移算法"非常简单易用,就是比较两个文章/字串中最高的重叠率和平均重叠的长度。
例如我们有两个文章的标题:

"报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网"

查看更多...

分类:算法 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 296

Larbin 一种高效的搜索引擎爬虫工具

1]larbin的简介
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。

Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。

latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看到,一个简单的larbin的爬虫可以每天获取500万的网页,实在是非常高效。

查看更多...

分类:文档 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 328

计算机文本分类和模糊聚类

机器人新闻的Beta版本:机器新闻中心,因为没有更多的时间开发,暂时收集大家意见和建议,等月底再继续开发。

1.
什么是分类?
分类就是将一片文章/文本自动的识别出来,按照先验的类别进行匹配,确定。

查看更多...

分类:文档 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 311

再说机器新闻的分类和聚类

1] 个人新闻门户
改变以往的千人一面的新闻门户是机器新闻的目标,我几个月不上新浪的原因是我不想打开一个有90%内容我不关心的新闻网站。我会看些我订阅的Rss,例如Klog,Keso,Mao等,我这样偷懒的原因是简单的,因为这些人可以进行先期的过滤,将好的新闻/信息已经收集了起来,而降低个人获取信息的难度。

2] 定制+搜索
Google不提供Rss是完全可以离解的,因为Rss实在是把现有的搜索引擎,新闻聚合系统的技术难点降低到了极限,而这些在传统技术中都是Google的长处,Google是一个网络机器,它说实际并不喜欢用户离线的活动。但是,Google的定制和搜索加Email后也是我每天必修课,原因也是我只关心我订阅的一些内容,而这种直接送到google邮箱的做法,仍然是提高Google的粘合力的一种非常有效的做法。

查看更多...

分类:文档 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 286