文章搜索引擎(终)
这一章主要是使用第三方的管理工具xadmin来添加管理文章的增删改查功能。
使用Xamdin
xadmin介绍
xadmin是由python编写的基于Django的后台管理框架
使用xadmin只需要定义您数据字段等信息,就可以获得一个功能全面的管理系统
xadmin的特点
基于Bootstrap3,支持多主题哦,支持多屏幕
xadmin是一款全面的后台系统框架,提供很多功能
拥有强大的插件系统
只实现了数据库的增删改查
py3安装xadmin
注意一定要区分jango的版本,python>3 django>2.0的安装比较麻烦
12...
文章搜索引擎(三)
这一章主要将TF-IDF算法整合进SAS中,我们称之为TF-IDF检索模型,达到的效果就是,通过在搜索引擎中输入关键字(以空格做分离),POST到Django后台,后台GET导关键词之后,通过TF-IDF算法返回TF-IDF值最大的前五篇文章。
TF-IDF算法整合
搜索方法HTML相关代码
123456<div class="inputArea"> <form method="post" action="{% url 'index' %...
实现文章搜索引擎(二)
在app>>models中设计相关数据表
数据库设计和前端整合
models设计:
12345678910111213141516171819202122from django.db import models# Create your models here.# 类对象会对应数据库中的一个表class ArticleModel(models.Model): #CharField对应数据库的varchar类型 file_name = models.CharField(max_length=50,verbose_name='文章...
北京密云水库留给我的回忆是无可替代的,实习之前的我和实习之后的我,是两个截然不同的我,那个时候的我信念坚定,失志不渝。半年转眼逝去,再看今日,咬定青山不放松,立根原在破岩中。虽少了意气风发,但多的是坚韧不惧,千磨万击还坚劲,任尔东西南北风。回营地的路上偶遇火烧云,整个水库伴着蓝红色彩变幻莫测,湖面似蓝天又似火海,虽无相机携身,但普通手机镜头下的景色,无需角度,无需滤镜,举目皆是景色。
北京的水库卫士们,你们还好吗~
实现文章搜索搜索引擎(一)
实现功能:通过关键词检索文章,对检索出的文章做主题分析。
开发思路
搭建并配置Django开发环境
前端界面的编写和数据库的设计
编写TF-IDF算法,将与用户输入关键词最相关的5篇文章返回
编写LDA算法,对返回的内容做主题概率运算
使用Xadmin完成后台
Django介绍和环境搭建
Django介绍
搭建开发环境
Django介绍
Django是由Python写成一个开放源代码的Web应用框架,采用了MVC的软件设计模式,使得开发复杂的、数据库驱动的网站变得简单。
Django框架的核心包括:
一个面向对象的映射器,用作数据模型和关系性数...
本宅男第一个安定的周末,终于想起我那可怜的吉他了,可惜在深圳,没能和我一块儿飞回西安,我可是那种听到喜欢的歌整个人都会“不好”的人,更何况自己去让那旋律跳跃在指尖上呢,嗯嗯…边唱边被自己感动的痛哭流涕,尽量还是不要有观众吧,那场景和歌声真实太丑了……然后我在库房厕所“捡到了”新哥的吉他hhh
不说了,先斩后奏!今天果木老师讲的是变调夹的使用,简单地说就是音乐里的1-7七个调对应的A-G七个调,除了EF和BC是差半个音阶外,其它的都是一个音阶,也就是吉他上的两个品位,完了我们就可以拿最熟悉的C调去应付任何一个曲调编排的谱子啦~其实按照我的个性,肯定是不喜欢理论先行的,没办法,茧子养没了的...
LDA算法(一)
LDA算法的定义
LDA算法应用范围
LDA算法的原理
LDA算法的定义
隐式狄利克雷分布(Latent Dirichlet Allocation,简称LDA)是一种概率主题模型。
LDA是2003年提出的一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出。LDA通过分析一些文档可以从中抽取出它们的主题分布,根据主题分布进行主题聚类或文本聚类。
LDA算法的特点
LDA是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
LDA算法的作用
将文档集中每篇文...
TF-IDF算法
TF-IDF算法的定义
TF-IDF算法应用范围
TF-IDF算法的原理
TF-IDF算法(一)
TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与文本挖掘的常用技术。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
TF-IDF的主要思想:如果某个词或短语在一篇文章中出现的平率很高,并且在其它文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF-IDF算法应用范围
权重计算
搜索引擎
论文检索
文章比对
关键词抽取
TF-IDF算法的原...
jieba的使用和算法详解
jieba分词工具的介绍
jieba分词工具的使用
TextRank算法原理
jieba去除停用词
结巴中文分词
目标与愿望:做最好的Python中文分词组件
普及读:有很多不同语言版本的jieba,R语言、GO语言、.NET版本等。
特点
支持三种分词模式(精确模式,全模式[cut_all=True],搜索引擎模式[.cut_for_search]])
支持繁体分词
支持自定义词典
安装
1$ pip3 install jieba
加载词典
载入自定义字典
1jieba.load_userdict('filename&ap...
HanLP介绍
HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然与眼处理在生产环境中的应用。HanLP具备功能完善、性能高校、架构清晰、语料及时、可自定义的特点。
HanLP实现了中文分词、词性标注、关键词提取、自动摘要、短语转换、拼音转换、文本推荐、依存句法分析等功能。
HanLP简单使用
下载HanLP Protable版
http://t.cn/RfMdLJf
下载Jpype
https://pypi.python.org/pypi/JPype1-py3#downloads
1234$ sudo apt-get install g++ pyth...