Ex_treme's blog.

Ex_treme's blog.

do what you love and believe in, and the answer you find will come up naturally

文章搜索引擎——后台和总结
文章搜索引擎(终) 这一章主要是使用第三方的管理工具xadmin来添加管理文章的增删改查功能。 使用Xamdin xadmin介绍 xadmin是由python编写的基于Django的后台管理框架 使用xadmin只需要定义您数据字段等信息,就可以获得一个功能全面的管理系统 xadmin的特点 基于Bootstrap3,支持多主题哦,支持多屏幕 xadmin是一款全面的后台系统框架,提供很多功能 拥有强大的插件系统 只实现了数据库的增删改查 py3安装xadmin 注意一定要区分jango的版本,python>3 django>2.0的安装比较麻烦 12...
文章搜索引擎————TF-IDF算法整合
文章搜索引擎(三) 这一章主要将TF-IDF算法整合进SAS中,我们称之为TF-IDF检索模型,达到的效果就是,通过在搜索引擎中输入关键字(以空格做分离),POST到Django后台,后台GET导关键词之后,通过TF-IDF算法返回TF-IDF值最大的前五篇文章。 TF-IDF算法整合 搜索方法HTML相关代码 123456<div class="inputArea"> <form method="post" action="{% url 'index' %...
文章搜索引擎————前后端结合
实现文章搜索引擎(二) 在app>>models中设计相关数据表 数据库设计和前端整合 models设计: 12345678910111213141516171819202122from django.db import models# Create your models here.# 类对象会对应数据库中的一个表class ArticleModel(models.Model): #CharField对应数据库的varchar类型 file_name = models.CharField(max_length=50,verbose_name='文章...
密云水库
北京密云水库留给我的回忆是无可替代的,实习之前的我和实习之后的我,是两个截然不同的我,那个时候的我信念坚定,失志不渝。半年转眼逝去,再看今日,咬定青山不放松,立根原在破岩中。虽少了意气风发,但多的是坚韧不惧,千磨万击还坚劲,任尔东西南北风。回营地的路上偶遇火烧云,整个水库伴着蓝红色彩变幻莫测,湖面似蓝天又似火海,虽无相机携身,但普通手机镜头下的景色,无需角度,无需滤镜,举目皆是景色。 北京的水库卫士们,你们还好吗~
文章搜索引擎————环境搭建
实现文章搜索搜索引擎(一) 实现功能:通过关键词检索文章,对检索出的文章做主题分析。 开发思路 搭建并配置Django开发环境 前端界面的编写和数据库的设计 编写TF-IDF算法,将与用户输入关键词最相关的5篇文章返回 编写LDA算法,对返回的内容做主题概率运算 使用Xadmin完成后台 Django介绍和环境搭建 Django介绍 搭建开发环境 Django介绍 Django是由Python写成一个开放源代码的Web应用框架,采用了MVC的软件设计模式,使得开发复杂的、数据库驱动的网站变得简单。 Django框架的核心包括: 一个面向对象的映射器,用作数据模型和关系性数...
《滴答》
本宅男第一个安定的周末,终于想起我那可怜的吉他了,可惜在深圳,没能和我一块儿飞回西安,我可是那种听到喜欢的歌整个人都会“不好”的人,更何况自己去让那旋律跳跃在指尖上呢,嗯嗯…边唱边被自己感动的痛哭流涕,尽量还是不要有观众吧,那场景和歌声真实太丑了……然后我在库房厕所“捡到了”新哥的吉他hhh 不说了,先斩后奏!今天果木老师讲的是变调夹的使用,简单地说就是音乐里的1-7七个调对应的A-G七个调,除了EF和BC是差半个音阶外,其它的都是一个音阶,也就是吉他上的两个品位,完了我们就可以拿最熟悉的C调去应付任何一个曲调编排的谱子啦~其实按照我的个性,肯定是不喜欢理论先行的,没办法,茧子养没了的...
主题检索模型铺垫————LDA基础
LDA算法(一) LDA算法的定义 LDA算法应用范围 LDA算法的原理 LDA算法的定义 隐式狄利克雷分布(Latent Dirichlet Allocation,简称LDA)是一种概率主题模型。 LDA是2003年提出的一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出。LDA通过分析一些文档可以从中抽取出它们的主题分布,根据主题分布进行主题聚类或文本聚类。 LDA算法的特点 LDA是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。 LDA算法的作用 将文档集中每篇文...
关键词检索模型————TF-IDF的简单应用
TF-IDF算法 TF-IDF算法的定义 TF-IDF算法应用范围 TF-IDF算法的原理 TF-IDF算法(一) TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与文本挖掘的常用技术。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 TF-IDF的主要思想:如果某个词或短语在一篇文章中出现的平率很高,并且在其它文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 TF-IDF算法应用范围 权重计算 搜索引擎 论文检索 文章比对 关键词抽取 TF-IDF算法的原...
jieba————做最好的Python中文分词组件
jieba的使用和算法详解 jieba分词工具的介绍 jieba分词工具的使用 TextRank算法原理 jieba去除停用词 结巴中文分词 目标与愿望:做最好的Python中文分词组件 普及读:有很多不同语言版本的jieba,R语言、GO语言、.NET版本等。 特点 支持三种分词模式(精确模式,全模式[cut_all=True],搜索引擎模式[.cut_for_search]]) 支持繁体分词 支持自定义词典 安装 1$ pip3 install jieba 加载词典 载入自定义字典 1jieba.load_userdict('filename&ap...
文章摘要器————HanLP的简单使用
HanLP介绍 HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然与眼处理在生产环境中的应用。HanLP具备功能完善、性能高校、架构清晰、语料及时、可自定义的特点。 HanLP实现了中文分词、词性标注、关键词提取、自动摘要、短语转换、拼音转换、文本推荐、依存句法分析等功能。 HanLP简单使用 下载HanLP Protable版 http://t.cn/RfMdLJf 下载Jpype https://pypi.python.org/pypi/JPype1-py3#downloads 1234$ sudo apt-get install g++ pyth...
pzs741
Ex_treme's blog
FRIENDS
friendA friendB