估计阅读时长: 10 分钟  https://github.com/rsharp-lang/athena 在这博客篇文章中的Idea来自于最近进行AI Agent的开发:希望可以有一个方便的框架,能够让我像写普通的R#程序包的方式,为大语言模型编写对应的工具包,实现AI Agent功能。经过了大概一天的摸索,搞定了这样子的AI Agent的框架。我将这个框架取名为雅典娜系统。关于这个系统的名称,我们首先来看看DeepSeek是怎么说的: “我现在正在开发一个和大语言模型助手相关的工具,这个工具可以完成通过自然语言聊天的方式调用相应的工具完成生信数据分析,我需要为这个项目取一个名称,要求这个项目的名称应该是符合下面的需求的:女孩英文名称,和智慧相关的,和科学相关的。为我列举一些候选名称” 根据你的需求(女孩英文名、智慧与科学相关),结合搜索结果中的历史文化名人和寓意,以下是推荐的候选名称及来源解析: 名字 寓意 关联 Athena 源自希腊神话的智慧女神,象征智慧与科学战略。 雅典娜不仅是智慧化身,也代表理性思维,适合强调数据分析与策略的项目。 Clara 拉丁语“明亮、清晰”,象征清晰的科学思维。 […]
估计阅读时长: 8 分钟 https://github.com/xieguigang/LLMs 已知,现在我们可以成功的和正在运行的大语言模型服务勾搭了,现在能够让大语言模型为我们做些什么。很遗憾的是,由于大语言模型本质上只是一个数学模型,其作用只是针对我们的输入找出最佳的字符输出组合。如果我们没有额外的针对大语言模型进行拓展,我们所勾搭上的大语言模型充其量也只是一个聊天机器人,他既不能帮我们发送email,也不能够帮助我们调节屋内的灯光,只能够做到分析我们输入的文本,然后输出一段最佳的文本。所以我们需要通过针对大语言模型添加额外的拓展来帮助我们实现各种功能。 又已知,大语言模型的本质就是进行文本的结构化分析,那么假如我们的输入信息中包含有某些工具函数的描述信息,而且大语言模型能够正确的分析出我们的输入文本和输入信息中所包含的工具函数之间的对应关系,那么大语言模型的输出就可以专门定向的变换为一种针对输入信息所对应的函数调用的结构化文本信息输出。当运行大语言模型的基础服务捕捉到这种结构化文本(例如json)输出后就可以通过这种结构化文本信息的内容解析结果来调用对应的外部工具,这样子我们就可以让大语言模型来帮助我们完成特定的任务了。这种特性就是大语言模型的Function Calling功能。
估计阅读时长: 10 分钟  https://github.com/xieguigang/LLMs 大语言模型从2023年开始,在最近几年非常的火爆。在最近的一段时间,有大语言模型自动化处理数据的需求,开发了一个基于Ollama服务的客户端来通过大语言模型执行自动化任务。在这里记录下这个开发过程。 Ollama介绍 Ollama 是一个开源的大型语言模型(LLM)服务工具,专注于简化本地环境中大模型的部署与管理。它通过类似 Docker 的框架设计,让用户能以极低门槛在个人电脑或服务器上运行各类开源模型(如 Llama 3、Mistral、DeepSeek 等),实现数据隐私与离线推理的平衡。 Order by Date Name Attachments […]
Abdelmoula, W.M., Lopez, B.GC., Randall, E.C. et al. Peak learning of mass spectrometry imaging data using artificial neural networks. Nat Commun 12, 5544 (2021). https://doi.org/10.1038/s41467-021-25744-8
估计阅读时长: 4 分钟基于UMAP工具进行简单的自动化组织分区操作 在这里我们假设已经可以正常的将空间代谢数据导入至MZKit工作站软件之中。假若需要借助于MZKit工作站软件进行切片组织样本的自动化分区操作,相关的功能可以在【MSI Analysis】菜单栏中寻找到。在这里我们打开【Show Map Layer】按钮,选择【UMAP and clustering】功能。 基于降维的组织自动化分区原理 因为降维操作一般是一种特征提取操作,所以经过降维之后,在高维度空间上无法显现的特征,在低维度会呈现出来。在高维度空间散落的相近的数据点,在经过特征提取之后,低维度上会产生相似的特征信息,相互聚集在一簇。这样子我们就可以在低维度空间上通过一些聚类算法讲这些特征进行聚类,最后将聚类特征结果标记到各个散点上的对应的原始成像空间上,我们就可以看见组织分区的结果了。 Abdelmoula, W.M., Lopez, B.GC., Randall, E.C. et […]
估计阅读时长: 6 分钟大家好呀,今天的这篇文章主要是为了回答在B站上的一位小伙伴的请求 Order by Date Name Attachments render-parameters • 18 kB • 190 click 2023年10月15日view-umap • 427 […]
估计阅读时长: 7 分钟假若现在有两条Fasta序列放在你面前,现在需要你进行这两条Fasta序列的相似度计算分析。如果对于我而言,大学刚毕业刚入门生物信息学的时候,可能只能够想到通过blast比对的方式进行序列相似性计算分析。基于blast比对方式可以找到生物学意义上的序列相似性结果,但是计算的效率会比较低。假设现在让你使用这些序列进行机器学习建模分析,或者基于传统数学意义上的基于相似度的无监督聚类分析的时候,面对这些长度上长短不一的生物序列数据,可能会比较蒙圈,因为传统的数学分析方法都要求我们分析的目标至少应该是等长的向量数据。 Order by Date Name Attachments Fasta-A • 544 kB • 170 click 2023年6月29日visualize • 45 […]
估计阅读时长: 2 分钟Docker镜像信息 GCModeller以R#语言的软件包的形式提供给客户使用,相应的R#语言的分析环境以Docker镜像的形式进行打包盒发布,Docker的基础镜像为ubuntu 22.04。 dotnet环境:.NET 6 R#语言安装位置:/usr/local/bin R#程序包安装列表: 索引 包名称 Github 1 GCModeller https://github.com/SMRUCC/GCModeller 2 REnv https://github.com/rsharp-lang/R-sharp […]
估计阅读时长: 11 分钟给定一组n个字符串数组,找到包含给定集合中每个字符串的最小字符串作为子字符串。我们可以假设这个字符串数组中没有字符串是另一个字符串的子字符串。那么基于上面的描述,我们就可以得到下面所示的问题求解目标: let arr[] = ["catg", "ctaagt", "gcta", "ttca", "atgcatc"] // output: gctaagttcatgcatc 上面的问题描述实际上是一个最短超字符串问题(shortest common superstring) Order […]
估计阅读时长: 6 分钟CentOS查看系统版本信息 cat /etc/redhat-release # CentOS Stream release 8 cat /proc/version # Linux version 4.18.0-489.el8.x86_64 (mockbuild@x86-05.stream.rdu2.redhat.com) (gcc […]
估计阅读时长: 5 分钟https://github.com/xieguigang/scale_colour_genshin 在用R绘图时,颜色设置是美化过程中不可缺少的一步。在实际绘图时,一般不会一一手动寻找合适的颜色,而是通过一些R包、网站提供好的,美观的颜色组合,即调色板(palette),可供使用。在这里介绍一种通过提取图片主题色的方法来为我们自动生成画图所用的颜色板数据。 Order by Date Name Attachments 383807b4 • 132 kB • 200 click 2023年4月8日faruzan • […]
博客文章
May 2025
S M T W T F S
 123
45678910
11121314151617
18192021222324
25262728293031
  1. […] 在上面的工具调用消息数据结构中,我们可以清楚的看见有需要进行调用的工具名称,以及参数列表。当我们拿到这样子的调用信息后,就可以基于一定的规则找到需要执行的运行时中的函数来完成功能的实现。对于.NET平台上,我们一般是使用自定义属性加反射操作来解析相关的名称绑定结果。在.NET平台上对于这样子的一个根据调用信息来进行运行时解析和调用的方法,可以稍微参考《【Darwinism】Linux平台上的VisualBasic高性能并行计算应用的开发》的反射代码方法。 […]