日积月累 - 一些小知识 - 杂乱 - 啥都有

这里准备放一些日积月累的小知识，但是相比于日积月累 - 一些小知识而言，本文更加随意（杂乱）。

Github 在issue中引用代码的代码段

方法：在Github的代码页，点击其中一行的数字，按住shift，再点击零一行的数字，会发现这几行有了背景色。点一下上面那行左边的“三个点的按钮”，点击Reference in new issue，即可在新的issue页面获取所引用代码的链接。

效果：Github@LetMeFly666/LeetCode/issue#32

轻量级Flask搭建小Web服务

from flask import send_file, Flask

app = Flask('1')

@app.route('/file/')
def download_file():
    return send_file(r'C:\Users\LetMeFly\Desktop\image.png', 'a.png', as_attachment=True)


@app.route('/')
def hello_world():
    return 'Hello World!'

print(app.url_map)
app.run(host='0.0.0.0', port='80', debug=True)

这样，访问ip/file/时就会开始下载文件，访问ip/时会看到Hello World!

C++ auto&&

1
2
3

queue<pair<int, int>> q;
auto&& [x, y] = q.front();
q.pop();

其中q.pop()将会导致x和y的值失效！详情可见一个De了1个多小时的BUG：7d4f27d

一点关于华为云空间计算方法以及备份内容的探究

华为云空间有5G免费额度，但很快就满了。于是简单探究了下这5G都备份了啥，发现问题有2：

备份内容重复问题
强制备份应用列表问题

备份内容重复问题：

如果我既备份“图库”，又在“文件管理－我的－设置－自动上传文件至云盘－微信文件/QQ文件”中勾选备份“图片/视频”的话，这些图片就会被备份两次，一共占据两次云空间容量。

强制备份应用列表问题：

备份“当前设备”时，会强制备份“系统数据”。系统数据中包含很多设置，同时还包含“应用列表”。

如果是在华为应用市场下载的应用，那么基本上就是存了个“下载链接”；但若是从第三方下载的应用，则会直接将应用安装包给备份上去。

这个选项无法单独关闭，是个空间消耗无底洞，轻轻松松以GB为单位。

有个投机取巧但不值得做的办法：删除“当前设备”并重新备份，系统会首先备份其他数据（正好是你想要的），最后备份“应用列表”。备份应用列表的过程中空间满了，备份终止，但你想备份的数据也已经备份完了。

安卓应用独占蓝牙信道

使用蓝牙耳机进行腾讯系列软件通话时（包括但不限于腾讯会议、微信视频），软件会独占蓝牙信道，使得：

蓝牙无法同时播放音乐
蓝牙声音奇大无比震耳欲聋，调到最小也很大，想调到0调不到

电脑上腾讯系软件也这样，但是可用通过在声音图标上右键 -> 声音 -> 播放 -> 双击蓝牙设备 -> 高级 -> 取消勾选“允许应用程序独占控制该设备”解决。

安卓上暂未找到可行办法。。。emm，我说你个tx，不给用户一个选项么，上来就独占，如果我不想让你独占呢。。。

还有使用腾讯会议时经常弹出的“监测到音量过小，建议调整到50%以上”。好家伙，最低音量（6%）我都觉得震耳欲聋，你这样是想让用户报工伤吗？

司法人工智能

Large Legal Fictions: Profiling LegalHallucinations in Large Language Models

@article{dahl2024large,
  title={Large legal fictions: Profiling legal hallucinations in large language models},
  author={Dahl, Matthew and Magesh, Varun and Suzgun, Mirac and Ho, Daniel E},
  journal={Journal of Legal Analysis},
  volume={16},
  number={1},
  pages={64--93},
  year={2024},
  publisher={Oxford University Press UK}
}

看完觉得主要就是测评了一些大模型在回答司法问题时的“幻觉问题”。

实验部分：

Chat with DeepSeek.

我比较关心：

请详细解释零样本和三样本。
作者是怎么比较模型回答和已知正确答案的。（1. 在基于参考的查询中，作者如何判断一个回答是否正确，难道要手动判断这几十万次回答吗？2. 在无参考的查询中，作者是如何让ChatGPT帮忙判断回答是否一致的。GPT能判断正确吗？这里会不会引入不信任度的问题？）

大模型问答时，零样本是“模型直接根据任务描述或问题生成答案，不提供任何提示”，三样本是“回答前给几个示例”。

如果做相关实验的话：

成本问题，例如GPT似乎需要开通会员才能充钱调用API，还有就是API的价格大概是一个什么样的价位。（1次对话1k token计算，ChatGPT-4o输入2.50美元/1M输出10美元/1M，1k次对话11美元，80w次对话得8.8k美元？）（当然这个是全估算，实际可能会相差好几倍，如果限制只输出“答案”不输出多余内容的话，一次输入1k，一次输出50，1k次对话2.5+0.5=3美元，80W次对话得2.4k美元）
数据库来源问题，我能找到这么好的数据库并将其预处理好以便和LLM的回答直接匹配吗？如果LLM不按照格式回答怎么办？我如何处理LLM的回答为可直接对比的格式
数据处理问题，几十万次查询总不能手动比结果，文章中好像也没说明白到底是怎么统计的。实际做实验的话，关于作者、法院、存在性是否正确等问题，需要一一想办法进行匹配。主要是本文未开源。
需要想好都统计哪些指标，以及这些指标的规则细节（例如若大模型弃权回答不应算作幻觉）

一句话：数据处理上估计比较头疼，但应该还在可完成的范围。数据来源（数据集）上得找一下。要测试哪些指标，什么情况具体如何衡量，都需要仔细想好并设计。成本上如果进行80W次对话这种量级，初步预估可能需要个1W人民币左右的成本。

总结： (第一遍粗略阅读的总结，请我的小读者按批判的眼光看待)

这篇文章测试了4个模型，使用了零样本和三样本两种模型回答方式，统计了幻觉率、存在性、法院层级等很多指标(例如统计每种模型在非贪婪温度下的幻觉率)，帮助作者系统地分析了LLMs在不同任务和设置下的幻觉现象，并揭示了其在实际应用中的潜力和挑战。

模型如下：

OpenAI’s ChatGPT 4 (gpt-4-1106-preview, OpenAI 2023a)
OpenAI’s ChatGPT 3.5 (gpt-3.5-turbo-0613, 2023b)
Google’s PaLM 2 (text-bison-001, Anil et al. 2023)
Meta’s Llama 2 (Llama-2-13b-chat-hf, Touvron et al. 2023)

GoLang

Go的值类型和引用类型

Go中a := b，若b是值类型则会发生值拷贝，修改a不会修改b；但若b是引用类型，则赋值操作会传递引用，修改a也会导致b同步变化。

常见值类型：基本类型（int、string、…）、数组、结构体
常见引用类型：切片、映射、通道、函数、指针

Kitex使用日记

From: Github@LetMeFly666/LeetCode/tryGoPy/Go/douyinec/README.md

git clone git@cloudwego/kitex-examples.git
cd kitex-example
go run .  # 这里我本来使用的Go 1.19.5不支持go.mod里的toolchain，所以升级为了当前最新版go1.23.5
# 令起终端
go run ./client

开了个私有仓库来记录kitex学习过程中的修改

Github@LetMeFly666/kitex-examples

起了个别名：

1	`git config --local alias.pushLet "push Let main:master"`

后续想要push到远端的时候直接git pushLet就好。

TODOED: 给CloudWeGo提PR，不sleep 1 秒。

可行吗？试试吧。像个办法看进程启动了还是异常退出了。

不行就不PR了。

TODOED: https://www.cloudwego.io/zh/docs/kitex/getting-started/tutorial/#%E6%8B%89%E5%8F%96%E4%BE%9D%E8%B5%96 的上面的代码段，build.sh后面有一个tab，导致渲染出来的注释不对齐

自定义RPC函数

修改.thrift文件

使用kitex生成新代码文件

1	`kitex -module "github.com/cloudwego/kitex-examples" -service a.b.c hello.thrift`

更新go文件
1. 更新./handler.go，实现自定义的RPC函数
2. 更新./client/main.go，调用这个远程函数

sth. about 漯河日报（特指网站） - 发现By 我和shy

由一本书引发了漯河日报的一篇文章，然后开始了一点点对于日报官网的探究。

2018年12月21日及其之前，页脚备案信息“都”是：

1
2
3

鄂ICP备05006816号
Copyright@1984-2006 China water transport. All Rights Reserved.
中国水运报刊社 版权所有 建议分辨率1024*768 IE6.0下浏览

2018年12月24日及其之后（截至2018年12月31日13:55:55），页脚备案信息变成了：

1
2
3

豫ICP备05015908号
互联网新闻信息服务许可证编号41120181101
Copyright© 2002-2018 漯河日报社版权所有 未经书面特别授权，请勿转载或建立镜像 建议分辨率1024*768 IE6.0下浏览

猜测可能是18年年底之前漯河日报没有“互联网新闻信息服务许可”，所以先用了中国水运报刊社的资格。

小槽点

只支持HTTP而不支持HTTPS不是很安全。
下方页脚未及时更新，估计是之前全部生成的静态页面而不是动态获取的。这样的话文件在服务器上有很大的“相同内容的冗余”，但还好。
日报地址格式为http://rb.lhrb.com.cn/html/YYYY-mm/dd/node_2.htm，emm，不能简化一点么。并且将node_2修改为node_1后还能访问只是部分乱码了。

Github在commit中引用pr后删除commit

提一个pr，例如(#1)，在一个commit中包含#1这一信息并push到github，那么#1这个pr上就会出现对这次commit的引用。

先commit并push到github，再创建#1这个pr，则pr中不会出现对包含#1的commit的引用。

提pr后引用pr的commit被强制覆盖删除后，这个commit仍然会出现在pr的“时间线”上。

记一次微软office plus的卸载

某天起，微软向安装了office的大陆用户静默推送了office plus，里面有一点免费模板和大量会员才能享受的功能。虽然非常鸡肋，但还没到让我想要直接卸载掉它的地步。

直到今天(2025.2.20)，我在某PDF上右键时，发现多出来了一项PDF转换/拆分/合并…这对于右键菜单重度清洁的我是完全不可忍的，我甚至一度以为电脑什么时候被下崽器安装了个WPS。

点开一看，原来是Office PLUS。然后左上角写个会员专享。诶，不是，你直接往我右键查单里面加广告么？这玩意儿不是之前Office自带的功能么？

Office PLUS支持微信登录和手机号登录（太入乡随俗了吧！），下面写着“由成都艾斯莱德公司授权运营”。网上有说这就是做islide那家。

于是直接Geek Uninstaller卸载了，右键菜单清净了。

与之类似的还有微软为国区用户静默安装的微软电脑管家，国内一些集团垄断造成的互联网环境暂且不提，连外企到中国后都得开始“本土化”么？

微软电脑管家就是集成了一些系统本来就应该做的东西，然后再加一堆广告（包括office plus的广告）。唯一看起来有点用的就是“内存清理”，实现原理似乎是利用Windows提供的API(EmptyWorkingSet)将不常用的内存页换到虚拟内存中，其实没啥用而且可能额外降低运行速度，特别是内存足够大的时候更没啥用。

你说它自带“弹窗拦截”功能？对不起，我电脑上本来就没有弹窗。

微软电脑管家点了一个“图片搜索”，结果启动了Edge。修复建议是“默认浏览器已被修改，点击使用Microsoft Edge”。全面体检的结果是：“恢复Edge为默认浏览器”、“重置任务栏(显示搜索框和新闻兴趣)”、“微软电脑管家开机自启”、“重置PDF默认应用为Edge”。

不过其中的“垃圾清理”功能有点类似360杀毒，可以识别出来很多程序缓存，这点还不错。

但是即使不勾选“开机自启”，也会在后台一直有几个进程。所以，卸！

遗传算法

2024.12.26-22:37:33就想mark一下遗传算法，今日整理文件终于给这个🕳填了。

例如找到山顶的游戏，初始随机生成一些“探险队”，每个人的位置被编码成“染色体”。
谁评分高（例如海拔越高评分就越高）谁就有更大概率被选中成为“父母”。
选中的父母交换部分基因（例如父10101010母01010101交换后半段得到子10100101），这样呢能组合出离山顶更近的位置。
随机变异，小概率改变某个孩子的编码，防止所有人卡在同一区域。
重复2、3、4步，达到预设代数（例如100代）后结束。

Chrome历史记录

今天发现DeepSeek网页端左侧对话栏只能显示一定的聊天记录，但是如果还记得历史某对话的对话地址就还能正常访问。

这就说明对话是一直保存着的，只是你可能会找不到对话“入口”而已。

Chrome历史记录保存有效期大约是3个月（网搜），想导出一下我的DS对话历史记录，就开始了一些小探索。

方法一：使用插件History Plus可以方便地管理和导出

方法二：History历史数据库其实存放在%userprofile%\AppData\Local\Google\Chrome\User Data\Default\History，是一个SQLite数据库。读取时记得关闭Chrome浏览器，因为sqlite是单线程的，Chrome在读的时候你再取读会报错“database is locked”。如果Chrome在读或许你也可以复制一份到其他位置，主要是没有密码是明文的。

End

The Real End, Thanks!

原创不易，转载经作者同意后请附上原文链接哦~
https://blog.letmefly.xyz/2023/10/19/Other-Accumulation-Messy

技术思考

#中等 #其他 #小杂 #知识 #Github

日积月累 - 一些小知识 - 杂乱 - 啥都有

https://blog.letmefly.xyz/2023/10/19/Other-Accumulation-Messy/

作者

Tisfy

发布于

2023年10月19日

许可协议

使用GH（命令行）在本地提出Github上的issue、PR，合并PR 上一篇

1726.同积元组下一篇