我一直不喜欢用 Excel 公式从 URL 中提取域名,用 Google Sheets 做同样的事情也一样。原因很简单:步骤复杂,还会给原本很简单的数据清洗任务增加不必要的阻力。
它通常需要处理复杂公式和 Regex。但有时候,我也不得不用 Google Sheets 或 Excel 从一批 URL 中提取 domain name。
如果你需要从 URL 中提取域名,这篇指南就是为你准备的:
方法一:用 Excel 公式从 URL 提取域名
先从最常见的方法开始。 第一种方法是使用 Microsoft Excel。 把你的 URL 导入或粘贴到 Excel 表格中。
然后在另一列单元格中粘贴下面这个公式,用它从 URL 列表中提取域名。
这是我用的公式: =SUBSTITUTE(LEFT(MID(B5,FIND("//",B5)+2,LEN(B5)),FIND("/",MID(B5,FIND("//",B5)+2,LEN(B5))&"/")-1), "www.", "")
然后按下 “ENTER”,把公式应用到当前单元格。
这个公式的工作原理
FIND("//", B5)+2- 找到
://的位置,并跳过它后面的两个斜杠(例如https://) - 这一步会确定 domain 部分的起始位置
- 找到
MID(B5, FIND(...) + 2, LEN(B5))- 提取
://之后到 URL 结尾的全部内容 - 这部分内容包含域名、路径等信息
- 提取
FIND("/", ..., &"/")- 找到 domain 后面的第一个
/ &"/"用来确保即使原始 URL 中没有/,公式也能正常运行(避免 #VALUE 错误)
- 找到 domain 后面的第一个
LEFT(..., ..., -1)- 从 MID 的结果中截取纯 domain 部分,也就是第一个
/前面的内容
- 从 MID 的结果中截取纯 domain 部分,也就是第一个
SUBSTITUTE(..., "www.", "")- 最后删除 domain 中的
"www."(如果存在)
- 最后删除 domain 中的
最后,拖动单元格右下角,把公式应用到整个 URL 列表,如下图所示:
💡 别忘了: 如果你使用 Google Sheets,也可以直接套用这个公式,得到同样的结果。
方法二:用 Google Sheets REGEXREPLACE 提取域名
=REGEXREPLACE() 是 Google Sheets 内置函数,可以用来从 URL 中提取域名。
这个函数并不算特别技术化,你也可以根据自己的 URL 格式调整它。
先把 URL 列表导入或粘贴到 A 列。
在 URL 旁边的 B 列添加这个公式。
=REGEXREPLACE(A2,"https?\:\/\/|www\.|\/.*|\?.*|\#.*","")
按下 “ENTER”,把公式应用到当前单元格。
这个 REGEXREPLACE 公式的工作原理
REGEXREPLACE(...)- 使用正则表达式识别并替换文本中的特定部分,在这里就是 URL 的不同组成部分。
- 每个用
|分隔的 pattern,都是一个需要被移除的元素。
https?\:\/\/- 同时移除
http://和https:// s?表示s是可选的**,所以两个协议都能匹配\:和\/用来转义冒号和斜杠(Regex 语法要求)
- 同时移除
www\.- 从 domain 中移除
www.(转义后的点\.表示真实的点号)
- 从 domain 中移除
\/.*- 移除从第一个正斜杠
/开始的所有内容 .*表示**“后面的全部内容”**,因此会把 URL 的 path 去掉
- 移除从第一个正斜杠
\?.*- 移除 query parameters,例如
?ref=newsletter \?用来转义?字符
- 移除 query parameters,例如
\#.*- 移除 fragments/anchors,例如
#section3 \#用来转义#符号
- 移除 fragments/anchors,例如
- 最终结果:
- 留下一个干净的核心 domain,例如
datablist.com
- 留下一个干净的核心 domain,例如
然后拖动单元格右下角,把公式应用到整个列表。
完成了!
Interesting Fact: Regex replace 不只适用于 Google Sheets,在 Excel 中也可以使用,但前提是你使用的是新版 Excel,或者在浏览器中使用 Excel。
方法三:用 AI 从 URL 提取 Domain Name
现在来看一个更省事的方法:直接用 AI 完成这件事。
下面这段视频展示了如何在不到一分钟内,用 AI 从 URL 中提取域名。
这个示例中,我会使用 Datablist.com,一个用于 data management 的 AI-Copilot。
不需要公式,也不需要复杂代码,只要一个 prompt 就能完成。
分步教程:如何用 AI 从 URL 中提取域名
首先,注册 Datablist。
然后导入包含 URL 的文件,也就是你要从中提取域名的那份数据。
文件上传后,点击 "Edit",然后选择 "AI Editing"。
输入一个 prompt,或者直接使用下图下方我提供的 prompt。AI 会帮你完成剩下的工作。
这是从 URL 列表中提取 domain name 的 prompt:
Extract all the domains from this list without the subdomains.
Use {{URL}} as a reference.
在正式应用修改之前,AI 会先显示一个 preview,方便你检查结果是否正确。
预览确认后,点击 "Run on items",把修改应用到所有 items。
**Voilà,**脚本已经运行,并从我的公司 URL 列表中提取出了所有 domain name。
结果如下:
结论
Excel 公式和 Google Sheets 脚本都可以很好地从 URL 中提取域名,也适用于很多类似的数据清洗场景。不过,它们确实有一定复杂度。既然用 AI 完成这类任务通常不到一分钟,我建议先试试 AI。
关于域名提取的常见问题
从 URL 列表提取域名,哪些工具最好用?
常见的域名提取方法主要有三种:适合 spreadsheet 用户的 Excel 公式,适合云端协作的 Google Sheets REGEXREPLACE 函数,以及可以全自动处理的 AI 工具。
如何在电子表格中清理杂乱 URL?
你可以用 Excel 公式清理 URL,去掉 "http://"、"www." 以及第一个正斜杠后面的所有内容。对于 Google Sheets 用户,REGEXREPLACE 函数可以自动完成这类 URL 清洗。
可以批量从多个 URL 中提取域名吗?
可以。批量提取域名既可以用 spreadsheet 公式,也可以用 AI 工具。小列表用公式没问题,但 AI 工具可以在几秒内处理成千上万个 URL,准确性通常也更高。
如何从 URL 中移除 subdomain?
域名提取公式和 Regex pattern 都可以配置为移除 subdomain,只保留主域名。这在分析 website data 或清理 URL 列表时尤其有用。
从长 URL 中快速获取网站名称,最快的方法是什么?
AI-powered tools 是最快的方式,可以在几秒内处理完整 URL 列表并提取网站名称。如果你更喜欢手动方法,spreadsheet 公式也能有效自动化这个过程。
没有技术背景,如何提取域名?
现在的 AI 工具已经让域名提取变得很容易,不需要技术经验。上传 URL 列表后,让 AI 自动处理提取流程即可。
















