跳至主要内容
前往文档
⌘U
Weaviate 数据库

使用 Weaviate 的 APIs 和工具开发 AI 应用

部署

部署、配置和维护 Weaviate 数据库

Weaviate Agents

使用 Weaviate 构建和部署智能代理

Weaviate Cloud

在云端管理和扩展 Weaviate

更多资源

集成
贡献者指南
活动 & 工作坊
Weaviate Academy

需要帮助?

Weaviate Logo询问 AI 助手⌘K
社区论坛

复制

Weaviate 实例可以被复制。复制可以提高读取吞吐量,提高可用性,并实现零停机时间升级。

有关 Weaviate 中复制的设计和构建方式的更多详细信息,请参阅 复制架构

如何配置

复制因子更改

集合的复制因子不能通过更新集合的定义来更新。

v1.32 版本开始,通过使用 副本移动,可以更改分片的 复制因子

默认情况下,复制被禁用。可以在 集合配置中为每个集合启用它。这意味着您可以为数据集中的每个类设置不同的复制因子。

要启用复制,您可以设置以下其中一个或两个

  • REPLICATION_MINIMUM_FACTOR 环境变量用于整个 Weaviate 实例,或者
  • 集合的 replicationFactor 参数。

Weaviate 范围内的最小复制因子

REPLICATION_MINIMUM_FACTOR 环境变量设置 Weaviate 实例中所有集合的最小复制因子。

如果您设置了 集合的复制因子,则该集合的复制因子将覆盖最小复制因子。

集合的复制因子

py docs  API 文档
更多信息文档中的代码片段反映了最新的客户端库和 Weaviate 数据库版本。请查看 发行说明 以获取特定版本。

如果某个片段无法工作或您有任何反馈,请打开一个 GitHub issue
from weaviate.classes.config import Configure

client.collections.create(
"Article",
replication_config=Configure.replication(
factor=3,
),
)

在此示例中,有三个副本。如果您在导入数据之前设置了复制因子,则所有数据将复制三次。

可以在添加数据到集合之后修改复制因子。之后修改复制因子,新数据将复制到新的和预先存在的副本节点。

示例数据模式具有 写入一致性级别为 ALL。当您上传或更新模式时,更改将发送到 ALL 节点(通过协调器节点)。协调器节点等待来自 ALL 节点的成功确认,然后才能向客户端发送成功消息。这可确保在您的分布式 Weaviate 设置中具有高度一致的模式。

数据一致性

当 Weaviate 检测到节点间数据不一致时,它会尝试修复不同步的数据。

从 v1.26 开始,Weaviate 添加了 异步复制 以主动检测不一致性。在早期版本中,Weaviate 使用 读取时修复策略在读取时修复不一致性。

读取时修复是自动的。要激活异步复制,请在您的集合定义中的 replicationConfig 部分将 asyncEnabled 设置为 true。

py docs  API 文档
更多信息文档中的代码片段反映了最新的客户端库和 Weaviate 数据库版本。请查看 发行说明 以获取特定版本。

如果某个片段无法工作或您有任何反馈,请打开一个 GitHub issue
from weaviate.classes.config import Configure

client.collections.create(
"Article",
replication_config=Configure.replication(
factor=3,
async_enabled=True,
),
)

配置异步复制设置

v1.29 中添加

用于配置异步复制的 环境变量ASYNC_*)是在 v1.29 中引入的。

异步复制有助于实现跨多个节点复制的数据的一致性。

根据您的特定用例更新以下 环境变量 以配置异步复制。

日志记录

  • 设置日志记录的频率: ASYNC_REPLICATION_LOGGING_FREQUENCY 定义异步复制后台进程记录事件的频率。

数据比较

  • 设置比较频率: ASYNC_REPLICATION_FREQUENCY 定义每个节点比较其本地数据与其它节点的频率。
  • 设置比较超时: ASYNC_REPLICATION_DIFF_PER_NODE_TIMEOUT 可选地配置在节点无响应时比较期间的等待超时时间。
  • 监控节点可用性: ASYNC_REPLICATION_ALIVE_NODES_CHECKING_FREQUENCY 每当节点可用性发生变化时触发比较。
  • 配置哈希树高度: ASYNC_REPLICATION_HASHTREE_HEIGHT 指定哈希树的大小,这有助于通过在多个级别比较哈希摘要而不是扫描整个数据集来缩小数据差异。有关异步复制的内存和性能注意事项,请参阅 此页面
  • 摘要比较的批处理大小: ASYNC_REPLICATION_DIFF_BATCH_SIZE 定义在传播实际对象之前,比较节点间其摘要(例如,上次更新时间)的对象数量。

数据同步

检测到节点之间的差异后,Weaviate 会传播过时或丢失的数据。按照以下方式配置同步

  • 设置传播频率: ASYNC_REPLICATION_FREQUENCY_WHILE_PROPAGATING 在节点上完成同步后,暂时将数据比较频率调整为设置的值。
  • 设置传播超时: ASYNC_REPLICATION_PROPAGATION_TIMEOUT 可选地配置在节点无响应时传播期间的等待超时时间。
  • 设置传播延迟: ASYNC_REPLICATION_PROPAGATION_DELAY 定义延迟期,以允许异步写入操作到达所有节点,然后再传播新的或更新的对象。
  • 数据传播的批处理大小: ASYNC_REPLICATION_PROPAGATION_BATCH_SIZE 定义在传播阶段发送的每个批次中的对象数量。
  • 设置传播限制: ASYNC_REPLICATION_PROPAGATION_LIMIT 强制限制每个复制迭代传播的未同步对象的数量。
  • 设置传播并发: ASYNC_REPLICATION_PROPAGATION_CONCURRENCY 指定可以同时将对象批次发送到其它节点的并发工作器数量,从而允许同时发送多个传播批次。
提示

根据您的集群大小和网络延迟调整这些设置,以实现最佳性能。对于高流量集群,较小的批处理大小和较短的超时时间可能更有益,而较大的集群可能需要更保守的设置。

如何使用:查询

当您添加(写入)或查询(读取)数据时,集群中的一个或多个副本节点将响应请求。需要多少节点发送成功的响应和确认到协调器节点取决于 consistency_level。可用的 一致性级别ONEQUORUM(replication_factor / 2 + 1)和 ALL

consistency_level 可以在查询时指定

# Get an object by ID, with consistency level ONE
curl "https://:8080/v1/objects/{ClassName}/{id}?consistency_level=ONE"
注意

在 v1.17 中,只有 通过 ID 获取数据的读取查询 具有可调整的一致性级别。所有其它对象特定的 REST 端点(读取或写入)使用一致性级别 ALL。从 v1.18 开始,所有写入和读取查询都可以调整为 ONEQUORUM(默认)或 ALL。GraphQL 端点使用一致性级别 ONE(在两个版本中)。

py docs  API 文档
更多信息文档中的代码片段反映了最新的客户端库和 Weaviate 数据库版本。请查看 发行说明 以获取特定版本。

如果某个片段无法工作或您有任何反馈,请打开一个 GitHub issue
from weaviate.classes.config import ConsistencyLevel

questions = client.collections.use(collection_name).with_consistency_level(
consistency_level=ConsistencyLevel.QUORUM
)
response = collection.query.fetch_object_by_id("36ddd591-2dee-4e7e-a3cc-eb86d30a4303")

# The parameter passed to `withConsistencyLevel` can be one of:
# * 'ALL',
# * 'QUORUM' (default), or
# * 'ONE'.
#
# It determines how many replicas must acknowledge a request
# before it is considered successful.

for o in response.objects:
print(o.properties) # Inspect returned objects

副本移动和状态

v1.32 中添加

除了设置初始复制因子之外,您还可以主动管理 Weaviate 集群中分片副本的放置。这对于在扩展后重新平衡数据、退役节点或优化数据局部性很有用。副本移动通过一组专用的 RESTful API 端点通过客户端库以编程方式进行管理。

问题和反馈

如果您有任何问题或反馈,请在 用户论坛 中告诉我们。